這項工作考慮了一個由多個子系統組成的通用系統,其中可以在系統的不同級別收集可能具有不同概率分布的數據。使用分布的一般公式和最大似然估計的原則,我們開發了一種估計參數的方法,包括與相關性能指標相關的估計的不確定性界限。所提出的方法在兩個應用中得到了證明:(1) 通過集成來自 UAV(無人駕駛飛行器)和多普勒雷達的數據來檢測目標位置,以及 (2) 在空中加油問題中檢測“標記”的位置。
使用空間分布的多個雷達節點,在不受約束的運動方向上研究了連續人類活動的識別,在使用單個節點時,活動可能發生在不利的角度或被遮擋的視角。此外,這種網絡不僅有利于實現上述目標,而且也有利于可能需要不止一個傳感器的更大的受控監視區域。具體來說,當目標位于長距離和不同角度時,分布式網絡可以在節點之間顯示出顯著的特征差異。雷達數據可以用不同的域來表示,其中人類活動識別(HAR)的一個廣為人知的域是微多普勒頻譜圖。然而,其他域可能更適合于更好的分類性能,或對計算資源有限的低成本硬件更有優勢,如范圍-時間或范圍-多普勒域。一個開放的問題是如何利用從上述數據域以及從同時觀察監視區域的不同分布式雷達節點中提取信息的多樣性。為此,數據融合技術可以在每個雷達節點的數據表示層面以及網絡中不同節點之間使用。將利用所介紹的決策融合方法(通常在每個節點上操作一個分類器)或特征融合方法(在使用一個單一的分類器之前對數據進行串聯),研究它們在連續序列分類中的性能,這是一種更加自然和現實的人類運動分類方式,同時也考慮到數據集中固有的不平衡。
圖 1:所提出方法的示意圖:從各個雷達節點提取的數據域被組合(“數據域融合”)。然后應用決策融合或特征融合來組合來自節點的信息。
雷達網絡在適應能力、分類指標和跟蹤性能方面已經顯示出其優勢。這是通過增加整體信息內容來實現的,這要歸功于對場景和感興趣的目標的多視角觀察。然而,網絡中雷達的有效利用依賴于可靠地結合來自不同傳感器的各種信息的能力。最近,具有多個合作雷達的分布式網絡引起了人們的極大興趣,以解決在不利角度記錄的微多普勒(mD spec.)信號、遮擋或僅對少數觀察者節點可見的目標問題[1]-[10]。
在這種情況下,為了提高分類性能,找到融合網絡中多個雷達節點信息的最佳技術,仍然是一個突出的研究問題。這對于連續人類活動序列的分類特別重要。相對于更傳統的對單獨記錄的人工分離活動的分類,這些活動在文獻中被越來越多地研究,因為它們更加真實和自然[11]-[13]。
本文研究了應用于來自節點網絡的融合數據的機器學習分類器,重點是特征融合("早期融合")和決策融合("后期融合")方法,這些方法在一個公開的數據集上得到了驗證[14]。在這種情況下,大多數研究工作主要集中在微多普勒(mD)頻譜圖上,作為感興趣的數據格式,而這項工作還利用了以下領域,即范圍多普勒(RD)、傅里葉同步擠壓變換(FSST)頻譜和范圍時間(RT)圖。本文將這些數據域的信息融合與整個網絡的雷達節點融合聯合起來進行研究。應該指出的是,這種跨越不同數據格式和網絡中不同雷達節點的高效和有效的數據融合問題不僅與人類活動分類有關,而且在任何可以使用來自分布式雷達節點的信息的監視和態勢感知問題上也是如此。
在方法上,首先通過利用基于奇異值分解(SVD)的一維主成分分析(PCA)來提取上述每個數據域的信息,這是一個簡單而有效的工具,用于提取圖像的特征進行分類。Fioranelli等人[3]舉例說明了使用SVD相關的特征來分析具有不同角度軌跡的人類多態行走場景。他們提出,SVD可以用來從mD頻譜圖中提取最相關的特征,方法是使用有限數量的左側奇異向量,這些奇異向量與最高奇異值有關。在[3]中證明,在使用極少的甚至只是單一的最高相關奇異值的情況下,可以達到90%以上的分類結果,最好是96%的最佳角度軌跡。
然后,在這項工作中,還研究了基于矩陣eigendecomposition的二維主成分分析(2D PCA),它被證明能帶來更好的準確性和減少計算時間。對于這兩種特征提取方法,采用了四種機器學習分類器,即決策樹(DT)分類器、k-近鄰(KNN)分類器、天真貝葉斯(NB)分類器和支持向量機(SVM),以評估上述融合方法,圖1為示意圖。
本文的其余部分組織如下。第2.0節顯示了包括數據處理參數在內的數據域。第3.0節提供了特征融合和機器學習方法。第4節介紹了實驗結果,第5節給出了最后的評論。
基于機器的態勢感知是與我們所處的復雜世界進行有意識的智能互動的關鍵因素,無論是對單個單位、復雜的動態系統,甚至是復雜的系統簇。為了建立這種意識,需要經常收集準確和實時的情報數據,以確保及時、準確和可操作的信息。無人駕駛飛行器(UAV)和其他半自主的網絡物理系統越來越多地成為評估我們周圍世界狀況和通過監視和偵察任務收集情報所采用的機制和系統。目前,人道主義和軍事行動的技術水平仍然依賴于人類控制的飛行/資產操作,但隨著自主系統的增加,有機會將其卸載到設備本身。在本文中,我們提出了一種原則性的、可擴展的方法,用于評估各種情況下自主設備集體的相對性能。所提出的方法以無人機群為例進行說明,預計將發展成為一種通用工具,為此類集體的部署提供信息,提供從問題規格、已知約束和目標函數推斷關鍵參數值的方法。
在戰術情報、監視、目標獲取和偵察(ISTAR)中,移動特設傳感器智能體合作實現收集任務,以彌補信息需求和信息收集之間的差距,從而保持持久的態勢感知。針對有限的機載傳感器平臺資源能力和能耗,最新的貢獻往往采用特設規定的傳感器行為,導致過度保守的連接約束和有偏見的決策。 其他的方法是假設一個分割的空間,持續的網絡連接或約束放松,以減少問題的復雜性。但是,這些可能會傳達一個重要的機會成本,并不利于整體性能,遠離收集價值最大化,只要數據路由是可行的。本文提出了一種創新的方法來處理移動特設傳感器網絡/蜂群收集任務的問題,該方法考慮了有限的機載處理能力和數據傳播的能耗預算。收集規劃依賴于一種新的開環反饋決策模型的制定。它包括反復求解一個靜態決策問題,使采集值在一個逐漸縮小的時間范圍內最大化。偶發性決策受傳入請求、累計采集值、正在進行的資源承諾、剩余資源能力和上一階段的反饋影響。該方法結合了一個新的緊湊圖表示和一個近似的路徑規劃決策模型,受制于周期性連接。
本科學報告提出了新的收集任務決策支持技術概念,為實現數字化指揮和控制(C2)解決方案鋪平了道路,以支持戰術陸地指揮、控制、通信、計算機、情報、監視和偵察(C4ISR)。這種新的傳感器網絡收集任務概念,以保持持久的態勢感知,完全符合加拿大陸軍陸上需求局(DLR)2的意圖,即實現戰術決策-行動周期的自動化和優化。這項工作旨在及時向DLR 2和陸地情報、監視、偵察(ISR)現代化資本采購項目的定義階段通報戰術邊緣的新的自動化和優化收集任務技術概念,并確定有希望的研究方向。倡導的概念為敏感目標定位、動態收集任務重新分配、收集器集成以及新的自動化收集任務解決方案的可行性和價值帶來了新的視角。所提出的核心概念計劃在適當的國家和國際場合,如關鍵的選定的軍事演習和/或技術合作計劃(TTCP)中逐步和適時地展示。這將為其他 "五眼 "國家提供必要的能見度和適當驗證的機會窗口,同時獲得對加拿大感興趣的有競爭力的最新技術。
該文件的其余部分分為以下幾個部分:
第2節介紹了傳感器網絡收集任務的問題。
然后在第3節中強調了一種新的收集任務的方法,以保持持久的態勢感知。第3節介紹了一種新的收集任務分配方法,以保持持久的態勢感知。該節提出了一個總體概述,并強調了其主要特征和相關的新穎性。然后分別進一步描述了一種創新的收集圖表示、一種新的連接性約束處理方法和一種管理臨時代理收集的數學決策模型表述。然后介紹了所促進的具有成本效益的通信規劃/路由方案的細節。
第4節描述了自然問題模型的擴展,以處理連通性的不確定性,并隨時捕捉多個目標。
第5節簡要討論了問題復雜性的降低。
第6節報告了計算結果,并對各種基線問題解決技術進行了一些性能比較分析,以評估擬議方法的價值。
最后,第7節給出了一個結論,簡要總結了報告的主要貢獻和預期的未來工作。
準確和強大的自主水下導航(AUV)需要在各種條件下進行位置估計的基本任務。此外,美國海軍更希望擁有不依賴外部信標系統的系統,如全球定位系統(GPS),因為它們會受到干擾和欺騙,并會降低操作效率。目前的方法,如地形輔助導航(TAN),使用外部感知成像傳感器來建立一個本地參考位置估計,當這些傳感器超出范圍時,就沒有用了。現在需要的是多個導航過濾器,每個過濾器都能根據任務條件發揮更大的作用。本論文研究了如何結合多個導航過濾器來提供一個更穩健的AUV位置估計。提出的解決方案是利用基于信息論框架的交互式多模型(IMM)估計方法,混合兩種不同的過濾方法。第一個過濾器是基于模型的擴展卡爾曼過濾器(EKF),在航位推算(DR)條件下有效。第二個是用于主動地形輔助導航(ATAN)的粒子濾波方法,在傳感器范圍內適用。利用在華盛頓州新月湖收集的數據,我們開發了每個導航過濾器的結果,然后我們演示了如何使用IMM信息理論方法來混合方法,以改善位置和方向的估計。
近年來,美國防部已指示加速采用人工智能(AI),并建立一支技術先進、能夠確保美國安全的部隊。未來自主海上行動的一個重要組成部分是無人自主車輛能夠在不使用全球定位系統(GPS)或其他外部信標系統的情況下運行。
在一個快速發展的技術世界中,在拒絕使用GPS的環境中或不使用聲學轉發器等系統,甚至是深海導航定位系統(POSYDON)系統的情況下進行操作從未如此關鍵。領先的解決方案是地形輔助導航(TAN),它利用機載地圖和傳感器系統的組合,以便在已知的地圖內進行相關的測量。這種方法的最大缺點是需要不同的濾波估計方法,而這些方法在設計上可能無法協同工作。
這項研究將分幾個部分介紹。首先是實施一個新的擴展卡爾曼濾波器(EKF),作為海軍研究生院的遠程環境監測單元100(REMUS)車輛上的航位推算(DR)模型,以改善其在速度估計不準確時的估計。其次,這項研究試圖在信息理論的基礎上建立一個用于主動地形輔助導航(ATAN)的粒子過濾器(PF)。最后,也許是最重要的,本研究試圖在PF和EKF之間實現一個新的信息理論聯合過程,以改善所有狀態的估計。
圖 1.1 定位、導航和授時替代層次結構。
圖1.2 可能需要不同過濾技術的情況。狀況1,AUV在水面附近作業,可以利用GPS數據。由于深度原因,AUV無法利用任何其他傳感器,必須使用DR模型。狀態2,太深了,無法快速獲取GPS數據,而且還沒有深到可以使用面向海底的傳感器。制度3可以利用DVL/ADCP和慣性導航系統(INS),可以提供更準確的運動估計。制度4可以利用成像傳感器來進一步提高導航的準確性。
圖5.1 機載水深和成像傳感器提供的測量值與粒子分布相關。該分布的香農熵顯示了粒子分布中的不確定性,高值表明該分布對位置不確定。由于從AUV經歷地形到計算香農熵有一個時間延遲,標量值不會完全一致。然而,它將很好地表明分布具有低水平的不確定性。
本論文的組織結構如下。第2章是文獻回顧,包括設備說明、貝葉斯濾波(BF)和信息論的必要背景,以及現場實驗的概述。第3章將介紹位置估計濾波技術和交互式多模型(IMM)的概述。第4章將討論基于模型的擴展卡爾曼濾波器(EKF)的發展。第5章將討論粒子濾波器(PF)的開發和仿真結果。第6章將討論信息理論互動多模型(IT-IMM)的開發和仿真結果。論文將在第7章中總結和討論未來的工作。
介紹一種新的IT-IMM估算方法,通過綜合使用后驗概率分布中的香農熵和預測PF性能的地形適宜性措施,將基于模型的EKF和PF聯合起來。
在沒有ADCP/DVL的情況下,基于模型的EKF用于估計前進和側滑速度。
一種PF算法,實現了粒子再分配的信息理論框架。
自主船舶有望提高未來海上航行的安全和效率水平。這類船舶需要感知的目的有兩個:執行自主態勢感知和監測傳感器系統本身的完整性。為了滿足這些需求,感知系統必須利用人工智能(AI)技術融合來自新型和傳統感知傳感器的數據。本文概述了對常規和自主航海船舶提出的公認的操作要求,然后著手考慮合適的傳感器和相關的人工智能技術用于操作傳感器系統。本文考慮了四個傳感器系列的整合:用于精確絕對定位的傳感器(全球導航衛星系統(GNSS)接收器和慣性測量單元(IMU))、視覺傳感器(單目和立體相機)、音頻傳感器(麥克風)和用于遙感的傳感器(RADAR和LiDAR)。此外,還討論了輔助數據的來源,如自動識別系統(AIS)和外部數據檔案。感知任務與定義明確的問題有關,如情況異常檢測、船舶分類和定位,這些都可以用人工智能技術解決。機器學習方法,如深度學習和高斯過程,被認為與這些問題特別相關。考慮到操作要求,對不同的傳感器和人工智能技術進行了描述,并根據準確性、復雜性、所需資源、對海洋環境的兼容性和適應性,特別是對自主系統的實際實現,對一些先進的例子進行了比較。
本文的結構如下。首先,我們介紹了這一技術領域的最新進展,并回顧了與自主船舶相關的法規。第二,我們回顧了自主船舶的關鍵性能指標(KPI),并將其轉化為操作要求。第三,我們回顧了與這些指標有關的傳感器技術。第四,由于傳感器以幾種不同的格式發布數據,我們回顧了已經成功應用于融合多模式數據的人工智能技術。最后,我們以對未來工作的建議來結束本文。
地理定位精度測試報告介紹了當前戰術優勢網絡指揮與控制(TEC3)系統的地理定位精度研究結果。該文件由加拿大萊茵金屬公司提交給加拿大國防研究與發展,任務TA-04。
萊茵金屬加拿大公司于2018年2月至2021年3月為加拿大國防研究與發展部(DRDC)開發了戰術邊緣網絡指揮與控制(TEC3)技術演示器。TEC3展示了網絡和安全態勢感知以及網絡指揮和控制功能在一個示范性的下馬士兵網絡中的應用。根據核心工作成果,TEC3包括本地組中節點之間的移動特設網絡(MANET)通信,以及估算、地理標簽和顯示目標發射器位置的地理定位功能。
本報告詳細介紹了通過任務授權(TA)實施的進展情況,以測量TEC3系統對無人機系統(UAS)進行地理定位的性能,使用本報告的測試計劃中記錄的特定拓撲結構和距離。這些拓撲結構取決于最大距離參數,該參數本身也是一個實驗測量的對象。最大距離參數是軟件定義無線電(SDR)能夠接收UAS傳輸的最長距離。除了掃描頻譜進行地理定位外,SDR還記錄了地理定位過程中的通信頻段,以便將來分析。
實驗被成功執行,在某些情況下,UAS可以通過三個TEC3節點的不同城域網拓撲結構和距離來進行地理定位。例如,在某些情況下,它可以在直徑為420米(平均)的圓形/橢圓形區域內進行一定精度的地理定位。在其他情況下,橢圓覆蓋了TEC3的部署區域;在這些情況下,準確性差是由于SDR和全向天線輻射模式之間對同一發射器/位置的測量功率不一致。
探測發射器的最大距離估計約為600米。 實驗產生了108份60秒的記錄,將用于未來的分析。
人工智能(AI)方法能否檢測出軍用全球定位系統(GPS)基礎設施上的欺騙行為?利用人工智能和機器學習(ML)工具,展示了對美國防部高級GPS接收器(DAGR)欺騙行為的成功檢測。利用系統工程原理,對問題空間進行了分析,包括進行文獻審查以確定人工智能的技術水平。這一探索的結果揭示了應用于解決這一問題的新穎解決方案。在早期階段,考慮了各種系統設計,然后確定了一個同時包含實時和模擬的GPS信息流量的系統。將基于模型的系統工程(MBSE)原則整合到設計概念中,以映射系統層次和互動。Humphreys等人(2008)將GPS欺騙威脅定義為三種技術,即簡單攻擊、中級攻擊和復雜攻擊。簡單的攻擊建立在使用商業GPS信號模擬器、放大器和天線向目標GPS接收器廣播信號的概念上。中級欺騙攻擊是利用基于接收機的欺騙器,向目標接收器的天線產生欺騙信號。復雜的欺騙攻擊是三種方法中最復雜的,有能力改變每個天線發射的載波和碼相輸出,同時控制發射天線之間的相對碼/載波相位(Humphreys等人,2008)。由于成功的GPS欺騙攻擊會影響到時間、頻率和空間領域,所開發的系統至少必須考慮這些參數。設計概念采用了識別數據集中非明顯和非瑣碎關系的要求。
該系統的設計采用了雙管齊下的方法;1)開發一個硬件系統,在GPS基礎設施上注入欺騙信號;2)開發一個軟件應用程序,以檢測欺騙的注入。該硬件系統包括一個用于創建欺騙場景的GNSS模擬器、一個便于輸入實時和模擬信息流的射頻(RF)分離器、一個DAGR和各種數據收集工具。系統操作遵循簡單的欺騙攻擊技術來執行公開欺騙攻擊。公開欺騙的一個特點是 "干擾-欺騙 "策略。Chapman(2017,1)將公開欺騙攻擊描述為 "偽造的GPS信號只是以明顯高于真實衛星信號的功率水平進行廣播"。在公開欺騙中,對手增加欺騙信號的功率,以壓倒合法的GPS信號饋送。我們成功地將公開欺騙技術應用于工程系統,并收集數據進行分析。該數據集構成了人工智能開發工具的基礎,包括國家海洋電子協會0183(NMEA 0183)和接口控制文件-GPS 153(ICD GPS153)信息流。雖然NMEA 0183標準定義了用于商業用途的GPS信息,但ICD 153標準是用于設計和實施軍事平臺上使用的信息。在這項研究中,我們同時使用了NMEA 0183和ICD 153信息標準的信息。
在數據集上應用主成分分析(PCA)等數據縮減工具,發現參數的相關性導致數據集的方差約為94%。第一個主成分PC1解釋了這些方差。對人工智能工具的研究確定了無監督和有監督學習工具的適用性。無監督學習對識別數據集內的特征很有效,而有監督學習方法則適用于有已知目標的數據集。使用聚類方法,如k-means,我們清楚地識別了在信號上應用欺騙所形成的聚類。聚類作為一種視覺工具是有效的。無監督學習模型有效地識別了由欺騙情況形成的聚類。欺騙行為對數據結構的影響在與應用欺騙信號前后形成的聚類不同的聚類中顯示出來。我們發現了數據參數中的特殊性和以前未被發現的關聯性,這對研究有啟發性。
利用數據挖掘和數據分析工具,我們再次對數據集進行了處理,以應用標記的參數,并訓練一個監督模型來對欺騙行為進行分類。我們對數據集進行了處理,并使用幾個監督學習模型檢查結果。我們在標記的數據集上執行了這些模型,其中85%的數據用于訓練,15%的數據保留給測試,同時使用交叉驗證。對模型應用交叉驗證,就不需要對數據集進行驗證分割。隨機森林和邏輯回歸模型的結果顯示,在訓練集和測試集上都有100%的真陽性率,進一步證明了人工智能模型可以檢測GPS用戶基礎設施上的欺騙行為。
使用一套通常適用于ML、數據科學和統計問題的性能指標來評估監督學習模型的有效性。模型的訓練呈現出優秀的結果,所有模型的召回率和精確度都很完美。召回率是一個重要的指標,用于評估一個工具在檢測惡意活動方面的效果,如對DAGR的欺騙企圖。這項研究的結果表明,如果有適當的工具和權限,對手可以有效地欺騙軍用GPS設備。我們在整個論文中開發和展示的工具表明,人工智能方法可以檢測到對軍用GPS基礎設施的欺騙性攻擊。
研究了一種新型的射頻(RF)輔助算法,用于在具有小尺寸麥克風陣列傳感器的情況下對無人駕駛飛行器(UAV)進行聲學識別和定位,其中聲學信號的多通道處理得到了射頻功率模式分析的幫助。不明身份的無人機的螺旋槳產生的噪聲可以用來獲得關于它的一些線索,因為具有不同尺寸、重量或機械特性的無人機產生不同的聲學信號。具體來說,在這項工作中,由多通道麥克風陣列檢測到的聲學信號的光譜特征被用來識別無人機。此外,射頻信號由Wi-Fi天線發射,并測量接收信號強度(RSS)以協助聲學定位。到達方向(DOA)和與聲源的距離都可以被預測。提出了一個解決方案,其中一個四階段卷積神經網絡(CNN)通過其聲譜特征進行無人機識別,并通過內在特征提取、射頻和聲學特征的融合以及回歸產生射頻輔助聲學定位。應用是反無人機監測策略,從飛行的無人機反對非法使用無人機和外部無人機攻擊。提出了一個集中式架構,用于從多個空中節點獲取數據和流。一個名為Zylia的19通道球形麥克風陣列被采用。為了分析這項研究的現狀,提出了實驗與結果描述。
我們解決的問題是檢測作為聲源的不明無人機的存在,通過處理螺旋槳噪聲產生的聲學信號在不同的無人機中識別它,并通過估計聲學信號的到達方向(DOA)和與無人機的距離對無人機進行定位。我們提出了一個解決方案,其中聲學處理得到了射頻(RF)傳輸模式分析的幫助。這樣,當聲學定位前端檢測到來自射頻天線組件估計方向的聲學活動時,聲源定位可以得到完善,并通過波束成形增強記錄信號。這是因為,當使用安裝在多旋翼無人機(UAV)上的小尺寸麥克風陣列進行聲學記錄時,如[1,2,3],由于對麥克風陣列尺寸的限制,可能導致信號-噪聲增強不佳、空間分辨率低和空間信息不完整等問題,對感興趣的聲源的處理和信號增強變得特別具有挑戰性。為了解決這些限制,最近在[4,5]中介紹了一種新的基于射頻的聲源定位處理方法,該方法也能進行距離估計,但沒有引入識別能力。因此,我們現在研究射頻輔助算法的性能,該算法也能識別未識別的空中聲源。我們的算法可以應用于針對非法使用無人機和外部無人機攻擊的反無人機監測策略[6,7],即使是在敵對環境中。
最近,深度學習(DL)和深度神經網絡(DNN)研究領域的發展所帶來的計算和性能上的進步,促進了文獻中無人機識別算法的增加,如[8,9,10]。特別是,已經證明主要由螺旋槳、馬達和機體的機械振動產生的綜合聲學信號具有足夠獨特的特征,可以用來在現實的開放世界條件下在一些無人機類別中識別無人機類型。DL和DNN也被研究用于涉及多通道聲學處理的各種應用,如[11,12]和[13]中,多通道頻譜相位信息被用作卷積神經網絡(CNN)的輸入,用于DOA估計。在我們的研究中,一個基于CNN的四級網絡的算法的性能被引入到識別和定位任務中。兩個平行階段處理射頻數據和聲學數據的內在特征。第三階段進行聲源識別,第四階段進行回歸。這種算法既能產生無人機識別,又能對DOA和與聲源的距離進行聯合預測。本文對這一研究的現狀進行了討論。
為了研究我們的方法,我們用兩個不同的無人機產生的實驗聲學數據和來自分布式天線陣列的合成射頻數據創建了一個半模擬的場景。麥克風陣列是一個19通道的球形陣列,能夠進行三維聲學場景分析。還提出了一個實驗性的傳感器數據流架構,其中只有小尺寸和低成本的硬件用于采集系統和機載處理單元,稱為單板計算機(SBC),將數據流向地面站(GS),在那里可以用高計算能力進行基于CNN的定位處理。
摘要:
本文提出了一個簡單而通用的目標檢測框架Pix2Seq。不像現有的方法,明確地集成關于任務的先驗知識,我們簡單地將目標檢測作為一個語言建模任務,條件是觀察像素輸入。目標描述(如包圍盒和類標簽)被表示為離散符號序列,我們訓練神經網絡來感知圖像并生成所需的序列。我們的方法主要基于直覺,即如果神經網絡知道目標在哪里和是什么,我們只需要教它如何讀出它們。除了使用特定于任務的數據增強外,我們的方法對任務進行了最小的假設,但與高度專業化和良好優化的檢測算法相比,它在具有挑戰性的COCO數據集上取得了具有非常好的結果。
引言
視覺目標檢測系統的目標是識別和定位圖像中所有預定義類別的目標。檢測到的對象通常由一組包圍框和相關的類標簽描述。考慮到任務的難度,大多數現有的方法,如(Girshick, 2015; Ren et al., 2015; He et al., 2017; Lin et al., 2017b; Carion et al., 2020),經過精心設計和高度定制,在結構和損失功能的選擇方面具有大量的先驗知識。例如,許多架構都使用了邊界框(例如,區域方案(Girshick, 2015;Ren et al., 2015)和RoI池化(Girshick et al., 2014; He et al., 2017))。損失函數也經常被裁剪為使用邊界盒,如盒回歸(Szegedy et al., 2013;Lin et al., 2017b),集匹配(Erhan et al., 2014;Carion et al., 2020),或合并特定的性能指標,如邊界框上的交叉-聯合(Rezatofighi et al., 2019)。盡管現有系統在無數領域都有應用,從自動駕駛汽車(Sun et al., 2020),到醫學圖像分析(Jaeger et al., 2020),再到農業(Sa et al., 2016),但其專業化和復雜性使其難以整合到一個更大的系統中。或者泛化到與通用智能相關的更廣泛的任務。
本文提出一種新的方法,如果神經網絡知道目標在哪里和什么,我們只需要教它把它們讀出來。通過學習“描述”對象目標,模型可以學習以像素觀察為基礎的“語言”,從而得到有用的目標表示。這是通過我們的Pix2Seq框架實現的。給定一個圖像,我們的模型產生一個離散的標記序列,對應于目標描述,讓人想起圖像字幕系統(Vinyals et al., 2015b; Karpathy & Fei-Fei, 2015; Xu et al., 2015)。本質上,我們將目標檢測視為一個以像素輸入為條件的語言建模任務,其模型結構和損失函數是通用的、相對簡單的,沒有針對檢測任務進行專門設計。因此,可以很容易地將框架擴展到不同的領域或應用,或將其合并到支持一般智能的感知系統中,為廣泛的視覺任務提供語言接口。
為了處理Pix2Seq的檢測任務,我們首先提出了一個量化和序列化方案,將包圍盒和類標簽轉換成一個離散令牌序列。然后我們利用編碼器-解碼器體系結構來感知像素輸入并生成目標序列。目標函數是基于像素輸入和之前的標記的最大可能性。雖然體系結構和損失函數都是任務無關的(無需假設關于目標檢測的先驗知識,例如包圍框),但我們仍然可以將特定于任務的先驗知識與序列增強技術結合起來,該技術在訓練過程中改變輸入和目標序列,如下所示。通過廣泛的實驗,與高度定制的、建立良好的方法相比,包括Faster R-CNN (Ren et al., 2015)和DETR (Carion et al., 2020)。,我們證明了這個簡單的Pix2Seq框架可以在COCO數據集上取得有競爭力的結果。
PIX2SEQ框架
在提出的Pix2Seq框架中,我們將目標檢測視為一項語言建模任務,條件是像素輸入。如圖1所示,Pix2Seq的架構和學習過程有四個主要組件(圖2):
圖像增強:在訓練計算機視覺模型中很常見,我們使用圖像增強來豐富一組固定的訓練樣例
序列構造和增強:由于圖像的目標標注通常表示為一組包圍盒和類標簽,我們將它們轉換為一組離散標記。
架構:我們使用編碼器-解碼器模型,編碼器感知像素輸入,解碼器生成目標序列(每次一個標記)。
目標/損失函數:對模型進行訓練,使以圖像和之前的令牌為條件的令牌的對數可能性最大化(具有softmax交叉熵損失)。
實驗結果
我們在MS-COCO 2017檢測數據集(Lin et al., 2014)上評估了提出的方法,該數據集包含118k訓練圖像和5k驗證圖像。為了與DETR和Faster R-CNN進行比較,我們報告了平均精度(AP)。
結果如表1所示,其中每一節比較相同ResNet“骨干網”的不同方法。總體而言,Pix2Seq在這兩個Baseline上都取得了有相匹配的結果。我們的模型在小型和中型目標對象上的表現與Faster R-CNN相當,但在大型目標對象上表現更好。與DETR相比,我們的模型在大型和中型目標對象上的性能相當或略差,但在小型目標上性能明顯更好。
結論
本文介紹了一個簡單而通用的目標檢測框架Pix2Seq。通過將目標檢測轉換為語言建模任務,我們的方法在很大程度上簡化了檢測pipeline,消除了現代檢測算法中的大部分專業化。雖然在具有挑戰性的COCO數據集上,它與建立良好的基線相比取得了有競爭力的結果,但架構和訓練過程仍然可以進行優化,以提高其性能。我們認為,所提出的Pix2Seq框架不僅適用于目標檢測,還可以應用于其他產生低帶寬輸出的視覺任務,其中輸出可以表示為一個相對簡潔的離散token序列(如關鍵點檢測、圖像字幕、視覺問答)。為此,我們希望將Pix2Seq擴展為一個通用和統一的接口,以解決各種各樣的視覺任務。此外,目前訓練Pix2Seq的方法完全是基于人類注釋的,我們希望減少這種依賴,讓模型也能從更多的未標記數據中受益。