無線電隱蔽通信涉及發送不易被第三方觀察者發現或截獲的信號。目前有多種低檢測概率(LPD)策略,如擴頻(SS)、碼分多址(CDMA)和混沌 CDMA。機器學習(ML)為實現 LPD 提供了一種新策略。具體來說,隨著包括生成對抗網絡(GANs)在內的深度學習(DL)技術的最新進展,我們假設 ML 可用于開發難以與自然噪聲區分開來的編碼方案--自然噪聲既存在于射頻環境中,也表現在無線電接收機的電子電路中。
最早記錄在案的隱形無線電通信形式是 SS 技術,即通過偽隨機選擇的信道傳輸部分信號,這樣竊聽者可能對任何單個頻段的信息知之甚少。CDMA 是這一策略的現代替代方案,可產生低于噪聲底限(即信噪比 [SNR] 低于 0 dB)的信號。除非竊聽者知道要尋找的代碼(如用于手機的商業標準 CDMA),否則他們可能無法識別射頻背景中是否存在人工信號。混沌生成的芯片序列或長序列偽隨機生成的密鑰可以進一步防止竊聽者識別射頻活動。多年來,人們還提出了其他 LPD 通信方法,包括不精確的同相/正交相位 (I/Q) 星群和多天線。此外,還分析了在信道條件下通信的隱蔽性和內容豐富程度的問題。
GANs 是 ML 領域相對較新的發展,它允許模型合成與訓練集相似的真實數據。GANs 還可用于生成能夠騙過同時訓練的判別器的數據。在本報告中,我們探討了是否有可能生成一種既能冒充隨機高斯白噪聲(GWN),又能向知情接收者準確傳達英文文本序列的代碼。我們訓練了一個判別神經網絡模型,以區分偽隨機高斯白噪聲和編碼信息。我們還同時訓練編碼器和解碼器網絡,以便在純文本信息和 8 位類噪聲代碼之間進行轉換,這大致相當于典型的低成本軟件定義無線電的 I/Q 輸入和輸出精度。
我們在此不討論隱身無線通信中的一個基本挑戰,即在傳輸頻段中存在可探測到的多余能量。但我們知道,信噪比遠低于 0 dB 也能用于信息通信,這在全球導航衛星系統 (GNSS) 和 CDMA 應用中都能看到。
隨著人工智能的發展,很多人開始擔心深度偽造圖像和視頻的潛在危險,例如傳播有影響力人物的虛假視頻。針對這一問題,人們提出了多種解決方案,其中最有效的是用于人臉檢測的卷積神經網絡,以區分真實圖像和生成式對抗網絡生成的深度偽造圖像。目前最流行的模型之一是 VGGFace,本報告將對其進行進一步分析。該項目探討了不同的超參數如何影響現有卷積神經網絡的有效性以及模型的魯棒性。對準確性影響最大的超參數是網絡每一步的卷積層數量。結果表明,雖然深度假貨檢測模型在測試集上表現出很高的準確性,但在魯棒性方面卻乏善可陳。模型對測試圖像的分辨率有明顯的敏感性。這是一個可以通過調整大小來解決的問題,但本報告顯示了一個更令人擔憂的問題,即在不同的數據集上進行測試時,模型的準確率降低了 47 個百分點,而該數據集上的假圖像是用不同的生成式對抗網絡生成的。該項目的主要啟示是,目前的深度防偽檢測模型必須在泛化方面下功夫,才能有效地對圖像進行分類。
圖 1.1.1: 頭像(第 1 行)、換臉(第 2 行)和唇語同步(第 3 行)示例。圖片來自 Deepfake 檢測: 當前挑戰與下一步行動[14]
機器學習模型很難檢測到某些深度偽造圖像,而對于包含大量特征作為預測基礎的圖像,很難確定哪些特征真正有助于提高預測準確率。John 等人 [12] 將特征分為三類: 從未對預測準確性做出貢獻的無關特征、有時會對預測準確性做出貢獻的弱相關特征以及強相關特征,這意味著無法在不損失準確性的情況下刪除該特征。有幾種不同的方法可以減少數據中無關特征的數量,根據源數據的不同,效率也不同。一些比較常見的通用方法包括:作為啟發式搜索的特征選擇、特征選擇的過濾器方法和特征選擇的包裝方法[3]。
現代深度防偽檢測技術已經變得相當準確,許多技術的準確率達到 90% 或更高。但仍有一些情況下,最先進的 CNN 無法對圖像進行正確分類。隨著深度偽造技術的不斷發展,了解檢測模型的優缺點對于有效打擊虛假信息的傳播至關重要。因此,我們提出了一個問題: 是什么讓現代卷積神經網絡如此有效?
本文旨在利用卷積神經網絡(CNN)研究深度偽造圖像檢測模型的有效性和魯棒性。隨著深度偽造技術的激增,人們越來越需要可靠、準確的方法來檢測被篡改的圖像和視頻。本項目旨在評估基于 CNN 的深度偽造檢測模型的性能,比較其在修改模型時的準確性以及與各種類型的深度偽造圖像的對比。
具體來說,本項目將研究以下研究問題:
為了解決這些研究問題,本項目將回顧和分析有關深度偽造檢測和基于 CNN 的模型的現有文獻,并使用深度偽造圖像數據集進行實驗。該項目的目標是為不斷增長的深度偽造檢測知識庫做出貢獻,并深入了解當前檢測模型的優勢和局限性。
任何希望利用 CNN 進行深度偽造圖像或視頻檢測的人都將從本學位項目中受益。通過偽造警察施暴的視頻、通過私下討論偽造法官腐敗的視頻或使用種族主義語言偽造邊防警衛的視頻[10],深度偽造可能會導致人們對機構的信任度下降。這些機構可以從該項目中獲益,學習如何改進自己的檢測模型,或者在實施深度偽造檢測模型時要格外注意哪些類型的源數據。安德魯-雷還指出了政治深度偽造的潛在問題,即深度偽造視頻可能被用于影響選舉[16]。因此,所有類型的選舉及其參與者都能從中受益。
考慮到本項目探討的是如何改進深度偽造檢測模型,因此并不涉及很多倫理難題。不過,整個深度偽造檢測可能會出現一些倫理問題。一項薈萃分析表明,新聞媒體中存在政治偏見[6]。雖然偏向一種意識形態的偏見通常會被偏向另一種意識形態的偏見所抵消,但仍然存在個別消息來源的偏見問題。偏見很少會影響到已經明顯處于政治光譜某一邊的選民,但中間派傾向于投票反對他們所聽到的負面新聞[2]。不同的媒體可以使用深度偽造檢測模型來揭穿損害其偏好的政治觀點或候選人的視頻,同時避免揭穿其他候選人的欺詐性媒體,甚至避免傳播深度偽造視頻。
要正確利用深度偽造檢測模型的所有潛在優勢,就必須使用其中一種可用模型對所有媒體文章進行自動測試。然而,這樣做會帶來一些可持續性問題,因為每秒鐘大約有 3,400,000 封郵件被發送[21],740,000 條 WhatsApp 消息[7],55,000 條 facebook 帖子[20]和 6,000 條微博[9]。在這樣的容量下運行模型時,這些媒體帖子的數量在計算限制、資源分配和能源消耗方面顯然是不可持續的。
防火墻是維護安全網絡的關鍵,但不能假設設法通過防火墻的網絡流量是完全安全的。異常檢測指的是可用于發現特定數據集中的獨特或不尋常現象的方法。無監督的機器學習技術涉及到對無標記數據的機器學習,可以利用它來進行異常檢測,通過攝取給定的數據集,發現那些以有意義的方式與其他數據不同的實例,這些實例對人眼來說可能并不明顯。在這項研究中,我們旨在分析檢測到的成功通過防火墻的傳入數據包和網絡流量數據的異常情況,并確定這種異常情況可能存在的意義。考慮到大量存在并定期產生的惡意流量,本研究表明,高斯混合物可用于發現通過防火墻的網絡流量中的異常現象,以發現潛在的不良或惡意流量。
由于多種因素的影響,自動機器學習(AutoML)這些年一直在快速發展,數據科學家需要創建機器學習管道原型來決定如何進行解決,并為非專業人士提供解決方案。已經創建了一些AutoML框架,但它們受到能解決的問題類型、機器學習原語的數量、管道表示語言和嚴格數據描述的限制。這些限制大多是由相當大的工程量造成的。D3M項目旨在擴大AutoML的范圍,提供創建AutoML系統所需的工具,使其能夠解決超出大部分框架的問題類型,并為用戶提供工具,使機器學習工具不需要太多的專業知識。此外,該項目還致力于實現AutoML組件的標準化,以便對不同的框架進行公平的比較,并通過開源共享該項目期間創建的基礎設施來幫助研發界改善該領域。
本文在D3M上的工作主要集中在兩個方面:在D3M小組內創建標準化AutoML工具,以及創建具有不同目的的AutoML系統和框架。在這份報告中,將介紹對該項目的主要貢獻以及AutoML系統的演變。在該項目中,創建了評估AutoML系統的工具,開發了三個AutoML系統,開發了被多個系統廣泛使用的原型,設計了測試原型的自動化框架,并通過創建AutoKeras對AutoML研發界產生了巨大影響。
最近小型無人駕駛飛行器(UAV)技術的進步重新激發了對民用和軍用廣域搜索(WAS)算法的額外研究需求。但由于無人機環境和設計的差異性極大,利用數字工程(DE)來減少推進這項技術所需的時間、成本和精力。數字工程還允許快速設計和評估利用和支持WAS算法的自主系統。現代WAS算法可以大致分為基于決策的算法、統計算法和人工智能(AI)/機器學習(ML)算法。這項研究繼續了Hatzinger和Gertsman的工作,創建了一個基于決策的算法,該算法將搜索區域細分為被稱為單元的子區域,決定一個最佳的下一個單元進行搜索,并將搜索結果分配給其他合作搜索資產。每個合作搜索資產將存儲以下四個關鍵數組,以決定搜索哪個單元:每個單元的當前估計目標密度;一個單元中的當前資產數量;每個合作資產的下一個搜索單元;以及任何資產在一個單元中的總時間。一個基于軟件的模擬環境,即模擬、集成和建模高級框架(AFSIM),被用來完成驗證過程,創建測試環境和被測系統(SUT)。此外,該算法針對各種分布的威脅進行了測試,以模擬目標的集群。最后,從人工智能和ML中引入了新的有效性措施(MOEs),包括精確度、召回率和F分數。使用方差分析(ANOVA)和協方差矩陣對Hatzinger和Gertsman的新的和原始的MOEs進行了分析。這項研究的結果顯示,該算法對原始MOEs或新MOEs沒有明顯的影響,這可能是由于與Hatzinger和Gertsman相比,網絡化協作自主彈藥(NCAM)的傳播情況相似。該結果與目標分布標準差的減少即目標聚類呈負相關。這第二個結果更令人驚訝,因為更緊密的目標分布可能會導致更少的搜索區域,但NCAM繼續分布它們的位置,而不管確定的集群。
非正交多址(NOMA)被認為是滿足第五代(5G)和超越5G(B5G)無線網絡性能要求的一項重要技術。通過超載技術,NOMA有可能支持更高的連接密度,提高頻譜效率,以及比正交多址更低的延遲。NOMA在5G/B5G無線網絡中的作用,需要清楚地了解過載的可變性如何影響網絡的穩健性。本論文通過時間網絡理論的視角來考慮可變過載和網絡穩健性之間的關系,其中穩健性是通過網絡設備(ND)之間的時間連接性的演變來衡量的。我們開發了一個NOMA時態圖模型和隨機時態組件框架,以描述作為NOMA超載函數的時變網絡連接性。該分析被擴展到推導出單向連接、雙向連接、單向連接之間的事件間時間以及所有NDD之間雙向連接所需的最小時間的隨機表達式和概率質量函數。我們通過數字模擬測試了我們分析結果的準確性。我們的結果提供了一個基于超載的時變網絡魯棒性的表征,可以推廣到任何底層的NOMA實現。
計算機視覺中的一項挑戰性任務是尋找技術來提高用于處理移動空中平臺所獲圖像的機器學習(ML)模型的目標檢測和分類能力。目標的檢測和分類通常是通過應用有監督的ML技術完成的,這需要標記的訓練數據集。為這些訓練數據集收集圖像是昂貴而低效的。由于一般不可能從所有可能的仰角、太陽角、距離等方面收集圖像,這就導致了具有最小圖像多樣性的小型訓練數據集。為了提高在這些數據集上訓練的監督性ML模型的準確性,可以采用各種數據增強技術來增加其規模和多樣性。傳統的數據增強技術,如圖像的旋轉和變暗,在修改后的數據集中沒有提供新的實例或多樣性。生成對抗網絡(GAN)是一種ML數據增強技術,它可以從數據集中學習樣本的分布,并產生合成的復制,被稱為 "深度偽造"。這項研究探討了GAN增強的無人駕駛飛行器(UAV)訓練集是否能提高在所述數據上訓練的檢測模型的可推廣性。為了回答這個問題,我們用描述農村環境的航空圖像訓練集來訓練"你只看一次"(YOLOv4-Tiny)目標檢測模型。使用各種GAN架構重新創建幀中的突出目標,并將其放回原始幀中,然后將增強的幀附加到原始訓練集上。對航空圖像訓練集的GAN增強導致YOLOv4-微小目標檢測模型的平均平均精度(mAP)平均增加6.75%,最佳情況下增加15.76%。同樣,在交叉聯合(IoU)率方面,平均增加了4.13%,最佳情況下增加了9.60%。最后,產生了100.00%的真陽性(TP)、4.70%的假陽性(FP)和零的假陰性(FN)檢測率,為支持目標檢測模型訓練集的GAN增強提供了進一步證據。
對從移動平臺上獲得的數據進行圖像和視頻分類技術的調查,目前是計算機視覺領域中一個越來越受關注的領域。由空中飛行器收集的圖像對于收集信息和獲得對環境的洞察力非常重要,否則在地面上的評估是無法實現的。對于訓練目標檢測模型來說,用于創建這些模型的訓練集的一個重要特征是這些訓練集必須在其圖像中包含廣泛的細節多樣性。過去的數據增強技術,例如旋轉、添加噪音和翻轉圖像,被用來增加訓練集的多樣性,但由于它們無法向數據集添加任何新的圖像,所以是弱的方法。研究新的圖像增強和分類方法,其中包括機器學習(ML)技術,有助于提高用于航空圖像分類的模型的性能。
最近,使用ML算法對圖像進行分類或預測的情況越來越多。雖然ML已經被使用了幾十年,但在圖像上,我們看到合理的進展是在過去的20年里。隨著信息收集和存儲的技術進步及其可及性的擴大,可用于分析的數據量正以指數級的速度增長。計算機的隨機存取存儲器(RAM)和硬件存儲的增加迎合了擁有巨大的數據集來訓練、測試和驗證ML模型以實現較低的偏差和變異的需要。技術上的其他進步來自于計算機圖形處理單元(GPU)的改進,它允許以更快的速度處理大量的數據,這是實時圖像處理的兩個重要能力[2]。
人工神經網絡(ANNs)是ML的一個子集,其靈感來自于大腦中神經元的生物結構,旨在解決復雜的分類和回歸問題[3]。深度學習是ANNs的一個子集,它創建了多個相互連接的層,以努力提供更多的計算優勢[3]。卷積神經網絡(CNN)是ANN的一個子集,它允許自動提取特征并進行統一分類。一般來說,CNN和ANN需要有代表性的數據,以滿足操作上的需要,因此,由于現實世界中的變化,它們往往需要大量的數據。雖然在過去的十年中收集了大量的數據,但微不足道和不平衡的訓練數據集的問題仍然阻礙著ML模型的訓練,導致糟糕的、有偏見的分類和分析。相對較小的數據集導致了ML模型訓練中的過擬合或欠擬合。過度擬合的模型在訓練數據上顯示出良好的性能,但在模型訓練完成后,卻無法推廣到相關的真實世界數據。通過提供更大、更多樣化的訓練數據集,以及降低模型的復雜性和引入正則化,可以避免模型過擬合[4]。
過度擬合的模型不能學習訓練集的特征和模式,并對類似的真實世界數據做出不準確的預測。增加模型的復雜性可以減少欠擬合的影響。另一個克服模型欠擬合的方法是減少施加在模型上的約束數量[4]。有很多原因可以說明為什么大型、多樣的圖像集對訓練模型以檢測視頻幀中捕獲的目標很有用。當視頻取自移動平臺,如無人機或汽車時,存在Bang等人[5]所描述的進一步問題。首先,一天中拍攝圖像的時間以及天氣狀況都會影響亮度和陰影。其次,移動平臺收集的圖像有時會模糊和失真,這是因為所使用的相機類型以及它如何被移動平臺的推進系統投射的物理振動所影響。移動平臺的高度、太陽角度、觀察角度、云層和距離,以及目標的顏色/形狀等,都會進一步導致相機采集的樣本出現扭曲的影響。研究人員忽視這些參數的傾向性會導致模型在面對不同的操作數據時容易崩潰。這些因素使得我們有必要收集大量包含各種特征、圖像不規則性和扭曲的視頻幀,以復制在真實世界的圖像收集中發現的那些特征,從而訓練一個強大的目標檢測和分類模型。
為了增加圖像的多樣性,希望提高在數據上訓練的分類模型的結果準確性,可以使用數據增強技術來扭曲由無人駕駛飛行器(UAV)收集的圖像。目前的一些數據增強技術包括翻轉、旋轉或扭曲圖像的顏色。雖然這些增強技術可以在數據集中引入更多的多樣性,但它們無法為模型的訓練提供全新的框架實例。
生成性對抗網絡(GAN)是一種ML技術,它從數據集的概率分布和特征中學習,以生成數據集的新的合成實例,稱為 "深度假象"。GAN的實現是一種更強大的數據增強技術,因為它為訓練集增加了新的、從未見過的實例,這些實例仍然是可信的,并能代表原生群體。為ML模型提供這種新的訓練實例,可以使模型在實際操作環境中用于檢測時更加強大。
圖像采集面臨的一個普遍問題是沒有收集足夠大和多樣化的訓練和測試數據集來產生高效的ML模型。這些微不足道的訓練集所顯示的多樣性的缺乏,使模型在用于實時檢測時表現很差。找到增加這些數據集的方法,無論是通過額外的數據收集還是其他方法,對于創建一個強大的、可歸納的模型都很重要。
計算機視覺中的第二個問題是傳統的數據增強技術所產生的圖像多樣性增加不足。通過旋轉、翻轉或調暗每一個收集到的視頻幀來增強數據集,不能為訓練集增加任何額外的實例,這與上面提到的第一個問題相矛盾。需要找到一種新的數據增強技術,在不需要收集更多數據的情況下提供新的實例,這對于快速訓練檢測模型以便在快速變化的操作環境中部署非常重要。
本研究試圖回答以下問題:
1.由移動平臺獲取的包含GAN生成的合成圖像的增強圖像訓練數據集是否會提高卷積神經網絡(CNN)目標檢測模型的分類精度和可推廣性?
2.由移動平臺獲取的包含GAN生成的合成圖像的增強圖像訓練數據集是否會提高CNN目標檢測模型的定位和通用性?
3.從未增強的數據集和增強的數據集中可以得出什么推論,顯示它們的相似性和不相似性?
提供支持第一和第二個問題的證據可以改變數據科學家進行數據收集的方式,并將他們的努力轉向使用GAN的增強技術來創建用于ML研究的數據集。該模型不僅要能夠對目標進行分類,而且要訓練一個強大的目標檢測模型,使其能夠在圖像中找到感興趣的目標,并具有較高的交叉聯合(IoU)值,這就驗證了該模型能夠找到移動的目標,這些目標在捕獲的幀中的位置各不相同。一個模型的泛化是指該模型對網絡從未見過的輸入進行準確預測和分類的能力[6]。增強的數據集必須在質量和數量上與原始數據集相似,以證明模型泛化能力增強的斷言。
對最后一個問題的回答提供了理由,即來自GAN的增強對象在性質上是否與原始樣本相似,并且是對現實世界環境中發現的東西的合理復制。同類目標之間的高相似率可能會使GAN增強變得脆弱,需要進一步研究以用于實際應用。
本研究的最大限制之一是能否獲得適當的硬件和軟件來實現不同的ML算法。雖然ML模型可以在中央處理器(CPU)上執行,但本論文中的模型在單個CPU上運行需要幾天,甚至幾周的時間。在運行深度學習模型時,GPU的效率要高得多,尤其是那些為圖像探索設計的模型。在整個研究過程中,GPU的使用非常有限,這給CNN和GAN模型的復雜性增加了限制,也增加了每個模型完成訓練迭代的時間。模型不可能同時運行,大大增加了本論文的完成時間。
另一個限制是本研究過程中可用的內存和硬盤內存的數量。內存不足進一步導致了模型復雜性的下降,以及模型在研究的訓練和測試過程中某一時刻可以利用的數據量的下降。這兩個模型組成部分的減少會導致次優模型。在這項研究中,我們采取了一些措施來減輕這些影響,包括選擇參數較少但性能與較復雜的模型相同的高水平的模型。此外,在訓練和測試過程中,將數據集劃分為多個批次,有助于緩解RAM和硬盤內存問題。
本章討論了本論文將集中研究的ML的一般領域,以及概述了ML研究中出現的好處和限制。第2章提供了一個文獻回顧,研究了CNNs和GANs的理論。此外,它還提供了使用CNNs、GANs和從無人機收集的圖像幀進行的相關研究。第3章詳細介紹了數據集增強前后的CNN檢測模型的訓練過程。第4章提供了用于增強訓練集的合成目標的細節。第5章介紹了在原始和增強的訓練集上訓練的最佳模型的評估結果。第6章概述了在原始測試集訓練結束后進行的三個不同實驗的方法。第7章回顧了這三個不同實驗的結果。最后,第8章討論了從結果中得出的結論,以及對使用生成性對抗網絡(GANs)對移動平臺獲取的圖像進行數據增強領域的未來研究建議。
弱監督目標檢測(WSOD)和定位(WSOL),即使用圖像級標簽檢測圖像中包含邊界框的多個或單個實例,是CV領域中長期存在且具有挑戰性的任務。隨著深度神經網絡在目標檢測中的成功,WSOD和WSOL都受到了前所未有的關注。在深度學習時代,已有數百種WSOD和WSOL方法和大量技術被提出。為此,本文將WSOL視為WSOD的一個子任務,并對近年來WSOD的成就進行了全面的綜述。具體來說,我們首先描述了WSOD的制定和設置,包括產生的背景、面臨的挑戰、基本框架。同時,總結和分析了提高檢測性能的各種先進技術和訓練技巧。然后,介紹了目前廣泛使用的WSOD數據集和評價指標。最后,討論了WSOD的未來發展方向。我們相信這些總結可以為今后的WSOD和WSOL研究鋪平道路。
引言
目標檢測[2]是一項基礎的、具有挑戰性的任務,旨在定位和分類圖像中的對象實例。對象定位是使用邊界框(一個與軸對齊的矩形緊緊包圍對象)在圖像中搜索盡可能多的對象的空間位置和范圍[3],[4]。對象分類是評估圖像中給定一組對象類中是否存在對象。目標檢測作為計算機視覺最基本的任務之一,是許多高級應用不可或缺的技術,如機器人視覺[5]、人臉識別[6]、圖像檢索[7]、[8]、增強現實[9]、自動駕駛[10]、變化檢測[11]等。隨著卷積神經網絡在視覺識別領域[12]-[14]的發展,以及大規模數據集[4]、[15]的發布,當今最先進的目標檢測器在全監督設置下可以達到近乎完美的性能,即全監督目標檢測(FSOD)[16] -[21]。然而,這些完全監督的對象檢測方法存在兩個不可避免的局限性:1)大量實例注釋難以獲取,而且需要大量的人工。2)在標注這些數據時,可能會無意中引入標注噪聲。
為了避免上述問題,社區開始在弱監督設置下解決對象檢測問題,即弱監督對象檢測(WSOD)。與完全監督的設置不同(參見圖1 (a)), WSOD的目的是檢測只有圖像級標簽的實例(例如,實例在整個圖像中的類別)。同時,WSOD也可以從網絡上的大規模數據集中獲益,如Facebook和Twitter。另一個類似的任務是弱監督對象定位(WSOL),它只檢測圖像中的一個實例。由于WSOD和WSOL分別檢測多個實例和單個實例,所以我們認為WSOL是WSOD的一個子任務。在接下來的文章中,我們使用WSOD來表示WSOD和WSOL。
在本文中,我們回顧了所有典型的WSOD方法,并對WSOD的最新進展進行了全面的綜述(參見圖2)。在第二部分,我們介紹了背景、主要挑戰和基本框架。在第三部分中,我們根據WSOD的發展時間表,詳細介紹了幾種現代經典方法。然后,對主要挑戰的所有先進技術和技巧進行了深入分析。在第8節中,我們將演示WSOD的所有流行基準和標準評估指標。在第9節中,我們簡要地討論了未來的方向。
在本文中,我們總結了大量的深度學習 WSOD方法,并給出了大量的解決方案來解決上述挑戰。綜上所述,本文的主要內容如下:
在計算機視覺領域,對抗網絡(GANs)在生成逼真圖像方面取得了巨大的成功。最近,基于GAN的技術在基于時空的應用如軌跡預測、事件生成和時間序列數據估算中顯示出了良好的前景。雖然在計算機視覺中對GANs提出了一些評論,但沒有人考慮解決與時空數據相關的實際應用和挑戰。在這篇文章中,我們對GANs在時空數據方面的最新發展進行了全面的回顧。我們總結了在時空數據中流行的GAN架構,以及用GANs評估時空應用程序性能的常見做法。最后,提出了未來的研究方向,希望能對相關研究者有所幫助。
概述:
時空屬性在交通運輸(shao2017travel)、社會科學(kupilik2018spatio)、犯罪學(rumi2019crime)等各個領域都很常見,其中,傳感器和大數據的激增迅速改變了時空屬性。大量的時空(ST)數據需要適當的處理技術來建立有效的應用。通常,處理表格數據或圖形數據的傳統方法在應用于時空數據集時表現不佳。原因主要有三層(wang2019deep): (1) ST數據通常是連續空間,而表或圖數據往往是離散的; (2) ST數據通常同時具有空間和時間屬性,其中數據相關性較復雜,傳統技術難以捕捉; (3) ST數據具有高度的自相關性,通常不像傳統數據那樣獨立生成數據樣本。
隨著深度學習的普及,許多神經網絡(如卷積神經網絡(CNN) (krizhevsky2012imagenet),遞歸神經網絡(RNN) (mikolov2010recurrent), Autoencoder (AE) (hinton2006 reduce),圖卷積網絡 (GCN) (kipf2016gcn))被提出并在ST數據建模方面取得了顯著的成功。ST數據的深度學習之所以被廣泛采用,是因為它在層次特征工程能力方面顯示出了潛力。在本次調研中,我們關注的是深度學習領域最有趣的突破之一——生成對抗網絡(GANs) (goodfellow2014generate)及其在ST數據方面的潛在應用。
GAN是一種對抗學習生成真實數據的生成模型。它由兩個組件(goodfellow2014)組成:generator G和discriminator D。G捕獲數據分布并從潛在變量z生成真實數據,D估計來自真實數據空間的數據概率。GAN采用了零和非合作博弈的概念,其中G和D被訓練為相互競爭,直到達到納什均衡。GAN在各領域獲得了相當大的關注,包括圖像(例如,圖像翻譯(isola2017image)超分辨率(ledig2017photo),聯合圖像生成(liu2016coupled),對象檢測(ehsani2018segan),改變面部屬性(donahue2017semantically))、視頻(例如,視頻一代(vondrick2016generating)),自然語言處理(例如,文本生成(lin2017adversarial),文本圖像(zhang2017stackgan))。
然而,直接使用圖像或視頻生成并不適用于ST數據的建模,如交通流、區域降雨和行人軌跡。一方面,圖像生成通常考慮輸入和輸出圖像之間的外觀,不能充分處理空間變化。另一方面,視頻生成考慮了圖像間的空間動態,但是,當對下一幅圖像的預測高度依賴于前一幅圖像時,時間變化沒有得到充分考慮(saxena2019d)。因此,將GANs成功應用于ST數據需要探索新的方法。
最近,GANs開始應用于ST數據。GANs在ST數據上的應用主要包括生成去識別的時空事件(saxena2019d);jin2019crime),時間序列歸責(luo2018multivariate;,軌跡預測(gupta2018;kosaraju2019), 圖表示 (wang2018;bojchevski2018)等。盡管GANs在計算機視覺領域取得了成功,但將GANs應用于ST數據預測具有挑戰性(saxena2019d)。例如,利用額外的信息,如景點(PoI),天氣信息在以前的研究中仍然是未觸及的。此外,與研究者可以依靠對生成的實例進行可視化檢查的圖像不同,GANs對ST數據的評估仍然是一個未解決的問題。在ST數據上采用傳統的GAN評價指標(saxena2019d;esteban2017real)。
一些研究回顧了最近關于ST數據或GAN在不同領域的應用問題的文獻。與從傳統關系數據挖掘模式相比,建模ST數據特別具有挑戰性,因為除了實際測量之外,它還具有空間和時間屬性。Atluri等人(atluri2018spatio)回顧了ST數據建模的流行問題和方法。提供了不同類型ST數據的分類、定義和描述數據實例的方法,以確定實際應用程序中任何類型ST數據的相關問題。他們還列出了通常研究的ST問題,并回顧了處理不同ST類型的獨特屬性的問題。Want等人(wang2019deep)回顧了將深度學習應用于ST數據挖掘任務的最新進展,并提出了一個利用深度學習模型解決ST數據建模問題的流程。Hong等人(hong2019生成)從不同的角度解釋了GANs,并列舉了常用的用于多任務的GAN變體。在(pan2019recent)中討論了GANs的最新進展,Wang et al. (wang2019生)提出了一種用于計算機視覺領域的GANs分類。特別是,Yi等人(yi2019生)回顧了GANs在醫學成像中的最新進展。
然而,上述工作回顧了ST數據建模問題或GANs在計算機視覺領域的最新進展。盡管許多研究者(saxena2019d;esteban2017real;gupta2018social;luo20192;已經用GANs對ST數據進行建模,在這個領域還沒有相關的調查來解決在ST數據應用中使用GANs的潛力。本文第一次全面概述了ST數據中的GANs,描述了GANs有希望的應用,并確定了在不同ST相關任務中成功應用尚需解決的一些挑戰。
盡管在深度學習方面取得了最近的進展,但大多數方法仍然采用類似“筒倉”的解決方案,專注于孤立地學習每個任務:為每個單獨的任務訓練一個單獨的神經網絡。然而,許多現實問題需要多模態方法,因此需要多任務模型。多任務學習(MTL)旨在利用跨任務的有用信息來提高模型的泛化能力。在這個綜述中,我們提供了一個最先進的在深度神經網絡的背景下MTL技術的全面觀點。我們的貢獻涉及以下方面。首先,我們從網絡架構的角度來考慮MTL。我們包括了一個廣泛的概述,并討論了最近流行的MTL模型的優缺點。其次,我們研究了解決多任務聯合學習的各種優化方法。我們總結了這些工作的定性要素,并探討了它們的共性和差異。最后,我們在各種數據集上提供了廣泛的實驗評估,以檢查不同方法的優缺點,包括基于架構和優化的策略。
概述
在過去的十年中,神經網絡在許多任務中都顯示了令人印象深刻的結果,例如語義分割[1],實例分割[2]和單目深度估計[3]。傳統上,這些任務是單獨處理的,即為每個任務訓練一個單獨的神經網絡。然而,許多現實世界的問題本質上是多模態的。例如,一輛自動駕駛汽車應該能夠檢測場景中的所有物體,定位它們,了解它們是什么,估計它們的距離和軌跡,等等,以便在它的周圍安全導航。同樣的,一個智能廣告系統應該能夠在它的視點上檢測到人們的存在,了解他們的性別和年齡,分析他們的外貌,跟蹤他們正在看的地方,等等,從而提供個性化的內容。與此同時,人類非常擅長同時解決許多任務。生物數據處理似乎也遵循多任務處理策略: 不同的處理過程似乎共享大腦中相同的早期處理層,而不是將任務分開單獨處理。上述觀察結果促使研究人員開發了多任務學習(MTL)模型,即給定一個輸入圖像可以推斷出所有所需的任務輸出。
在深度學習時代之前,MTL工作試圖對任務之間的共同信息進行建模,希望通過聯合任務學習獲得更好的泛化性能。為了實現這一點,他們在任務參數空間上放置了假設,例如:任務參數應該彼此靠近w.r.t.一些距離度量[5],[6],[16]0,[16]2,共享一個共同的概率先驗[16]1,[10],[11],[12],[13],或駐留在一個低維子空間[14],[15],[16]或流形[17]。當所有任務都是相關的[5]、[14]、[18]、[19]時,這些假設可以很好地工作,但是如果在不相關的任務之間發生信息共享,則可能導致性能下降。后者是MTL中已知的問題,稱為負轉移。為了緩解這一問題,其中一些研究人員選擇根據先前對任務的相似性或相關性的認識將任務分組。
在深度學習時代,MTL轉化為能夠從多任務監控信號中學習共享表示的網絡設計。與單任務情況下,每個單獨的任務由自己的網絡單獨解決相比,這種多任務網絡理論上給表帶來了幾個優點。首先,由于它們固有的層共享,結果內存占用大大減少。其次,由于他們明確地避免重復計算共享層中的特征,每次都要計算一次,因此他們的推理速度有所提高。最重要的是,如果相關的任務能夠分享互補的信息,或者互相調節,它們就有可能提高績效。對于前者,文獻已經為某些對任務提供了證據,如檢測和分類[20],[21],檢測和分割[2],[22],分割和深度估計[23],[24],而對于后者,最近的努力指向了那個方向[25]。這些工作導致了第一個深度多任務網絡的發展,歷史上分為軟或硬參數共享技術。
在本文中,我們回顧了在深度神經網絡范圍內的MTL的最新方法。首先,我們對MTL基于架構和優化的策略進行了廣泛的概述。對于每種方法,我們描述了其關鍵方面,討論了與相關工作的共性和差異,并提出了可能的優點或缺點。最后,我們對所描述的方法進行了廣泛的實驗分析,得出了幾個關鍵的發現。我們在下面總結了我們的一些結論,并提出了未來工作的一些可能性。
首先,MTL的性能在很大程度上取決于任務字典。它的大小、任務類型、標簽源等等,都影響最終的結果。因此,最好根據每個案例選擇合適的架構和優化策略。盡管我們提供了具體的觀察結果,說明為什么某些方法在特定設置中工作得更好,但是MTL通常可以從更深的理論理解中獲益,從而在每種情況下最大化預期收益。例如,這些收益似乎取決于多種因素,例如數據量、任務關系、噪音等。未來的工作應該嘗試分離和分析這些不同因素的影響。
其次,當使用單一MTL模型處理多個密集預測任務時,基于解碼器的架構目前在多任務性能方面提供了更多優勢,與基于編碼器的架構相比,其計算開銷有限。如前所述,這是由于基于解碼器的體系結構促進了常見的跨任務模式的對齊,這自然很適合密集的預測任務。基于編碼器的架構在密集預測任務設置中仍然具有一定的優勢,但其固有的層共享似乎更適合處理多個分類任務。
最后,我們分析了多種任務均衡策略,并分離出對任務均衡學習最有效的要素,如降低噪聲任務的權重、平衡任務梯度等。然而,許多優化方面仍然缺乏了解。與最近的研究相反,我們的分析表明避免任務之間的梯度競爭會損害性能。此外,我們的研究顯示,一些任務平衡策略仍然存在不足,突出了現有方法之間的一些差異。我們希望這項工作能促進對這一問題的進一步研究。