二十一世紀的第二個十年是一個快速技術革新的時期。強大的計算機、快速的網速和智能設備以及爆炸性的科技產業的擴散,共同創造了在深度和廣度上前所未有的信息洪流。這種數據流太龐大了,僅靠人類是無法分析的。計算機科學和技術的進步已經開啟了使用人工智能(AI)來協助完成這項任務。海軍部(DON)已經認識到人工智能的效用,并對這項技術的應用進行了投資。這些應用之一是使用人工智能,特別是深度學習和神經網絡,來消化衛星圖像的巨大數據集,為預測目的對數據進行分割和分類[1]。在過去,DON天氣預報員和情報分析員會手動解釋這些數據并進行預測。在未來,人工智能驅動的模型可以協助預報員和分析員提供比人類分析員單獨產生的預測更準確的預測。
為了自動從衛星圖像數據集中提取信息用于分類和預測,目前的研究主要集中在使用監督學習算法,如深度卷積神經網絡(DCNN)。DCNNs已經被成功地應用于圖像的自動分類[2]。在這個應用中,圖像被輸入到一個DCNN中,它從圖像的通道中提取信息來預測圖像中包含的內容,然后在輸出端提供一個決定,如果圖像的內容屬于一個特定的類別(例如,圖像是一張船的圖片)。這種方法已經被用來對給定的戶外圖像中的天氣進行分類[3]。本論文提出,同樣的方法可用于對氣象學目的的衛星遙感圖像進行分類,如將降水事件分為對流型和層狀型,這兩類對流描述了典型的上下運動和二元加熱的垂直剖面,這些過程對所有空間和時間尺度的大氣現象至關重要。
貝葉斯深度學習是人工智能/機器學習(AI/ML)社區中一個發展良好的領域,它通過考慮模型在權重空間中的不確定性,實現了模型復雜性和數據擬合之間的平衡,為經典的深度學習方法提供了一個替代方案。Kendall和Gal[4]首次證明貝葉斯深度學習方法提高了神經網絡的性能,同時為計算機視覺任務的預測提供了不確定性估計。
這項工作的重點是量化在多光譜衛星數據上訓練的深度學習模型的不確定性,并在Petkovi?和Orescanin[5]以前的工作基礎上,將多個貝葉斯卷積神經網絡(BCN)架構應用于同一任務。具體來說,多光譜無源微波(PMW)衛星數據將被用作幾種不同類型的BCNN的輸入數據,目的是提供可被同化到大氣預報模型中的合成對流型觀測數據和相關不確定性。此外,使用這些貝葉斯神經網絡得到的結果將作為這些不同的貝葉斯方法的基準,并將進行分析,以研究在類似的輸入數據下每個模型的輸出差異。所產生的合成產品、貝葉斯神經網絡的使用以及所使用的貝葉斯方法的基準標記,對這一應用是新穎的,是對計算機科學和氣象學領域的原創性貢獻。
本論文要解決的問題主要有兩個。首先,貝葉斯深度學習在對流天氣類型預測中的應用還沒有發生過。雖然Petkovi?和Orescanin[5]將傳統的深度學習應用于這一任務并取得了巨大的成功,但有幾個原因說明貝葉斯深度學習的推進可能是有利的。首先,傳統的深度學習模型只是輸出一個預測,而BCNN不僅會做出預測,而且會輸出模型在該預測中的不確定性。這種不確定性可以進一步用于確定該預測是否符合決策中的信心閾值。Orescanin等人在[6]的研究中證明了前面兩個原因。此外,對預測的不確定性進行建模,可以對模型進行訓練,使這些不確定性最小化,并根據不同的不確定性類型改善預測結果。具體來說,Kendall和Gal證明了BCNN可以通過對不確定性的建模來訓練學習損失衰減,這比非貝葉斯基線模型提高了高達3%的模型精度[4]。
開發一個能夠準確分類降水事件的BCNN,同時提供不確定性的估計,可以在很多方面使DON受益。首先,這項任務將提供來自單一來源的信息,而以前(沒有BCNN)需要兩種儀器來測量。詳細說來,從PMW觀測中得出對流類型,目前需要在PMW傳感器數據之外使用降水事件的天底點雷達觀測。有了BCNN,這個任務就可以通過一個PMW傳感器儀器和BCNN一起完成了。此外,證明在氣象背景下量化BCNN衛星圖像分類預測的不確定性的能力,可以為DON其他衛星-遙感應用中的BCNN研究提供基礎。例如,衛星數據的自動對流和層狀分類將有助于約束衛星衍生的降水估計,因為對流和層狀降水的微觀物理和運動結構有很大不同。這種改進的觀測結果最終可能有助于改進美國國防部數值模式中各種大氣過程的表現,如海軍全球環境模式(NAVGEM)、海洋/大氣耦合中尺度預測系統(COAMPS)和未來幾代模式,如利用NUMA核心的海軍環境預測系統(NEPTUNE)。
第二個要解決的問題是對各種貝葉斯方法的原始性能和不確定性量化的質量進行基準測試。關于這些不確定性,Kendall和Gal[4]證明了有可能通過BCNN架構在神經網絡中提取無常和認識上的不確定性。此外,還可以估計模型的無常和認識上的不確定性。在BCNN中對不確定性進行建模,可以使用戶量化由于觀測(即輸入數據)中的噪聲而導致的模型不確定性,而對認識上的不確定性進行建模,可以量化由于模型相對于真實模型的偏差而導致的不確定性。只要有足夠的數據,認識上的不確定性是可以被解釋的,并且可以減少。
該領域研究的一個發展趨勢是對貝葉斯方法進行基準測試,以便更好地了解每種方法固有的性能權衡。截至目前,Filos等人[7]使用病人視網膜的臨床掃描來檢測是否存在糖尿病視網膜病變,對貝葉斯模型進行了基準測試。本論文將在這一研究的基礎上,利用大規模的、平衡的、可操作的PMW圖像數據集開發新的貝葉斯基準。使用該數據集開發貝葉斯基準可以為DON提供一個真實世界的操作基準,以促進該領域的未來研究和發展。
本論文有兩個主要研究任務。第一個任務是將PMW多光譜衛星圖像中的降水事件分類為對流性或層狀。第二項任務是為即將實施的三種貝葉斯方法提供性能基準。
本論文要解決的研究目標如下:
1.確定貝葉斯CNN是否能比確定性CNN和運行中的戈達德剖析算法(GPROF)更準確地對云對流等級進行分類。
2.確定哪些貝葉斯CNN模型架構在多譜段衛星數據上表現良好。
3.調查對三種不同類型的不確定性進行建模并通過所述不確定性進行過濾如何影響貝葉斯模型的分類性能。
4.研究通過三種不確定性類型進行估計和過濾的模型性能折衷。
5.開發新的貝葉斯模型基準,用于大規模數據集,并用其評估貝葉斯模型的性能。
為了實現這些目標,本論文將提出并開發三個BCNN模型,以便從無源微波(PMW)衛星圖像中對云層對流等級(層狀與對流)進行分類。此外,BCNN模型的性能將與NASA目前用于該任務的算法(GPROF)和確定性CNN的性能進行比較。
接下來,將根據幾個標準指標對開發的BCNN模型的性能進行分析。本論文的創新之處在于開發了一系列的基準,以量化模型預測在空間背景下的不確定性。這些基準將確定總的預測不確定性、無誤差的不確定性和認識上的不確定性中的空間不確定性。最后,將研究提供無誤差和表觀不確定性估計的效用,并探討估計總不確定性與估計無誤差和表觀不確定性的模型性能權衡。
本論文將首先概述貝葉斯深度學習、該領域過去和現在的研究,以及本論文將如何建立在以前的工作之上。此外,還將詳細介紹貝葉斯方法的推導。接下來,將對實驗方法進行深入討論。這一部分將包括對所使用的數據集、實現的模型架構、使用的指標和貝葉斯模型基準的實現的討論。在方法論部分之后是詳細說明實驗結果的部分。最后,將詳細介紹研究結論和未來工作。
設計具有不確定性的深度學習模型,使其能夠在預測的同時提供合理的不確定性,一直是部分機器學習社區的目標。從業者也經常需要這樣的模型。最普遍和最明顯的方法是采用現有的深層架構,并嘗試將現有的貝葉斯技術應用于它們,例如,將神經網絡的權重作為貝葉斯框架中的隨機變量處理。本文試圖回答這個問題: 現有的神經網絡架構是獲得合理不確定性的最佳方式嗎?在本文的第一部分,我們提出了在對抗環境下貝葉斯神經網絡的不確定性行為的研究,這表明,雖然貝葉斯方法在數據分布附近的確定性網絡上有顯著的改進,但外推行為是不受歡迎的,因為標準神經網絡架構在結構上偏向于自信外推。基于此,我們探索了兩種標準深度學習架構的替代方案,試圖解決這一問題。首先,我們描述了一種新的膠囊網絡生成公式,它試圖通過對場景結構的強假設來將結構強加到學習任務中。然后,我們使用這個生成模型來檢查這些潛在的假設是否有用,并論證它們實際上存在重大缺陷。其次,我們探索了bilipschitz模型,這是一種解決深度神經網絡中確保先驗回歸這一更有限目標的體系結構。這些方法基于深度核學習,試圖通過使用最終分類層來控制神經網絡的行為,當與支持向量集的距離增加時,分類層會恢復到先驗值。為了在使用神經特征提取器的同時保持這一特性,我們為這些模型描述了一種新的“bilipschitz”正則化方案,該方案基于通過施加由可逆網絡上的工作激發的約束來防止特征崩潰。我們描述了這些模型的各種有用的應用,并分析了為什么這種正則化方案似乎仍然有效,即使它背后的原始動機不再成立,特別是在特征維度低于輸入的情況下。我們的結論是,雖然膠囊網絡可能不是一個有前途的方向,但本文最后部分討論的模型是未來研究的一個富有成果的領域,在許多應用中作為標準貝葉斯深度學習方法的一個有前途的潛在替代方案。
裝備有成像傳感器的衛星是情報、監視和偵察(ISR)任務的關鍵資產。然而,從這些資產的任務中可能獲得的巨大數據量很快就會讓人類無法完整地人工考慮。正是由于這個原因,分析衛星圖像的自動化系統對于幫助人類分析員從衛星圖像中提取可操作的信息至關重要。
最有前途的自動化工具之一是機器學習(ML)。在一些收集背景下,如醫學成像[17]和自主車輛的視覺[21],ML在從圖像中做出準確推斷方面已經顯示出巨大的成功。因此,有理由認為,在其他采集環境中獲得成功的機器學習模型和方法也可以用于從高空拍攝的圖像。事實上,在使用機器學習對衛星圖像進行準確推斷方面,已經有了許多公開的成功案例。從人道主義和救災[57]到農業規劃[13]等問題領域都受益于基于ML的計算機視覺系統。
在衛星圖像上使用機器學習的效用促使了系統的發展,該系統將機器學習模型作為分析員工作流程的核心組成部分。本文的目標是為開發此類模型提供一小部分必要的實踐指導。調查目前關于這個主題的知識并將其提煉成實用的指導是一項艱巨的任務。為了提供一個更有針對性的指導,我們以多種方式確定這項工作的范圍。我們專注于目標檢測--在圖像中定位目標的位置,以及它們屬于哪一類目標的抽象任務。我們選擇這個問題的原因有很多。首先,許多ISR任務可以被設定為目標檢測任務。例如,從衛星圖像中檢測特定的陸地車輛、海船、設備和人都可以被設定為目標檢測任務。即使ISR任務要求對目標進行更復雜的推理,許多目標探測的原則也適用。其次,目標檢測是現代機器學習在圖像領域中比較成熟的領域之一。因此,為了建立準確的目標檢測模型,有大量的前期工作可以借鑒。
我們還將這項工作的重點放在目標檢測模型(或目標檢測器)的評估上。也就是說,我們的重點是:1)評估目標檢測器的重要特征樣本;2)評估目標檢測器的常用指標樣本;3)如何識別和定義重要用例的評估標準;以及4)如何將目標檢測器的特征和用例映射到指標上,以便以具體、可衡量的方式評估目標檢測器。因為評估自然發生在數據收集和探測器學習之后,所以我們也必須觸及與這兩個主題相關的細節。我們的目標不是要對這些主題進行全面的處理。相反,我們的目標是提供基本信息,作為了解設計、學習和評估目標檢測器時的一些獨特考慮因素的手段,并輔以參考文獻,讓讀者有途徑進行更深入的探索。
本指南的其余部分將按以下方式進行。在第2章中,我們定義了目標檢測問題,討論了學習目標檢測模型的現代方法,并提供了一些對衛星圖像的的實際見解。在第3章中,我們討論了評估目標檢測器的做法,包括方法、指標,以及如何將其映射到檢測器性能的有意義的概念。在第4章中,我們通過展示對航空圖像的目標檢測模型的評估結果,展示了這些主題的一些實踐。最后,在第5章中,我們總結了文件中所探討的實際見解,并對目標檢測中的開放課題進行了簡要調查。
圖 2.2:圖像示例,標注有邊界框(圖片來源:RarePlanes Data Set [61])。例如,右上角的目標被標記為“軍事戰斗機/攔截器/攻擊”類的成員。目標的位置由邊界框的左上角 (x1, y1) 和右下角 (x2, y2) 坐標定義。
圖 4.2:來自 RarePlanes 數據集的示例。頂部圖像 = 標記為邊界框的地面實況。中間圖像 = RetinaNet 的輸出。底部圖像 = Faster R-CNN 的輸出。
時間序列分類問題采用監督機器學習技術來分析時間上的有序數據并對新的連續數據進行分類。近年來,隨著時間序列數據訪問量的增加,時間序列分類越來越受歡迎,問題出現在廣泛的應用中,如音頻記錄、醫療信號和天氣預測。一般來說,有一個假設,即時間排序是均勻的或接近均勻采樣的。然而,在一些重要的應用中,情況并非如此。
這個項目研究了一個數據集,它是一個非常不均勻采樣的時間序列,任務是對三個標簽進行分類。該數據集也相當大,需要非常高維的特征。這些考慮促使我們使用了順序學習技術。順序(序列)學習是指以數據序列作為輸入或輸出的機器學習模型。這個項目的目標是確定預處理技術和生成序列的方法,這將有助于這個分類任務。如果成功的話,其結果可以幫助深入了解類似的序列學習問題。
首先對整個數據集的數據進行了標準化。給定的數據有很大的時間間隔,其中沒有樣本,被稱為 "死區",通過插值和零均值填充的過程人為地填補了這些空白。還創建了一個相對時間編碼特征,以幫助預測者解釋數據突發之間的時間量。分割是為了保持一個窗口的序列長度,同時增加它所代表的時間長度。
一個共同的最佳預測器被確定為(D, N, P, S)=(8, 644616, 250, S/8),其中D代表抽取因子,N代表訓練中使用的序列數,P代表窗口長度,S代表步幅。研究發現,存在一個近似的時間長度,大致等于2120個樣本,使這種分類的性能達到最佳。
不確定性是混合沖突的一個核心概念。許多混合沖突是隱蔽的、可否認的,并在正常的國家間關系和武裝沖突之間的灰色地帶進行。此外,混合沖突的信號可能來自于在很長一段時間內收集的大量公開和秘密來源,并且具有不同程度的可靠性。這些因素加在一起,對混合沖突的決策構成了重大挑戰。處理高層次的不確定性要求在情報分析和評估方面有創新的解決方案。在這方面,一個有希望的方法是對不確定性的明確估計。在這項研究中,我們借鑒了統計學、情報分析和人工智能的知識,提出了一種新的方法,并為量化和系統地估計不確定性開發了一個統計模型。該模型考慮了情報分析中不確定性的幾個重要因素:來源可靠性、信息可信度、概率語言和及時性。我們使用標記的和模擬的數據測試了我們的方法,并討論了使用人工智能和數據科學實現這一過程自動化的機會和挑戰。通過這樣做,這項研究向智能分析工具邁出了一步,以減輕混合沖突決策中的不確定性挑戰。
不確定性是情報分析中的一個基本概念。幾乎所有的情報評估都應該用不確定性來表達。這是因為評估要么試圖從不完整的或往往是模糊的數據中做出推斷,要么試圖預測未來的事件(Mandel & Irwin, 2020)。混合沖突的幾個特點1增加了情報分析和評估的不確定性。許多混合沖突是隱蔽的、可否認的,并在正常的國家與國家之間的關系和武裝沖突之間的灰色地帶進行,導致新出現的威脅的信號很弱,而且往往不完整(Monaghan, Cullen & Wegge, 2019)。此外,混合沖突的信號可能來自于長期收集的大量公開和秘密來源,并具有不同的可靠性。這些問題因日益數字化而被放大,數字化導致了公開來源信息的爆炸性增長,而這些信息越來越容易被誤傳或假傳(Treverton, 2021)。
混合沖突的這些特點給情報分析人員帶來了一些挑戰:不確定性增加、模糊性、不可捉摸性、低于檢測閾值的活動、信息過載和數字來源的爆炸(Cullen,2018)。這些挑戰反過來又加劇了情報界對不確定性的系統和定量估計的呼吁。在混合沖突的情報分析中,需要創新方法來處理這些前所未有的不確定性和模糊性。這反過來將支持決策者制定應對復雜的混合威脅的政策。這些呼吁得到了實證研究的響應,實證研究顯示有可能減少分析偏差,改善合作,促進分析透明度,并為實現(半)自動化的情報分析過程鋪平道路(TR-SAS-114,2020)。
盡管各國情報組織之間存在定性標準,并且已經提出了改進不確定性估計的方法,但據我們所知,沒有任何情報組織采用系統的不確定性估計方法(Friedman & Zeckhauser, 2012)。換句話說,不確定性的估計或多或少地隱含在 "分析者的頭腦中"。此外,不確定性最常以定性方式(如 "極有可能")而非定量方式(如 "75%可能")來表達。盡管對不確定性的量化存在一些不情愿的態度--擔心涉及到對 "最佳估計 "的判斷的虛幻的具體感(有 "硬數字")--數值有可能緩解語言障礙,解決不確定性詞匯中的語義差異,并鼓勵分析者的責任感(Dhami & Mandel, 2020)。
這項研究試圖解決這些差距,并提出一種系統地、定量地估計和表達不確定性的方法。這項工作的新穎之處在于,它提出并測試了一種從情報報告本身提取不確定性信息的方法,而不是嚴重依賴分析員的判斷(例如,Lesot, Pichon & Delavallade, 2013;Schum & Morris, 2007)。因此,我們的方法也旨在對不確定性進行更客觀和可重復的估計。另一個主要貢獻是,我們考慮了這個過程自動化的步驟、機會和挑戰(使用數據科學和人工智能的技術)。畢竟,系統地手工估計不確定性將極大地增加分析者的工作量。通過這樣做,這項工作向更快、更系統、更客觀的不確定性判斷邁出了一步,減輕了混合沖突中決策支持的挑戰。
拒絕和欺騙(D&D)技術利用錯誤信息和對手的認知偏差,長期以來一直是混合作戰的一部分。這種戰術給傳統上由人類分析員制作的情報、監視和偵察(ISR)產品帶來了不確定性和懷疑。在一個由人工智能(AI)擴散主導的未來戰斗空間中,算法生成的ISR產品數量可能會增加。因此,D&D戰術將越來越多地被顛覆人類而非機器推理的需要所驅動。對抗性機器學習(AML)的發展,即對欺騙性人工智能的研究,對未來混合作戰空間中的實踐狀態有重大影響。**本文回顧了對抗性機器學習技術之間的關鍵區別,以及它們對敵方對作戰人工智能的了解和訪問做出的假設。然后,我們總結了我們團隊最近與混合作戰有關的幾個對抗機器學習研究方向:對成像系統的物理對抗性攻擊,數據中毒攻擊,以及AML與設計強大的人工智能系統的相關性。
混合戰爭指的是使用顛覆性的、非軍事的手段來推進民族國家的利益,特別是俄羅斯近年來采用的技術,在不訴諸公開的、常規的軍事行動的情況下占領領土并影響各國的政治和政策[1]。所采用的混合戰術包括網絡攻擊、動員智能體團體采取行動、施加經濟影響以及其他秘密措施。由于混合作戰存在于常規軍事沖突和平民生活之間的 "灰色地帶",因此戰術上采用了拒絕和欺騙(D&D),通過利用民眾或敵對勢力的認知偏差來迷惑、威懾或影響理想的行為。D&D戰術在常規戰場上的歷史使用是有據可查的[3]。有效的D&D技術通過對依賴人類專家分析的軍事情報、監視和偵察(ISR)產品產生懷疑而獲得成功。在混合軍事行動中,情況不一定如此,在混合軍事行動中,D&D也可能試圖影響平民的看法。此外,隨著人工智能(AI)成為國家軍事投資戰略的重點(如[4]和[5]),以及商業信息技術部門越來越多地采用人工智能[6],人工智能在未來的 "灰色地帶 "可能會無處不在。因此,我們必須考慮在未來由人工智能的使用主導的混合戰斗空間中可能存在的D&D威脅。
當前的人工智能能力是由機器學習的進步所帶來的,特別是在深度學習這個子領域,在過去的10年里。機器學習(ML)涉及將系統的輸入映射到預測結果的問題,例如,將車輛的圖像映射到一個類別的標簽。通常情況下,這是在大型數據集中通過統計模式識別實現的。深度學習具體涉及到多層神經網絡的使用,它是具有數百萬自由參數的高度非線性回歸模型,作為模式識別的統計模型。雖然深度網絡在各種任務上的表現優于人類(最著名的是圖像分類[7]),但在諸如[8]和[9]等作品中觀察到它們容易被愚弄之后,對抗性機器學習(AML)領域作為一個活躍的研究領域出現了。許多作者指出,ML算法所犯的錯誤可能會在民用領域產生嚴重后果[10]-[15]。我們也認為必須提出類似的擔憂,即軍事人工智能系統在常規戰場和混合戰斗空間中的脆弱性。
本文的其余部分組織如下:第2.0節將提供關于對抗性機器學習的進一步背景介紹,以及我們認為目前在解決其與混合軍事行動的相關性方面存在的差距。在第3.0節中,我們描述了約翰霍普金斯大學應用物理實驗室(JHU/APL)目前正在進行的三項研究工作,以解決這些知識差距。最后,我們在第4.0節中做了總結性發言,并總結了我們到目前為止的發現。
圖 6. AI 開發周期(圓形流程圖)和采用機器學習的典型算法步驟(橙色大框)。
對氣象數據進行聚類在多個方面都是一項有價值的工作。結果可以在更大的氣象預報框架內以各種方式使用,或者可以簡單地用作表征特定感興趣區域的氣候差異分析工具。這項研究提出了一種基于在大約 11 個月的長時間范圍內,溫度時間序列相似性對地理位置進行聚類的方法。為此,使用了一種利用深度學習的新興且強大的聚類技術,稱為深度表示聚類 (DRC)。此外,提出了一種時間序列特定的 DRC 算法,以解決該領域的當前差距。最后,與傳統的數值氣象預報(NWP)相比,基于深度學習的氣象預報作為一種獲得更快速預測的手段,是一個越來越普遍的研究課題。由于它們是控制大氣行為的已知物理方程,即 Navier-Stokes 方程,因此探索了將這些定律重新表述為基于物理的損失函數的概念,特別感興趣的是用這種損失函數訓練的模型是否可以勝過它的基線對應物。
圖 15:時間序列聚類方法流程圖
氣象預報有著悠久的歷史,它植根于基本的物理原理。 20 世紀初的科學家們注意到,大氣可以被視為一種流體,因此可以使用偏微分方程 (PDE) 進行建模,并建立了描述流體特性隨時間和空間變化的物理原理 [21]。這些在氣象預報領域被稱為數值氣象預報 (NWP) 的方法隨著時間的推移有了很大的改進,目前代表了標準的氣象建模方法。然而,深度學習和機器學習方法的進步引起了人們對將數據驅動的方法應用于氣象建模和預測問題的極大興趣。此外,正在進行研究以專門解決在物理過程建模中使用深度學習方法的問題,其中與氣象一樣,通常有關于可以利用的過程的現有信息。
機器和深度學習技術(如聚類)也可用于分析氣象數據。這通常是為了將在廣泛區域內經歷相似氣象模式的時間段組合在一起,但也可以將在很長一段時間內經歷相似氣象模式的地理區域組合在一起。這兩種方法都可以幫助建立更廣泛的氣象預報框架,而后者也可以用來提供一個地區氣候差異的一般特征。
這項研究以幾種方式增加了深度學習和大氣/氣候建模領域。首先,使用一種強大的新型聚類算法,在此稱為深度表示聚類 (DRC),將美國聚類到在時間序列形狀和氣象動態方面具有相似性的地理區域。其次,將解決當前對 DRC 研究的空白。具體來說,據我們所知,還沒有發布任何時間序列特定的 DRC 算法。相反,在處理時間序列數據時,大多數人在其聚類算法的核心使用基于歐幾里德的距離度量,這可能會產生不良結果。最后,探討了在深度學習模型中利用已知物理定律進行 24 小時氣象預報的前景。
聚類
獲得準確氣象預報的復雜性和難度怎么強調都不為過。基本過程是高度非線性、混沌和非平穩的。雖然這些類型的現象可以通過神經網絡建模,但以任何方式暗示正在經歷的氣象模式類型的信息可以在更廣泛的預測框架中使用。這使一些研究人員轉向了對氣象數據進行聚類并使用聚類的性質和成員資格來通知神經網絡 [22] 的想法。此外,為了對區域氣候進行分類,對地理位置進行分組的歷史由來已久[17]。一種尚未探索的方法是直接使用時間序列數據和適當的時間序列距離度量來解釋時間序列的形狀。這樣做會產生與大氣測量結果相似的位置集群。同樣,這些結果可用于各種目的。在氣象預報框架中,這可用于構建特定于集群的模型,以了解每個集群中氣象的典型復雜行為。通過為每個集群擬合獨特的模型,他們有更好的機會通過關注這些位置的典型行為來學習在其集群中觀察到的復雜關系。聚類結果也可以更普遍地用作對一個地區的氣候進行廣泛分類的一種方式。
動力學
在某些研究領域中,時間序列分析的研究與動力系統的研究存在脫鉤。在處理氣象數據時,始終認識到每個時間序列只是較大動力系統的一維投影這一事實很重要,特別是因為我們希望部分基于每個時間序列的潛在動力學相似性來驅動集群形成地點。出于這個原因,提出的 DRC 算法特別注意驅動動態感知集群的形成。
時間序列聚類
聚類時間序列數據存在一些獨特的挑戰。這源于這樣一個事實,即聚類需要使用距離度量或度量來確定點的相似性或相異性。在靜態數據的情況下,數據點或向量 x ∈ R n 表示觀察的 n 個特征,而時間序列向量 y ∈ R n 表示系統某些特征的時間測量值。測量靜態數據向量之間的相似性通常與歐幾里德距離相關聯,并且適當地如此。但是,要理解為什么這在時間數據的情況下可能會出現問題,請考慮圖 1 中的時間序列。
圖 1. 除了相位之外,兩個正弦波完全相同。如果使用歐幾里德距離進行比較,它們將被認為遠不如預期的相似。此外,時間序列質心計算通常最好使用 dtw 重心平均或其變體來完成。
雖然很明顯,這是兩個相位稍有偏移的相同正弦波,并且在聚類的情況下應該被認為是高度相似的,但歐幾里德距離會產生一種錯誤的不相似感。為了通過氣象模式的相似性對地理位置進行分組,我們的距離測量必須考慮時間變化和變化。
質心計算是許多聚類算法的另一個基本組成部分。就像歐幾里得距離會錯誤地表示兩個時間序列的真實相似性一樣,用于質心計算的算術平均值也會產生不自然的時間序列平均值。具體來說,算術平均值通常會產生一個在形狀方面嚴重扭曲的平均值,因此不能恰當地代表其組成部分。回到圖 1,可以看出算術平均曲線(綠色)是兩個正弦波形的錯誤表示,而紅色曲線是基于動態時間規整 (DTW) 的平均值,稍后將更詳細地介紹,對于這些時間序列來說是一個更好的“平均值”。
為什么選擇深度表示聚類 (DRC)?
深度表示聚類描述了一類使用神經網絡來輔助聚類任務的模型。主要方法結合了表示學習(通常通過自動編碼器)和聚類損失,以驅動形成集群友好的表示。由于該過程通常涉及表示學習,因此 DRC 非常適合高維、復雜的數據,因為它可以映射到低維表示。這在計算上和避免維度災難方面都很有用。由于這項研究的聚類任務涉及長而復雜的時間序列,DRC 是一種自然的方法。最后,M. Cuturi 和 M. Blondel 最近的研究工作產生了動態時間扭曲 (DTW) 損失的可微版本,稱為 soft-DTW [23],這很重要,主要有兩個原因。首先,時間序列不能與標準歐幾里得距離函數在相似性方面進行適當比較。取而代之的是像 DTW 這樣的東西,或者像 soft-DTW 這樣的松弛,對于解釋形狀的相似性是必要的。其次,由于 DRC 是一種基于神經網絡的方法,因此訓練中使用的所有損失函數必須是可微的,以便通過反向傳播促進參數優化,這是標準 DTW 所缺乏的特性。由于這些原因,softDTW 的開發非常適合創建可以適當處理時間序列數據的 DRC 算法。
有很多理由考慮使用深度學習方法來模擬物理過程,尤其是大氣動力學。首先,傳統的 NWP 方法在計算上非常昂貴,因為相關的 PDE 必須在每個預測周期用新的初始條件和邊界條件求解。此外,增強預測能力和預測分辨率需要增加計算資源。具體來說,研究人員已經表明,將預測分辨率翻倍需要計算能力提高一個數量級 [24]。另一方面,一旦訓練了深度學習模型,獲得預測的速度相對較快。
其次,數據驅動的方法很靈活,可用于幫助從業者快速開始在沒有出現區域高分辨率 NWP 的位置進行本地化預測。這對軍隊來說是一個顯著的好處。例如,當部隊被派往建立新的前哨時,首要任務之一是建造一個機場,以便可以進行進出基地的運輸和行動。了解和預測機場內外氣象的能力對于前哨基地的成功至關重要。然而,這不僅適用于機場運營。各種任務規劃都需要準確的氣象評估,在許多此類海外環境中,沒有提供高分辨率預測的區域/本地 NWP 模型。由參謀長聯席會議發布的題為“氣象和海洋行動”的聯合出版物 3-59 [25] 明確闡述了這一點,指出其聯合氣象和海洋 (METOC) 行動的基石是準確性、一致性、相關性和及時性。為了實現準確度目標,他們指出,“METOC 數據和信息在代表當前和未來環境狀態時必須是可衡量的正確”[25]。關于及時性,他們說,“及時性原則取決于產品源自最新的可用數據,快速處理和傳播,并在適當的時間整合到規劃和執行過程中”[25]。深度學習、數據驅動的模型通過提供一種快速獲得任何給定區域的預測的方法,專門解決了準確性和及時性目標。
最后,盡管最近才成為主流研究領域,但數據驅動的方法并不排除結合已知的物理原理。原始方程提供了大氣量如何在空間和時間上相互變化的數學描述,對于手頭的問題而言是有價值的信息,而與特定的建模方法無關。這些方程可以在神經網絡訓練框架中使用,以激勵符合已知物理定律的預測。這種方法利用了這些變量之間已知的物理關系,同時也受益于深度神經網絡(DNN)提供的通用函數逼近能力[26]。
本研究提出了一種新穎的基于形狀、動態感知的 DRC 算法,用于在地理上而非時間上對氣象數據進行聚類。此外,我們的目標是通過利用深度學習來提高氣象預報的速度和定位,同時允許深度神經網絡利用已知的物理原理。
第二章將首先探討有關氣象預報的歷史、深度氣象預報的當前研究、Navier-Stokes 方程和基于物理的深度學習方法的文獻。在此之后,將討論氣象聚類、動力系統和 DRC。
第三章將介紹兩種基于軟 DTW 的 DRC 算法,這些算法在氣象數據中的應用,以及 Navier-Stokes 啟發的基于物理學的損失函數概念證明,用于氣象預報。最后,第四章和第五章將分別提供結果、結論和未來工作。
圖27:k=9 的聚類圖。僅來自自動編碼器的初始聚類結果在 (27a) 中重新顯示,兩個 epoch 訓練后的 SDTW-KM-DRC 和 SDTW-KLD-DRC 結果分別在 (27b) 和 (27c) 中顯示。
結構化數據的自適應處理是機器學習中一個長期存在的研究課題,研究如何自動學習從結構化輸入到各種性質的輸出的映射。最近,人們對圖形的自適應處理越來越感興趣,這導致了不同的基于神經網絡的方法的發展。在本論文中,我們采用不同的方法,開發了一個用于圖學習的貝葉斯深度學習框架。本論文首先回顧了該領域中大多數方法建立的原則,然后對圖分類再現性問題進行了研究。然后,通過以增量的方式構建我們的深度架構,我們繼續將深度學習的基本思想與貝葉斯世界聯系起來。這個框架允許我們考慮具有離散和連續邊緣特征的圖,產生足夠豐富的無監督嵌入,以達到在多個分類任務上的先進水平。該方法還支持貝葉斯非參數擴展,它可以自動選擇幾乎所有模型的超參數。兩個真實世界的應用證明了深度學習對圖形的有效性。第一個問題是用有監督的神經模型預測分子模擬的信息理論量。之后,我們利用貝葉斯模型來解決惡意軟件分類任務,同時對過程內代碼混淆技術具有魯棒性。最后,我們試圖將神經和貝葉斯世界的精華融合在一起。由此產生的混合模型能夠預測以輸入圖為條件的多模態分布,因此能夠比大多數工作更好地模擬隨機性和不確定性。總的來說,我們的目標是為圖形深度學習的研究領域提供一個貝葉斯視角。
摘要
文本分類是自然語言處理中最基本、最基本的任務。過去十年,由于深度學習取得了前所未有的成功,這一領域的研究激增。大量的方法、數據集和評價指標已經在文獻中提出,提高了全面和更新綜述的需要。本文通過回顧1961年到2020年的先進方法的現狀來填補這一空白,側重于從淺到深的模型學習。我們根據所涉及的文本和用于特征提取和分類的模型創建文本分類的分類法。然后我們詳細討論每一個類別,處理支持預測測試的技術發展和基準數據集。本綜述還提供了不同技術之間的綜合比較,以及確定各種評估指標的優缺點。最后,總結了本研究的關鍵意義、未來研究方向和面臨的挑戰。
介紹
在許多自然語言處理(NLP)應用中,文本分類(為文本指定預定義標簽的過程)是一個基本和重要的任務, 如情緒分析[1][2][3],主題標簽[4][5][6],問答[7][8][9]和對話行為分類。在信息爆炸的時代,手工對大量文本數據進行處理和分類是一項耗時且具有挑戰性的工作。此外,手工文本分類的準確性容易受到人為因素的影響,如疲勞、專業知識等。人們希望使用機器學習方法來自動化文本分類過程,以產生更可靠和較少主觀的結果。此外,通過定位所需信息,可以提高信息檢索效率,緩解信息超載的問題。 圖1給出了在淺層和深層分析的基礎上,文本分類所涉及的步驟流程圖。文本數據不同于數字、圖像或信號數據。它需要NLP技術來仔細處理。第一個重要的步驟是對模型的文本數據進行預處理。淺層學習模型通常需要通過人工方法獲得良好的樣本特征,然后用經典的機器學習算法對其進行分類。因此,特征提取在很大程度上制約了該方法的有效性。然而,與淺層模型不同,深度學習通過學習一組直接將特征映射到輸出的非線性轉換,將特征工程集成到模型擬合過程中。
主要文本分類方法的示意圖如圖2所示。從20世紀60年代到21世紀10年代,基于淺層學習的文本分類模型占據了主導地位。淺層學習意味著在樂此不疲的模型,如 Na??ve Bayes(NB)[10], K-近鄰(KNN)[11],和支持向量機(SVM)[12]。與早期基于規則的方法相比,該方法在準確性和穩定性方面具有明顯的優勢。然而,這些方法仍然需要進行特征工程,這是非常耗時和昂貴的。此外,它們往往忽略文本數據中自然的順序結構或上下文信息,使學習詞匯的語義信息變得困難。自2010年代以來,文本分類逐漸從淺層學習模式向深度學習模式轉變。與基于淺層學習的方法相比,深度學習方法避免了人工設計規則和特征,并自動提供文本挖掘的語義意義表示。因此,大部分文本分類研究工作都是基于DNNs的,這是一種計算復雜度很高的數據驅動方法。很少有人關注于用淺層學習模型來解決計算和數據的局限性。
在文獻中,Kowsari等[13]考慮了不同的文本特征提取、降維方法、文本分類的基本模型結構和評價方法。Minaee等人[14]回顧了最近基于深度學習的文本分類方法、基準數據集和評估指標。與現有的文本分類研究不同,我們利用近年來的研究成果對現有的模型進行了從淺到深的總結。淺層學習模型強調特征提取和分類器設計。一旦文本具有精心設計的特征,就可以通過訓練分類器來快速收斂。在不需要領域知識的情況下,DNNs可以自動進行特征提取和學習。然后給出了單標簽和多標簽任務的數據集和評價指標,并從數據、模型和性能的角度總結了未來的研究挑戰。此外,我們在4個表中總結了各種信息,包括經典淺層和深度學習模型的必要信息、DNNs的技術細節、主要數據集的主要信息,以及在不同應用下的最新方法的一般基準。總而言之,本研究的主要貢獻如下:
我們在表1中介紹了文本分類的過程和發展,并總結了經典模式在出版年份方面的必要信息,包括地點、應用、引用和代碼鏈接。
根據模型結構,從淺層學習模型到深度學習模型,對主要模型進行了全面的分析和研究。我們在表2中對經典或更具體的模型進行了總結,并主要從基本模型、度量和實驗數據集方面概述了設計差異。
我們介紹了現有的數據集,并給出了主要的評價指標的制定,包括單標簽和多標簽文本分類任務。我們在表3中總結了基本數據集的必要信息,包括類別的數量,平均句子長度,每個數據集的大小,相關的論文和數據地址。
我們在表5中總結了經典模型在基準數據集上的分類精度得分,并通過討論文本分類面臨的主要挑戰和本研究的關鍵意義來總結綜述結果。
盡管在深度學習方面取得了最近的進展,但大多數方法仍然采用類似“筒倉”的解決方案,專注于孤立地學習每個任務:為每個單獨的任務訓練一個單獨的神經網絡。然而,許多現實問題需要多模態方法,因此需要多任務模型。多任務學習(MTL)旨在利用跨任務的有用信息來提高模型的泛化能力。在這個綜述中,我們提供了一個最先進的在深度神經網絡的背景下MTL技術的全面觀點。我們的貢獻涉及以下方面。首先,我們從網絡架構的角度來考慮MTL。我們包括了一個廣泛的概述,并討論了最近流行的MTL模型的優缺點。其次,我們研究了解決多任務聯合學習的各種優化方法。我們總結了這些工作的定性要素,并探討了它們的共性和差異。最后,我們在各種數據集上提供了廣泛的實驗評估,以檢查不同方法的優缺點,包括基于架構和優化的策略。
概述
在過去的十年中,神經網絡在許多任務中都顯示了令人印象深刻的結果,例如語義分割[1],實例分割[2]和單目深度估計[3]。傳統上,這些任務是單獨處理的,即為每個任務訓練一個單獨的神經網絡。然而,許多現實世界的問題本質上是多模態的。例如,一輛自動駕駛汽車應該能夠檢測場景中的所有物體,定位它們,了解它們是什么,估計它們的距離和軌跡,等等,以便在它的周圍安全導航。同樣的,一個智能廣告系統應該能夠在它的視點上檢測到人們的存在,了解他們的性別和年齡,分析他們的外貌,跟蹤他們正在看的地方,等等,從而提供個性化的內容。與此同時,人類非常擅長同時解決許多任務。生物數據處理似乎也遵循多任務處理策略: 不同的處理過程似乎共享大腦中相同的早期處理層,而不是將任務分開單獨處理。上述觀察結果促使研究人員開發了多任務學習(MTL)模型,即給定一個輸入圖像可以推斷出所有所需的任務輸出。
在深度學習時代之前,MTL工作試圖對任務之間的共同信息進行建模,希望通過聯合任務學習獲得更好的泛化性能。為了實現這一點,他們在任務參數空間上放置了假設,例如:任務參數應該彼此靠近w.r.t.一些距離度量[5],[6],[16]0,[16]2,共享一個共同的概率先驗[16]1,[10],[11],[12],[13],或駐留在一個低維子空間[14],[15],[16]或流形[17]。當所有任務都是相關的[5]、[14]、[18]、[19]時,這些假設可以很好地工作,但是如果在不相關的任務之間發生信息共享,則可能導致性能下降。后者是MTL中已知的問題,稱為負轉移。為了緩解這一問題,其中一些研究人員選擇根據先前對任務的相似性或相關性的認識將任務分組。
在深度學習時代,MTL轉化為能夠從多任務監控信號中學習共享表示的網絡設計。與單任務情況下,每個單獨的任務由自己的網絡單獨解決相比,這種多任務網絡理論上給表帶來了幾個優點。首先,由于它們固有的層共享,結果內存占用大大減少。其次,由于他們明確地避免重復計算共享層中的特征,每次都要計算一次,因此他們的推理速度有所提高。最重要的是,如果相關的任務能夠分享互補的信息,或者互相調節,它們就有可能提高績效。對于前者,文獻已經為某些對任務提供了證據,如檢測和分類[20],[21],檢測和分割[2],[22],分割和深度估計[23],[24],而對于后者,最近的努力指向了那個方向[25]。這些工作導致了第一個深度多任務網絡的發展,歷史上分為軟或硬參數共享技術。
在本文中,我們回顧了在深度神經網絡范圍內的MTL的最新方法。首先,我們對MTL基于架構和優化的策略進行了廣泛的概述。對于每種方法,我們描述了其關鍵方面,討論了與相關工作的共性和差異,并提出了可能的優點或缺點。最后,我們對所描述的方法進行了廣泛的實驗分析,得出了幾個關鍵的發現。我們在下面總結了我們的一些結論,并提出了未來工作的一些可能性。
首先,MTL的性能在很大程度上取決于任務字典。它的大小、任務類型、標簽源等等,都影響最終的結果。因此,最好根據每個案例選擇合適的架構和優化策略。盡管我們提供了具體的觀察結果,說明為什么某些方法在特定設置中工作得更好,但是MTL通常可以從更深的理論理解中獲益,從而在每種情況下最大化預期收益。例如,這些收益似乎取決于多種因素,例如數據量、任務關系、噪音等。未來的工作應該嘗試分離和分析這些不同因素的影響。
其次,當使用單一MTL模型處理多個密集預測任務時,基于解碼器的架構目前在多任務性能方面提供了更多優勢,與基于編碼器的架構相比,其計算開銷有限。如前所述,這是由于基于解碼器的體系結構促進了常見的跨任務模式的對齊,這自然很適合密集的預測任務。基于編碼器的架構在密集預測任務設置中仍然具有一定的優勢,但其固有的層共享似乎更適合處理多個分類任務。
最后,我們分析了多種任務均衡策略,并分離出對任務均衡學習最有效的要素,如降低噪聲任務的權重、平衡任務梯度等。然而,許多優化方面仍然缺乏了解。與最近的研究相反,我們的分析表明避免任務之間的梯度競爭會損害性能。此外,我們的研究顯示,一些任務平衡策略仍然存在不足,突出了現有方法之間的一些差異。我們希望這項工作能促進對這一問題的進一步研究。