亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

監督下的深度學習算法正在重新定義目標檢測和分類的最先進技術。然而,訓練這些算法需要大量的數據集,而收集這些數據集通常是昂貴和耗時的。在國防和安全領域,當數據具有敏感性質時,例如軍用船只的紅外圖像,這可能變得不切實際。因此,算法的開發和訓練往往是在合成環境中進行的,但這使人懷疑解決方案對現實世界數據的通用性。

在本文中,我們研究了在不使用真實世界的紅外數據的情況下訓練紅外自動目標識別的深度學習算法。使用目標-導彈交戰模擬軟件和10個高保真計算機輔助設計模型,生成了一個長波紅外波段的海上船只紅外圖像的大型合成數據集。探索了訓練YOLOv3架構的多種方法,并隨后使用真實世界紅外數據的視頻序列進行了評估。實驗表明,用少量的半標記偽紅外圖像樣本來補充訓練數據,可以明顯提高性能。盡管沒有真實的紅外訓練數據,但在我們的真實世界測試數據上,平均精度和召回率分別達到了99%和93%的高分。為了進一步推動自動目標識別算法的發展和基準測試,本文還提供了我們的照片真實合成紅外圖像數據集。

付費5元查看完整內容

相關內容

人工智能解決方案在陸軍野戰應用中的使用將在很大程度上依賴于機器學習(ML)算法。當前的ML算法需要大量與任務相關的訓練數據,以使其在目標和活動識別以及高級決策等任務中表現出色。戰場數據源可能是異構的,包含多種傳感模式。目前用于訓練ML方法的開源數據集在內容和傳感模式方面都不能充分反映陸軍感興趣的場景和情況。目前正在推動使用合成數據來彌補與未來軍事多域作戰相關的真實世界訓練數據的不足。然而,目前還沒有系統的合成數據生成方法,能夠在一定程度上保證在此類數據上訓練的ML技術能夠改善真實世界的性能。與人工生成人類認為逼真的語音或圖像相比,本文為ML生成有效合成數據提出了更深層次的問題。

1 引言

人工智能(AI)是美國國防現代化的優先事項。美國國防部的人工智能戰略指示該部門加快采用人工智能并創建一支適合時代的部隊。因此,它自然也是陸軍現代化的優先事項。從陸軍多域作戰(MDO)的角度來看,人工智能是解決問題的重要因素,而MDO是建立在與對手交戰的分層對峙基礎上的。雖然人工智能本身沒有一個簡明和普遍接受的定義,但國防部人工智能戰略文件將其稱為 "機器執行通常需要人類智能的任務的能力--例如,識別模式、從經驗中學習、得出結論、進行預測或采取行動--無論是以數字方式還是作為自主物理系統背后的智能軟件"。這句話的意思是,當機器在沒有人類幫助的情況下獨立完成這些任務時,它就表現出了智能。過去十年中出現的人工智能解決方案的一個重要方面是,它們絕大多數都符合模式識別模式;在大多數情況下,它們根據經過訓練的人工神經網絡(ANN)對相同輸入數據的輸出結果,將輸入數據分配到數據類別中。具體來說,深度學習神經網絡(DNN)由多層人工神經元和連接權重組成,最初在已知類別的大量數據上進行訓練以確定權重,然后用于對應用中的實際輸入數據進行分類。因此,機器學習(ML),即自動機(這里指DNN)在訓練階段學習模式的過程,一直是一個主導主題。事實上,DNN在計算機視覺領域的成功是商業和政府部門加大對人工智能關注和投資的原因。訓練算法和軟件開發工具(如tensorflow)的進步、圖形處理器(GPU)等計算能力的可用性,以及通過社交媒體等途徑獲取大量數據,使得深度學習模型在許多應用中得到了快速探索。

在監督學習中,人類專家創建一組樣本來訓練ML算法,訓練數據與實際應用數據的接近程度對人工智能方法的性能起著重要作用。將ML模型應用于軍事問題的主要瓶頸是缺乏足夠數量的代表性數據來訓練這些模型。有人提出使用合成數據作為一種變通辦法。合成數據集具有某些優勢:

  • 它們帶有準確的地面實況。
  • 使用現成的模擬產品可輕松生成大量各種類型的數據。
  • 它們在程序上的障礙較少,例如,生物識別數據需要獲得機構審查委員會的許可。

然而,最關鍵的問題是在合成數據或混合合成和真實數據上訓練ML模型是否能使這些模型在真實數據上表現良好。美國陸軍作戰能力發展司令部陸軍研究實驗室的研究人員和合作者使用合成生成的人類視頻進行機器人手勢識別所獲得的初步結果表明,在合成數據和真實數據混合的基礎上進行訓練可以提高ML手勢識別器的性能。然而,并沒有普遍或分類的結果表明,當全部或部分使用合成數據進行訓練時,真實世界的ML性能會得到一致的提高。因此,有必要進行系統調查,以確定使用合成數據訓練ML方法的可信度。我們有理由假設,合成數據在提高ML性能方面的有效性將受到實際應用領域、合成數據與真實數據的保真度、訓練機制以及ML方法本身等因素的影響。合成數據與真實數據的保真度反過來又取決于數據合成方法,并提出了通過適當指標評估保真度的問題。以圖像為例,合成數據訓練的ML方法的性能與人類視覺感知的真實場景的保真度是否成正比并不清楚。有可能數據的一些關鍵特征對于ML的性能比那些影響人類感知的特征更為重要。組織這次陸軍科學規劃和戰略會議(ASPSM)的一個主要目的是讓合成數據生成、人工智能和機器學習(AI & ML)以及人類感知方面的頂尖學術界和國防部專家討論這些問題。會議的技術重點主要是圖像和視頻數據,反映了組織者在計算機視覺和場景感知方面的任務領域。

2 組織

根據上一節提出的問題,會議圍繞三個主題展開:

1.人類的學習和概括: 人類可以從最小的抽象和描述概括到復雜的對象。例如,在許多情況下,觀察一個物體的卡通圖像或線描,就足以讓人類在真實場景中識別出實際的三維物體,盡管后者比卡通圖像或線描具有更復雜的屬性。 這遠遠超出了當前人工智能和ML系統的能力。如果能夠開發出這種能力,將大大減輕數據合成機器的負擔,確保真實數據的所有屬性都嚴格保真。這個例子也說明了一個事實,即用于訓練ML模型的合成數據生成研究與提高ML模型本身的能力密切相關。因此,這項研究的重點是探索人類和動物的學習,以啟發ML和數據合成的新方法。

2.數據合成方法和驗證: 大多數應用ML方法的領域都有針對其領域的數據合成技術和工具。游戲平臺提供了一個流行的視頻合成商業范例。問題是如何評估特定領域中不同合成方法的性能。顯然,我們必須確定執行此類評估的指標或標準。通常情況下,合成工具的作者也會就工具的性能或功效發表聲明。驗證將是評估此類聲明的過程。本研究的目的是探討指導合成和驗證過程的原則。合成技術的例子包括基于計算機圖形的渲染器(如電影中使用的)、基于物理的模擬(如紅外圖像)和生成模型(目前傾向于基于神經網絡)。

3.領域適應挑戰: ML中的領域適應是指使用一個領域(稱為源領域)的數據訓練ML模型,然后將ML應用于不同但相關領域(稱為目標領域)的數據。例如,使用主要為民用車輛的源圖像數據集訓練識別車輛的ML算法,然后使用訓練好的算法識別主要為軍用車輛的目標數據集中的車輛。在使用合成數據進行訓練時,它們通常構成源域,而實際應用數據則是目標域。本次會議的重點是確定和討論有效領域適應中的關鍵問題和挑戰。

ASPSM的審議分四次會議進行。第一天的兩場會議討論了前兩個主題。第二天的第一場會議討論第三個主題,第二場會議在三個主題下進行分組討論。ASPSM兩天的日程安排分別如圖1和圖2所示。從圖中可以看出,每個主題會議首先由該領域的學術專家進行40分鐘的主講,然后由大學專家進行兩個20分鐘的講座。隨后由來自學術界和國防部的專家組成的小組進行討論。最后一個環節是分組討論,與會者可以討論與主題相關的各個方面。

3 口頭報告和小組討論

麻省理工學院電子工程與計算機科學系的Antonio Torralba教授在第一分會場發表了關于人類學習與泛化的主題演講。他的演講題目是 "從視覺、觸覺和聽覺中學習",深入探討了深度學習方法如何在不使用大量標注訓練數據的情況下發現有意義的場景表征。舉例說明了他們的DNN如何在視覺場景和環境中的聲音之間建立聯系。讀者可參閱Aytar等人關于這一主題的代表性文章。

同樣來自麻省理工學院的James DiCarlo博士的下一個演講題目是 "視覺智能逆向工程"。他將 "逆向工程 "定義為根據對行為的觀察和對輸入的反應推斷大腦的內部過程,將 "正向工程 "定義為創建ANN模型,以便在相同輸入的情況下產生相應的行為。他的研究小組的一個目標是建立神經認知任務的性能基準,人類或其他靈長類動物以及ML模型可以同時達到這些基準。他的演講展示了大腦處理模型如何適應ANN實現的初步結果,并提出了ANN通過結合這些適應密切模擬人類行為,進而準確描述大腦功能的理由。

第一場會議的第三場講座由加州大學伯克利分校的Jitendra Malik教授主講,題為 "圖靈的嬰兒"。這個題目也許是指最早的電子存儲程序計算機之一,綽號 "寶貝",其創造者之一受到了阿蘭-圖靈的啟發。馬利克教授首先引用了圖靈的觀點:與其創建一個模擬成人思維的程序,不如從模擬兒童思維開始。從本質上講,這意味著創造一種人工智能,通過與環境互動以及向其他人工智能和人類學習來學習和成長。這被稱為具身機器智能。馬利克教授認為,監督學習本質上是處理靜態數據集,因此顯示了在精心策劃的時間點上運行的非實體智能。具體而言,他認為監督訓練方法不適合創建能夠提供人類水平的世界理解,特別是人類行為理解的人工智能。Malik教授介紹了 "Habitat",這是一個由他和他的合作者開發的平臺,用于嵌入式人工智能的研究。在隨后的小組討論中,與會人員討論了演講者所涉及的主題,以及與機器人學習和當前兒童智力發展模型相關的主題。

第二部分“數據合成:方法和驗證”以一個題為“學習生成還是生成學習?”,作者是斯坦福大學的Leonidas gu教授。在研究用于訓練ML的合成數據生成的動機中,他指出可以減輕大量人工注釋訓練數據的負擔。他的前提是,無論合成數據是用于訓練ML還是供人類使用,其生成效率和真實性都非常重要。不過,他表示其他質量指標還沒有得到很好的定義,需要進一步研究。他舉例說明了在混合合成數據和真實數據上訓練ML時,ML的物體識別性能有所提高,但他也承認很難得出可推廣的結論。

卡內基梅隆大學的Jessica Hodgins博士發表了第二場會議的第二個演講,題為 "生成和使用合成數據進行訓練"。演講展示了她的研究小組生成的精細合成場景。利用從真實場景到合成場景的風格轉移過程,她的研究小組創造了一些實例,說明在混合了大量風格適應的合成數據和一些真實數據的基礎上進行訓練的ML方法的性能優于僅在真實數據集或僅在合成數據集上進行訓練的方法。性能提高的原因在于風格轉移克服了合成數據集與真實數據集之間的 "分布差距"。

第二場會議的最后一場講座由加州大學伯克利分校的Trevor Darrell教授主講。他的演講題為 "生成、增強和調整復雜場景",分為三個部分。第一部分詳細介紹了演講者及其核心研究人員開發的一種名為 "語義瓶頸場景生成 "的技術,用于根據地面實況標簽合成場景。該技術可進一步與通過生成過程生成此類地面標簽的模型相結合。Azadi等人對該技術進行了詳細描述。 第二部分涉及增強和自我監督學習。發言人提出,當前的對比學習方法在合成增強數據時建立了不變量,而這些不變量可能是有益的,也可能是無益的。例如,建立旋轉不變性可能有利于識別場景中的花朵,但可能會阻礙對特定方向物體的有效識別。演講者介紹了他的研究小組考慮具有特定不變性的多種學習路徑的方法,并展示了與現有技術相比性能有所提高的結果。 第三部分介紹了一種名為 "Tent"(測試熵)的技術。其前提是DNN應用過程中遇到的數據分布可能與訓練數據不同,從而導致性能下降。因此,需要對DNN參數進行實時或測試時調整,以防止性能下降。Tent技術通過調整權重使DNN輸出的測量熵最小化來實現這一目標。演講者隨后用常用數據集展示了該技術相對于先前方法的改進性能。隨后的小組討論涉及合成方面的挑戰,尤其是紅外圖像方面的挑戰。

第二天的第三場會議以 "領域轉移的挑戰 "開始。約翰霍普金斯大學布隆伯格特聘教授Rama Chellappa博士發表了題為 "解決美國防部實際問題的綜合數據期望與最大化"的演講。演講首先回顧了過去二十年來國防部處理合成圖像的多個項目的歷史。他提出了一個重要論斷,即如果在合成過程中考慮到真實數據的物理特性,那么真實數據和合成數據之間的領域轉換就會減少。Chellappa教授還就領域自適應表示法提供了快速教程,涵蓋了正規數學方法以及較新的生成對抗網絡(GANs)。演講者及其核心研究人員開發的基于GAN的方法可以修改合成數據的分布,使之與目標分布相匹配。講座舉例說明了這種方法優于之前的非GAN方法。

佐治亞理工學院的Judy Hoffman教授發表了題為 "從多個數據源進行泛化的挑戰 "的演講。她考慮的問題是在模擬中學習模型,然后將模型應用于現實世界。她指出了四個挑戰: 生成、列舉、泛化和適應。發言人介紹了應對這些挑戰的幾種不同方法。具體來說,用于泛化的特定領域掩碼(DMG)方法通過平衡特定領域和領域不變特征表征來生成一個能夠提供有效領域泛化的單一模型,從而解決多源領域學習問題。

第三場會議的第三位也是最后一位演講者是波士頓大學的Kate Saenko教授,他的演講題目是 "圖像分類和分割的Sim2Real領域轉移的最新進展和挑戰"。Saenko教授延續了前兩場講座的主題,介紹了視覺領域適應的歷史,并探討了領域和數據集偏差問題。在糾正數據集偏差的不同方法中,講座詳細討論了領域適應。特別重要的是,Saenko教授及其合作者開發的技術能夠顯示合成到真實的適應性,就像從游戲引擎到真實數據一樣。隨后的小組討論提出了幾個有趣的問題,包括訓練域和測試域的不同,不是感興趣的對象不同,而是對象所處的環境不同,例如訓練時軍用車輛在沙漠環境中,而測試時則在熱帶植被背景中。

4 分組討論

三個主題的分組討論同時進行。在 "人類學習與泛化 "分組討論中,首先討論了 "人類如何學習?"、"ML模型如何模仿人類過程?"以及 "合成數據如何實現這些過程?"等問題。從童年到青春期和成年期,學習和成長之間的關系成為關鍵點。其他被認為有助于人類學習的因素包括人類心理、情感、同時參與多維活動、記憶以及解除學習的能力。

關于 "數據綜合: 方法與驗證 "分論壇確定了數據合成的幾個問題,特別是圖像和視頻。主要問題涉及結合物理學的有用性、視覺外觀保真度與成本之間的權衡、保真度的衡量標準、保真度本身的重要性以及當前技術(包括GANs技術)的局限性。據觀察,合成圖像和視頻生成至少已有幾十年的歷史,但大多數產品要么是為視覺效果而設計,要么是為再現物理測量而設計(例如,紅外模擬中的輻射剖面)。它們并不適合用于ML培訓。提出的另一個問題是,合成的二維圖像必須與物體和環境的底層三維幾何圖形保持一致。還有人提出,能夠在特定的感興趣的環境中生成大量合成數據,可以作為第一道工序測試新的人工智能和ML方法,而不管這些方法是否能夠在真實數據中很好地工作。

專題3 "領域轉移挑戰 "的分組討論確定了MDO所需的關鍵人工智能能力,即從孤立學習到機器與人類之間的聯合或協作學習。會議還討論了在多種數據模式下同時訓練ML的聯合學習。人們認識到,這些領域的工作才剛剛開始。分組討論的牽頭人強調,需要向士兵明確說明基于人工智能的系統在特定情況下將會做什么。這引發了對系統魯棒性的討論。分組組長向ASPSM聽眾提供了討論摘要。

5 差距和建議

根據本次ASPSM的討論,我們確定了以下值得陸軍進一步進行科技投資的領域:

1.支持多模式互動學習的合成技術和數據集。與當前流行的捕捉 "時間瞬間 "的靜態數據集(如農村環境中的車輛圖像)相比,有必要開發更能代表支持持續學習的體現性體驗的模擬器,就像我們在人類身上看到的那樣,并實現對世界更豐富的表征。混合方法(如增強現實)也可將人類監督的優勢與合成環境的靈活性結合起來。

2.學習和合成因果關系和層次關系的算法和架構。最近的一些方法,如基于圖的卷積神經網絡,已經在學習空間和時間的層次關系(如物體-部件和因果關系)方面顯示出前景。鑒于在現實世界中收集和注釋此類數據的復雜性,合成數據的生成可能特別有用。識別層次關系是一般國防部和戰場情報分析的關鍵要素。

3.支持持續、增量、多模態學習的算法和架構。深度強化學習方法被成功地用于訓練虛擬或機器人代理的相關行動策略,如捕食者與獵物之間的相互作用。基于模仿的方法承認學習的社會性,通常讓代理與(通常是人類)教師合作學習新策略。這些類型的交互式持續學習可進一步與多模態學習(即融合來自多個傳感器的數據)相結合,以實現更豐富的世界表征,使其更穩健、更具通用性。同樣,在這一領域難以獲得大量經過整理的數據,這也為探索合成引擎提供了動力。

4.學習物理或具備相關物理領域知識的算法和架構。在許多領域(例如紅外光下的物體感知),從圖像感知和合成圖像需要了解世界的基本物理特性,例如光與材料之間的相互作用。然而,當前的深度學習模型缺乏這種物理知識。開發賦予ML物理領域知識的技術對這些系統的性能至關重要。

5.具有豐富中間表征的領域適應技術。為了縮小真實數據和合成數據之間的領域差距,必須進一步推動當前建立領域不變中間表征的趨勢,特別是使用語義詞典和生成式對抗網絡。能夠理解數據底層結構(如光照、旋轉、顏色)的表征更有可能成功抽象出合成數據中不重要的細節。

6.深入了解ML模型內部表征的方法,以及合成表征與真實表征的比較。網絡剖析技術 "打開 "了深度學習模型的隱藏層,允許解釋網絡中的每個階段正在學習哪些特定概念或其更細的方面。這些技術揭示了具有真實輸入和合成輸入的DNN的內部表征,有助于識別所學內容的關鍵差異,從而找到克服這些差異的解決方案。

6 結論

為期兩天的虛擬ASPSM吸引了眾多美國防部科學家和工程師、頂尖學術專家以及科技項目管理人員的熱情參與。多學科的討論強化了這樣一種觀點,即開發用于訓練ML方法的生成合成數據的改進方法與理解和改進ML方法本身是分不開的。一個特別重要的需求是了解ML方法,尤其是當前的學習架構,是如何創建場景的內部表示的。另外兩個重要領域是:1)理解人類學習與ML世界中可能存在的學習之間的異同;2)多模態數據--從合成和ML的角度。我們預計近期國防部和學術研究人員將在本報告確定的領域加強合作。

付費5元查看完整內容

長期目標

在決策或推理網絡中進行適當的推理,需要指揮官(融合中心)對每個下屬的輸入賦予相對權重。最近的工作解決了在復雜網絡中估計智能體行為的問題,其中社會網絡是一個突出的例子。這些工作在各種指揮和控制領域具有相當大的實際意義。然而,這些工作可能受限于理想化假設:指揮官(融合中心)擁有所有下屬歷史全部信息,并且可以假設這些歷史信息之間具有條件統計獨立性。在擬議的項目中,我們打算探索更普遍的情況:依賴性傳感器、(可能的)依賴性的未知結構、缺失的數據和下屬身份被掩蓋/摻雜/完全缺失。對于這樣的動態融合推理問題,我們建議在一些方向上擴展成果:探索數據源之間的依賴性(物理接近或 "群體思維"),在推理任務和量化不一定匹配的情況下,采用有用的通信策略,甚至在每個測量源的身份未知的情況下,采用無標簽的方式--這是數據關聯問題的一種形式。

我們還認識到,對動態情況的推斷是關鍵目標所在。考慮到一個涉及測量和物理 "目標 "的傳統框架,這是一個熟悉的跟蹤問題。但是,來自目標跟蹤和多傳感器數據關聯的技術能否應用于提取非物理狀態(物理狀態如雷達觀察到的飛機)?一個例子可能是恐怖主義威脅或作戰計劃--這些都是通過情報報告和遙測等測量手段從多個來源觀察到的,甚至可能被認為包含了新聞或金融交易等民用來源。這些都不是標準數據,這里所關注的動態系統也不是通常的運動學系統。盡管如此,我們注意到與傳統的目標追蹤有很多共同點(因此也有機會應用成熟的和新興的工具):可能有多個 "目標",有雜波,有可以通過統計學建模的行為。對于這種動態系統的融合推理,我們的目標是提取不尋常的動態模式,這些模式正在演變,值得密切關注。我們特別建議通過將雜波建模為類似活動的豐富集合,并將現代多傳感器數據關聯技術應用于這項任務,來提取特征(身份)信息。

目標

研究的重點是在具有融合觀測的動態系統中進行可靠推理。

方法

1.決策人身份不明。在作戰情況下,融合中心(指揮官)很可能從下屬那里收到無序的傳感器報告:他們的身份可能是混合的,甚至完全沒有。這種情況在 "大數據 "應用中可能是一個問題,在這種情況下,數據血統可能會丟失或由于存儲的原因被丟棄。前一種情況對任務1提出了一個有趣的轉折:身份信息有很強的先驗性,但必須推斷出身份錯誤的位置;建議使用EM算法。然而,這可能會使所有的身份信息都丟。在這種情況下,提出了類型的方法來完成對局部(無標簽)信念水平和正在進行的最佳決策的聯合推斷。

2.動態系統融合推理的操作點。在以前的支持下,我們已經探索了動態事件的提取:我們已經開發了一個合理的隱馬爾科夫模型,學會了提取(身份)特征,有一個多伯努利過濾器啟發的提取方法 - 甚至提供了一些理論分析。作為擬議工作的一部分,將以兩種方式進行擴展。首先,打算將測量結果作為一個融合的數據流,這些數據來自必須被估計的未知可信度的來源。第二,每個這樣的信息源必須被假定為雜亂無章的 "環境 "事件(如一個家庭去度假的財務和旅行足跡),這些事件雖然是良性的,可能也不復雜,但卻是動態的,在某種意義上與所尋求的威脅類似。這些必須被建模(從數據中)和抑制(由多目標追蹤器)。

3.數據融合中的身份不確定性。當數據要從多個來源融合時,當這些數據指的是多個真相對象時,一個關鍵的問題是要確定一個傳感器的哪些數據與另一個傳感器的哪些數據相匹配:"數據關聯 "問題。實際上,這種融合的手段--甚至關聯過程的好方法--都是相當知名的。缺少的是對所做關聯的質量的理解。我們試圖提供這一點,并且我們打算探索傳感器偏差和定位的影響。

4.具有極端通信約束的傳感器網絡。考慮由位置未知、位置受漂移和擴散影響的傳感器網絡進行推理--一個泊松場。此外,假設在這樣的網絡中,傳感器雖然知道自己的身份和其他相關的數據,但為了保護帶寬,選擇不向融合中心傳輸這些數據。可以做什么?又會失去什么?我們研究這些問題,以及評估身份與觀察的作用(在信息論意義上)。也就是說,假設對兩個帶寬相等的網絡進行比較;一個有n個傳感器,只傳輸觀察;另一個有n/2個傳感器,同時傳輸數據和身份。哪一個更合適,什么時候更合適?

5.追蹤COVID-19的流行病狀況。誠然,流行病學并不在擬議研究的直接范圍內,但考慮到所代表的技能以及在目前的健康緊急情況下對這些技能的迫切需要,投機取巧似乎是合理的。通過美國和意大利研究人員組成的聯合小組,我們已經證明,我們可以從當局提供的每日--可能是不確定的--公開信息中可靠地估計和預測感染的演變,例如,每日感染者和康復者的數量。當應用于意大利倫巴第地區和美國的真實數據時,所提出的方法能夠估計感染和恢復參數,并能很準確地跟蹤和預測流行病學曲線。我們目前正在將我們的方法擴展到數據分割、變化檢測(如感染人數的增加/減少)和區域聚類。

付費5元查看完整內容

由于多種因素的影響,自動機器學習(AutoML)這些年一直在快速發展,數據科學家需要創建機器學習管道原型來決定如何進行解決,并為非專業人士提供解決方案。已經創建了一些AutoML框架,但它們受到能解決的問題類型、機器學習原語的數量、管道表示語言和嚴格數據描述的限制。這些限制大多是由相當大的工程量造成的。D3M項目旨在擴大AutoML的范圍,提供創建AutoML系統所需的工具,使其能夠解決超出大部分框架的問題類型,并為用戶提供工具,使機器學習工具不需要太多的專業知識。此外,該項目還致力于實現AutoML組件的標準化,以便對不同的框架進行公平的比較,并通過開源共享該項目期間創建的基礎設施來幫助研發界改善該領域。

本文在D3M上的工作主要集中在兩個方面:在D3M小組內創建標準化AutoML工具,以及創建具有不同目的的AutoML系統和框架。在這份報告中,將介紹對該項目的主要貢獻以及AutoML系統的演變。在該項目中,創建了評估AutoML系統的工具,開發了三個AutoML系統,開發了被多個系統廣泛使用的原型,設計了測試原型的自動化框架,并通過創建AutoKeras對AutoML研發界產生了巨大影響。

付費5元查看完整內容

對美國陸軍戰備來說,基于模擬的訓練提供了一種成本和時間效益高的方式來保持人員對其角色、責任、戰術和行動的充分了解。目前,由模擬支持的演習需要很長的計劃時間和大量的資源。盡管半自動化的軍事模擬提供了基本的行為人工智能來協助完成參與者的角色,但它們仍然需要人類模擬操作員來控制友軍和敵軍。演習支持模擬操作員直接來自預期的訓練對象,分配給士兵的角色扮演職責與他們組織的訓練。單位用他們團隊的一小部分人進行訓練,降低了訓練質量和整體效果。減少開銷和提高模擬支持訓練質量的一個方法是實施全自動和自適應的敵對部隊(OPFOR)。

DeepMind的AlphaStar、AlphaZero和MuZero說明了機器學習研究的進展情況。使用大型數據集或通用算法,這些代理人學會了如何在復雜的戰斗性戰略游戲中發揮并擊敗職業玩家。這些游戲包括延遲和稀疏的獎勵、不完善的信息和大規模的狀態空間,所有這些功績都支持機器學習可能是在建設性的軍事模擬中開發適應性OPFOR的關鍵。

本文調查了關于使用機器學習進行自動OPFOR決策、計劃分類和智能體協調的現有文獻。這一分析是未來研究支持建設性軍事模擬自適應OPFOR的現有能力和局限性的一個起點。

付費5元查看完整內容

美國海軍陸戰隊必須以最低的成本用新興技術解決材料準備的挑戰。使用機器學習的預測性維修是一個不斷增長的領域,可以使用免費或商業化的現成軟件來應用。海軍航空組織已經維護了一個數據儲存庫網絡,收集和儲存可維修的飛行關鍵部件的當前和歷史數據。許多部件在其制造商公布的預期結構壽命之前就失效了,這導致了昂貴的非計劃性維修。預測部件故障并計劃其更換或維修的能力可以大大增加操作的準備性。本論文開發并分析了機器學習模型,利用現有的海軍航空資料庫的數據來預測各種MV-22B飛行關鍵部件的故障條件概率。數據預處理、模型訓練和預測使用了現成的商業軟件。這項工作可以幫助提高材料的準備程度,并使軍事-航空人員適應決策中的新興技術。

引言

這篇論文研究了機器學習算法在改進以可靠性為中心的維修(RCM)和基于條件的維修(CBM)以提高海軍航空的飛機可靠性方面的潛力。

A.維修方面的背景

海軍陸戰隊司令說,該部隊收集和保留的許多數據沒有被新興技術充分開發(美國和Berger,2019)。國防部(DOD)的飛機平臺一直在努力實現年度戰備目標,盡管為其項目分配了大量預算(Crusher,2020)。使用新興技術的預測性維護可以利用這些大量的數據,為提高航空準備狀態提供一個具有成本效益的方法。指揮官還強調,由于可用資金有限,解決方案必須使用現有的軍事數據存儲庫。海軍航空系統司令部(NAVAIR)的數據庫--后勤分析和技術評估決策知識編程(DECKPLATE),每月上傳的記錄超過400億條,可以成為機器學習應用的一個良好來源。

雖然在解決飛機準備不足的根本原因方面正在做出重大努力,但指揮官們現在需要部分解決方案來完成他們的任務。幾年來,指揮官們采用了高拆解率(從一架飛機上拆下零件裝到另一架飛機上)以及將完全具備任務能力的飛機從部署后返回的中隊轉移到準備部署的中隊。盡管 "只有在滿足作戰目標的必要情況下才是可接受的管理選擇"(海軍部,2021年),拆解和中隊轉移已經成為常態。在2011年和2017年之間,由于缺乏現成的基本飛機(RBA),海軍陸戰隊在各中隊之間轉移了超過650架MV-22B Ospreys,以滿足飛行時間和行動要求(Eckstein,2017)。同時,需求也在增加。由于個別飛機的過度使用或使用不足,以及轉移和接受飛機所花費的額外工時,這些臨時解決方案損害了未來的準備工作。

維修行動分為計劃內和非計劃內(Susto等人,2015)。計劃內的維護是主動的,在一個部件退化或運行到故障之前完成。一個部件的定期維修頻率通常是基于供應商或原始設備制造商(OEM)公布的結構壽命限制和推薦的維修時間表。非計劃維修是在一個部件退化或失效時進行。圖1比較了海軍陸戰隊MV-22B飛機用于計劃內與非計劃內維修的維修工時(MMH)的數量。在2021年3月至2022年2月期間,計劃外維修比計劃內維修的頻率高5至6倍。這個比率表明飛機部件的嚴重不可靠,以及預測非計劃維修的困難。

圖 1. 計劃與計劃外維護工時。資料來源:NAVAIR 準備分析報告 (2022)。

定期維修是預防性的,或旨在持續檢查和維護部件,使其達到其使用壽命。對于美國海軍航空的 "型號系列"(TMS),部件的檢查和拆卸時間表公布在《檢查要求手冊》(海軍航空部隊指揮官,2021)的相關定期維修信息卡(PMIC)中。所有強制性的檢查、拆除或更換事件都包括在該手冊中,該手冊規定了定期維修計劃。間隔由供應商或工程可靠性和可維護性分析,以及RCM計劃的故障管理策略決定(國防部,2011,國防部,2020a)。由他們制作的PMIC卡規定了機群或部件的預定維修。這樣做的一個問題是,每架飛機或部件的維護間隔是相同的。這些間隔沒有考慮到一個獨特的部件或飛機的使用、服務歷史或歷史數據。

海軍航空業可以從基于需求證據的維修創新實踐中獲益,或對個別部件進行預測。近年來,RCM采用了基于狀態的維修+(CBM+)戰略來提高可靠性。CBM+戰略的一部分是使用機器學習,根據歷史證據預測一個部件何時會失效。由于海軍陸戰隊的航空屬于海軍航空的范疇,任何MV-22B RCM或CBM+活動都屬于艦隊準備中心指揮官(COMFRC)。東部艦隊戰備中心(FRC)的V22艦隊支持小組(FST)一直致力于通過許多舉措提高飛機和部件的可靠性。

其中一項舉措是利用統計模型估計MV-22B部件的故障概率。利用現有的海軍航空企業(NAE)數據庫中的歷史維修記錄,使用Weibull概率密度函數(PDF)來估計一個部件經歷特定故障模式之前的時間。圖2是一個失敗時間(TTF)的例子,顯示了MV-22B塔架轉換執行器(PCA)因密封損壞而失敗的百分比。對于PCA模型,預測機隊庫存的70%在3326個飛行小時前因密封損壞而需要拆除,而80%在3696個飛行小時前會失效。第五章討論了模型的準確性,但這種方法為利用相關故障數據改進預防性維修政策邁出了一步。

圖 2. Pylon 轉換執行器的 Weibull 模型。資料來源:FRC East V22 FST 維護優化 (2022)。

這個統計模型是根據定義的故障模式前的組件群的真實使用壽命來計算可靠性。圖3顯示了FRC East V22 FST所考慮的所有PCA故障模式的Weibull分析結果。

圖 3. 飛行小時數中預測的 PCA 故障率。資料來源:FRC East V22 FST 維護優化 (2022)。

當考慮到所有的故障模式時,一個部件的估計可靠性可以決定一個更好的計劃維修間隔。平均而言,70%的機隊庫存預測在大約3700飛行小時前需要拆除,而80%的機隊預測在大約4500飛行小時前會出現故障。項目領導層可以根據一個置信區間做出決定,以取代PMIC卡中公布的當前計劃維修間隔。這個間隔將適用于機群中的部件,并提高在評估的任何故障模式發生之前更換部件的可能性。通過真實的服務數據來改進預定維修,并且隨著數據的不斷收集,可以很容易地重新計算。

不幸的是,這種方法只提供了組件的累積故障概率。一個更好的方法是估計一個部件隨時間變化的條件性故障概率,也稱為危險率。機器學習模型,如Cox比例危險(CPH)模型和人工神經網絡(ANN)可能是有用的,因為它們最近被用于醫學研究,預測死亡率(Spooner等人,2020)。類似的工作可以使用DECKPLATE中保存的數據。

B.研究問題

本論文將重點討論以下研究問題。

主要問題。什么樣的機器學習算法能夠為飛機部件的預防性維護產生最佳的生存模型?

次要問題。DECKPLATE和其他資源庫中的哪些特征可以在預測部件存活率中得到利用?公布的PMIC要求和生存模型之間的平均故障時間(MTTF)有多大差異?對于適當的數據,Weibull等經典分布是否能很好地適應數據以估計未來的故障?

C.總結

第二章介紹了機器學習和可靠性分析的基本概念,并研究了以前使用機器學習進行預測性維護的嘗試。第三章更精確地描述了本論文所要解決的問題,以及所采用的一般方法。第四章描述了本論文所使用的方法以及其結構的合理性。第五章和第六章討論了本論文的結果和得出的結論。

付費5元查看完整內容

分類和回歸是監督機器學習處理的一些最重要的任務。過去已經針對這些任務提出了許多方法,例如前饋多層感知器、決策樹、支持向量機和極限學習機方法。最近,一種稱為子空間學習機/回歸器 (SLM/SLR) 的新方法已應用于低到中等維度的數據,并且顯示出優于其他類似方法的巨大優勢。本技術報告描述了 SLM/SLR 并追溯了其卓越性能背后的原因。

引言

長期以來,基于特征的分類和回歸任務一直由基于深度學習(DL)的模型處理,如FF-MLP、DT、SVM和ELM。這類模型已被發現特別有效,但它們也存在缺乏可解釋性、模型復雜度高和計算成本高等問題。它們都以不同的方式處理特征空間劃分這一共同任務。

我們提出了一個新的面向分類的機器學習模型,名為子空間學習機(SLM)。它通過將輸入的特征空間以分層的方式劃分為多個判別子空間,在簡單性和有效性之間找到一個平衡點。SLM完全不改變特征空間。SLM中的概率投影只是用于特征空間的劃分,而不產生新的特征。每個樹節點的分割都對應著通過權重和偏置學習的超平面分割。因此,兩個半子空間都可以被保留下來。SLM以前饋和概率的方式學習分區參數,它是高效和透明的。

我們在下面的章節中解釋SLM和其他流行的分類方法之間的區別。

1.1 前饋多層感知器(FF-MLP)

設計一個實用的MLP解決方案有兩種方法。

  • 通過反向傳播,在每層對參數進行微調。MLP的結構包括Tabu搜索(一種解決組合優化問題的元啟發算法)和模擬退火。 在卷積神經網絡(CNNs)的變體MLP中,卷積層在不同的空間位置共享神經元權重和偏置。全連接層與傳統MLP中的保持一致。它也是轉化器模型中的構建模塊。

  • MLP層是逐層構建的。在一種優化方法中,新增加的隱藏層的參數沒有反向傳播。在一種使用CNN的方法中,卷積操作將輸入特征空間變為輸出特征空間,作為下一層的輸入。之后,神經元中的非線性激活對輸出特征空間進行分割。只選擇二分之一的子空間來解決由級聯卷積操作引起的符號混淆問題。

1.2 決策樹(DT)

一個DT通過遞歸地一次選擇最具判別力的特征,將一個空間劃分為兩個子空間。在DT中選擇一個分區比較容易,因為它是在一個特征上進行的,但是它的判別能力很弱,所以它是一個弱分類器。對于高樹深,可以使用多個DT來避免對訓練數據的過度擬合。在這種情況下,它們中的每一個單獨都是一個弱的分類器,但它們的集合產生了一個強的分類器;例如,隨機森林(RF)分類器。

分類和回歸樹(CART)(以及類似的ID3)是經典的DT算法。它們是弱的分類器,但通過使用多個DT與自舉聚合和其他提升方法可以獲得更高的性能。它們仍然可能由于訓練和測試數據的分割不好以及訓練數據的過度擬合而失敗。與它們相比,一棵SLM樹(即SLM基線)可以利用通過概率投影獲得的判別特征,并在一個節點上實現多次分割。SLM一般會產生更寬更淺的樹。

1.3 隨機森林(RF)

一個RF由多個決策樹組成,其預測性能取決于:1)單個樹的強度;2)對它們的依賴性的衡量,應該是比較低的。RF訓練在建立樹的過程中只需要一部分訓練樣本和它們的特征。因此,它以每個DT的強度換取一般的集合性能,以實現更高的多樣性。為了實現不相關的個體樹,已經提出了幾種設計,如下所示。

  • 套袋法通過在訓練集中隨機選擇并替換來建立每棵樹。

  • 隨機分割選擇在最佳分割中隨機選擇一個節點的分割。

  • 選擇一個隨機的特征子集來生長每棵樹。

RF使用分袋和特征隨機性,在森林中創建不相關的樹,它們的綜合預測比單個樹的預測更準確。相比之下,SLM森林構建過程使用所有訓練樣本和整個特征空間。它利用特征隨機性來實現每個SLM樹的多樣性(在第3.1節中描述)。在構建SLM森林時,單個SLM樹的有效多樣性和強度仍然不受影響。所以,SLM森林在樹的數量上實現了更好的預測性能和更快的收斂性。

1.4 支持向量機(SVM)

SVM算法試圖在N維空間中找到一個超平面(N=特征的數量)。最佳的超平面具有最大的余量或與所有類別的數據點的距離。支持向量是更接近超平面的數據點,影響超平面的位置和方向。它們被用來最大化余量。

1.5 極限學習機(ELM)

它將一個高維空間隨機投射到一個一維空間,以找到相關一維空間中的最佳分割點。隨機投影學習模型的理論及其特性(如插值和通用近似)已被研究。ELM在實踐中對于高特征維度來說并不高效,因為需要多次試驗才能找到好的投影。它采用了隨機權重來訓練前饋神經網絡。MLP可以通過添加具有隨機生成權重的新層來建立ELM。然而,由于需要較長的訓練時間和較大的搜索空間的模型大小,它在實踐中是低效的。

SLM Baseline確實考慮到了效率問題,它通過概率投影建立一個通用的DT,通過利用大多數具有幾個超參數的判別特征來減少搜索空間。我們使用 "概率投影 "而不是 "隨機投影 "來強調它們的區別。

1.6 梯度提升決策樹(GBDT)

梯度提升是另一種弱學習器的集合方法。它建立了一連串的弱預測模型。每個新的模型都試圖補償之前模型中留下的預測殘余。梯度提升決策樹(GBDT)方法包括:1)標準梯度提升;2)XGBoost。它在泰勒級數中擴展了一個一般的損失函數,并定義了一個增益來進行比標準DT更有效的節點分割。

SLM Boost模仿了XGBoost的提升過程,但用SLM樹代替了DT。與標準GBDT方法相比,SLM Boost實現了更快的收斂和更好的性能,因為SLM樹的性能更強。

付費5元查看完整內容

在學習型網絡物理系統(LE-CPS)中使用的機器學習模型,如自動駕駛汽車,需要能夠在可能的新環境中獨立決策,這可能與他們的訓練環境不同。衡量這種泛化能力和預測機器學習模型在新場景中的行為是非常困難的。在許多領域,如計算機視覺[1]、語音識別[2]和文本分析[3]的標準數據集上,學習型組件(LEC),特別是深度神經網絡(DNN)的成功并不代表它們在開放世界中的表現,在那里輸入可能不屬于DNN被訓練的訓練分布。因此,這抑制了它們在安全關鍵系統中的部署,如自動駕駛汽車[4]、飛機防撞[5]、戰場上的自主網絡物理系統(CPS)網絡系統[6]和醫療診斷[7]。這種脆性和由此產生的對基于DNN的人工智能(AI)系統的不信任,由于對DNN預測的高度信任而變得更加嚴重,甚至在預測通常不正確的情況下,對超出分布范圍(OOD)的輸入也是如此。文獻[8, 9]中廣泛報道了這種對分布外(OOD)輸入的不正確預測的高信心,并歸因于模型在負對數似然空間中的過度擬合。要在高安全性的應用中負責任地部署 DNN 模型,就必須檢測那些 DNN 不能被信任的輸入和場景,因此,必須放棄做出決定。那么問題來了:我們能不能把這些機器學習模型放在一個監測架構中,在那里它們的故障可以被檢測出來,并被掩蓋或容忍?

我們認為,我們已經確定了這樣一個用于高安全性學習的CPS的候選架構:在這個架構中,我們建立一個預測性的上下文模型,而不是直接使用深度學習模型的輸出,我們首先驗證并將其與上下文模型融合,以檢測輸入是否會給模型帶來驚喜。這似乎是一個語義學的練習--即使是通常的機器學習模型通常也會 "融合 "來自不同傳感器的解釋,這些解釋構成了模型的輸入,并隨著時間的推移進行整理--但我們認為,我們提出的監測架構相當于重點的轉移,并帶來了新的技術,正如我們將在本報告中說明的。我們建議,一個更好的方法是根據背景模型來評估輸入:模型是我們所學到的和所信任的一切的積累,根據它來評估新的輸入比只預測孤立的輸入更有意義。這是我們推薦的方法的基礎,但我們把它定位在一個被稱為預測處理(PP)的感知模型中[10],并輔以推理的雙重過程理論[11]。在這份報告中,我們還提供了這個運行時監控架構的候選實現,使用基于歸一化流的特征密度建模來實現第一層監控,以及基于圖馬爾科夫神經網絡的神經符號上下文建模來實現第二層。

我們用一個自主汽車的簡單例子來解釋我們方法背后的基本原理,并展示了上下文模型如何在監測LEC中發揮作用。考慮一下汽車視覺系統中有關檢測交通線的部分。一個基本的方法是尋找道路上畫的或多或少的直線,自下而上的方法是在處理每一幀圖像時執行這一過程。但這是低效的--當前圖像幀中的車道很可能與前幾幀中的車道相似,我們肯定應該利用這一點作為搜索的種子,而且它是脆弱的--車道標記的缺失或擦傷可能導致車道未被檢測到,而它們本來可以從以前的圖像中推斷出來。一個更好的方法是建立一個道路及其車道的模型,通過預測車道的位置,用它來作為搜索當前圖像中車道的種子。該模型及其對車道的預測將存在一些不確定性,因此發送給視覺系統的將是最好的猜測,或者可能是幾個此類估計的概率分布。視覺系統將使用它作為搜索當前圖像中車道的種子,并將預測和當前觀察之間的差異或 "誤差 "發送回來。誤差信號被用來完善模型,旨在最小化未來的預測誤差,從而使其更接近現實。

這是一個 "綜合分析 "的例子,意味著我們提出假設(即候選世界模型),并偏向于那些預測與輸入數據相匹配的模型。在實際應用中,我們需要考慮有關 "預測 "的層次:我們是用世界模型來合成我們預測傳感器將檢測到的原始數據(如像素),還是針對其局部處理的某個更高層次(如物體)?

這種自上而下的方法的重要屬性是,它專注于世界模型(或模型:一個常見的安排有一個模型的層次)的構建和前利用,與更常見的自下而上的機器學習模型形成對比。我們將展開論證,自上而下的方法對于自主系統中感知的解釋和保證是有效的,但有趣的是,也許可以放心的是,人們普遍認為這是人類(和其他)大腦中感知的工作方式,這是由Helmholtz在19世紀60年代首次提出的[12]。PP[13],也被稱為預測編碼[14]和預測誤差最小化[15],認為大腦建立了其環境的模型,并使用這些模型來預測其感覺輸入,因此,它的大部分活動可以被視為(近似于)迭代貝葉斯更新以最小化預測誤差。PP有先驗的 "預測 "從模型流向感覺器官,貝葉斯的 "修正 "又流回來,使后驗模型跟蹤現實。("自由能量"[16]是一個更全面的理論,包括行動:大腦 "預測 "手,比如說,在某個地方,為了盡量減少預測誤差,手實際上移動到那里。) 這與大腦從上層到下層的神經通路多于反之的事實是一致的:模型和預測是向下流動的,只有修正是向上流動的。

有趣的是,大腦似乎以這種方式工作,但有獨立的理由認為,PP是組織自主系統感知系統的好方法,而不是一個主要是自下而上的系統,其中傳感器的測量和輸入被解釋和融合以產生一個世界模型,很少有從模型反饋到傳感器和正在收集的輸入。2018年3月18日在亞利桑那州發生的Uber自動駕駛汽車與行人之間的致命事故說明了這種自下而上的方法的一些不足之處[17]。

純粹的自下而上的系統甚至不能回憶起之前的傳感器讀數,這就排除了從位置計算速度的可能性。因此,感知系統通常保持一個簡單的模型,允許這樣做:林的視覺處理管道的物體跟蹤器[18]就是一個例子,Uber汽車也采用了這樣的系統。Uber汽車使用了三個傳感器系統來建立其物體追蹤器模型:攝像頭、雷達和激光雷達。對于這些傳感器系統中的每一個,其自身的物體檢測器都會指出每個檢測到的物體的位置,并試圖將其分類為,例如,車輛、行人、自行車或其他。物體追蹤器使用一個 "優先級方案來融合這些輸入,該方案促進某些追蹤方法而不是其他方法,并且還取決于觀察的最近時間"[17,第8頁]。在亞利桑那車禍的案例中,這導致了對受害者的識別 "閃爍不定",因為傳感器系統自己的分類器改變了它們的識別,而且物體追蹤器先是喜歡一個傳感器系統,然后是另一個,如下所示[17,表1]。

  • 撞擊前5.6秒,受害者被列為車輛,由雷達識別
  • 撞擊前5.2秒,受害者被歸類為其他,通過激光雷達
  • 撞擊前4.2秒,根據激光雷達,受害者被歸類為車輛
  • 在撞擊前3.8秒和2.7秒之間,通過激光雷達,在車輛和其他之間交替進行分類
  • 撞擊前2.6秒,根據激光雷達,受害者被歸類為自行車
  • 撞擊前1.5秒,根據激光雷達,受害者被歸類為不知名。
  • 撞擊前1.2秒,根據激光雷達,受害者被歸類為自行車。

這種 "閃爍 "識別的深層危害是:"如果感知模型改變了檢測到的物體的分類,在生成新的軌跡時就不再考慮該物體的跟蹤歷史"[17,第8頁]。因此,物體追蹤器從未為受害者建立軌跡,車輛與她相撞,盡管她已經以某種形式被探測了幾秒鐘。

這里有兩個相關的問題:一個是物體追蹤器保持著一個相當不完善的世界和決策背景的模型,另一個是它對輸入的決策方法沒有注意到背景。預測性處理中的感知所依據的目標是建立一個準確反映世界的背景模型;因此,它所編碼的信息要比單個輸入多得多。我們想要的是一種測量情境模型和新輸入之間的分歧的方法;小的分歧應該表明世界的常規演變,并可以作為模型的更新納入;大的分歧需要更多的關注:它是否表明一個新的發展,或者它可能是對原始傳感器數據解釋的缺陷?在后面兩種情況中的任何一種,我們都不能相信機器學習模型的預測結果。

預測處理方法的實施可以采用貝葉斯方法[19]。場景模型表示環境中的各種物體,以及它們的屬性,如類型、軌跡、推斷的意圖等,并對其中的一些或全部進行概率分布函數(pdf s)。觀察更新這些先驗,以提供精確的后驗估計。這種貝葉斯推理通常會產生難以處理的積分,因此預測處理采用了被稱為變異貝葉斯的方法,將問題轉化為后驗模型的迭代優化,以最小化預測誤差。卡爾曼濾波器也可以被看作是執行遞歸貝葉斯估計的一種方式。因此,像神經科學、控制理論、信號處理和傳感器融合這樣不同的領域都可能采用類似的方法,但名稱不同,由不同的歷史派生。思考PP的一種方式是,它將卡爾曼濾波的思想從經典的狀態表征(即一組連續變量,如控制理論)擴展到更復雜的世界模型,其中我們也有物體 "類型 "和 "意圖 "等表征。預測處理的一個有吸引力的屬性是,它為我們提供了一種系統的方法來利用多個輸入和傳感器,并融合和交叉檢查它們的信息。假設我們有一個由相機數據建立的情境模型,并且我們增加了一個接近傳感器。預測處理可以使用從相機中獲得的模型來計算接近傳感器預計會 "看到 "什么,這可以被看作是對模型準確性的可驗證的測試。如果預測被驗證了,那么我們就有了對我們上下文模型某些方面的獨立確認。我們說 "獨立 "是因為基于不同現象的傳感器(如照相機、雷達、超聲波)具有完全不同的解釋功能,并在不同的數據集上進行訓練,這似乎是可信的,它們會有獨立的故障。在一個完全集成的預測處理監視器中,情境模型將結合來自所有來源的信息。情境模型將保守地更新以反映這種不確定性,監測器將因此降低其對機器學習模型的信心,直到差異得到解決。

請注意,上下文模型可以是相當簡單粗暴的:我們不需要場景的照片,只需要知道我們附近的重要物體的足夠細節,以指導安全行動,所以相機和接近傳感器 "看到 "的相鄰車輛的輪廓之間的差異,例如,可能沒有什么意義,因為我們需要知道的是他們的存在,位置,類型和推斷的意圖。事實上,正如我們將在后面討論的那樣,我們可以在不同的細節層次上對上下文進行建模,自上而下的生成模型的目標是生成不同層次的感知輸入的抽象,而不是準確的傳感器值。在報告中討論的我們的實現中,我們在兩個層次上對上下文進行建模--第一個層次使用深度神經網絡的特征,第二個層次對場景中物體之間更高層次的空間和時間關系進行建模。除了傳感器,感知的上層也將獲得關于世界的知識,可能還有人工智能對世界及其模型的推理能力。例如,它可能知道視線和被遮擋的視野,從而確定在我們附近的車輛可能無法看到我們,因為一輛卡車擋住了它的去路,這可以作為有關車輛的可能運動("意圖")的增加的不確定性納入世界模型中。同樣,推理系統可能能夠推斷出反事實,比如 "我們將無法看到可能在那輛卡車后面的任何車輛",這些可以作為 "幽靈 "車輛納入世界模型,直到它們的真實性被證實或被否定。我們對監控架構第2層的神經符號建模的選擇對于整合這種背景和學習的知識以及對這些知識進行推理至關重要。

在這方面,另一個關于人腦組織的理論很有意思;這就是 "雙過程 "模型[20, 21],由卡尼曼推廣的獨立 "快慢 "思維系統[22]。它的效用最近已經通過一個非常有限的實現被證明用于計算機器學習模型的信心[23, 24]。系統1是無意識的、快速的、專門用于常規任務的;系統2是有意識的、緩慢的、容易疲勞的、能夠斟酌和推理的,這就是我們所說的 "思考"。就像預測處理一樣,我們提倡雙過程模型并不僅僅是因為它似乎符合大腦的工作方式,而是因為它似乎是獨立的,是一個好架構。在這里,我們可以想象一個特征密度正常化的流生成模型形成一個高度自動化的 "系統1",而更多的深思熟慮的神經符號模型構成一個 "系統2",當系統1遇到大的預測錯誤時,該系統會主動參與。系統1維持一個單一的生成性世界模型,而系統2或者對其進行潤色,或者維持自己的更豐富的世界模型,具有對符號概念進行反事實的 "what-if "推理能力。人們認為,人類保持著一個模型的層次結構[20, 21, 22],這似乎也是自主系統的一個好方法。我們的想法是,在每一對相鄰的模型(在層次結構中)之間都有一個預測處理的循環,因此,較低的層次就像上層的傳感器,其優先級和更新頻率由預測誤差的大小決定。

人類的預測處理通常被認為是將 "驚訝 "降到最低的一種方式,或者說是保持 "情況意識"。加強這一點的一個方法是在構建世界模型時增加系統2對假設推理的使用,以便將沒有看到但 "可能存在 "的東西明確地表示為 "幽靈 "或表示為檢測到的物體屬性的不確定性增加。一個相關的想法是利用人工智能進行推斷,例如,檢測到前面有許多剎車燈,就可以推斷出某種問題,這將被表示為世界模型中增加的不確定性。這樣一來,本來可能是意外情況的驚奇出現,反而會發展為不確定性的逐漸變化,或將幽靈解決為真實的物體。圖馬爾科夫神經網絡提供了一個有效的機制,既可以對這些關系和更豐富的背景進行建模,又可以通過反事實查詢和背景知情的預測進行審議。因此,雙重過程理論激發了我們的運行時監控器的兩層預測編碼結構。雖然這些理論旨在解釋人類的認知,但我們將這些作為運行時監控器來計算底層模型的驚喜,因此,當模型由于新奇的或超出分布的或脫離上下文的輸入而不能被信任時,就會被發現。

圖 1:基于預測處理和雙過程理論的自主量化保障架構

圖1展示了所提出的深度學習模型運行時監控的整體架構。如圖所示,該架構有兩個層次(由雙重過程理論激發)。在第一層,我們使用生成模型,學習輸入的聯合分布、預測的類輸出和模型提供的解釋。在第二層,我們使用圖馬爾可夫神經網絡來學習物體檢測任務的物體之間的空間和時間關系(更一般地說,輸入的組成部分)。在這兩層中,我們在本報告中的重點是運行時監測,而不是開發一個認知系統本身(而使用所提出的方法建立一個強大的、有彈性的、可解釋的系統將是自然的下一步)。因此,由這兩層檢測到的驚喜被監控者用來識別底層LEC何時不能被信任。這也可以作為LE-CPS的一個定量保證指標。

提綱

第3節介紹了預測性處理和雙進程架構(低級別的自動化和高級別的審議),并認為這可以支持一種可信的方法來保證自主系統的穩健行為。它也被廣泛認為反映了人類大腦的組織。我們提出了使用不同的神經架構和神經符號模型的組成來可擴展地完成這些的機制。結果在第4節報告。第5節提供了一些與工業建議的比較,并提出了結論和額外研究的建議。

付費5元查看完整內容

計算機視覺中的一項挑戰性任務是尋找技術來提高用于處理移動空中平臺所獲圖像的機器學習(ML)模型的目標檢測和分類能力。目標的檢測和分類通常是通過應用有監督的ML技術完成的,這需要標記的訓練數據集。為這些訓練數據集收集圖像是昂貴而低效的。由于一般不可能從所有可能的仰角、太陽角、距離等方面收集圖像,這就導致了具有最小圖像多樣性的小型訓練數據集。為了提高在這些數據集上訓練的監督性ML模型的準確性,可以采用各種數據增強技術來增加其規模和多樣性。傳統的數據增強技術,如圖像的旋轉和變暗,在修改后的數據集中沒有提供新的實例或多樣性。生成對抗網絡(GAN)是一種ML數據增強技術,它可以從數據集中學習樣本的分布,并產生合成的復制,被稱為 "深度偽造"。這項研究探討了GAN增強的無人駕駛飛行器(UAV)訓練集是否能提高在所述數據上訓練的檢測模型的可推廣性。為了回答這個問題,我們用描述農村環境的航空圖像訓練集來訓練"你只看一次"(YOLOv4-Tiny)目標檢測模型。使用各種GAN架構重新創建幀中的突出目標,并將其放回原始幀中,然后將增強的幀附加到原始訓練集上。對航空圖像訓練集的GAN增強導致YOLOv4-微小目標檢測模型的平均平均精度(mAP)平均增加6.75%,最佳情況下增加15.76%。同樣,在交叉聯合(IoU)率方面,平均增加了4.13%,最佳情況下增加了9.60%。最后,產生了100.00%的真陽性(TP)、4.70%的假陽性(FP)和零的假陰性(FN)檢測率,為支持目標檢測模型訓練集的GAN增強提供了進一步證據。

引言

對從移動平臺上獲得的數據進行圖像和視頻分類技術的調查,目前是計算機視覺領域中一個越來越受關注的領域。由空中飛行器收集的圖像對于收集信息和獲得對環境的洞察力非常重要,否則在地面上的評估是無法實現的。對于訓練目標檢測模型來說,用于創建這些模型的訓練集的一個重要特征是這些訓練集必須在其圖像中包含廣泛的細節多樣性。過去的數據增強技術,例如旋轉、添加噪音和翻轉圖像,被用來增加訓練集的多樣性,但由于它們無法向數據集添加任何新的圖像,所以是弱的方法。研究新的圖像增強和分類方法,其中包括機器學習(ML)技術,有助于提高用于航空圖像分類的模型的性能。

1.1 背景與問題陳述

1.1.1 背景

最近,使用ML算法對圖像進行分類或預測的情況越來越多。雖然ML已經被使用了幾十年,但在圖像上,我們看到合理的進展是在過去的20年里。隨著信息收集和存儲的技術進步及其可及性的擴大,可用于分析的數據量正以指數級的速度增長。計算機的隨機存取存儲器(RAM)和硬件存儲的增加迎合了擁有巨大的數據集來訓練、測試和驗證ML模型以實現較低的偏差和變異的需要。技術上的其他進步來自于計算機圖形處理單元(GPU)的改進,它允許以更快的速度處理大量的數據,這是實時圖像處理的兩個重要能力[2]。

人工神經網絡(ANNs)是ML的一個子集,其靈感來自于大腦中神經元的生物結構,旨在解決復雜的分類和回歸問題[3]。深度學習是ANNs的一個子集,它創建了多個相互連接的層,以努力提供更多的計算優勢[3]。卷積神經網絡(CNN)是ANN的一個子集,它允許自動提取特征并進行統一分類。一般來說,CNN和ANN需要有代表性的數據,以滿足操作上的需要,因此,由于現實世界中的變化,它們往往需要大量的數據。雖然在過去的十年中收集了大量的數據,但微不足道和不平衡的訓練數據集的問題仍然阻礙著ML模型的訓練,導致糟糕的、有偏見的分類和分析。相對較小的數據集導致了ML模型訓練中的過擬合或欠擬合。過度擬合的模型在訓練數據上顯示出良好的性能,但在模型訓練完成后,卻無法推廣到相關的真實世界數據。通過提供更大、更多樣化的訓練數據集,以及降低模型的復雜性和引入正則化,可以避免模型過擬合[4]。

過度擬合的模型不能學習訓練集的特征和模式,并對類似的真實世界數據做出不準確的預測。增加模型的復雜性可以減少欠擬合的影響。另一個克服模型欠擬合的方法是減少施加在模型上的約束數量[4]。有很多原因可以說明為什么大型、多樣的圖像集對訓練模型以檢測視頻幀中捕獲的目標很有用。當視頻取自移動平臺,如無人機或汽車時,存在Bang等人[5]所描述的進一步問題。首先,一天中拍攝圖像的時間以及天氣狀況都會影響亮度和陰影。其次,移動平臺收集的圖像有時會模糊和失真,這是因為所使用的相機類型以及它如何被移動平臺的推進系統投射的物理振動所影響。移動平臺的高度、太陽角度、觀察角度、云層和距離,以及目標的顏色/形狀等,都會進一步導致相機采集的樣本出現扭曲的影響。研究人員忽視這些參數的傾向性會導致模型在面對不同的操作數據時容易崩潰。這些因素使得我們有必要收集大量包含各種特征、圖像不規則性和扭曲的視頻幀,以復制在真實世界的圖像收集中發現的那些特征,從而訓練一個強大的目標檢測和分類模型。

為了增加圖像的多樣性,希望提高在數據上訓練的分類模型的結果準確性,可以使用數據增強技術來扭曲由無人駕駛飛行器(UAV)收集的圖像。目前的一些數據增強技術包括翻轉、旋轉或扭曲圖像的顏色。雖然這些增強技術可以在數據集中引入更多的多樣性,但它們無法為模型的訓練提供全新的框架實例。

生成性對抗網絡(GAN)是一種ML技術,它從數據集的概率分布和特征中學習,以生成數據集的新的合成實例,稱為 "深度假象"。GAN的實現是一種更強大的數據增強技術,因為它為訓練集增加了新的、從未見過的實例,這些實例仍然是可信的,并能代表原生群體。為ML模型提供這種新的訓練實例,可以使模型在實際操作環境中用于檢測時更加強大。

1.1.2 問題說明

圖像采集面臨的一個普遍問題是沒有收集足夠大和多樣化的訓練和測試數據集來產生高效的ML模型。這些微不足道的訓練集所顯示的多樣性的缺乏,使模型在用于實時檢測時表現很差。找到增加這些數據集的方法,無論是通過額外的數據收集還是其他方法,對于創建一個強大的、可歸納的模型都很重要。

計算機視覺中的第二個問題是傳統的數據增強技術所產生的圖像多樣性增加不足。通過旋轉、翻轉或調暗每一個收集到的視頻幀來增強數據集,不能為訓練集增加任何額外的實例,這與上面提到的第一個問題相矛盾。需要找到一種新的數據增強技術,在不需要收集更多數據的情況下提供新的實例,這對于快速訓練檢測模型以便在快速變化的操作環境中部署非常重要。

1.2 研究問題

本研究試圖回答以下問題:

1.由移動平臺獲取的包含GAN生成的合成圖像的增強圖像訓練數據集是否會提高卷積神經網絡(CNN)目標檢測模型的分類精度和可推廣性?

2.由移動平臺獲取的包含GAN生成的合成圖像的增強圖像訓練數據集是否會提高CNN目標檢測模型的定位和通用性?

3.從未增強的數據集和增強的數據集中可以得出什么推論,顯示它們的相似性和不相似性?

提供支持第一和第二個問題的證據可以改變數據科學家進行數據收集的方式,并將他們的努力轉向使用GAN的增強技術來創建用于ML研究的數據集。該模型不僅要能夠對目標進行分類,而且要訓練一個強大的目標檢測模型,使其能夠在圖像中找到感興趣的目標,并具有較高的交叉聯合(IoU)值,這就驗證了該模型能夠找到移動的目標,這些目標在捕獲的幀中的位置各不相同。一個模型的泛化是指該模型對網絡從未見過的輸入進行準確預測和分類的能力[6]。增強的數據集必須在質量和數量上與原始數據集相似,以證明模型泛化能力增強的斷言。

對最后一個問題的回答提供了理由,即來自GAN的增強對象在性質上是否與原始樣本相似,并且是對現實世界環境中發現的東西的合理復制。同類目標之間的高相似率可能會使GAN增強變得脆弱,需要進一步研究以用于實際應用。

1.3 研究的局限性

本研究的最大限制之一是能否獲得適當的硬件和軟件來實現不同的ML算法。雖然ML模型可以在中央處理器(CPU)上執行,但本論文中的模型在單個CPU上運行需要幾天,甚至幾周的時間。在運行深度學習模型時,GPU的效率要高得多,尤其是那些為圖像探索設計的模型。在整個研究過程中,GPU的使用非常有限,這給CNN和GAN模型的復雜性增加了限制,也增加了每個模型完成訓練迭代的時間。模型不可能同時運行,大大增加了本論文的完成時間。

另一個限制是本研究過程中可用的內存和硬盤內存的數量。內存不足進一步導致了模型復雜性的下降,以及模型在研究的訓練和測試過程中某一時刻可以利用的數據量的下降。這兩個模型組成部分的減少會導致次優模型。在這項研究中,我們采取了一些措施來減輕這些影響,包括選擇參數較少但性能與較復雜的模型相同的高水平的模型。此外,在訓練和測試過程中,將數據集劃分為多個批次,有助于緩解RAM和硬盤內存問題。

1.4 論文組織

本章討論了本論文將集中研究的ML的一般領域,以及概述了ML研究中出現的好處和限制。第2章提供了一個文獻回顧,研究了CNNs和GANs的理論。此外,它還提供了使用CNNs、GANs和從無人機收集的圖像幀進行的相關研究。第3章詳細介紹了數據集增強前后的CNN檢測模型的訓練過程。第4章提供了用于增強訓練集的合成目標的細節。第5章介紹了在原始和增強的訓練集上訓練的最佳模型的評估結果。第6章概述了在原始測試集訓練結束后進行的三個不同實驗的方法。第7章回顧了這三個不同實驗的結果。最后,第8章討論了從結果中得出的結論,以及對使用生成性對抗網絡(GANs)對移動平臺獲取的圖像進行數據增強領域的未來研究建議。

付費5元查看完整內容

人工神經網絡(ANN)已經成為完成一系列機器學習任務的流行工具,包括預測連續結果。然而,通常與預測相關的置信度的缺乏限制了它們的適用性,特別是在準確性至關重要的軍事環境下。用預測區間(PI)來補充點預測是其他學習算法的常見做法,但ANN的復雜結構和訓練使構建PI變得困難。如何在保持合理的計算時間的前提下,為ANNs的預測最好地構建最佳性能的PI是一個開放的問題。此外,人們對ANN構建的哪些因素會影響PI的性能知之甚少,這里定義為覆蓋率和效率等術語。這項研究回答了這些問題,通過在11個不同大小和維度的數據集(包括一個基于圖像的數據集)上執行兩步實驗來構建前饋神經網絡的PI。兩種非參數方法,即自舉和保形推理,被考慮用于構建PI。第一個實驗步驟的結果顯示,某些設計選擇,如網絡的激活、節點數和層數,確實會影響PI的性能。為了優化PI的覆蓋范圍和效率,無論是使用自舉還是保形推理,都對這些網絡設計特征提供了指導意見。在第二步中,實施了20種不同的構建PI的算法--每種算法都利用了引導或保形推理的原則--以確定哪種算法能提供最好的性能,同時承擔合理的計算負擔。結果表明,一般來說,優化這種權衡的方法是交叉共形法,它在減少計算負擔的同時保持了區間覆蓋和效率。這項工作提供了設計選擇和推理方法,可以為神經網絡創建性能更好的預測區間,以便使其適應軍事用途的先進算法。

I. 引言

1.1 背景

從自動駕駛汽車到智能手機上的面部識別技術,人工智能(AI)在其可擴展性和日常用途方面已經出現了爆炸性增長("人工智能與自動駕駛";Pascu,2021)。因此,美國防部(DoD)也對如何利用人工智能確保美國的國家安全產生了興趣,這并不令人驚訝。事實上,2018年國防戰略將人工智能的利用列為其關鍵的現代化優先事項之一(美國防部,2018:7)。為此,美國防部現在資助了600多個不同的人工智能項目,2022財年總額為8.74億美元(OUSD(C),2021:3-2)。

在廣泛的人工智能技術類別中存在著神經網絡,它是松散地基于人腦學習方式的學習算法(Goodfellow, Bengio, and Courville, 2016:165)。像其他監督學習算法一樣,神經網絡學習輸入或特征數據如何與輸出或目標數據的值相關聯。神經網絡的新穎之處在于,它們可以學習復雜的模式,而不需要像其他機器學習算法那樣事先進行特征工程(Goodfellow, Bengio, and Courville, 2016:166)。神經網絡已經成為一種流行的強大工具,目前最先進的網絡在圖像和面部識別任務中達到了人類水平的表現(He, Zhang, Ren, and Sun, 2015; Taigman, Yang, Ranzato, and Wolf, 2014)。

盡管神經網絡的潛力和應用令人振奮,但其預測的準確性與傳統的回歸技術有相同的局限性。具體來說,建模者假設目標變量是一些系統過程(可以通過回歸算法學習)和隨機誤差(無法學習)的函數。因此,后者通常被稱為 "不可減少的誤差"(Gareth, Witten, Hastie, and Tibshirani, 2013:18)。因此,在回歸估計中提供一些信心的衡量標準,如預測區間(PI),以量化這種不可減少的誤差,往往是有幫助的。預測區間提供了一個值的范圍,建模者認為未來的值將在這個范圍內。預測區間的一個關鍵部分是它的置信系數,一般用百分比表示,當給定無限多的數據重樣時,表明其準確性(Casella 和 Berger, 2002:418)。

雖然有幾種計算神經網絡PI的方法,但建模者在區間的有效性和計算負擔方面面臨著權衡。分析方法,如最大似然法或貝葉斯技術,需要對數據的分布進行非簡單的假設(Papadopoulos, Edwards, and Murray, 2001),這些分布通常不能通過神經網絡來實現。此外,為了生成這些方法的PI,神經網絡的訓練是復雜的,并且由于重復計算梯度矩陣(即Hessian)而大大延長了訓練時間(Khosravi, Nahavandi, Srinivasan, and Khosravi, 2015)。無分布技術,如自舉和各種共形推理方法,消除了對大多數假設的需要,但仍有其自身的缺點。具體來說,自舉的PI通常需要訓練數百個甚至數千個模型。這通常是一個無法維持的任務,特別是對于時間和計算機內存受到限制的大型網絡。例如,考慮一個由20個VGG-16架構組成的集合--最先進的神經網絡,專門用于物體識別任務,對人臉數據集進行訓練(Rothe, Tomofte, and Van Gool, 2015)。根據這些網絡的大小("Keras應用"),該組合將占用超過10.5G的計算機內存。一些保形推理方法對從業者來說是一個潛在的有吸引力的選擇。例如,歸納("拆分")和聚合保形預測法需要訓練的模型比自舉法少得多,也不會像分析性PI方法那樣使網絡訓練復雜化。然而,這些方法產生的PI往往不如其他計算量更大的方法產生的PI信息量大(Cherubin, Chatzikokolakis, and Jaggi, 2021; Khaki and Nettleton, 2020)。此外,將保形推理用于神經網絡仍然是一個相對較新的概念(Kivaronovic, Johnson, and Leeb, 2019),不同的參數在其應用中的效果仍然未知。例如,用內核密度估計(KDE)修改保形推理算法,顯示出產生有利的PI的前景(Lei, Robins, and Wasserman, 2011),但在神經網絡的背景下還沒有被廣泛地應用。

因此,在使用PIs為神經網絡預測提供信心方面存在著知識差距。具體而言,人們對神經網絡的參數化如何影響PI的性能知之甚少。對于這些不同的PI方法在神經網絡環境中的比較效用和性能也知之甚少,因為建模者必須在準確性、訓練時間和計算機內存的權衡中做出決定。這種知識差距,加上神經網絡的困難訓練方法,導致PI很少被提供給網絡的回歸估計(da Silva Neves, Roisenberg, and Neto, 2009)。

PIs的有限使用阻礙了民用和軍用用戶利用神經網絡的全部優勢,并延伸到人工智能。將置信水平與神經網絡的預測聯系起來,通過提供一個可能的數值范圍,而不是單一的回歸估計,增加了網絡的可靠性和可用性(Papadopoulos, Edwards, and Murray, 2001)。可靠性是國防部的一個關鍵考慮因素,國防部試圖將人工智能部署在對人的生命和設備有高度風險的情況下。例如,蘭德公司調查了軍事和人工智能專家,詢問他們與軍事人工智能相關的道德問題是什么,如果有的話(Morgan和其他人,2020:20)。兩個最常見的擔憂是,人工智能 "可能會犯危險的錯誤",或者軍事領導人可能會對人工智能的產出 "過于信任"(Morgan and others, 2020:20)。這兩種擔憂都與人工智能的輸出缺乏相關的信心措施有關。

對這些問題的部分補救措施是改變這些人工智能的訓練,以便在其基線輸出之外提供PIs。然而,在做到這一點之前,需要更好地了解不同PI方法的比較性能,以及模型參數化如何影響這種性能。

1.2 研究目標

這項研究探討了PI性能和神經網絡結構之間的關系,以及不同PI方法在特定網絡上的比較性能。調查的第一個研究問題是:

  • 1.神經網絡超參數的選擇,如層數或激活函數的選擇,是否會影響未來觀測的預測區間的性能?如果存在影響PI性能的超參數,其影響是否因采用的PI方法而不同?

為了評估這個問題及其相關的子問題,我們設計了一個實驗,以適應不同層、節點和激活函數的網絡,跨越幾個數據集。一個單獨但可比較的設計探索了卷積神經網絡(CNN)的設計選擇,包括卷積層的數量,以及核的數量和大小。然后使用自舉法和分裂保理法為這些網絡中的每一個構建PI。然后使用方差分析(ANOVA)來確定哪些網絡超參數會顯著影響PI的性能,如統計學的 "有效性 "和 "效率 "所衡量。這些術語將在第2.3節進一步討論。此外,該研究還試圖回答。

  • 2.給定一個特定的網絡結構,哪種預測區間(PI)方法可以優化PI性能和計算負擔之間的權衡?

在回答這個問題時,可以更好地理解哪些構建PI的方法在現實世界中表現最好,同時保持計算上可行的實現。用于回答第一個研究問題的網絡是根據其樣本外預測的平均平方誤差(MSE)進行評估的,這是衡量模型對數據擬合質量的一個指標。然后進一步研究每個數據集的最佳性能網絡結構。特別是,這些架構被重新訓練以構建以下每種方法的PI:

  • Bootstrap(100和500的重樣)。
  • 百分數引導法(1,000個重樣)。
  • 完全順應式,包括和不包括KDE
  • 分離式構型,有或沒有KDE
  • 交叉構型(5、10和20的折疊),有或沒有KDE
  • Bootstrap Conformal(5、10和20的重樣),有無KDE。

1.3 研究重點

本研究的重點是第1.1節中討論的無分布技術,特別是自舉法和保形推理方法系列。自舉刀是一種流行的估計技術,使用留出的殘差,自舉方法最初就是由它發展起來的,在本分析中沒有探討(Efron, 1979)。本實驗還排除了構建 PIs 的分析技術,如最大似然法和貝葉斯法。正如第 2.3 節進一步討論的那樣,這類技術有時很難實現,需要反復計算梯度矩陣,而且還需要依賴漸進假設來創建有效的 PIs。假設國防部的神經網絡用戶將把重點放在更靈活的無分布方法上,這種方法可以在有限的分布假設下實施,而且不需要改變基線網絡的訓練過程。

按照同樣的思路,這項研究關注的是PI的構建,相對于置信區間而言,軍事應用中通常更關注PI。置信區間是對參數和預期值(平均值)的估計工具,而不是對隨機變量的新觀測值。在ML設置中,PI用于估計一個單一的、未知的目標變量在某組輸入下可能采取的價值的不確定性,而CI將用于測量上述數量的平均值或長期期望值的不確定性。測量前者通常是從業者更關心的問題。最后,本分析中考察的數據集都有實值、連續的目標變量。不考慮用于分類任務的具有離散目標的數據集。

1.4 文件概述

本文件的組織結構如下。第二章概述了神經網絡,與預測區間相關的統計學概念,以及如何使用自舉和保形推理構建PI。第三章詳細介紹了用于回答研究問題的實驗,特別是使用的網絡和數據集的實驗設計,以及評估每種PI方法的方法。第四章介紹了該實驗的結果。最后,第五章討論了從結果中得出的結論。

付費5元查看完整內容

強化學習在最近的學術和商業研究項目中的應用已經產生了能夠達到或超過人類性能水平的強大系統。本論文的目的是確定通過強化學習訓練的智能體是否能夠在小型戰斗場景中實現最佳性能。在一組計算實驗中,訓練是在一個簡單的總體層面上進行的,模擬能夠實現確定性和隨機性的戰斗模型,神經網絡的性能被驗證為質量和武力經濟性戰術原則。總的來說,神經網絡能夠學習到理想的行為,其中作戰模型和強化學習算法對性能的影響最為顯著。此外,在集結是最佳戰術的情況下,訓練時間和學習率被確定為最重要的訓練超參數。然而,當武力的經濟性是理想的時候,折扣系數是唯一有重大影響的超參數。綜上所述,本論文得出結論,強化學習為發展戰斗模擬中的智能行為提供了一種有前途的手段,它可以應用于訓練或分析領域。建議未來的研究對更大、更復雜的訓練場景進行研究,以充分了解強化學習的能力和局限性。

付費5元查看完整內容
北京阿比特科技有限公司