亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

該項目旨在推進多模態機器翻譯(MMT)的技術水平。多模態機器翻譯是一個以視覺信息(圖像或視頻)補充源語言文本的領域,以作為額外的背景,更好地理解文本并將其翻譯成目標語言。所提出的進展的核心是指代基礎,即指導圖像區域和源(和/或目標)詞之間的對齊,從而使視覺背景對翻譯更有用。

項目期間所做的工作包括以下幾個方向:

1.改進監督下的注意力機制,將源詞或目標詞映射到圖像區域,解決編碼時(即學習源詞和圖像中的物體之間的排列)和解碼時(即學習目標詞和圖像中的物體之間的排列)的注意力,以及改進底層多模態神經機器翻譯架構和融合策略以使用這些信息,并探索更多最新和更好的視覺特征類型。

2.利用來自多個視覺和語言任務及數據集的信息,提高多語言基礎。

3.創建資源以促進參考依據的工作。

本報告集中在項目的最后4個月,涵蓋了方向1的進一步工作,即我們提出了第一個同步視頻翻譯的方法,即實時翻譯或口譯,其中需要為不完整的源句子生成翻譯,并有視頻作為額外的背景。一個應用的例子是對新聞等現場廣播的音頻流進行翻譯。與我們以前的工作不同的是,在我們以前的工作中,每一個文本片段都有一個單一的圖像作為靜態的視覺信息來翻譯,而在我們最近的工作中,每一個文本片段都有一個包含多個視覺信息的視頻。這給MMT帶來了許多挑戰,包括決定如何處理視頻(幀取樣方法、視頻編碼方法)以及如何將多件視覺(幀或甚至幀中的圖像區域)和文本(源和/或目標詞)信息結合起來。后者可以被看作是幀和文本子段之間的一種參考性基礎。

使用視頻作為MMT的視覺信息是很有吸引力的,因為它提供了更豐富的視覺背景,特別是對于較長的文本片段。它還為參考依據的研究開辟了新的途徑:為了實現正確的翻譯依據,模型需要識別特定的視頻幀或幀的一部分之間的對應關系,這些對應關系與到目前為止在不完整的文本輸入中看到的詞有關,這些輸入是逐步提供的。本報告附有所做工作的總結草案(論文待提交)。在本文中,我們使用了一個人們描述他們出租公寓的視頻數據集來訓練和評估我們的同步視頻翻譯模型。

圖1:源文本和翻譯文本的生成示意圖。視頻的WAV文件被提取并上傳到微軟Azure語音翻譯服務,以生成英文字幕、中文翻譯和時間戳。每個段落的時間戳包括偏移量和持續時間,單位為100納秒(1納秒=1×10-9秒)。

圖3:多模式同步機器翻譯模型,由語言通道、視頻通道和翻譯網絡組成。語言通道用于文本處理,視頻通道用于視覺特征提取。在翻譯網絡中,兩種模式在解碼器一側或編碼器一側被融合。

付費5元查看完整內容

相關內容

這項研究的目的是討論目前最先進的在點云數據上執行的機器學習算法的方法。所進行的研究將應用于三維激光雷達可視化和開發(3DLIVE)團隊的內部工作,其主要目標是為目標坐標測量(TCM)創建一個可視化和與點云數據互動的新系統。所提出的機器學習方法與三維點云和計算機視覺的機器學習的三個主要課題有關,每個課題都有自己研究的論文部分。這些主題是分割、分類和目標檢測,所選的論文是最近的研究,取得了最先進的性能。這項研究的結果是選定的幾種方法,它們向3DLIVE團隊展示了最有希望的結果和有效性。有效性在很大程度上取決于算法對3DLIVE使用案例的可擴展性和適用性,以及其準確性和精確性。

引言

在傳統的計算機視覺問題中,二維數據一直是用于推理的主要信息形式。隨著近來價格低廉且廣泛使用的3D傳感器(如蘋果深度相機、Kinect和飛行時間相機)的發展,3D數據已經變得非常豐富,并為解決計算機視覺問題提供了許多優勢。也就是說,它包含了更多的拓撲信息(深度維度、形狀和比例信息),這些信息對場景的理解至關重要,并提供了一個更自然的世界表現。由于這一技術層面的原因,將三維數據應用于自動駕駛、機器人、遙感和醫療等領域已經成為近期研究的重點,并將繼續擴展到其他領域[1]。

三維數據可以有很多格式,包括網格、深度圖像、體積網格和點云。場景理解應用中最常見的格式是點云-結構化數據,因為這種數據形式保留了三維空間中的原始幾何信息,沒有任何離散化損失。在進行分析之前,需要對點云進行定義:點云是一組數據點(x,y,z),通常代表一個(多個)三維物體的外表面,由合成或三維掃描器產生。三維數據面臨的一個挑戰是存儲要求--三維場景比二維的同一場景需要多出幾個數量級的存儲。點云解決了這個問題,因為它不需要存儲多邊形網格,因此提高了性能并降低了開銷--這是對時間敏感的應用的關鍵考慮[2]。

三維LiDAR可視化和開發(3DLIVE)項目旨在為目標坐標測量(TCM)和三維分析創建一個新系統。目前的TCM方法使用立體圖像,利用英偉達3D視覺眼鏡以及專門的GPU和顯示器來查看重疊的二維圖像,給人一種三維的感覺。然而,這種方法很難訓練,而且會造成眼睛疲勞;此外,它所使用的英偉達軟件和硬件已經達到了使用壽命的終點,不再得到支持或生產。因此,需要開發一種新的3D數據開發解決方案。

用于TCM的3DLIVE方法旨在利用主要由LiDAR傳感器收集的3D點云。然后使用游戲引擎Unity將這些數據可視化。此外,由于上述數據可以通過Octree格式有效地加載到Unity中,因此可以使用大規模的數據集。點的元數據信息可以在查看器中查看和分析,用戶可以在整個大的地理區域內導航并選擇點進行分析。有多種方法可以與數據互動,從在某一地點投放一個感興趣的點到測量距離、長度和面積。

有多種模式可以與3D點云數據互動。它們包括標準的鼠標和鍵盤、虛擬現實和增強現實(使用Hololens 2)。增強現實的互動是3DLIVE團隊的主要開發重點,因為它使用戶沉浸在數據中,同時仍然類似于立體眼鏡的方法。我們目前還在尋求使用機器學習(ML),使我們能夠自動獲得這些點云數據集中的物體信息,例如它們是什么物體,在空間內有什么界限,并進行自動目標識別(ATR)。

在過去的10-20年里,大多數深度學習計算機視覺研究都集中在2D圖像上,但隨著更多可用的3D數據的興起,最近的研究著眼于將傳統的深度學習技術應用于計算機視覺的3D數據。這項新的研究使得場景理解的場景有了重大的進展,但是在將模型從二維過渡到三維的過程中,仍然存在著一些障礙。具體到點云,數據是非結構化和無序的,這意味著以點云為輸入的深度學習網絡不能直接應用標準的深度學習方法,如卷積神經網絡(CNN)[1]。相反,必須開發定制的解決方案,使其具有包絡不變性,通常用對稱函數實現。另一個挑戰是從點云中捕捉局部和全局結構信息。通過單個點來評估點云會失去點與點之間的局部和整體結構信息,因此網絡在設計時必須通過查看鄰近的數據來考慮這一點。由于直接處理點云的困難,許多方法將點云數據轉化為一種中間格式,如將點云投影到二維圖像中,這樣就可以應用傳統的深度學習方法[1]。最后,從三維傳感器收集的點云數據并不完美--由于傳感器的局限性,采集設備的固有噪聲,以及被采集表面的反射性質,往往存在噪聲污染和異常值,會破壞數據采集[1]。從上面可以看出,在點云數據上應用深度學習方法并不簡單,需要對現有的技術進行重新設計,以便在網絡中使用,但是三維點云比二維數據的描述能力的提升超過了負面因素。

計算機視覺任務通常被分成3個不同的類別:分類、目標檢測和分割。對于點云,這些類別通常被定義為: 三維形狀分類,三維目標檢測和跟蹤,以及三維點云分割[1]。

三維形狀分類方法試圖通過首先學習每個點的嵌入,然后使用聚合方法從整個點云中提取一個全局形狀嵌入,來對點云中的物體進行分類(標記)。這個全局嵌入被輸入到幾個完全連接的層中以實現分類[1]。

三維目標檢測和跟蹤方法可以分為3類: 1)目標檢測,2)物體跟蹤,以及3)場景流估計。對于目標檢測方法,它們在每個檢測到的物體周圍為輸入的點云產生定向的三維邊界盒。接下來,三維物體跟蹤的目的是預測物體的狀態,因為它以前的狀態。與物體跟蹤相關的是三維場景流估計,即給定同一場景在兩個不同時刻的兩個點云,描述每個點從第一個點云到第二個點云的運動[1]。

與目標檢測和跟蹤一樣,三維點云的分割也可以根據所需的粒度分為三類。這些類別從最普遍到最不普遍:語義分割(場景級別)、實例分割(物體級別)和部分分割(部分級別)。給定一個點云,三維點云語義分割的目標是根據點的語義將點云分成幾個子集(例如,將場景中的所有椅子涂成相同的顏色)。更低一級的是三維點云實例分割,它比語義分割更具挑戰性,因為它需要對點進行更準確和精細的推理。實例分割不僅需要區分具有不同語義的點,還需要區分具有相同語義的獨立實例(例如,給每把椅子涂上不同的顏色,而不是所有椅子都是同一顏色)。最后,在最細微的層面上,部分分割試圖將具有相同語義的物體的各個部分分開(例如,給椅子的各個部分涂上不同的顏色),由于具有相同語義標簽的形狀部分具有較大的幾何變化和模糊性,因此這項任務特別困難[1]。

3DLIVE努力的目標之一是創建一個系統(利用機器學習),該系統接收一個地理區域的點云,將具有類似屬性的點分組為對象,并為每個組成對象和結構貼上標簽,使數據更容易使用和分析。在我們著手實現這些目標之前,我們確定研究當前點云數據集的分割和分類技術狀況將是有價值的。Guo等人在2019年完成了一項關于點云的深度學習方法的調查[1]。我們的目的是確認研究中提出的信息仍然是準確和相關的(針對點云數據集的ML是一個快速發展的領域),進行我們自己的研究并創建一個類似的調查,并決定在研究的分類、分割和目標檢測的方法中,哪些是最適合我們的使用案例的。AFRL RIEA/RIED內部研究小組(IHURT)被召集起來,與3DLIVE團隊一起做這項研究,并回答以下研究問題:

目前3D點云分割和分類的技術水平如何,哪些方法對3DLIVE的工作最有效?我們能否開始為我們打算使用的大規模三維城市點云的分割、分類和目標檢測奠定框架并制定行動方案?

這項研究的結果將使3DLIVE團隊能夠推進ML點云的分析工作。我們希望最終能復制出性能最高、最相關的分割、分類和目標檢測方法,并將其用于NGA地理空間存儲和數據管理(GRID)服務器的地理3D點云數據。此外,3DLIVE團隊已經開發了一種生成大規模合成城市點云數據集的方法,我們可以利用這種合成數據作為我們創建和使用的模型的額外訓練數據。這項研究將為3DLIVE團隊使用ML創建額外的工具來幫助作戰人員分析和衡量三維數據奠定基礎。這將最終實現上述目標,即創建一個新的TCM系統,供目標人員(如第363 ISR聯隊和其他目標部門的人員)使用,用一種利用越來越多的本地3D數據的替代技術取代目前已被淘汰的技術。

圖2. RPVNet的概述。它是一個具有多種交互作用的三分支網絡,其中體素分支和范圍分支共享類似的Unet架構,而點分支只利用每點的MLPs。

付費5元查看完整內容

約翰霍普金斯大學(JHU)與羅切斯特大學合作,致力于研究和開發分析技術,以支持一個更大的知識驅動的假設測試框架。該計劃的參與者負責合作開發一個數據處理框架,該框架從原始的非結構化內容(文本、圖像、帶有音頻的視頻)開始,將這些內容轉換為共享本體下的知識聲明,將各信息源的結果合并為一個知識圖譜,然后對該圖譜進行推理,提出可以從直接觀察到的內容中獲得的額外信息。我們,JHU的團隊,專注于這個過程的第一步。我們提出了一個框架,可以處理所有需要的輸入模式,但被選擇專注于多語言文本和語音(沒有計算機視覺)。我們作為一個獨立的團隊參與了該計劃的初始階段,提供分析結果作為NIST運行的全計劃評估的一部分。在第二階段,我們提供了較少的組件,只專注于文本。在項目評估期間,我們與BBN共享這些組件。在第三階段,我們的主要重點是在新提出的 "聲稱框架(claim frame) "任務下的數據注釋,這鍛煉了我們在眾包豐富語言注釋方面的背景。

我們提出了對語義分割的關注:對意義的細粒度多值化處理。由于該項目的共同目標和集中在一個單一的項目范圍內的本體,我們專注于針對共同任務的新的最先進的語言分析技術,以及針對項目本體之外的方面的新的分解性資源的開發。我們團隊的成果中值得注意的例子包括: 構建RAMs,這是第一個公開可用的多句子事件提取數據集;開發最先進的多語言核心推理模型,包括以固定內存量處理長文件的在線變體,以及專注于多人對話的新多語言數據集; 一個新的有監督的跨語言對齊方法,支持通過從英語到資源較少的語言的投射來自動創建訓練數據;一個句子級的轉述和數據增強的框架;在 "探測 "神經語言模型的新興科學方面的合作;以及開發新的分解資源和跨越一些新語言維度的分析。

引言

在過去的十年里,語言分析的技術水平已經迅速提高。DARPA AIDA發生時,文本分析的神經模型在準確性方面正在迅速突破。這始于對之前的統計NLP管道的改進,然后分析開始被訓練成 "端到端":模型不再需要部分語音標記、同步語法分析等等,以支持整體的語言理解過程。相反,模型直接在目標輸出上進行訓練,并假定在預訓練的語言模型的參數中捕獲足夠的語言特征。AIDA結束時,社區開始考慮方法上的另一個進步,即通過像GPT3這樣的大規模語言模型(LMs)的語境學習(提示-黑客),以及對生成性LMs的普遍關注。

JHU和合作伙伴羅切斯特大學對信息提取的神經模型的技術水平做出了貢獻,同時也對探測大型語言模型的新科學做出了貢獻。模型的新科學。利用我們在分解語義學的數據集創建方面的專長,開發了專門針對信息提取的新數據集。新的數據集,專門針對AIDA計劃的提取問題(特別是在事件提取和核心推理方面)。我們開發了分解語義學的新資源,在項目的最后階段,我們致力于新的倡議 了解如何對文本中的事實主張(所謂的 "主張框架")進行注釋。

在項目評估方面,我們努力滿足NIST及其合作伙伴不斷變化的要求。我們發現,在我們所關注的部分,特別是在多語種核心參考文獻的解決方面,我們經常具有競爭力,甚至優于其他執行者。由于管道要求和知識驅動的工作流程是在項目進行過程中臨時制定的,所以大家都認為在不同的執行者之間進行協調是不容易的,特別是在評估前后的時間敏感的情況下。不幸的是,這導致JHU對管道的貢獻往往是有限的:強大的分析組件并不總是在更大的原型框架中得到充分鍛煉。與正式的評估分開,我們建立了一個獨立的分析框架,并將其開源,重新發布給社區。這個 "LOME "包(大型本體多語言提取)在AIDA計劃之外的相關應用中被采用,并以該計劃所設想的任務需求為目標。我們在AIDA中的努力部分地導致了對其他相關項目的參與,包括DARPA KAIROS和IARPA BETTER,所有這些項目的主要重點都是增強語言技術的發展。

在下文中,我們將重點介紹我們在參與AIDA項目過程中出現的關鍵方法和結果。在有參考資料的地方,我們審查了提供進一步細節的科學文章。正如我們在總結中所說,我們的成果中值得注意的例子包括: 構建了RAMS,這是第一個公開可用的多句子事件提取數據集;開發了最先進的多語言核心推理模型,包括一個用固定內存處理長文檔的在線變體,以及一個專注于多人對話的新的多語言數據集; 一個新的有監督的跨語言對齊方法,支持通過從英語到資源較少的語言的投射來自動創建訓練數據;一個句子級的轉述和數據增強的框架;在 "探測 "神經語言模型的新興科學方面的合作;以及開發新的分解資源和跨越一些新的語言層面的分析。

付費5元查看完整內容

長期目標

在決策或推理網絡中進行適當的推理,需要指揮官(融合中心)對每個下屬的輸入賦予相對權重。最近的工作解決了在復雜網絡中估計智能體行為的問題,其中社會網絡是一個突出的例子。這些工作在各種指揮和控制領域具有相當大的實際意義。然而,這些工作可能受限于理想化假設:指揮官(融合中心)擁有所有下屬歷史全部信息,并且可以假設這些歷史信息之間具有條件統計獨立性。在擬議的項目中,我們打算探索更普遍的情況:依賴性傳感器、(可能的)依賴性的未知結構、缺失的數據和下屬身份被掩蓋/摻雜/完全缺失。對于這樣的動態融合推理問題,我們建議在一些方向上擴展成果:探索數據源之間的依賴性(物理接近或 "群體思維"),在推理任務和量化不一定匹配的情況下,采用有用的通信策略,甚至在每個測量源的身份未知的情況下,采用無標簽的方式--這是數據關聯問題的一種形式。

我們還認識到,對動態情況的推斷是關鍵目標所在。考慮到一個涉及測量和物理 "目標 "的傳統框架,這是一個熟悉的跟蹤問題。但是,來自目標跟蹤和多傳感器數據關聯的技術能否應用于提取非物理狀態(物理狀態如雷達觀察到的飛機)?一個例子可能是恐怖主義威脅或作戰計劃--這些都是通過情報報告和遙測等測量手段從多個來源觀察到的,甚至可能被認為包含了新聞或金融交易等民用來源。這些都不是標準數據,這里所關注的動態系統也不是通常的運動學系統。盡管如此,我們注意到與傳統的目標追蹤有很多共同點(因此也有機會應用成熟的和新興的工具):可能有多個 "目標",有雜波,有可以通過統計學建模的行為。對于這種動態系統的融合推理,我們的目標是提取不尋常的動態模式,這些模式正在演變,值得密切關注。我們特別建議通過將雜波建模為類似活動的豐富集合,并將現代多傳感器數據關聯技術應用于這項任務,來提取特征(身份)信息。

目標

研究的重點是在具有融合觀測的動態系統中進行可靠推理。

方法

1.決策人身份不明。在作戰情況下,融合中心(指揮官)很可能從下屬那里收到無序的傳感器報告:他們的身份可能是混合的,甚至完全沒有。這種情況在 "大數據 "應用中可能是一個問題,在這種情況下,數據血統可能會丟失或由于存儲的原因被丟棄。前一種情況對任務1提出了一個有趣的轉折:身份信息有很強的先驗性,但必須推斷出身份錯誤的位置;建議使用EM算法。然而,這可能會使所有的身份信息都丟。在這種情況下,提出了類型的方法來完成對局部(無標簽)信念水平和正在進行的最佳決策的聯合推斷。

2.動態系統融合推理的操作點。在以前的支持下,我們已經探索了動態事件的提取:我們已經開發了一個合理的隱馬爾科夫模型,學會了提取(身份)特征,有一個多伯努利過濾器啟發的提取方法 - 甚至提供了一些理論分析。作為擬議工作的一部分,將以兩種方式進行擴展。首先,打算將測量結果作為一個融合的數據流,這些數據來自必須被估計的未知可信度的來源。第二,每個這樣的信息源必須被假定為雜亂無章的 "環境 "事件(如一個家庭去度假的財務和旅行足跡),這些事件雖然是良性的,可能也不復雜,但卻是動態的,在某種意義上與所尋求的威脅類似。這些必須被建模(從數據中)和抑制(由多目標追蹤器)。

3.數據融合中的身份不確定性。當數據要從多個來源融合時,當這些數據指的是多個真相對象時,一個關鍵的問題是要確定一個傳感器的哪些數據與另一個傳感器的哪些數據相匹配:"數據關聯 "問題。實際上,這種融合的手段--甚至關聯過程的好方法--都是相當知名的。缺少的是對所做關聯的質量的理解。我們試圖提供這一點,并且我們打算探索傳感器偏差和定位的影響。

4.具有極端通信約束的傳感器網絡。考慮由位置未知、位置受漂移和擴散影響的傳感器網絡進行推理--一個泊松場。此外,假設在這樣的網絡中,傳感器雖然知道自己的身份和其他相關的數據,但為了保護帶寬,選擇不向融合中心傳輸這些數據。可以做什么?又會失去什么?我們研究這些問題,以及評估身份與觀察的作用(在信息論意義上)。也就是說,假設對兩個帶寬相等的網絡進行比較;一個有n個傳感器,只傳輸觀察;另一個有n/2個傳感器,同時傳輸數據和身份。哪一個更合適,什么時候更合適?

5.追蹤COVID-19的流行病狀況。誠然,流行病學并不在擬議研究的直接范圍內,但考慮到所代表的技能以及在目前的健康緊急情況下對這些技能的迫切需要,投機取巧似乎是合理的。通過美國和意大利研究人員組成的聯合小組,我們已經證明,我們可以從當局提供的每日--可能是不確定的--公開信息中可靠地估計和預測感染的演變,例如,每日感染者和康復者的數量。當應用于意大利倫巴第地區和美國的真實數據時,所提出的方法能夠估計感染和恢復參數,并能很準確地跟蹤和預測流行病學曲線。我們目前正在將我們的方法擴展到數據分割、變化檢測(如感染人數的增加/減少)和區域聚類。

付費5元查看完整內容

FAST項目(基于智能體的系統基礎技術)是一項為期三年的研究和開發工作,與位于紐約州羅馬的空軍研究實驗室簽訂合同。該項目從一開始就由美國海軍贊助,在項目的后期,美國空軍也做出了額外的貢獻。

該項目的主題是探索新的建模方法和基于模型的軟件生產技術,以提高所開發軟件的質量,同時縮短開發時間,提高設計的可重復使用性。在模型驅動的軟件和系統開發,以及海軍的任務工程有很大的相似性。傳統上,這兩個過程都是以自下而上的方式開發,而自上而下的方法則更有針對性和前景。這種自上而下的方法的最初步驟必須是一個概念模型,概述基于一組給定事實達到預期目標所需的所有(概念)決策。對于任務工程來說,這個決策建模器有助于確定所有需要做出的關鍵決策,以及相應的任務,以便規劃和執行一個成功的任務。對于軟件或系統工程師來說,決策建模器概述了設計中的系統的關鍵語義和相應結構。雖然存在對系統工程的建模支持,在某種程度上也存在對軟件工程的建模支持,但沒有任何工具支持將決策建模器作為系統或軟件設計模型的一個完全集成部分來建立。因此,由于其根源在于系統建模語言(SysML),任務工程也缺乏決策建模能力。

我們通過為統一建模語言(UML)建模工具MagicDraw(又名Cameo)開發決策建模器能力,作為一個可加載的插件,與商業上可用的插件,如SysML、UAF等兼容,縮小了這一差距。決策建模器實現了決策模型和符號OMG標準所定義的決策需求圖的增強型變體,但在其他方面偏離了OMG標準,以提供更復雜的決策表達建模、決策仿真能力,以及與SysML(v1.x)的無縫集成能力。為了在更大的仿真場景中進行協作,我們為MagicDraw開發了第二個插件(名為SimCom),允許決策建模器的仿真能力與外部仿真系統(如高級仿真、集成和建模框架(AFSIM))之間進行實時協作。SimCom插件實現了一個受 "高級架構"(HLA)仿真協議啟發的輕量級協議。我們用決策建模器和AFSIM之間的協作場景展示了這種能力。

雖然決策建模器的工作使我們偏離了開發時間和空間(4D)、基于模式建模方法的最初計劃,但我們的深入合作和對SysML v2的貢獻,在很大程度上彌補了這一點,提交給OMG。SysML v2已經達到了與我們最初計劃的相似的4D特征。在SysML v2環境下重建決策建模器將是一項有趣和有益的任務。除了參與SysML v2的工作,該項目還在其他幾個OMG標準的開發中起到了主導作用。

方法、假設和程序

相關標準及技術

許多建模方法包括隱含或嵌入的決策制定。這些建模案例有流程圖、活動圖、業務流程模型等等。決策建模作為一門專門的學科是比較新的。對象管理小組創建了決策建模和符號(DMN)規范,最初是為了使BPMN1業務流程模型中的決策更加明顯,并支持更詳細的決策過程。這段歷史的缺點是,DMN現在與BPMN的關系非常緊密,尤其是在元模型層面。因此,DMN,不能直接與UML或SysML集成。為了使DMN風格的決策建模與UML和SysML模型協作,特別是使現有的UML建模工具能夠進行DMN風格的決策建模,必須創建一個決策建模UML配置文件,與DMN元模型密切相關。

目標建模環境

決策建模器的開發和目標部署平臺是MagicDraw 19.0 SP4版本。MagicDraw(也被稱為Cameo)是一個UML建模工具,由No Magic公司開發和銷售。No Magic最近被Dassault Systèmes收購,Dassault Systèmes將繼續進一步開發和銷售這個工具,可能會用不同的名字。

MagicDraw是一個用Java實現的UML建模工具。它支持并使用一個插件架構來擴展其建模能力,涵蓋其他基于UML的建模語言和方法,如SysML、UAF和其他。一個OpenAPI工具箱可以用來支持自定義插件的開發。

圖 2 - MagicDraw(又名 Cameo)環境中的決策建模器

決策建模器和SimCom通信引擎是由FAST項目為MagicDraw開發的兩個定制插件。SimCom插件沒有任何先決條件,而決策建模器插件的功能需要SysML和Alf插件的存在。由于UAF是基于SysML的,決策建模器也可以用于基于UAF的企業模型。決策建模器和SimCom插件的安裝程序都與MagicDraw資源管理器一致。

標準制定

雖然在整個FAST項目中開發的技術是朝著符合相關標準的方向做出的最大努力,像OMG規范的元對象設施(MOF)、統一建模語言(UML)、系統工程建模語言(SysML)等;或者像世界網絡聯盟(W3C)開發的網絡本體語言(OWL)、資源描述符框架(RDF)或其他,但我們自己也大力參與了新標準的開發,即在對象管理小組內。

雖然標準的制定是繁瑣的工作,但它的回報是許多好處。某一主題的標準化要求它處于該主題發展的第一線。這項工作通常是在研究實驗室或高級開發部門的隱蔽處進行的。然后,標準化要求開發人員開放并與世界各地同行討論該主題,這在所有案例中都是有益的。

在FAST項目期間,我們參與了對象管理小組的幾個標準化任務。所有這些任務都是在FAST項目之前的某個時間開始的,但這些任務的持續工作和討論為FAST項目提供了重要的投入和科學效益。我們所參與的任務是: MOF到RDF的轉換,元模型擴展設施,系統工程建模語言第二版,智能體和事件元模型,以及不確定性建模的精確語義學。另見本文件后面的標準化活動一章,以及項目技術報告(CDRL A010)中的相應章節。

決策模型

決策模型由兩類元素組成:主動和被動元素。

  • 主動元素是決策元素,它在模型執行過程中影響模型結果的整體結果(最高目標值)。根據OMG DMN規范,這些主動元素被定義: Decision、DecisionService和BusinessKnowledgeModel。

  • 被動元素不包含任何決策邏輯,因此不直接影響模型的結果。它們可能需要協助連續的活躍元素之間的信息流,或者注釋決策模型。OMG DMN規范定義了以下兩個被動元素: InputData和KnowledgeSource。

我們決策模型的所有元素,無論是主動還是被動,都有相同的基本結構:它們將接受一個到多個輸入,稱為 "輸入事實",并產生一個單一的輸出,稱為 "結果事實"。所有的事實都可以是單值或復值,在這種情況下,它們是單值的結構。

付費5元查看完整內容

由于多種因素的影響,自動機器學習(AutoML)這些年一直在快速發展,數據科學家需要創建機器學習管道原型來決定如何進行解決,并為非專業人士提供解決方案。已經創建了一些AutoML框架,但它們受到能解決的問題類型、機器學習原語的數量、管道表示語言和嚴格數據描述的限制。這些限制大多是由相當大的工程量造成的。D3M項目旨在擴大AutoML的范圍,提供創建AutoML系統所需的工具,使其能夠解決超出大部分框架的問題類型,并為用戶提供工具,使機器學習工具不需要太多的專業知識。此外,該項目還致力于實現AutoML組件的標準化,以便對不同的框架進行公平的比較,并通過開源共享該項目期間創建的基礎設施來幫助研發界改善該領域。

本文在D3M上的工作主要集中在兩個方面:在D3M小組內創建標準化AutoML工具,以及創建具有不同目的的AutoML系統和框架。在這份報告中,將介紹對該項目的主要貢獻以及AutoML系統的演變。在該項目中,創建了評估AutoML系統的工具,開發了三個AutoML系統,開發了被多個系統廣泛使用的原型,設計了測試原型的自動化框架,并通過創建AutoKeras對AutoML研發界產生了巨大影響。

付費5元查看完整內容

本報告總結了迄今為止在路線偵察領域的本體開發的進展,重點是空間抽象。我們的重點是一個簡單的機器人,一個能夠感知并在其環境中導航的自主系統。該機器人的任務是路線偵察:通過觀察和推理,獲得有關條件、障礙物、關鍵地形特征和指定路線上的敵人的必要信息。路線偵察通常是由一個排的騎兵和非騎兵進行的。這項研究探討了機器人執行部分或全部必要任務的合理性,包括與指揮官進行溝通。

1.1 背景與動機

這是一項具有挑戰性的對抗性任務,即地形穿越加上信息收集和解釋。偵察的解釋方面需要考慮語義學--確定相關的信息和確定它如何相關(即有意義)。語義信息在本質上是定性的:例如,危險是一個定性的概念。為了將危險與某些特定的區域聯系起來,我們需要一種方法來指代該區域。這意味著至少能夠給空間的某些部分附上定性的標簽。

Kuipers在他的空間語義層次的早期工作中指出了空間的定性表示對機器人探索的重要性。例如,層次結構的拓撲層次包含了 "地方、路徑和區域的本體",歸納產生了對較低層次的因果模式的解釋。

最近,Izmirlioglu和Erdem為定性空間概念在機器人技術中的應用提供了以下理由:

  • 各種任務,如導航到一個目的地或描述一個物體的位置,涉及處理物體的空間屬性和關系。......或某些應用(如探索未知環境),由于對環境的不完全了解,可能并不總是有定量的數據。......可理解的相互作用和可接受的解釋往往比高精確度更可取(Kuipers 1983)。對于這些應用,定性的空間關系似乎更適合。

對于負責路線偵察的無人地面車輛(UGV)來說,其架構中的不同模塊將消費和產生語義信息:負責語義感知和目標識別、計劃和執行、自然語言對話等的模塊,加上主要負責維護信息的語義世界模型。例如,在美國陸軍作戰能力發展司令部陸軍研究實驗室的自主架構中,語義/符號世界模型被用來 "實現符號目標(例如,去接近一個特定的物體)",*其中接近是一個語義概念。

一個關鍵問題是如何在世界模型和其他模塊之間分配維護和處理不同類型語義信息的責任。從語義世界模型的角度來看,這取決于有多少符號推理是合適的。例如,假設要接近的物體位于一個給定區域的某個位置,而不是靠近該區域的外部邊界。一旦機器人靠近物體,就可以推斷出機器人在物體的位置附近,而且也在同一區域內。如果有公制信息,就可以用幾何例程得出這個結論。在沒有公制信息的情況下,是否會出現在純粹的定性空間中推斷有用的情況?

本報告不涉及這個問題。我們的目標是確定什么應該被代表,而把如何代表和在哪里代表留給未來的工作。

1.2 路線偵察

以下片段取自FM7-92中對路線偵察的描述。空間表達是彩色的,周圍有一些文字作為背景。

  • 路線偵察的重點是獲得關于一條指定路線和敵人可能影響沿該路線移動的所有地形的信息。路線偵察的方向可以是一條道路、一條狹窄的軸線(如滲透通道),或一個總的攻擊方向......防御陣地。......部隊可以機動的可用空間......所有障礙物的位置和類型以及任何可用的繞道位置。障礙物可包括雷區、障礙物、陡峭的峽谷、沼澤地或核生化污染 ......沿途和鄰近地形的觀察和火力范圍 ......沿途提供良好掩護和隱蔽的地點 ......。橋梁的結構類型、尺寸和分類。著陸區和接駁區。與路線相交或穿越的道路和小徑。. . 如果建議路線的全部或部分是道路,則該排認為該道路是一個危險區域。它使用有掩護和隱蔽的路線與道路平行移動。當需要時,偵察和安全小組靠近道路,以偵察關鍵區域。

路線偵察的結果是一份報告,以圖表的形式,并附有文字說明。FM7-92給出了一個例子,我們可以從中提取一些更必要的概念:

  • 網格參考。磁性北方箭頭..道路彎道..陡峭的坡度..道路寬度的限制(橋梁,隧道等)..岔道的位置..隧道..

讓我們把這段關于路線偵察的描述中提到的概念建立一個綜合清單,重點放在空間概念上,并盡可能地保留軍事術語:

1)必須指定環境中的位置、路線、區域和感興趣的物體。稱這些為 "實體"。

2)這些實體之間的空間關系是相關的(例如,一個地點在另一個地點的北邊)。值得注意的是,不同類型的實體之間的關系是被指定的。

a. 物體(例如,障礙物)在位置或區域。

b. 一些地點在空間上與路線有關(例如,沿著路線,毗鄰,或靠近道路)。

c. 地點可能代表更大的區域(例如,雷區的位置)。

d. 道路和小徑可以與路線相關:它們可能相交、重疊(部分疊加),或平行運行。

  1. 一些實體對路線具有戰術價值,無論是進攻還是防御(例如,雷區)。

a. 一些地點相對于其他地點或區域有方向性的定位(例如,一個防御性的位置)。

b. 有些區域是由其與另一個區域或地點的關系來定義的,這可能不是一種局部的關系(例如,觀察和火力場是由一個潛在的遠程位置來定義的,該位置有一條通往路線上的一個區域的線路)。

4)路線可能被障礙物阻擋,障礙物可能是明確的物體或更大的區域(例如,一個障礙物與一個雷區)。

  1. 路線和地形的三維幾何特性是相關的:道路上的急轉彎,陡峭的坡度,等等。

6)有時,描述物理基礎設施(如道路、橋梁)及其屬性是很重要的。

1.3 路線偵察抽象

路線偵查收集和解釋不同種類和不同來源的信息:

  • 背景知識。這包括關于環境特征的類型和預期成為任務一部分的物體的信息,包括道路、障礙物、溝壑、橋梁等等。

  • 任務規范。確定偵查的區域和路線,以及當時可獲得的任何信息。

  • 環境。通過空間分析(包括幾何學、拓撲學等)、感知、地圖衛星數據的離線圖像處理和其他類型的分析,確定環境的相關特征。

  • 任務執行期間的通信。我們假設指揮官或人類操作員在偵察過程中可以向UGV提出詢問或命令,提供新信息或集中注意力。

  • 如前所述,一份報告。

原則上,所有這些信息都以某種抽象的形式組合在一個語義世界模型中。我們把環境的物理屬性和特征稱為 "實體"。把我們用來表示這些實體和它們之間關系的抽象概念稱為 "概念"。

不同類型的實體的概念。層次結構在語義表征中很常見,用來捕捉關于世界上遇到的實體類型的一般知識。一個類型就是一個概念,類型被組織在一個層次中:MRZR是一種輕型的、戰術性的、全地形的車輛,它是一種輪式地面車輛,它是一種地面車輛的類型,等等。屬性和關系可以與一個給定的概念相關聯,而下級概念則繼承這些屬性。在路線偵察中,如果有信息說某一地區有一條道路,但沒有更多的細節,仍然可以從道路的概念中推斷出它的預期屬性:它比它的寬度長得多;它在人們感興趣的地點之間通向;在其他條件相同的情況下,它可能比周圍的地形行駛得快。從實用的角度來看,這意味著如果有可能將某物歸類為一個已知的概念,那么語義世界模型就不需要記錄關于該物的每一條相關信息。

用于實體的目的和用途的概念。一個代表道路典型用途的概念可以進一步區分其長度和寬度的語義,這反過來又導致了跨越和沿途、穿越和跟隨等概念之間的區別。這將使UGV能夠以不同的方式對待 "偵察道路對面的區域 "和 "偵察前方的道路 "的命令。前方的道路也是一個語義概念:它取決于對過去去過的地方的了解。

代表部分信息的概念。有時可能會有定性的信息。想象一下,任務規范的一部分是關于雷區在計劃路線上存在的信息,但不知道具體位置,或者知道雷區的位置,但不知道其范圍。這種無知可以很容易地在代表實體的概念中得到體現。

新概念適用于新環境。另一個交流的例子可能是信息性的。想象一下,當一輛UGV穿越一條東西走向的道路時,它與遠程指揮官進行交流,指揮官問道:"道路北側是什么?"* 需要識別的物體可能不在道路和地形的邊界上(與 "建筑物的一側 "形成對比),而是在以道路邊緣為界的某個感興趣的區域內,距離UGV的位置向北不遠,向東和向西也有一些距離。這個區域可能沒有事先作為一個概念被劃定;相反,它是在當前的背景下構建或推斷出來的。這是一個有趣的例子,一個概念不是從公制數據中抽象出來的,而是被強加在公制數據上的。

背景中的概念的適應和組合。想象一下,對一張地圖的分析產生了對代表區域、道路等等的概念的分解。這些概念可能直接適用于某些目的。例如,與道路相聯系的概念在推理兩點之間的導航時是有用的。然而,在其他情況下,這些概念可能需要調整或與其他概念相結合。例如,如果一條道路被指定為 "危險區域",那么這個區域的概念可能會超出道路的邊界,延伸到周圍的地形。

付費5元查看完整內容

在學習型網絡物理系統(LE-CPS)中使用的機器學習模型,如自動駕駛汽車,需要能夠在可能的新環境中獨立決策,這可能與他們的訓練環境不同。衡量這種泛化能力和預測機器學習模型在新場景中的行為是非常困難的。在許多領域,如計算機視覺[1]、語音識別[2]和文本分析[3]的標準數據集上,學習型組件(LEC),特別是深度神經網絡(DNN)的成功并不代表它們在開放世界中的表現,在那里輸入可能不屬于DNN被訓練的訓練分布。因此,這抑制了它們在安全關鍵系統中的部署,如自動駕駛汽車[4]、飛機防撞[5]、戰場上的自主網絡物理系統(CPS)網絡系統[6]和醫療診斷[7]。這種脆性和由此產生的對基于DNN的人工智能(AI)系統的不信任,由于對DNN預測的高度信任而變得更加嚴重,甚至在預測通常不正確的情況下,對超出分布范圍(OOD)的輸入也是如此。文獻[8, 9]中廣泛報道了這種對分布外(OOD)輸入的不正確預測的高信心,并歸因于模型在負對數似然空間中的過度擬合。要在高安全性的應用中負責任地部署 DNN 模型,就必須檢測那些 DNN 不能被信任的輸入和場景,因此,必須放棄做出決定。那么問題來了:我們能不能把這些機器學習模型放在一個監測架構中,在那里它們的故障可以被檢測出來,并被掩蓋或容忍?

我們認為,我們已經確定了這樣一個用于高安全性學習的CPS的候選架構:在這個架構中,我們建立一個預測性的上下文模型,而不是直接使用深度學習模型的輸出,我們首先驗證并將其與上下文模型融合,以檢測輸入是否會給模型帶來驚喜。這似乎是一個語義學的練習--即使是通常的機器學習模型通常也會 "融合 "來自不同傳感器的解釋,這些解釋構成了模型的輸入,并隨著時間的推移進行整理--但我們認為,我們提出的監測架構相當于重點的轉移,并帶來了新的技術,正如我們將在本報告中說明的。我們建議,一個更好的方法是根據背景模型來評估輸入:模型是我們所學到的和所信任的一切的積累,根據它來評估新的輸入比只預測孤立的輸入更有意義。這是我們推薦的方法的基礎,但我們把它定位在一個被稱為預測處理(PP)的感知模型中[10],并輔以推理的雙重過程理論[11]。在這份報告中,我們還提供了這個運行時監控架構的候選實現,使用基于歸一化流的特征密度建模來實現第一層監控,以及基于圖馬爾科夫神經網絡的神經符號上下文建模來實現第二層。

我們用一個自主汽車的簡單例子來解釋我們方法背后的基本原理,并展示了上下文模型如何在監測LEC中發揮作用。考慮一下汽車視覺系統中有關檢測交通線的部分。一個基本的方法是尋找道路上畫的或多或少的直線,自下而上的方法是在處理每一幀圖像時執行這一過程。但這是低效的--當前圖像幀中的車道很可能與前幾幀中的車道相似,我們肯定應該利用這一點作為搜索的種子,而且它是脆弱的--車道標記的缺失或擦傷可能導致車道未被檢測到,而它們本來可以從以前的圖像中推斷出來。一個更好的方法是建立一個道路及其車道的模型,通過預測車道的位置,用它來作為搜索當前圖像中車道的種子。該模型及其對車道的預測將存在一些不確定性,因此發送給視覺系統的將是最好的猜測,或者可能是幾個此類估計的概率分布。視覺系統將使用它作為搜索當前圖像中車道的種子,并將預測和當前觀察之間的差異或 "誤差 "發送回來。誤差信號被用來完善模型,旨在最小化未來的預測誤差,從而使其更接近現實。

這是一個 "綜合分析 "的例子,意味著我們提出假設(即候選世界模型),并偏向于那些預測與輸入數據相匹配的模型。在實際應用中,我們需要考慮有關 "預測 "的層次:我們是用世界模型來合成我們預測傳感器將檢測到的原始數據(如像素),還是針對其局部處理的某個更高層次(如物體)?

這種自上而下的方法的重要屬性是,它專注于世界模型(或模型:一個常見的安排有一個模型的層次)的構建和前利用,與更常見的自下而上的機器學習模型形成對比。我們將展開論證,自上而下的方法對于自主系統中感知的解釋和保證是有效的,但有趣的是,也許可以放心的是,人們普遍認為這是人類(和其他)大腦中感知的工作方式,這是由Helmholtz在19世紀60年代首次提出的[12]。PP[13],也被稱為預測編碼[14]和預測誤差最小化[15],認為大腦建立了其環境的模型,并使用這些模型來預測其感覺輸入,因此,它的大部分活動可以被視為(近似于)迭代貝葉斯更新以最小化預測誤差。PP有先驗的 "預測 "從模型流向感覺器官,貝葉斯的 "修正 "又流回來,使后驗模型跟蹤現實。("自由能量"[16]是一個更全面的理論,包括行動:大腦 "預測 "手,比如說,在某個地方,為了盡量減少預測誤差,手實際上移動到那里。) 這與大腦從上層到下層的神經通路多于反之的事實是一致的:模型和預測是向下流動的,只有修正是向上流動的。

有趣的是,大腦似乎以這種方式工作,但有獨立的理由認為,PP是組織自主系統感知系統的好方法,而不是一個主要是自下而上的系統,其中傳感器的測量和輸入被解釋和融合以產生一個世界模型,很少有從模型反饋到傳感器和正在收集的輸入。2018年3月18日在亞利桑那州發生的Uber自動駕駛汽車與行人之間的致命事故說明了這種自下而上的方法的一些不足之處[17]。

純粹的自下而上的系統甚至不能回憶起之前的傳感器讀數,這就排除了從位置計算速度的可能性。因此,感知系統通常保持一個簡單的模型,允許這樣做:林的視覺處理管道的物體跟蹤器[18]就是一個例子,Uber汽車也采用了這樣的系統。Uber汽車使用了三個傳感器系統來建立其物體追蹤器模型:攝像頭、雷達和激光雷達。對于這些傳感器系統中的每一個,其自身的物體檢測器都會指出每個檢測到的物體的位置,并試圖將其分類為,例如,車輛、行人、自行車或其他。物體追蹤器使用一個 "優先級方案來融合這些輸入,該方案促進某些追蹤方法而不是其他方法,并且還取決于觀察的最近時間"[17,第8頁]。在亞利桑那車禍的案例中,這導致了對受害者的識別 "閃爍不定",因為傳感器系統自己的分類器改變了它們的識別,而且物體追蹤器先是喜歡一個傳感器系統,然后是另一個,如下所示[17,表1]。

  • 撞擊前5.6秒,受害者被列為車輛,由雷達識別
  • 撞擊前5.2秒,受害者被歸類為其他,通過激光雷達
  • 撞擊前4.2秒,根據激光雷達,受害者被歸類為車輛
  • 在撞擊前3.8秒和2.7秒之間,通過激光雷達,在車輛和其他之間交替進行分類
  • 撞擊前2.6秒,根據激光雷達,受害者被歸類為自行車
  • 撞擊前1.5秒,根據激光雷達,受害者被歸類為不知名。
  • 撞擊前1.2秒,根據激光雷達,受害者被歸類為自行車。

這種 "閃爍 "識別的深層危害是:"如果感知模型改變了檢測到的物體的分類,在生成新的軌跡時就不再考慮該物體的跟蹤歷史"[17,第8頁]。因此,物體追蹤器從未為受害者建立軌跡,車輛與她相撞,盡管她已經以某種形式被探測了幾秒鐘。

這里有兩個相關的問題:一個是物體追蹤器保持著一個相當不完善的世界和決策背景的模型,另一個是它對輸入的決策方法沒有注意到背景。預測性處理中的感知所依據的目標是建立一個準確反映世界的背景模型;因此,它所編碼的信息要比單個輸入多得多。我們想要的是一種測量情境模型和新輸入之間的分歧的方法;小的分歧應該表明世界的常規演變,并可以作為模型的更新納入;大的分歧需要更多的關注:它是否表明一個新的發展,或者它可能是對原始傳感器數據解釋的缺陷?在后面兩種情況中的任何一種,我們都不能相信機器學習模型的預測結果。

預測處理方法的實施可以采用貝葉斯方法[19]。場景模型表示環境中的各種物體,以及它們的屬性,如類型、軌跡、推斷的意圖等,并對其中的一些或全部進行概率分布函數(pdf s)。觀察更新這些先驗,以提供精確的后驗估計。這種貝葉斯推理通常會產生難以處理的積分,因此預測處理采用了被稱為變異貝葉斯的方法,將問題轉化為后驗模型的迭代優化,以最小化預測誤差。卡爾曼濾波器也可以被看作是執行遞歸貝葉斯估計的一種方式。因此,像神經科學、控制理論、信號處理和傳感器融合這樣不同的領域都可能采用類似的方法,但名稱不同,由不同的歷史派生。思考PP的一種方式是,它將卡爾曼濾波的思想從經典的狀態表征(即一組連續變量,如控制理論)擴展到更復雜的世界模型,其中我們也有物體 "類型 "和 "意圖 "等表征。預測處理的一個有吸引力的屬性是,它為我們提供了一種系統的方法來利用多個輸入和傳感器,并融合和交叉檢查它們的信息。假設我們有一個由相機數據建立的情境模型,并且我們增加了一個接近傳感器。預測處理可以使用從相機中獲得的模型來計算接近傳感器預計會 "看到 "什么,這可以被看作是對模型準確性的可驗證的測試。如果預測被驗證了,那么我們就有了對我們上下文模型某些方面的獨立確認。我們說 "獨立 "是因為基于不同現象的傳感器(如照相機、雷達、超聲波)具有完全不同的解釋功能,并在不同的數據集上進行訓練,這似乎是可信的,它們會有獨立的故障。在一個完全集成的預測處理監視器中,情境模型將結合來自所有來源的信息。情境模型將保守地更新以反映這種不確定性,監測器將因此降低其對機器學習模型的信心,直到差異得到解決。

請注意,上下文模型可以是相當簡單粗暴的:我們不需要場景的照片,只需要知道我們附近的重要物體的足夠細節,以指導安全行動,所以相機和接近傳感器 "看到 "的相鄰車輛的輪廓之間的差異,例如,可能沒有什么意義,因為我們需要知道的是他們的存在,位置,類型和推斷的意圖。事實上,正如我們將在后面討論的那樣,我們可以在不同的細節層次上對上下文進行建模,自上而下的生成模型的目標是生成不同層次的感知輸入的抽象,而不是準確的傳感器值。在報告中討論的我們的實現中,我們在兩個層次上對上下文進行建模--第一個層次使用深度神經網絡的特征,第二個層次對場景中物體之間更高層次的空間和時間關系進行建模。除了傳感器,感知的上層也將獲得關于世界的知識,可能還有人工智能對世界及其模型的推理能力。例如,它可能知道視線和被遮擋的視野,從而確定在我們附近的車輛可能無法看到我們,因為一輛卡車擋住了它的去路,這可以作為有關車輛的可能運動("意圖")的增加的不確定性納入世界模型中。同樣,推理系統可能能夠推斷出反事實,比如 "我們將無法看到可能在那輛卡車后面的任何車輛",這些可以作為 "幽靈 "車輛納入世界模型,直到它們的真實性被證實或被否定。我們對監控架構第2層的神經符號建模的選擇對于整合這種背景和學習的知識以及對這些知識進行推理至關重要。

在這方面,另一個關于人腦組織的理論很有意思;這就是 "雙過程 "模型[20, 21],由卡尼曼推廣的獨立 "快慢 "思維系統[22]。它的效用最近已經通過一個非常有限的實現被證明用于計算機器學習模型的信心[23, 24]。系統1是無意識的、快速的、專門用于常規任務的;系統2是有意識的、緩慢的、容易疲勞的、能夠斟酌和推理的,這就是我們所說的 "思考"。就像預測處理一樣,我們提倡雙過程模型并不僅僅是因為它似乎符合大腦的工作方式,而是因為它似乎是獨立的,是一個好架構。在這里,我們可以想象一個特征密度正常化的流生成模型形成一個高度自動化的 "系統1",而更多的深思熟慮的神經符號模型構成一個 "系統2",當系統1遇到大的預測錯誤時,該系統會主動參與。系統1維持一個單一的生成性世界模型,而系統2或者對其進行潤色,或者維持自己的更豐富的世界模型,具有對符號概念進行反事實的 "what-if "推理能力。人們認為,人類保持著一個模型的層次結構[20, 21, 22],這似乎也是自主系統的一個好方法。我們的想法是,在每一對相鄰的模型(在層次結構中)之間都有一個預測處理的循環,因此,較低的層次就像上層的傳感器,其優先級和更新頻率由預測誤差的大小決定。

人類的預測處理通常被認為是將 "驚訝 "降到最低的一種方式,或者說是保持 "情況意識"。加強這一點的一個方法是在構建世界模型時增加系統2對假設推理的使用,以便將沒有看到但 "可能存在 "的東西明確地表示為 "幽靈 "或表示為檢測到的物體屬性的不確定性增加。一個相關的想法是利用人工智能進行推斷,例如,檢測到前面有許多剎車燈,就可以推斷出某種問題,這將被表示為世界模型中增加的不確定性。這樣一來,本來可能是意外情況的驚奇出現,反而會發展為不確定性的逐漸變化,或將幽靈解決為真實的物體。圖馬爾科夫神經網絡提供了一個有效的機制,既可以對這些關系和更豐富的背景進行建模,又可以通過反事實查詢和背景知情的預測進行審議。因此,雙重過程理論激發了我們的運行時監控器的兩層預測編碼結構。雖然這些理論旨在解釋人類的認知,但我們將這些作為運行時監控器來計算底層模型的驚喜,因此,當模型由于新奇的或超出分布的或脫離上下文的輸入而不能被信任時,就會被發現。

圖 1:基于預測處理和雙過程理論的自主量化保障架構

圖1展示了所提出的深度學習模型運行時監控的整體架構。如圖所示,該架構有兩個層次(由雙重過程理論激發)。在第一層,我們使用生成模型,學習輸入的聯合分布、預測的類輸出和模型提供的解釋。在第二層,我們使用圖馬爾可夫神經網絡來學習物體檢測任務的物體之間的空間和時間關系(更一般地說,輸入的組成部分)。在這兩層中,我們在本報告中的重點是運行時監測,而不是開發一個認知系統本身(而使用所提出的方法建立一個強大的、有彈性的、可解釋的系統將是自然的下一步)。因此,由這兩層檢測到的驚喜被監控者用來識別底層LEC何時不能被信任。這也可以作為LE-CPS的一個定量保證指標。

提綱

第3節介紹了預測性處理和雙進程架構(低級別的自動化和高級別的審議),并認為這可以支持一種可信的方法來保證自主系統的穩健行為。它也被廣泛認為反映了人類大腦的組織。我們提出了使用不同的神經架構和神經符號模型的組成來可擴展地完成這些的機制。結果在第4節報告。第5節提供了一些與工業建議的比較,并提出了結論和額外研究的建議。

付費5元查看完整內容

數字工程和數字設計是美國空軍(USAF)的一個新興重點領域,特別是用于現代復雜系統。高復雜度系統的一個例子是網絡合作自主彈藥群(NCAM),它優先考慮廣域搜索和多視角目標確認。首先,本研究討論了在基于模型的系統工程(MBSE)工具中建立行為模型的方法。然后,本研究介紹了NCAM在兩個環境中的并行建模工作:Cameo系統建模器中的MBSE模型,以及仿真、集成和建模高級框架(AFSIM)中的基于物理學的模型。每個數字模型在其環境中都為設計過程中的利益相關者提供了不同的好處,所以這些模型必須呈現出一致和平行的信息。因此,這項研究也提出了在模型之間翻譯設計信息的自動化方法。總的來說,這對協同工作的模型通過系統認知和數字場景模擬對自主過程的理解,與決策部門建立信任關系。

引言

1.1 一般問題

在始于1903年萊特兄弟首次飛行的重于空氣的飛行歷史中,美國軍隊促進了空對地攻擊能力的持續和快速發展。最初,飛行在軍事上的應用僅限于1909年美國陸軍信號部隊的偵察和監視;然而,第一次世界大戰和后來的第二次世界大戰的爆發創造了軍用飛機技術和理論的繁榮。到1946年,簡單的偵察雙翼飛機被可以超過音速的噴氣機所取代。美國看到了這種快速發展的技術的可行性,并在1947年創建了獨立的美國空軍(USAF)服務。空中力量的勢頭一直持續到現在,現代美國空軍的飛機可以隱藏他們的雷達信號,并精確地投擲制導彈藥,在地面上的同一個洞里投擲5枚炸彈!這就是美國空軍。

在美國空軍這個令人難以置信的組合中,一個合乎邏輯的下一個能力是合作和自主的彈藥,它利用相互通信來尋找、識別和打擊一個目標,同時評估對目標的損害。國防部研究與工程助理部長(USD(R&E))對這種能力有兩個關鍵定義。

  • "自動化。該系統的功能沒有或很少有人類操作者的參與。然而,系統的性能被限制在它被設計為做的具體行動上。通常,這些都是定義明確的任務,有預先確定的反應(即基于規則的簡單反應)。

  • 自主性。系統有一套基于智能的能力,使其能夠對系統部署前沒有預先編程或預期的情況做出反應(即基于決策的反應)。自治系統具有一定程度的自治和自我指導行為(由人類代理決策)"。[4]

目前的制導彈藥非常嚴格地遵循自動化的定義。通過激光或全球定位手動指定目標,然后彈藥執行程序化的行動以擊中指定位置。在這種情況下,控制權被操作者緊緊抓住,對目標開火的決定需要多個人為步驟。這些人為步驟使操作者對自動化有一種信任感,因為扣動扳機時風險最小化;與操作者使用無制導彈藥相比,彈藥利用其自動化技術更準確地擊中目標。當討論下一步的自主化發展時,人們有一種理性的擔心,即人類通常控制的決定將由自主系統的機器大腦來代替。這種不信任導致人們對部署旨在自主摧毀目標的武器猶豫不決。

理解與系統自主決策相關的行為是建立對自主性信任的絕佳方式。有多種方法可以將行為理解傳達給人類評估者:首先是提供描述系統各個方面的正式文件,接下來是創建一個數字模型,用圖表表示系統結構和行為,另一個是運行涵蓋廣泛場景的模擬,最后演示可以證明物理系統在測試和評估中的能力。文檔方法一直是所有國防部采購的標準,可以追溯到手繪示意圖的設計時代。然而,最近,國防部對使用建模和仿真來記錄和管理系統表示了興趣。已經出現的一個概念是數字孿生,系統的每個方面都被虛擬建模,以實現快速的修改原型和精確的配置控制。[5]這種數字孿生的焦點也為它所代表的系統的物理結構和行為創造了清晰的、可瀏覽的數據,從而使系統得到合理的理解。

1.2 問題陳述

如Reed[6]所示,基于模型的系統工程(MBSE)已經迅速被美國空軍的數字工程工作所采用,用于程序和系統結構建模項目。然而,復雜系統的行為MBSE建模在美國空軍的相同項目中并不常見。對于自主系統,算法的復雜性和這些自主系統協作時出現的突發行為使得評估邏輯行為和性能影響變得困難。對系統行為進行建模的能力是MBSE過程所固有的,但MBSE模型通常缺乏提供詳細的基于物理學的模型的能力,無法對系統的運行情況進行性能評估。有一些專門建立的基于物理的仿真平臺,如高級仿真、集成和建模框架(AFSIM),就是為了這后一種目的而存在的,但它們往往與MBSE工具中的定義模型脫節[3]。一種將復雜系統的MBSE行為模型和同一復雜系統的基于物理學的仿真模型聯系起來的方法和工具是必要的。要確保這對模型之間的行為一致,需要有能力在建模平臺之間傳輸設計數據。

1.3 研究目標和問題

本研究的目的是建立一個復雜的合作彈藥系統的行為MBSE模型,并建立一個自動和可重復的方法,將數據從MBSE模型轉移到AFSIM場景中,以執行相同的合作彈藥行為的模擬。MBSE模型將足以驗證單個自主彈藥的邏輯行為,以及在合作概念中同一彈藥的數量。AFSIM模擬將反過來為建模者提供反饋,以便對彈藥模型進行潛在的修改,從而實現更高的性能。

合作彈藥模型的研究問題包括:

  • SysML在行為建模中的優勢和劣勢是什么?

  • 哪些MBSE元素和/或屬性適合翻譯成AFSIM的原生語言用于情景模擬?

  • SysML數字模型在多大程度上可以代表AFSIM模擬中使用的合作彈藥的行為?

  • 在SysML模型和AFSIM場景之間可以利用哪些自動和可重復的方法進行數據交換?

1.4 方法學總結

這項研究必須首先確定連接點和集成到AFSIM的所需變量,這將有助于定義合作彈藥的MBSE系統模型的邏輯接口。這些接口有助于定義合作彈藥的MBSE模型的邊界,并為整合到AFSIM的場景模型提供數據點。設計和測試的關鍵領域是:為AFSIM實體所需的變量和基本方程建模;提供從MBSE模型到AFSIM的彈藥和場景參數的自動導出可用性;以及確定MBSE模型中會影響模擬的可修改區域。基于對連接點的評估,研究將轉向創建一個MBSE模型,以保持連接點,同時建立與AFSIM模型平行的行為。MBSE模型中的行為將根據AFSIM模型的情況進行評估。

1.5 假設和局限性

本研究僅限于虛擬彈藥的建模和模擬。此外,本研究定義的合作彈藥概念是名義上的;因此,彈藥模型將由名義上的數據填充。

1.6 提綱

第2章是對與彈藥建模、AFSIM集成、自主無人機系統行為建模和美國空軍先進彈藥的歷史應用有關的出版物的文獻回顧。第3章介紹了合作彈藥概念的設計方法和將數據自動傳輸到AFSIM場景模擬的方法。第4章討論了已完成的網絡化合作自主彈藥(NCAM)MBSE模型的行為分析、自動轉換結果和平行模型之間的比較。第5章總結了研究的重要發現,并推薦了未來的研究課題。

付費5元查看完整內容

計算機視覺中的一項挑戰性任務是尋找技術來提高用于處理移動空中平臺所獲圖像的機器學習(ML)模型的目標檢測和分類能力。目標的檢測和分類通常是通過應用有監督的ML技術完成的,這需要標記的訓練數據集。為這些訓練數據集收集圖像是昂貴而低效的。由于一般不可能從所有可能的仰角、太陽角、距離等方面收集圖像,這就導致了具有最小圖像多樣性的小型訓練數據集。為了提高在這些數據集上訓練的監督性ML模型的準確性,可以采用各種數據增強技術來增加其規模和多樣性。傳統的數據增強技術,如圖像的旋轉和變暗,在修改后的數據集中沒有提供新的實例或多樣性。生成對抗網絡(GAN)是一種ML數據增強技術,它可以從數據集中學習樣本的分布,并產生合成的復制,被稱為 "深度偽造"。這項研究探討了GAN增強的無人駕駛飛行器(UAV)訓練集是否能提高在所述數據上訓練的檢測模型的可推廣性。為了回答這個問題,我們用描述農村環境的航空圖像訓練集來訓練"你只看一次"(YOLOv4-Tiny)目標檢測模型。使用各種GAN架構重新創建幀中的突出目標,并將其放回原始幀中,然后將增強的幀附加到原始訓練集上。對航空圖像訓練集的GAN增強導致YOLOv4-微小目標檢測模型的平均平均精度(mAP)平均增加6.75%,最佳情況下增加15.76%。同樣,在交叉聯合(IoU)率方面,平均增加了4.13%,最佳情況下增加了9.60%。最后,產生了100.00%的真陽性(TP)、4.70%的假陽性(FP)和零的假陰性(FN)檢測率,為支持目標檢測模型訓練集的GAN增強提供了進一步證據。

引言

對從移動平臺上獲得的數據進行圖像和視頻分類技術的調查,目前是計算機視覺領域中一個越來越受關注的領域。由空中飛行器收集的圖像對于收集信息和獲得對環境的洞察力非常重要,否則在地面上的評估是無法實現的。對于訓練目標檢測模型來說,用于創建這些模型的訓練集的一個重要特征是這些訓練集必須在其圖像中包含廣泛的細節多樣性。過去的數據增強技術,例如旋轉、添加噪音和翻轉圖像,被用來增加訓練集的多樣性,但由于它們無法向數據集添加任何新的圖像,所以是弱的方法。研究新的圖像增強和分類方法,其中包括機器學習(ML)技術,有助于提高用于航空圖像分類的模型的性能。

1.1 背景與問題陳述

1.1.1 背景

最近,使用ML算法對圖像進行分類或預測的情況越來越多。雖然ML已經被使用了幾十年,但在圖像上,我們看到合理的進展是在過去的20年里。隨著信息收集和存儲的技術進步及其可及性的擴大,可用于分析的數據量正以指數級的速度增長。計算機的隨機存取存儲器(RAM)和硬件存儲的增加迎合了擁有巨大的數據集來訓練、測試和驗證ML模型以實現較低的偏差和變異的需要。技術上的其他進步來自于計算機圖形處理單元(GPU)的改進,它允許以更快的速度處理大量的數據,這是實時圖像處理的兩個重要能力[2]。

人工神經網絡(ANNs)是ML的一個子集,其靈感來自于大腦中神經元的生物結構,旨在解決復雜的分類和回歸問題[3]。深度學習是ANNs的一個子集,它創建了多個相互連接的層,以努力提供更多的計算優勢[3]。卷積神經網絡(CNN)是ANN的一個子集,它允許自動提取特征并進行統一分類。一般來說,CNN和ANN需要有代表性的數據,以滿足操作上的需要,因此,由于現實世界中的變化,它們往往需要大量的數據。雖然在過去的十年中收集了大量的數據,但微不足道和不平衡的訓練數據集的問題仍然阻礙著ML模型的訓練,導致糟糕的、有偏見的分類和分析。相對較小的數據集導致了ML模型訓練中的過擬合或欠擬合。過度擬合的模型在訓練數據上顯示出良好的性能,但在模型訓練完成后,卻無法推廣到相關的真實世界數據。通過提供更大、更多樣化的訓練數據集,以及降低模型的復雜性和引入正則化,可以避免模型過擬合[4]。

過度擬合的模型不能學習訓練集的特征和模式,并對類似的真實世界數據做出不準確的預測。增加模型的復雜性可以減少欠擬合的影響。另一個克服模型欠擬合的方法是減少施加在模型上的約束數量[4]。有很多原因可以說明為什么大型、多樣的圖像集對訓練模型以檢測視頻幀中捕獲的目標很有用。當視頻取自移動平臺,如無人機或汽車時,存在Bang等人[5]所描述的進一步問題。首先,一天中拍攝圖像的時間以及天氣狀況都會影響亮度和陰影。其次,移動平臺收集的圖像有時會模糊和失真,這是因為所使用的相機類型以及它如何被移動平臺的推進系統投射的物理振動所影響。移動平臺的高度、太陽角度、觀察角度、云層和距離,以及目標的顏色/形狀等,都會進一步導致相機采集的樣本出現扭曲的影響。研究人員忽視這些參數的傾向性會導致模型在面對不同的操作數據時容易崩潰。這些因素使得我們有必要收集大量包含各種特征、圖像不規則性和扭曲的視頻幀,以復制在真實世界的圖像收集中發現的那些特征,從而訓練一個強大的目標檢測和分類模型。

為了增加圖像的多樣性,希望提高在數據上訓練的分類模型的結果準確性,可以使用數據增強技術來扭曲由無人駕駛飛行器(UAV)收集的圖像。目前的一些數據增強技術包括翻轉、旋轉或扭曲圖像的顏色。雖然這些增強技術可以在數據集中引入更多的多樣性,但它們無法為模型的訓練提供全新的框架實例。

生成性對抗網絡(GAN)是一種ML技術,它從數據集的概率分布和特征中學習,以生成數據集的新的合成實例,稱為 "深度假象"。GAN的實現是一種更強大的數據增強技術,因為它為訓練集增加了新的、從未見過的實例,這些實例仍然是可信的,并能代表原生群體。為ML模型提供這種新的訓練實例,可以使模型在實際操作環境中用于檢測時更加強大。

1.1.2 問題說明

圖像采集面臨的一個普遍問題是沒有收集足夠大和多樣化的訓練和測試數據集來產生高效的ML模型。這些微不足道的訓練集所顯示的多樣性的缺乏,使模型在用于實時檢測時表現很差。找到增加這些數據集的方法,無論是通過額外的數據收集還是其他方法,對于創建一個強大的、可歸納的模型都很重要。

計算機視覺中的第二個問題是傳統的數據增強技術所產生的圖像多樣性增加不足。通過旋轉、翻轉或調暗每一個收集到的視頻幀來增強數據集,不能為訓練集增加任何額外的實例,這與上面提到的第一個問題相矛盾。需要找到一種新的數據增強技術,在不需要收集更多數據的情況下提供新的實例,這對于快速訓練檢測模型以便在快速變化的操作環境中部署非常重要。

1.2 研究問題

本研究試圖回答以下問題:

1.由移動平臺獲取的包含GAN生成的合成圖像的增強圖像訓練數據集是否會提高卷積神經網絡(CNN)目標檢測模型的分類精度和可推廣性?

2.由移動平臺獲取的包含GAN生成的合成圖像的增強圖像訓練數據集是否會提高CNN目標檢測模型的定位和通用性?

3.從未增強的數據集和增強的數據集中可以得出什么推論,顯示它們的相似性和不相似性?

提供支持第一和第二個問題的證據可以改變數據科學家進行數據收集的方式,并將他們的努力轉向使用GAN的增強技術來創建用于ML研究的數據集。該模型不僅要能夠對目標進行分類,而且要訓練一個強大的目標檢測模型,使其能夠在圖像中找到感興趣的目標,并具有較高的交叉聯合(IoU)值,這就驗證了該模型能夠找到移動的目標,這些目標在捕獲的幀中的位置各不相同。一個模型的泛化是指該模型對網絡從未見過的輸入進行準確預測和分類的能力[6]。增強的數據集必須在質量和數量上與原始數據集相似,以證明模型泛化能力增強的斷言。

對最后一個問題的回答提供了理由,即來自GAN的增強對象在性質上是否與原始樣本相似,并且是對現實世界環境中發現的東西的合理復制。同類目標之間的高相似率可能會使GAN增強變得脆弱,需要進一步研究以用于實際應用。

1.3 研究的局限性

本研究的最大限制之一是能否獲得適當的硬件和軟件來實現不同的ML算法。雖然ML模型可以在中央處理器(CPU)上執行,但本論文中的模型在單個CPU上運行需要幾天,甚至幾周的時間。在運行深度學習模型時,GPU的效率要高得多,尤其是那些為圖像探索設計的模型。在整個研究過程中,GPU的使用非常有限,這給CNN和GAN模型的復雜性增加了限制,也增加了每個模型完成訓練迭代的時間。模型不可能同時運行,大大增加了本論文的完成時間。

另一個限制是本研究過程中可用的內存和硬盤內存的數量。內存不足進一步導致了模型復雜性的下降,以及模型在研究的訓練和測試過程中某一時刻可以利用的數據量的下降。這兩個模型組成部分的減少會導致次優模型。在這項研究中,我們采取了一些措施來減輕這些影響,包括選擇參數較少但性能與較復雜的模型相同的高水平的模型。此外,在訓練和測試過程中,將數據集劃分為多個批次,有助于緩解RAM和硬盤內存問題。

1.4 論文組織

本章討論了本論文將集中研究的ML的一般領域,以及概述了ML研究中出現的好處和限制。第2章提供了一個文獻回顧,研究了CNNs和GANs的理論。此外,它還提供了使用CNNs、GANs和從無人機收集的圖像幀進行的相關研究。第3章詳細介紹了數據集增強前后的CNN檢測模型的訓練過程。第4章提供了用于增強訓練集的合成目標的細節。第5章介紹了在原始和增強的訓練集上訓練的最佳模型的評估結果。第6章概述了在原始測試集訓練結束后進行的三個不同實驗的方法。第7章回顧了這三個不同實驗的結果。最后,第8章討論了從結果中得出的結論,以及對使用生成性對抗網絡(GANs)對移動平臺獲取的圖像進行數據增強領域的未來研究建議。

付費5元查看完整內容

圖像壓縮算法是圖像處理領域中媒體傳輸和壓縮的基礎。在其誕生的幾十年后,諸如JPEG圖像編解碼器等算法仍然是行業標準。在壓縮領域,一個值得注意的研究課題是深度學習(DL)。本文探討了理想圖像壓縮和物體檢測(OD)應用的DL模型的優化。

要優化的DL模型是基于一個現有的壓縮框架,即CONNECT模型。這個框架將傳統的JPEG圖像編解碼器包裹在兩個卷積神經網絡(CNNs)中。第一個網絡,ComCNN,專注于將輸入的圖像壓縮成一個緊湊的表示,以輸入到圖像編解碼器。第二個網絡,RecCNN,著重于從編解碼器中重建輸出圖像,使之與原始圖像盡可能相似。為了提高CONNECT模型的性能,一個名為Optuna的優化軟件包裹了該框架。從每個CNN中選擇超參數,由Optuna進行評估和優化。一旦CONNECT模型產生了理想的結果,輸出的圖像就被應用于YOLOv5 OD網絡。

本文探討了DL超參數對圖像質量和壓縮指標的影響。此外,檢測網絡將為圖像壓縮對計算機視覺應用的影響提供背景。

付費5元查看完整內容
北京阿比特科技有限公司