這項工作比較了有監督的機器學習方法,使用來自建設性模擬的可靠數據來估計空戰期間發射導彈的最有效時刻。我們采用了重采樣技術來改進預測模型,分析了準確性、精確性、召回率和f1-score。事實上,我們可以識別出基于決策樹的模型的顯著性能和其他算法對重采樣技術的顯著敏感性。具有最佳f1分數的模型在沒有重采樣技術和有重采樣技術的情況下,分別帶來了0.379和0.465的數值,這意味著增加了22.69%。因此,如果可取的話,重采樣技術可以提高模型的召回率和f1-score,而準確性和精確性則略有下降。因此,通過建設性模擬獲得的數據,有可能開發出基于機器學習模型的決策支持工具,這可能會改善BVR空戰中的飛行質量,提高攻擊性任務對特定目標的打擊效果。
這項工作使用來自建設性模擬的可靠數據,比較了有監督的機器學習方法,以估計空戰中發射導彈的最有效時刻。我們采用了重采樣技術來改進預測模型,分析了準確度、精確度、召回率和f1-score。事實上,我們可以發現基于決策樹的模型性能卓越,而其他算法對重采樣技術非常敏感。在未使用重采樣技術和使用重采樣技術的情況下,最佳f1-score模型的值分別為0.378和0.463,提高了22.49%。因此,如果需要,重采樣技術可以提高模型的召回率和f1-score,但準確率和精確度會略有下降。此外,通過創建基于機器學習模型的決策支持工具,有可能提高飛行員在空戰中的表現,這有助于提高攻擊任務命中特定目標的有效性。
在這項工作中,我們提出了貝葉斯優化算法,用于調整大規模光子庫計算機中的超參數。我們在以前報道的實驗系統上測試了這種方法,應用于計算機視覺中的一項具有挑戰性的任務,其中對來自標準圖像識別數據庫KTH和MNIST的視頻片段的圖像識別準確率分別為91.3%和99%,用于驗證所開發的光子遞歸神經網絡(RNN)的性能。我們還將其結果與非光子RNN計算(RC)界常用的光子RNN的網格搜索和貝葉斯優化進行了比較。我們報告了以下方面的改進:(1)分類性能,準確率提高了4%;(2)收斂到最佳超參數集的時間,大約減少了30%的時間(在準確率低于1.5%的情況下可以增加一倍)。考慮到我們的光子水庫計算機的精度接近于這項任務的最先進結果,以及以天為單位的實驗超參數優化時間,這些改進被證明是系統性能的寶貴提升。此外,用貝葉斯方法對超參數空間的廣泛探索為其基本結構和參數的相對重要性提供了寶貴的見解。考慮到貝葉斯優化算法提供的所有優勢,它可能很快成為光子庫計算中超參數優化的新標準方法。
圖2-基于光子學的系統說明,創建一個具有隨機拓撲結構的光子學遞歸神經網絡,用于自動分析視頻記錄中的人類行動。SLM:空間光調制器。Pol.:偏振器。改編自[Antonik2019]。
為了解決如何利用現有數據的增長來建立有用的模型的問題,一個自動發現模型和管道的方法是有序的,它可以利用這些數據。我們已經探索了自動發現模型和管道所需的許多方面:建立一個模型知識庫和基于推薦系統方法的模型排名,通過數據集的圖形表示進行模型推薦,通過擴展基于樹的管道優化工具(TPOT)和基于強化學習的方法進行管道生成。我們探索了一種預算意識到的超參數調整算法和神經網絡的不確定性估計。我們探索了不同的訓練方法,包括無梯度優化、零點學習和持續學習。我們還解決了神經網絡架構的問題。我們將所有這些結合起來,形成了一個模塊化的自動機器學習(AutoML)系統,該系統支持廣泛的任務類型,在項目評估中一直處于前三名。
監督下的深度學習算法正在重新定義目標檢測和分類的最先進技術。然而,訓練這些算法需要大量的數據集,而收集這些數據集通常是昂貴和耗時的。在國防和安全領域,當數據具有敏感性質時,例如軍用船只的紅外圖像,這可能變得不切實際。因此,算法的開發和訓練往往是在合成環境中進行的,但這使人懷疑解決方案對現實世界數據的通用性。
在本文中,我們研究了在不使用真實世界的紅外數據的情況下訓練紅外自動目標識別的深度學習算法。使用目標-導彈交戰模擬軟件和10個高保真計算機輔助設計模型,生成了一個長波紅外波段的海上船只紅外圖像的大型合成數據集。探索了訓練YOLOv3架構的多種方法,并隨后使用真實世界紅外數據的視頻序列進行了評估。實驗表明,用少量的半標記偽紅外圖像樣本來補充訓練數據,可以明顯提高性能。盡管沒有真實的紅外訓練數據,但在我們的真實世界測試數據上,平均精度和召回率分別達到了99%和93%的高分。為了進一步推動自動目標識別算法的發展和基準測試,本文還提供了我們的照片真實合成紅外圖像數據集。
具有高度自主性的軍事系統發展帶來了許多作戰優勢。這些系統通常是高度協作的,并允許優化對復雜問題的多效應對。人工智能,包括深度強化學習,有助于提高這些系統的效率。這項工作提出了一個與信任這些算法有關問題的綜合觀點,并提出了一些改善人機信任的準則。這項工作是在由歐盟資助的30個合作伙伴歐洲財團委托編寫的報告框架內完成的。
法國和英國在2010年啟動了一項計劃,評估和開發 "海上反水雷"(MMCM)能力,包括在與母艦安全距離外遠程操作的無人系統。通過持續化解靜態水下威脅,這些系統將提供戰略、行動和戰術上的機動自由,確保海上力量的安全投送,包括在海峽等高風險地區。
MMCM計劃的目標是提供一種新的敏捷的、可互操作的和強大的水雷戰能力。它將有助于在現有水雷戰艦退役時取代它們。這一雙邊計劃于2010年底根據法國和英國之間的《蘭開斯特宮條約》正式啟動。在2018年1月的法國/英國峰會上,法蘭西共和國總統和英國首相申明了他們打算迅速將該系統投入作戰服務[13]。
特別是,在2020年測試了四種作戰方案,分別采用了:一個水面無人機及其探測聲納、一個拖曳聲納、兩個水下無人機和一個水下滅雷機器人。前兩種情況主要是隨著任務的進行對威脅進行探測、分類和定位,其次是通過與前一次任務的數據進行比較來改變探測結果,最后是重新定位和識別幾枚地雷并解除其中一枚地雷。
該計劃的核心是在水下環境中自主發展的能力。這種自主性是通過使用人工智能算法,特別是DRL來實現的,以便自主地將無人機從母艦上移開[14]。盡管水下無人機必須能夠自主行動,但仍有許多人機互動:任務準備、驗證地雷分類和實時任務監測、授權投擲炸藥。這種人機互動是由MMI(人機界面)實現的,比如你會發現下面這個界面。
有一些項目旨在優化這些關系并建立信任關系:例如,泰雷茲國防任務系統公司DxLab的AR{iA}NE項目,旨在顯示操作者和人工智能之間可以有真正的互動[14]。人工智能在這里由控制臺的下半部分代表。它的突出顯示取決于性能指數:這就是人工智能以非常直觀的方式與操作者交流的方式。這個演示設備是為工業展覽準備的。它的設計經過特別考慮,給人以未來主義的印象,讓客戶感覺到他正在與人工智能進行交流。該控制臺集成了一個軟件分析界面,為聲納數據的利用提供了實質內容,因此非常適用于研究人機互動,更確切地說,是人機互動。
國防公司,如泰利斯、空客和MBDA,正在開發項目,旨在提供反無人機(UAV:無人機)解決方案。商用無人機的擴散化和相當便宜的價格引發了安全和保障問題。例如,在無人機和飛機之間發生了一些事件,還有一些情況,如跨越邊界和在監獄中走私貨物(武器、毒品),或向目標運送爆炸物。這些公司提出了智能解決方案,可以檢測無人機,但也可以通過高度的自主性和人類的環形控制來消除它們。這些系統可以對敵方目標進行探測、識別、定位和消滅。反無人機問題被概念化,并通過以下步驟得到部分解決[16]:
最新項目的目標是創建和展示一個完整的反無人機系統,能夠解決上述六個步驟,并整合兩個主要部分,一個地面部分和一個空中部分。地面部分可由一個作為指揮和控制站的地面控制站和一些地面傳感器組成,其數量和在空間的分布可根據需要和保護空間的配置進行調整。空中部分可以由盟軍無人機隊組成,這些無人機可以是相同的,具有類似的能力(同質蜂群),也可以具有不同的能力,每個都有一套獨特的專長(異質蜂群)。擁有一個空中段提供了兩個優勢。首先,在傳感方面,它使系統具有盯住目標的能力,可能為人類操作員提供實時視覺反饋,但也能對敵方無人機及其有效載荷進行更詳細和有效的分類和識別。第二,在消滅方面,它應該允許防御者部署更多的外科手術式的反措施,特別是避免過多的附帶損害或不想要的副作用。許多國防公司正在為中和部分開發智能DRL解決方案[17],以便在盟軍無人機群中做出自主決定。DRL算法也可用于指揮和控制站,以監測整體作戰情況。
未來戰斗航空系統(FCAS)是一個 "系統簇",它涉及到新一代戰斗機(NGF)、遠程航母(RC)和一個將所有參與者連接在一起的戰斗云系統: NGF、RC群、衛星、戰艦、地面系統等。
遠程運載器是用來做什么的?設想的應用是非常多樣的:通過幾十架飛機的飽和來穿透敵人的防御,誘騙敵機,執行電子戰任務(干擾),為其他飛機指定目標,執行偵察任務,甚至發射導彈而不是作戰飛機。這些新型機組成員為未來幾十年的空中行動開辟了一個巨大的可能性領域:用無人機代替戰斗機發射導彈,這樣就不會有飛行員的生命危險,騷擾敵人的防線,執行偵察任務,等等。這些設備也可以假裝成駕駛飛機,吸引敵人的巡邏隊,為作戰飛機打開缺口。在遠程載具的核心,制造商正在開發人工智能算法,特別是DRL[18],以控制每架無人機,但也控制無人機群。DRL算法出色的適應性在這里被用來管理高層和自主決策。
"系統簇"的非常高的互連性也要求建立一個抗網絡攻擊的戰斗云。這些攻擊確實可以破譯通信以獲取情報,甚至干擾或破壞通信,或者更糟糕的是,向半自主系統發出錯誤指令。DRL算法可用于應對正在進行的網絡攻擊。這些攻擊確實可以快如閃電,而人類沒有能力做出足夠快的反應。因此,必須使用智能自動系統來抵御攻擊。DRL似乎再次成為快速、自主和適應性行動的良好解決方案[19]。
正如我們所說,在自主系統中使用人工智能有很多問題:倫理、法律、政治等等。這就是為什么有必要在這場技術革命的不同參與者之間建立一種信任關系,從研究人員到用戶和工程師。
數學上的保證。為了確保我們提出的技術解決方案的可靠性,最好能在理論上和數學上保證算法的性能。然而,重要的是要記住,有關的保證在性質上是概率性的,因為大多數ML算法的性質是不確定的。因此,我們將試圖證明,例如,如果該算法有無限量的訓練數據可供支配,它就能夠完成提交給它的任務。或者,人們可能會試圖證明該算法收斂到一個解決方案,而且幾乎可以肯定它是以一個已知的和可控的速度收斂的。這種類型的結果保證存在于許多經典的ML算法中,用于解決某些簡單的問題,并受制于關于訓練和測試數據的某些假設。人工智能的整個研究領域都是關于知道什么是或不是可以通過ML學習的問題,以及什么精度:可能是近似正確的學習[20]。在RL方面還有很多工作要做,它仍然是一種年輕的技術,但理論上的保證越來越多[21]。然而,這些理論結果一般都是基于非常強的假設,這些假設往往是還原性的,并沒有考慮無人機在實踐中使用的非常真實的環境,這有時會使它們不那么相關。
可解釋人工智能。第二個軸心是要建立對人工智能所支配的自主系統的信任,即其行動的可解釋性。當我們可以理解導致人工智能獲得結果的原因時,一個算法被認為是可解釋的。一般來說,目前可解釋的ML算法(XAIs)能夠報告相對簡單的決定,例如指出圖像的哪些區域被用來確定它是一個蘋果。關于RL,為算法的可解釋性設想了幾條途徑。
讓我們細化前面的觀點,像一些作者那樣考慮人工智能算法的區別,這些算法不僅是可解釋的,而且是可解釋的。事實上,為了解釋它們的推理,已經建立了一些后驗算法,但它們并不能幫助理解初始算法的 "黑匣子"。出于這個原因,人們正在對可解釋的人工智能方面進行研究,這樣就可以說明導致輸出的不同推理步驟[24]。即使DRL算法的參數數量非常大,仍然是廣泛實施這種方法的技術障礙,但可以預期在這個領域會有明顯的進展。
對受DRL支配的自主系統有信心的第二個論據是測試期間的性能測量。事實上,即使目前關于人工智能可解釋性的知識狀況不允許完美地理解算法是如何達到其輸出的,但實踐中的結果是好的,表明有非常大的發展潛力。
對其他問題進行歸納的能力。首先,用戶對人工智能技術的信心可以建立在算法解決其他問題的良好能力上,或多或少有些類似。例如,眾所周知,Deepmind的AlphaFold 2 DRL算法在預測蛋白質結構方面特別出色[25]。這種優秀的聲譽源于該算法的大量已發表的測試研究,這讓該領域的大多數科學家對其給予了極大的肯定。雖然蛋白質結構預測與自主無人機的使用無關,但將蛋白質中單個原子的放置與無人機在協作作戰任務中的放置相提并論是很容易和有意義的。在前一種情況下使用DRL,以及所獲得的結果,也有可能使最終用戶對DRL應用于另一個領域的潛力充滿信心。
算法驗證。然而,與經典的ML算法不同,不可能在RL中實現我們在第一部分討論的驗證測試。這是因為所涉及的數據是隨時間變化的,而且所提出的問題也是不同的。要限定所識別的對象是否被正確預測是很容易的(是的,它是一個蘋果,或者不是,它是一個梨子)。另一方面,量化無人機和飛機之間合作的成功要微妙得多:許多標準必須被評估(無人機的定位、它們的速度、它們不同行動的時間)。因此,RL算法的性能測量是通過建立針對要解決的任務的指標來完成的。例如,對于負責訪問一個空間區域的無人機來說,比較正確識別目標的比例、任務完成時間或其他更精確的指標是相關的,這取決于情況和要解決的具體問題。
爭取在RL中實現更好的可重復性。最近還強調了RL算法的一個臭名昭著的問題,即當一些研究人員想要復制他們同事的結果時,一些算法的不穩定性[26]。實驗的可重復性是科學中的一個基本問題,因為它構成了被測試定律(例如,萬有引力定律)的有效性證明。在這里,算法性能的證明之一是可以讓它多次承受相同的情況,并在不同的迭代中獲得非常相似的結果。為了克服缺乏可重復性的問題,新的算法開發框架、新的測試程序和明確的指導方針已經到位,使科學和開發團隊對他們的結果有了更大的信心。
優化人機互動
人機協作是現代(協作)戰爭的核心,但人類和智能機器之間的成功協作主要取決于信任。然而,安全與新興技術中心對自主性和人工智能相關的研究[27]發現,在美國軍方的科技項目投資中,789個自主性相關項目中只有18個,287個人工智能相關項目中只有11個提到 "信任 "一詞。研究人員沒有直接研究信任,而是將開發更透明、可解釋和可靠的人工智能作為優先事項。這些努力對于培養人機團隊的信任是必要的,但技術驅動的解決方案并不總是考慮這個等式中的人類因素。
對高性能技術的不充分信任會導致人工智能系統的使用不足或廢棄,而對有限的或未經測試的系統的過度信任會導致對人工智能的過度依賴。這兩種情況在軍事背景下都有獨特的風險,包括事故、友軍交火、對平民的意外傷害和附帶損害。為了讓士兵對自主系統有信心,他們必須知道系統在遇到障礙物時將會做什么。從系統工程的角度來看,這意味著要指定和實施一些能力,如通過假設查詢和信息交流進行信息檢索,以便系統能夠以人類操作者容易理解的方式解釋其推理和行為。換句話說,"在系統中建立信任 "是一種以技術為中心的方法,通過改善與信任密切相關的系統特性和能力,如透明度、可解釋性和可靠性,來建立人機團隊的信任。
DARPA的Squad X計劃[28]將美國陸軍和海軍陸戰隊的步兵小隊與配備先進傳感設備的無人地面和空中飛行器配對,以提高敵對環境中作戰人員的態勢感知和決策。X小隊在2019年初進行的一系列實驗[29]的主要收獲之一是,將人工智能納入任務的規劃和演練階段非常重要。這樣做,士兵可以 "在如何信任人工智能方面進行搏斗"。最終,目標是讓人類作戰人員更好地了解這些自主系統在戰場上的表現,并對它們作為未來任務中的伙伴更有信心。
要怎樣才能讓人們信任技術?在使用先進系統時,一些個人或群體是否更有可能感到自信,而另一些人則更不情愿?人機團隊的部署環境如何影響信任?認知科學、神經科學、心理學、通信、社會科學以及其他研究人類對技術的態度和經驗的相關領域的見解為這些問題提供了寶貴的啟示[30]。
解決道德問題
"殺手機器人 "一直引起人們對潛在自主能力的恐懼[31]。法國國防倫理委員會在2021年批準在武器系統中引入一定程度的自主能力[32]。在法國,沒有辦法授權 "殺手機器人"。這一表述指的是LAWS(致命性自主武器系統)。這只是證實了法國幾年來在這個問題上的立場。但事情很復雜,倫理委員會認為不反對引入一定程度的自主權,因此不反對使用PAWLS(部分自主武器致命系統)。將LAWS與PAWLS區分開來的是 "性質上的差異,這與人類在某些關鍵功能中的地位有關"。致命武器系統的設計是為了演化出自己的操作規則,并自行重新定義其任務。它們不需要指揮部對情況的評估。PAWLS可以自主地被賦予某些任務的責任和執行,但只是暫時的,而且只用于識別、分類、攔截或接觸任務。道德委員會明確表示,它不能在沒有人類控制的情況下采取致命的舉措。即使在這個限制性框架內,也必須制定技術和組織保障措施,以防止任何過度行為。委員會認為,應繼續在與國防有關的人工智能和武器系統自動化領域進行研究。其目的是避免任何 "科學和技術上的放棄",防止對手開發致命性自主武器,并在對手使用這種武器時進行防御。
自主系統不應
G1. 為自主軍事系統上嵌入式人工智能的操作使用案例制定并提供一個法律框架。
G2. 確保在所有情況下都有人類的監督,有人類在環形系統。
G3. 保證在發生事故時的責任追溯。這種責任必須始終由人承擔,而不是由機器承擔。
G4. 開發符合人體工程學的人機界面,允許人與機器之間的對話和理解。
G5. 開發穩健、安全、準確、可重復和可靠的算法,以及評估這些標準的方法。
G6. 為與人工智能互動的軍事人員建立培訓計劃,讓他們了解這些算法的機制、能力和局限性。
G7. 通過對算法、數據和設計過程的評估,確保責任、問責和可審計性。
G8. 制定技術評估程序,以評估對上述準則的遵守情況。
G9. 加快歐洲在人工智能技術方面的培訓工作,特別是針對學術和工業環境的DRL。
G10. 加快歐洲在整合人工智能的國防系統方面的立法工作,以保持歐洲在這一法律方面的領先地位,并確認其在這一領域的領先形象。
G11. 發展國際合作,在自主系統領域進行立法。
G12. 促進研究人員、哲學家、律師、政治家和業務人員之間關于自主系統的對話。
G13. 在有關國防人工智能的研究和應用項目中始終包括信任的概念。
G14. 對協同作戰的未來利害關系有一個明確而具體的看法,以便將人和他們的利益置于系統的中心。
這項工作提出了一個在歐盟項目FOLDOUT中開發的融合和跟蹤系統,旨在通過融合不同的傳感器信息和提出對監視區域內檢測到的目標自動跟蹤來促進邊防工作。FOLDOUT的重點是歐盟內部和外部地區的穿透式樹葉檢測。融合多個傳感器信號可以提高檢測的有效性,特別是在森林和其他被樹葉遮擋的地區。我們使用加權地圖(也稱為熱圖)來結合多傳感器信息;對所產生的融合目標進行跟蹤;根據對融合檢測的時間關聯的成本計算來創建或更新跟蹤。我們比較了來自單個傳感器的跟蹤結果和來自融合目標的跟蹤結果,這些數據是在模擬邊界收集的,代表了保加利亞的實際歐盟邊界。結果表明,如果根據融合后的數據而不是單個傳感器的信息進行追蹤,追蹤效果會得到加強。
邊防軍的主要興趣是在全球地圖上對監視區域內檢測到的人員進行定位和跟蹤。為了實現這一目標,首先要將不同傳感器系統觀察到的單個人的探測結果進行融合。當檢測結果相互關聯并保持一致時,就可以在一個共同的地圖上對單獨的目標進行跟蹤。
圖2:指導動作(紅線),扮演一個非法越境的場景:1.一個人通過步行越過邊境。2.該人沿著邊境小路向大路走去。3.此人停下腳步,在路上停留很長時間(可能是在等待汽車中的走私者)。4.在某一時刻離開道路,躲進樹叢中。5. 在樹葉中,該人再次回到路上(可能再次尋找汽車)
RGB和熱像儀中的人員檢測
基于深度學習的綜合物體檢測被應用于相機圖像上。深度學習方法已被證明優于以前的最先進的機器學習技術。深度神經網絡(DNNs)模仿了大腦感知和處理信息的方式。與以前的方法相比,DNNs學習了諸如人物檢測等任務所需的特征。近年來,DNN在物體檢測和分類任務上表現出突出的性能[9, 10]。在這項工作中,物體檢測是基于一個著名的DNN實現,即YOLO檢測器[11]。
PIR傳感器中的人員檢測
探測器經過調整,使被動紅外傳感器在PIR周圍7.5米的半徑內觸發人的存在。
在這項工作中,我們使用加權地圖來提供傳感器數據的層次(也稱為HeatMaps),并以邏輯和數學的方式組合它們。它的動態是完全使用不同傳感器模式的傳感器檢測假設的事件驅動。這些傳感器假設包括位置(WGS84基準)、時間戳(Unix時間戳)和權重(例如,從傳感器檢測中獲取的信心)。為了實現這一點,有兩個組件是必不可少的:加權分布圖(HeatMaps);線性意見庫。圖3顯示了這種方法的基本概念。
圖3:融合方法的基本概念(左),作為使用兩個加權分布圖(熱力圖)的例子。應用不同的衰減函數(右)來建立加權分布圖的時間動態行為。
加權分布圖(熱圖)
加權分布圖是我們數據融合方法的兩個基本組成部分中的第一個。加權地圖的基本思想是,保持和更新關于不同傳感器探測假設的時空信息。加權地圖來自于概率占用網格,但以加權的形式解釋傳入的數據。此外,還采用了時間上的衰減來模擬傳感器數據的及時行為。權重被存儲在一個可選擇分辨率的數組中,代表WGS84坐標中感興趣的矩形區域。圖3展示了用于模擬加權分布圖動態行為的可能衰減函數。
通常,加權分布圖對應于任何一種傳感器數據或傳感器模式(例如,從攝像機圖像中檢測人的邊界框)的時空。傳感器數據被攝取到一個專門的加權圖中,這導致加權圖的值根據傳入的傳感器假設的權重而增加(替換)。相對而言,衰減將及時應用到加權分布圖的值矩陣中。每次傳感器假設被攝入分布圖,它將通過重新計算加權分布圖的權重和衰減以前狀態的值來更新。
最后,線性意見庫允許我們結合多個加權分布圖,從而結合多傳感器模式,目的是減少傳感器系統的整體錯誤發現率。
線性意見庫(LOP)
我們融合方法的第二個重要組成部分是線性意見庫[8]。
每當一個加權分布圖的狀態由于新的傳感器檢測假設而被更新時,就會應用LOP。在評估了LOP之后,閾值處理使我們能夠產生警報。為了確定警報的位置,在組合值矩陣中超過閾值的區域使用分割算法(blob檢測)。這些警報是由多個傳感器假設產生的,用于為跟蹤提供必要的輸入數據,這將在下一節中描述。
為了跟蹤越境進入禁區或敏感區域的入侵者的行動,我們開發了一種基于空間和時間上關聯目標檢測的成本計算的定制算法。該跟蹤系統的工作原理是完全基于目標的位置和時間戳建立一個模型。
在第一次檢測目標時,該模型以該檢測的位置和時間戳進行初始化。軌跡模型是用以下元組定義的:???? = (????,????,????)。
如果幾個目標檢測同時發生,那么創建的模型模板數量與同時收到的檢測數量相同。后續的檢測被添加到一個給定的軌道模型中,這取決于將檢測添加到軌道中的成本。該成本被定義為傳入的檢測和軌跡候選者之間的距離。
在有多個傳入的檢測和多個軌跡候選者的情況下,已經實施了匈牙利算法[12],使檢測和軌跡之間的關聯產生最小的成本。
由于多種因素的影響,自動機器學習(AutoML)這些年一直在快速發展,數據科學家需要創建機器學習管道原型來決定如何進行解決,并為非專業人士提供解決方案。已經創建了一些AutoML框架,但它們受到能解決的問題類型、機器學習原語的數量、管道表示語言和嚴格數據描述的限制。這些限制大多是由相當大的工程量造成的。D3M項目旨在擴大AutoML的范圍,提供創建AutoML系統所需的工具,使其能夠解決超出大部分框架的問題類型,并為用戶提供工具,使機器學習工具不需要太多的專業知識。此外,該項目還致力于實現AutoML組件的標準化,以便對不同的框架進行公平的比較,并通過開源共享該項目期間創建的基礎設施來幫助研發界改善該領域。
本文在D3M上的工作主要集中在兩個方面:在D3M小組內創建標準化AutoML工具,以及創建具有不同目的的AutoML系統和框架。在這份報告中,將介紹對該項目的主要貢獻以及AutoML系統的演變。在該項目中,創建了評估AutoML系統的工具,開發了三個AutoML系統,開發了被多個系統廣泛使用的原型,設計了測試原型的自動化框架,并通過創建AutoKeras對AutoML研發界產生了巨大影響。
這個項目的目標是開發在具有挑戰性的多目標環境中自主分布式傳感器管理和融合所需的基礎方法。這涉及到開發能夠自動跟蹤多個目標的算法,根據從具有數據關聯不確定性和高誤報率的多個平臺收到的信息進行分類并分配資源。在研究者最近在多目標跟蹤和分布式傳感器融合方面的發展基礎上,該工作方案開發了能夠在大規模多傳感器多目標跟蹤應用中基于信息理論標準實現自主傳感器分配的方法。這是通過重新評估信息理論中的關鍵工具來實現的,這些工具適用于基于點過程理論的多目標監視的挑戰,該理論旨在適應單個目標的狀態和目標數量的不確定性。所開發的信息理論方法被應用于多傳感器問題,使人們能夠決定如何分配傳感器資源,以及完善對場景的認識。所開發的工具將有助于減少監測單一傳感器饋電的勞動密集型負擔,并能做出適應性決定,以優化多模式網絡的運行,并增強對監測區域的整體認識。對多目標跟蹤情景的信息理論表述的關注,將使人們能夠驗證傳感器饋電是否能夠可靠地融合,以避免數據損壞的可能性。該項目在智能傳感方面提供了關鍵的先進技術,以實現動態環境中的連續和適應性監視。這些將是可擴展的,可用于從多個分布式傳感器對許多目標進行大規模跟蹤。
該項目的總體目標是研究和開發基于信息理論原則的分布式多傳感器多目標系統的自主傳感器控制的新策略:
為大規模系統的多目標跟蹤開發可擴展的解決方案。
開發基于信息論原理的多傳感器融合的分布式解決方案。
確定多傳感器多目標跟蹤系統可以交換多少信息。
該項目為多傳感器多目標跟蹤開發了基本的解決方案:
對許多目標進行大規模跟蹤。問題的規模越來越大,因此解決方案需要可擴展,跟蹤許多目標需要減輕組合復雜性的算法。多目標跟蹤的低復雜度解決方案將被開發出來,并在復雜環境中進行測試。開發了一種用于穩健地跟蹤大量目標的方法,該方法在目標數量和測量數量上是可擴展的,這使得數百萬目標可以被跟蹤。
確定多傳感器多目標跟蹤系統的信息含量。在具有高密度信息的傳感器網絡中,帶寬可能是多傳感器多目標跟蹤的一個制約因素。這個項目得出了確定用于多目標跟蹤的傳感器網絡的信息含量的結果。預計這將有助于評估傳感網絡的效率和有效性,并與發送數據的數量和頻率相平衡。
來自多個傳感器的數據的分布式整合。操作員需要根據來自多個跟蹤系統的信息做出決定,以提高整體的態勢感知。為多傳感器集成開發了一種分布式多傳感器多目標跟蹤的新方法,該方法可減輕來自不準確或誤導性數據源的損壞。
對多目標監視應用中的威脅進行評估。對許多物體的大規模跟蹤能夠識別直接威脅。然而,有些威脅可能比其他威脅更有針對性。開發了一種新的對抗性風險的表述,為操作人員提供態勢感知,以幫助確定傳感資產的優先次序。
目標跟蹤估計器的性能界限。費舍爾信息的倒數,即克拉默-拉奧約束,為參數的估計器提供了一個約束,是統計分析的基礎。它為一個參數提供了一個可實現的最小方差或協方差。根據量子場理論的數學概念,為點過程推導出克拉默-拉奧約束,將這一概念推廣到具有空間變量的變量。
在這份報告中,我們提出了一種數據驅動的方法,用于實驗室技術載具的閉環控制。我們使用近似策略優化(PPO)算法,這是一種強化學習算法,已被證明在各種任務中表現良好。PPO的成功是由于它在尋找解決方案方面的穩定性,此外還具有策略梯度方法的許多積極特性。雖然PPO在整個文獻中被證明是成功的,但在獎勵稀疏的情況下,它確實受到了影響;這恰好是我們的精確彈藥應用的情況,其目標是擊中一個特定目標。為了解決這個稀疏獎勵的問題,我們提出了一個圍繞PPO的課程學習方法。該課程將學習分為幾個階段,這些階段的復雜度逐漸增加,緩解了獎勵信號的稀疏性。所提出的方法被證明優于沒有課程的學習方法。
最近,用于自主系統的引導、導航和控制的數據驅動方法已經得到了普及。這要歸功于機器學習的最新進展,特別是深度學習和人工神經網絡。強化學習(RL)是深度學習的一種類型,旨在利用與環境的互動來學習從環境狀態到代理行動的適當映射,從而使所需的輸出最大化。這個程序的靈感來自于自然過程,因為大多數生物系統通過大量的行動和隨后的反饋來學習在其環境中的操作。在RL中,來自環境的反饋被稱為獎勵信號。系統試圖調整輸入以最大化這個期望的獎勵信號。系統的輸入被定義為代理行動,而狀態和獎勵是從環境中觀察到的。這些收集的數值被用來驅動學習過程。在這項工作中,我們提出了一種RL方法來開發一個遠程精確武器的閉環控制方案。我們在本報告中使用的數據驅動的方法是基于近似策略優化(PPO)RL算法的。
快速發展的機器學習行業導致了RL的新進展,使新穎的、數據驅動的方法能夠用于控制開發。即使是高度密集的輸入,如圖像幀,也可以推斷出行動,使性能最大化。很多時候,這種方法使閉環控制更加直接,如在基于視覺的系統中,基于圖像的算法將不必與控制分開獨立開發。這種非常規的方法與傳統的控制器設計相反,它是一種基于模型的方法,依賴于系統模型的近似。由于參數的不確定性和/或系統的非線性而做出的近似,往往阻礙了基于模型的方法,導致控制器性能不足或保守的控制器。例如,自主特技飛行是一個具有挑戰性的控制問題,因為它需要在飛行包絡線的邊緣進行精確控制。盡管傳統的、基于模型的方法在面對不相干的情況時可能表現不佳,但它們確實對已知的操作領域提供了寶貴的性能保證,使它們通常是安全的和可預測的。另外,無模型方法需要較少的模型開發和調整來得出閉環控制。純粹的數據驅動,無模型方法可以學習系統的復雜性,甚至可以擴展使用的代理數量。然而,他們需要更多的數據,而且控制設計中的性能保證可能更難實現。
RL方法得益于環境的簡化,如獎勵的塑造或行動空間和狀態的離散化,以實現更快的學習。在經典的RL任務中,可以同時收集行動和獎勵,以不斷調整策略和最大化獎勵。現實世界的問題很少以允許這種方式提出。例如,當訓練一個自主代理找到一個迷宮的盡頭時,在每個時間步驟中,沒有跡象表明代理正在對系統應用正確的行動,直到它達到時間范圍或目標。這些類型的問題注定要用稀疏的獎勵信號來定義。為了幫助使用稀疏獎勵的學習,設計者可以塑造獎勵以持續提供反饋。這種成型的獎勵有一個缺點,即無意中支配了閉環控制的解決方案,減少了通過允許代理不定向探索而獲得的緊急解決方案的機會。然而,當有廣泛的領域知識可供利用時,這種方法仍有其優點。好奇心驅動的方法采取相反的方法,鼓勵對不為人知的領域進行探索。這已被證明在許多環境中是有效的,因為好奇心是唯一的獎勵信號。另一種方法是將系統結構化,使其逐步學習更難的任務以獲得期望的目標。這被稱為課程學習,其中課程是系統必須逐步學習的逐漸困難的任務的集合。這里的想法是,當任務容易時,獎勵會在開始時更頻繁地出現,為RL算法提供有價值的反饋,以用于調整其控制器。
RL已經在許多空間得到了實現,包括醫療、社會和工程應用。在本報告中,我們應用RL來控制一個智能彈藥。以前關于導彈制導的RL的工作利用獎勵塑造方法來克服稀疏的獎勵問題。如前所述,這種方法可能導致系統不探索對設計者來說不直觀的路徑。由于彈丸的高度不確定性和非線性動力學,自主彈藥制導、導航和控制是一項艱巨的任務。由于在估計視線率和走時方面的挑戰,比例導航可能難以實現。
比例導航是基于線性化的嚙合幾何,這可能不適合于整個軌跡。這常常導致從 "中途 "制導法和 "終點 "制導法轉換的臨時決定點。估計方面的一些困難來自于系統的非線性,這迫使控制設計者對系統進行近似和線性化。一些用于射彈控制的系統使用飛行方程的數值微分,這導致控制決策是基于由噪聲測量產生的可能錯誤的狀態。數據驅動的方法對這些系統可能是有利的。然而,由于稀疏的獎勵信號,機器學習過程非常困難。
在這份報告中,我們提出了一種將RL應用于智能射彈的閉環控制這一難題的方法。我們設計了一個OpenAI gym環境,其中嵌入了一個功能模擬單元(FMU)模型,以密切模擬真實的射彈。因此,由于尋找有用的控制策略所需的探索任務的規模,這個問題比經典的RL任務更加困難。這里的狀態包括位置、速度和與目標的距離。輸入動作是在身體框架的水平和垂直方向上的加速指令。由于我們的問題中存在稀疏的獎勵,因此實施了一種課程學習方法,其中課程的各個階段與從大到小的 "目標 "尺寸一致。我們通過實驗表明,通過這個系統,我們可以學會駕駛智能彈藥并精確地擊中目標。
我們在第3節中介紹了我們的環境模擬,在第4節中提供了PPO算法的概述,在第5節中介紹了我們的課程學習方法,在第6節中給出了訓練的概述,然后在第7節中介紹了我們的結果。
數字工程和數字設計是美國空軍(USAF)的一個新興重點領域,特別是用于現代復雜系統。高復雜度系統的一個例子是網絡合作自主彈藥群(NCAM),它優先考慮廣域搜索和多視角目標確認。首先,本研究討論了在基于模型的系統工程(MBSE)工具中建立行為模型的方法。然后,本研究介紹了NCAM在兩個環境中的并行建模工作:Cameo系統建模器中的MBSE模型,以及仿真、集成和建模高級框架(AFSIM)中的基于物理學的模型。每個數字模型在其環境中都為設計過程中的利益相關者提供了不同的好處,所以這些模型必須呈現出一致和平行的信息。因此,這項研究也提出了在模型之間翻譯設計信息的自動化方法。總的來說,這對協同工作的模型通過系統認知和數字場景模擬對自主過程的理解,與決策部門建立信任關系。
在始于1903年萊特兄弟首次飛行的重于空氣的飛行歷史中,美國軍隊促進了空對地攻擊能力的持續和快速發展。最初,飛行在軍事上的應用僅限于1909年美國陸軍信號部隊的偵察和監視;然而,第一次世界大戰和后來的第二次世界大戰的爆發創造了軍用飛機技術和理論的繁榮。到1946年,簡單的偵察雙翼飛機被可以超過音速的噴氣機所取代。美國看到了這種快速發展的技術的可行性,并在1947年創建了獨立的美國空軍(USAF)服務。空中力量的勢頭一直持續到現在,現代美國空軍的飛機可以隱藏他們的雷達信號,并精確地投擲制導彈藥,在地面上的同一個洞里投擲5枚炸彈!這就是美國空軍。
在美國空軍這個令人難以置信的組合中,一個合乎邏輯的下一個能力是合作和自主的彈藥,它利用相互通信來尋找、識別和打擊一個目標,同時評估對目標的損害。國防部研究與工程助理部長(USD(R&E))對這種能力有兩個關鍵定義。
"自動化。該系統的功能沒有或很少有人類操作者的參與。然而,系統的性能被限制在它被設計為做的具體行動上。通常,這些都是定義明確的任務,有預先確定的反應(即基于規則的簡單反應)。
自主性。系統有一套基于智能的能力,使其能夠對系統部署前沒有預先編程或預期的情況做出反應(即基于決策的反應)。自治系統具有一定程度的自治和自我指導行為(由人類代理決策)"。[4]
目前的制導彈藥非常嚴格地遵循自動化的定義。通過激光或全球定位手動指定目標,然后彈藥執行程序化的行動以擊中指定位置。在這種情況下,控制權被操作者緊緊抓住,對目標開火的決定需要多個人為步驟。這些人為步驟使操作者對自動化有一種信任感,因為扣動扳機時風險最小化;與操作者使用無制導彈藥相比,彈藥利用其自動化技術更準確地擊中目標。當討論下一步的自主化發展時,人們有一種理性的擔心,即人類通常控制的決定將由自主系統的機器大腦來代替。這種不信任導致人們對部署旨在自主摧毀目標的武器猶豫不決。
理解與系統自主決策相關的行為是建立對自主性信任的絕佳方式。有多種方法可以將行為理解傳達給人類評估者:首先是提供描述系統各個方面的正式文件,接下來是創建一個數字模型,用圖表表示系統結構和行為,另一個是運行涵蓋廣泛場景的模擬,最后演示可以證明物理系統在測試和評估中的能力。文檔方法一直是所有國防部采購的標準,可以追溯到手繪示意圖的設計時代。然而,最近,國防部對使用建模和仿真來記錄和管理系統表示了興趣。已經出現的一個概念是數字孿生,系統的每個方面都被虛擬建模,以實現快速的修改原型和精確的配置控制。[5]這種數字孿生的焦點也為它所代表的系統的物理結構和行為創造了清晰的、可瀏覽的數據,從而使系統得到合理的理解。
如Reed[6]所示,基于模型的系統工程(MBSE)已經迅速被美國空軍的數字工程工作所采用,用于程序和系統結構建模項目。然而,復雜系統的行為MBSE建模在美國空軍的相同項目中并不常見。對于自主系統,算法的復雜性和這些自主系統協作時出現的突發行為使得評估邏輯行為和性能影響變得困難。對系統行為進行建模的能力是MBSE過程所固有的,但MBSE模型通常缺乏提供詳細的基于物理學的模型的能力,無法對系統的運行情況進行性能評估。有一些專門建立的基于物理的仿真平臺,如高級仿真、集成和建模框架(AFSIM),就是為了這后一種目的而存在的,但它們往往與MBSE工具中的定義模型脫節[3]。一種將復雜系統的MBSE行為模型和同一復雜系統的基于物理學的仿真模型聯系起來的方法和工具是必要的。要確保這對模型之間的行為一致,需要有能力在建模平臺之間傳輸設計數據。
本研究的目的是建立一個復雜的合作彈藥系統的行為MBSE模型,并建立一個自動和可重復的方法,將數據從MBSE模型轉移到AFSIM場景中,以執行相同的合作彈藥行為的模擬。MBSE模型將足以驗證單個自主彈藥的邏輯行為,以及在合作概念中同一彈藥的數量。AFSIM模擬將反過來為建模者提供反饋,以便對彈藥模型進行潛在的修改,從而實現更高的性能。
合作彈藥模型的研究問題包括:
SysML在行為建模中的優勢和劣勢是什么?
哪些MBSE元素和/或屬性適合翻譯成AFSIM的原生語言用于情景模擬?
SysML數字模型在多大程度上可以代表AFSIM模擬中使用的合作彈藥的行為?
在SysML模型和AFSIM場景之間可以利用哪些自動和可重復的方法進行數據交換?
這項研究必須首先確定連接點和集成到AFSIM的所需變量,這將有助于定義合作彈藥的MBSE系統模型的邏輯接口。這些接口有助于定義合作彈藥的MBSE模型的邊界,并為整合到AFSIM的場景模型提供數據點。設計和測試的關鍵領域是:為AFSIM實體所需的變量和基本方程建模;提供從MBSE模型到AFSIM的彈藥和場景參數的自動導出可用性;以及確定MBSE模型中會影響模擬的可修改區域。基于對連接點的評估,研究將轉向創建一個MBSE模型,以保持連接點,同時建立與AFSIM模型平行的行為。MBSE模型中的行為將根據AFSIM模型的情況進行評估。
本研究僅限于虛擬彈藥的建模和模擬。此外,本研究定義的合作彈藥概念是名義上的;因此,彈藥模型將由名義上的數據填充。
第2章是對與彈藥建模、AFSIM集成、自主無人機系統行為建模和美國空軍先進彈藥的歷史應用有關的出版物的文獻回顧。第3章介紹了合作彈藥概念的設計方法和將數據自動傳輸到AFSIM場景模擬的方法。第4章討論了已完成的網絡化合作自主彈藥(NCAM)MBSE模型的行為分析、自動轉換結果和平行模型之間的比較。第5章總結了研究的重要發現,并推薦了未來的研究課題。