荷蘭的 "智能強盜"(Smart Bandits)項目旨在開發計算機生成部隊(CGF),展示逼真的戰術行為,從而提高戰斗機飛行員模擬訓練的價值。雖然該項目的重點是展示空對空任務中的對抗行為,但其成果在模擬領域的應用更為廣泛。
傳統的 CGF 行為受腳本控制,腳本規定了特定事件發生時的預定行動。腳本的使用存在一些缺陷,例如,在考慮整個任務場景時,腳本的復雜性較高,而且腳本化的 CGF 往往會表現出僵化和不切實際的行為。為了克服這些缺點,需要更復雜的人類行為模型,并結合最先進的人工智能(AI)技術。智能強盜項目探索了應用這些人工智能技術的可能性。
本文介紹了在理論行為模型與用于戰斗機訓練的 CGF 實際應用之間架起橋梁的主要架構。測試 CGF 的訓練環境由四臺聯網的 F-16 戰斗機模擬器組成。這種設置能夠為飛行員提供與敵方戰斗機編隊(以智能 CGF 的形式)作戰的實驗性訓練。該架構具有通用性,可以滿足各種人類行為模型的需要,這些模型在人工智能技術的使用、認知的內部表示以及學習能力等方面都存在概念上的差異。基于認知理論(如態勢感知理論、心智理論、直覺和驚訝)的行為模型和基于機器學習技術的行為模型實際上都嵌入了該架構。
在模擬器中對戰斗機飛行員進行戰術訓練已得到廣泛應用。戰術訓練的一個基本特征是除受訓者外還有其他參與者。這些參與者可以是隊友(如編隊中的其他戰斗機)、支援部隊(如前方空中管制員)、中立部隊(如平民)或敵方部隊(如對手戰斗機)。在模擬中,這些參與者的角色可以由人類、半自動化部隊(SAF)或 CGF 來扮演。半自動化部隊具有執行與角色相關任務的某些功能,例如一個人可以控制多個虛擬實體。然而,使用人類專家參與戰術模擬可能既不符合成本效益,在操作上也不有效。首先,這些人類參與者是昂貴的資產。其次,由于模擬的目的并不是為他們提供培訓,他們可以用在其他地方。因此,由 CGF 來扮演這些角色更為有效,只要這些 CGF 能夠以適當的方式扮演這些角色。
然而,目前最先進的 CGF 由于其行為簡單,在許多情況下并不能滿足戰術訓練的目的。除了上述的 SAF 外,CGF 行為還可分為四類(Roessingh、Merk & Montijn,2011 年):
2)刺激-反應(S-R)行為,即 CGF 在對來自環境的特定刺激或輸入做出反應時,始終表現出一致的行為;例如,當可以持續觀察飛機位置時,這種 CGF 能夠攔截飛機。
延遲響應(DR)行為,在這種行為中,CGF 不僅要考慮當前環境中的一組刺激,還要考慮存儲在 CGF 記憶中的以前時刻的刺激。這樣的 CGF 可以通過記憶以前的位置來攔截飛機,即使無法持續觀察到這架飛機。
基于動機的行為,這種 CGF 結合了 S-R 和 DR 行為,但還考慮了其動機狀態。這些動機狀態是內部過程的結果,可能代表目標、假設、期望、生物和情感狀態。例如,這樣的 CGF 可以假設目標飛機燃料不足,將返回基地。因此,CGF 可能決定放棄攔截。另一種情況是,飛行情報組可能預計飛機會改變航線,并決定在更有利的位置攔截飛機。
迄今為止,CGF 的一個特征尚未納入討論范圍,那就是學習行為或適應行為(Russell 和 Norvig,2003 年)。CGF 的行為表現可以是 S-R、DR 或基于動機的行為,可以在機器學習(ML)的基礎上進行擴展,使其具有適應這種行為的能力。通過 ML 技術,可以開發出更適合受訓者專長的 CGF。此外,ML 技術還能避免費力地制定一套規則(例如 "if-then 規則"),這些規則需要針對每個要解決的具體問題或情況進行推導,而推導的基礎是對操作專業知識的人工誘導,這些專業知識在很大程度上是隱含的,不能簡單地用邏輯規則來解釋。
本文旨在說明智能匪幫項目(2010-2013 年)中智能 CGF 的開發情況。該項目旨在為模擬任務場景中出現的 CGF 植入類似人類的智能。荷蘭國家航空航天實驗室(NLR)和荷蘭皇家空軍(RNLAF)希望通過 "智能強盜 "項目在模擬戰術戰斗機飛行員訓練領域邁出重要一步。本文的中心思想是,認知建模是在 CGF 中創建基于動機的行為的有力手段。然而,為了減少認知建模的缺點,我們提倡額外使用多重學習技術。這些技術對于減少在復雜領域開發智能體時的知識汲取工作至關重要。我們展示了如何將不同的方法結合到混合模型中。
本研究為基于人工智能的復雜作戰系統的運行和開發建立了 MUM-T 概念和分類系統。分析了該系統的核心方面:自主性、互操作性和程序級別。人工智能 MUM-T 可提高有人駕駛系統的生存能力、擴大其作戰范圍并提高戰斗力。利用美國和英國正在建造的人工智能 MUM-T 綜合作戰系統的數據,分析了技術挑戰和項目水平。目前,MUM-T 處于有人駕駛平臺和無人駕駛飛行器平臺復合運行的水平。從中長期來看,無人地面飛行器、無人水面飛行器和無人水下飛行器等異構平臺之間的互操作通信是可能的。根據人工智能 MUM-T 系統之間互操作性的通用架構和標準協議的發展水平,MUM-T 可以從 "1 到 N "的概念發展到從 "N 到 N "的各種操作概念組合。本研究與現有研究的不同之處在于,MUM-T 系統中體現了第四次工業革命的核心技術,如人工智能、自動駕駛和數據互操作性。此外,通過在現有的無人系統分類法中體現人工智能和自主性,建立了人工智能支持的自主 MUM-T 操作和設施分類系統,并在此基礎上對級別和程序進行了分析。
本研究確立了有人無人協同作戰(MUM-T)的概念,目的是操作、開發和利用智能聯合作戰系統。此外,它還分析了互操作性、自主性、挑戰和計劃水平。人工智能支持的自主無人 MUM-T 提高了有人系統的生存能力,擴大了作戰范圍,并顯著提高了作戰效率。與以往不同的是,MUM-T 的概念正隨著人工智能的發展而不斷擴展,互操作性和自主性也在相應提高。美國和北大西洋公約組織(NATO)國家提出了未來防御領域的挑戰,并在無人系統(UMS)和 MUMT 層面開展了解決這些挑戰的計劃。本研究分析了自主 MUM-T 聯合作戰系統的運行和使用所面臨的技術挑戰和計劃水平,并介紹了基本要素技術。研究方法基于現有定義和第四次工業革命建立了 MUM-T 概念。并利用北約、美國和英國的數據分析了互操作性、自主性、挑戰以及技術和利用方面的計劃水平。
圖 2 基于 NIST 和北約分類標準的人工智能自主 MUM-T 系統分析
美國防部(DoD)對 MUM-T 的定義各不相同。美國 陸軍無人機系統卓越中心(UAUCE)將有人駕駛平臺和無人機視為單一系統。有人系統和無人系統(如機器人、傳感器、無人飛行器和作戰人員)的集成增強了態勢感知、殺傷力和生存能力[1]。國防部將這種關系視為執行共同任務的綜合團隊,美國陸軍航空卓越中心(UAACE)將其定義為同時操作士兵、無人機和無人地面飛行器(UGV),以提高對態勢的了解和生存能力[2]。它采用了標準化的系統架構和通信協議,使來自傳感器的精確圖像數據能夠在整個部隊中共享。目前,它在國防領域的應用最為廣泛。陸軍航空動力局(AFDD 2015)將其定義為:為每個系統提供特殊功能,使現有有人平臺和無人資產能夠合作完成同一任務。這是一種規避風險的方法,通過從空中、陸地和海上無人系統向有人資產傳輸實時信息,提高單兵作戰人員的態勢感知能力[3]。圖 1 是戰場上 MUM-T 系統的層次示意圖。
在世界經濟論壇(WEF)議程的第四次工業革命(Fourth IR)之后,數字化(I2D2)作為一項核心技術被提出。這些技術在未來科學中具有自主、分析、通信和邊緣計算的特點。該技術的特征組合構成了自主系統和智能體(智能+分布式)、擴展領域(互聯+分布式)、作戰網絡(互聯+數字化)、精確作戰領域(智能+數字化)。智能人工智能將改變戰爭的格局,而數字數據的可用性將使分布式和互聯(自主)系統能夠進行分析、適應和響應。這些變化反過來又可能通過預測分析支持更好的決策。
北約(2020 年)以第四次工業革命的核心技術特征及其組合為導向,構建復雜的作戰系統[4-6]。美國國防發展機構(ADD 2018)認為,MUM-T 復雜系統是一種無人作戰系統,可以補充或替代作戰人員的能力,以最大限度地提高作戰效率,最大限度地減少戰場情況下的人員傷亡。它被定義為以一種復雜的方式操作包括戰斗人員在內的有人作戰系統的作戰系統[7]。考慮到美國國防部(2010)、北約(2020)和 ADD(2018)的定義,人工智能支持的自主 MUM-T 復雜作戰系統(以下簡稱 "自主 MUM-T")和 OODA 循環如表 1 所示[1,5,7]。本研究所指的 MUM-T 復合作戰系統通過聯合指揮與控制,在空中、地面、海上、太空、網絡和戰爭等所有領域提供觀察、分析和控制,可通過整合/連接所有軍事力量的有人和無人系統進行操作。它被定義為 "根據決策和行動執行聯合行動的作戰系統"。
圖 3 北約 STANAG LOI 5 和自主邊緣計算 MUM-T 互操作水平設計
水下監視技術出現于冷戰時期。該技術解密后,學術界對其進行了深入研究,并取得了諸多進展。無人潛航器(UUV)的開發就是海洋領域的進步之一,它能夠增強作戰能力,同時降低人類生命危險。雖然這項技術已經商業化,但在海軍中的應用卻很有限。其有限的發展主要是由開發商和資助他們的政府推動的。然而,由于這項技術能為軍隊帶來諸多好處,因此需要盡快將其納入海軍。這實質上意味著,要想在海軍使用/應用中獲得更多認可,就必須將該技術融入海軍。反過來,這就需要回答許多問題,了解事實,以增強對該技術及其潛力的信心。因此,本文討論了其中一些有助于彌補知識差距的問題,以促進未來海軍對 UUV 技術的接受和應用。雖然本文試圖提供全面的答案,但這些答案并不完整,只能作為討論的起點。就目前而言,技術是存在的,但缺乏想象力卻阻礙了其使用。
圖 2 已詳細說明了 UUV 在軍事領域可發揮的廣泛作用,在此,將討論每種作用的可能任務概況。迄今為止,已知美國、俄羅斯和中國等國家運營著大量不同大小和形狀的軍用 UUV。圖 3 顯示了美國部分軍用 UUV 的范圍,圖 4 顯示了其他國家部分軍用 LDUUV 的范圍。
(a) 情報、監視和偵察。從海洋中收集關鍵的電磁和光電數據將有助于擴大被拒地區的信息范圍,特別是常規平臺無法進入的淺水區。UUV 可以輕松進入這些區域,提供所需的信息。
(b) 海洋學。為了在極端的海洋環境中實現更高的可操作性,必須收集實時情報數據并提供給操作人員,以便在進攻時更好地制定計劃。出于 "用戶舒適度和安全性 "的考慮,載人平臺收集此類數據的能力有限,因此無人平臺和固定平臺被認為是未來的一種可能(Agarwala,2020 年)。
(c) 通信/導航網絡節點(CN3)。通過在有人和無人平臺之間提供一個閉環網絡,CN3 系統有助于為水下平臺提供更強的連接性和控制性,否則這些平臺就必須浮出水面以刷新其全球定位系統進行導航。這樣的通信網絡可提高無人潛航器的安全性和控制能力,同時幫助它們在不被探測到的情況下輕松、長時間地開展 ISR 活動(Munafò 和 Ferri,2017 年)。
(d) 反水雷措施。為確保港口和航道可供軍艦安全作業,并確保敵方類似港口和航道無法使用,最簡單的進攻方式就是布設 "水雷"。為了在不危及人命的情況下做到這一點,UUV 得到了有效利用。在任何平臺上使用無人潛航器,都能提高在敵方水域布設水雷和在己方水域清除水雷的效率,從而無需依賴專門的掃雷艇。
(e) 反潛戰。為了 "遏制 "在狹窄水域、咽喉地帶或艦隊附近活動的潛艇,UUV 可以發揮巨大作用。在此過程中,UUV 可以為載人平臺提供必要的安全保障,同時限制敵方潛艇的行動。
(f) 檢查/識別。為了對船體、碼頭和停泊區及其周圍的密閉空間進行快速搜索,以排除反恐方面的顧慮,并確保在必要時進行爆炸物處理,UUV 可以得到廣泛而有效的使用。這些努力將確保港口、航道和泊位的安全。
(g) 有效載荷交付。由于無人潛航器難以被探測到,而且可以在淺水區輕松作業,因此可用于秘密投放有效載荷。這種有效載荷可以是敵后補給品,也可以是摧毀敵方資產的彈藥。
(h) 信息作戰。由于 UUV 體型小,在淺水區也能輕松運作,因此是收集信息的有力平臺。此外,它們還可用作誘餌和通信網絡干擾器。
(j) 關鍵時刻打擊。能夠及時精確地投放彈藥并最大限度地減少敵方的反應時間是一項關鍵活動。用無人潛航器投放彈藥時,可將其投放到離海岸較近的地方,確保縮短敵方的反應時間。這種行為還有助于避免暴露大型有人駕駛平臺的位置,以免遭報復性打擊。
這項工作研究了在任務式指揮設備中嵌入模擬器的實用性和有效性。其目標是僅使用戰區作戰計劃作為模擬輸入,向操作員隱藏所有模擬器細節,使其無需學習新工具。本文討論了一種原型功能,該功能可根據 SitaWare 中生成的作戰計劃以及嵌入式無頭 MTWS 和 OneSAF 模擬器的模擬結果,生成行動方案(COA)分析。在輸入作戰計劃后,指揮官選擇要執行的模擬運行次數,并按下按鈕啟動模擬,模擬在后臺的運行速度比實時運行更快。模擬運行完成后,指揮官可通過圖形和圖表查看結果,對多次運行進行比較。預計未來的能力將允許指揮官模擬任何梯隊和命令,用于訓練和兵棋推演。
事后分析(AAR)在軍隊和組織中用于評估事件及其相應的培訓成果。團隊討論提供了一種以學習為中心的方法,用于評估表現、分析失敗或對未來活動可能的改進。有用的信息經常以非結構化文本和語音的形式嵌入這些 AAR 中。本文提出了一種對 AAR 進行數字分析和趨勢分析的解決方案。討論了使用手持設備采集數據的解決方案。此類設備可將音頻輸入數據管道,在管道中進行語音到文本的處理。音頻處理的操作方法是識別音素等原始語言成分,并對其關系進行上下文建模,以識別最有可能的文本輸出。然后,將討論語音到文本的轉換以及自然語言處理 (NLP) 在分析中的應用。NLP 技術可發現非結構化文本中的語義模式,然后將其與團隊績效指標相關聯。通過揭示 AAR 與團隊表現之間的成功促進因素,這種趨勢可以優化軍事訓練課程。
近年來,未經授權的無人駕駛飛行器(UAV)所造成的危險已大大增加,因此,至少需要采取適當的探測、跟蹤和反制措施來消除這種威脅。除了射頻干擾器、全球定位系統欺騙、高壓激光、電磁脈沖和射彈槍之外,反無人駕駛航空系統(cUAS)也是對付未經授權的小型無人駕駛飛行器的一種非常高效和有效的對策。
本文介紹的 cUAS 是一種全自動、多功能、可移動部署的系統,能夠利用氣壓驅動的網狀發射器攔截市場上幾乎所有的小型無人機。與上述替代方案相比,所開發的 cUAS 不受未經授權的小型無人機操作模式的影響,即手動或自動控制,甚至不受全球導航衛星系統或射頻的影響。我們的多傳感器方法(照相機、激光雷達和雷達傳感器)以及所實施的算法使 cUAS 能夠在各種環境下運行,如開放式機場、軍用場地和城市空間,在這些環境下,許多雷達反射通常會阻礙對小型物體的探測和跟蹤。cUAS 可獨立接近、跟蹤和/或攔截速度高達 20 米/秒的已識別無人機,成功率超過 90%。
本文對 cUAS 原型機的性能進行了演示和評估。對小型無人機的攔截能力和狗斗性能進行了測試和研究。此外,我們還概述了該系統的具體攻擊和防御策略,以及從最初的探測和分類到最終攔截和清除未授權無人機的過程階段特征,并說明了所開發的多傳感器平臺相對于現有單傳感器系統的優勢。
圖 1:地面探測與控制站(左)和攔截無人機系統(右)的硬件組件[產品圖片來自相關制造商]。
圖 3:攔截過程的各個階段及其條件。
人工智能解決方案在陸軍野戰應用中的使用將在很大程度上依賴于機器學習(ML)算法。當前的ML算法需要大量與任務相關的訓練數據,以使其在目標和活動識別以及高級決策等任務中表現出色。戰場數據源可能是異構的,包含多種傳感模式。目前用于訓練ML方法的開源數據集在內容和傳感模式方面都不能充分反映陸軍感興趣的場景和情況。目前正在推動使用合成數據來彌補與未來軍事多域作戰相關的真實世界訓練數據的不足。然而,目前還沒有系統的合成數據生成方法,能夠在一定程度上保證在此類數據上訓練的ML技術能夠改善真實世界的性能。與人工生成人類認為逼真的語音或圖像相比,本文為ML生成有效合成數據提出了更深層次的問題。
人工智能(AI)是美國國防現代化的優先事項。美國國防部的人工智能戰略指示該部門加快采用人工智能并創建一支適合時代的部隊。因此,它自然也是陸軍現代化的優先事項。從陸軍多域作戰(MDO)的角度來看,人工智能是解決問題的重要因素,而MDO是建立在與對手交戰的分層對峙基礎上的。雖然人工智能本身沒有一個簡明和普遍接受的定義,但國防部人工智能戰略文件將其稱為 "機器執行通常需要人類智能的任務的能力--例如,識別模式、從經驗中學習、得出結論、進行預測或采取行動--無論是以數字方式還是作為自主物理系統背后的智能軟件"。這句話的意思是,當機器在沒有人類幫助的情況下獨立完成這些任務時,它就表現出了智能。過去十年中出現的人工智能解決方案的一個重要方面是,它們絕大多數都符合模式識別模式;在大多數情況下,它們根據經過訓練的人工神經網絡(ANN)對相同輸入數據的輸出結果,將輸入數據分配到數據類別中。具體來說,深度學習神經網絡(DNN)由多層人工神經元和連接權重組成,最初在已知類別的大量數據上進行訓練以確定權重,然后用于對應用中的實際輸入數據進行分類。因此,機器學習(ML),即自動機(這里指DNN)在訓練階段學習模式的過程,一直是一個主導主題。事實上,DNN在計算機視覺領域的成功是商業和政府部門加大對人工智能關注和投資的原因。訓練算法和軟件開發工具(如tensorflow)的進步、圖形處理器(GPU)等計算能力的可用性,以及通過社交媒體等途徑獲取大量數據,使得深度學習模型在許多應用中得到了快速探索。
在監督學習中,人類專家創建一組樣本來訓練ML算法,訓練數據與實際應用數據的接近程度對人工智能方法的性能起著重要作用。將ML模型應用于軍事問題的主要瓶頸是缺乏足夠數量的代表性數據來訓練這些模型。有人提出使用合成數據作為一種變通辦法。合成數據集具有某些優勢:
然而,最關鍵的問題是在合成數據或混合合成和真實數據上訓練ML模型是否能使這些模型在真實數據上表現良好。美國陸軍作戰能力發展司令部陸軍研究實驗室的研究人員和合作者使用合成生成的人類視頻進行機器人手勢識別所獲得的初步結果表明,在合成數據和真實數據混合的基礎上進行訓練可以提高ML手勢識別器的性能。然而,并沒有普遍或分類的結果表明,當全部或部分使用合成數據進行訓練時,真實世界的ML性能會得到一致的提高。因此,有必要進行系統調查,以確定使用合成數據訓練ML方法的可信度。我們有理由假設,合成數據在提高ML性能方面的有效性將受到實際應用領域、合成數據與真實數據的保真度、訓練機制以及ML方法本身等因素的影響。合成數據與真實數據的保真度反過來又取決于數據合成方法,并提出了通過適當指標評估保真度的問題。以圖像為例,合成數據訓練的ML方法的性能與人類視覺感知的真實場景的保真度是否成正比并不清楚。有可能數據的一些關鍵特征對于ML的性能比那些影響人類感知的特征更為重要。組織這次陸軍科學規劃和戰略會議(ASPSM)的一個主要目的是讓合成數據生成、人工智能和機器學習(AI & ML)以及人類感知方面的頂尖學術界和國防部專家討論這些問題。會議的技術重點主要是圖像和視頻數據,反映了組織者在計算機視覺和場景感知方面的任務領域。
根據上一節提出的問題,會議圍繞三個主題展開:
1.人類的學習和概括: 人類可以從最小的抽象和描述概括到復雜的對象。例如,在許多情況下,觀察一個物體的卡通圖像或線描,就足以讓人類在真實場景中識別出實際的三維物體,盡管后者比卡通圖像或線描具有更復雜的屬性。 這遠遠超出了當前人工智能和ML系統的能力。如果能夠開發出這種能力,將大大減輕數據合成機器的負擔,確保真實數據的所有屬性都嚴格保真。這個例子也說明了一個事實,即用于訓練ML模型的合成數據生成研究與提高ML模型本身的能力密切相關。因此,這項研究的重點是探索人類和動物的學習,以啟發ML和數據合成的新方法。
2.數據合成方法和驗證: 大多數應用ML方法的領域都有針對其領域的數據合成技術和工具。游戲平臺提供了一個流行的視頻合成商業范例。問題是如何評估特定領域中不同合成方法的性能。顯然,我們必須確定執行此類評估的指標或標準。通常情況下,合成工具的作者也會就工具的性能或功效發表聲明。驗證將是評估此類聲明的過程。本研究的目的是探討指導合成和驗證過程的原則。合成技術的例子包括基于計算機圖形的渲染器(如電影中使用的)、基于物理的模擬(如紅外圖像)和生成模型(目前傾向于基于神經網絡)。
3.領域適應挑戰: ML中的領域適應是指使用一個領域(稱為源領域)的數據訓練ML模型,然后將ML應用于不同但相關領域(稱為目標領域)的數據。例如,使用主要為民用車輛的源圖像數據集訓練識別車輛的ML算法,然后使用訓練好的算法識別主要為軍用車輛的目標數據集中的車輛。在使用合成數據進行訓練時,它們通常構成源域,而實際應用數據則是目標域。本次會議的重點是確定和討論有效領域適應中的關鍵問題和挑戰。
ASPSM的審議分四次會議進行。第一天的兩場會議討論了前兩個主題。第二天的第一場會議討論第三個主題,第二場會議在三個主題下進行分組討論。ASPSM兩天的日程安排分別如圖1和圖2所示。從圖中可以看出,每個主題會議首先由該領域的學術專家進行40分鐘的主講,然后由大學專家進行兩個20分鐘的講座。隨后由來自學術界和國防部的專家組成的小組進行討論。最后一個環節是分組討論,與會者可以討論與主題相關的各個方面。
麻省理工學院電子工程與計算機科學系的Antonio Torralba教授在第一分會場發表了關于人類學習與泛化的主題演講。他的演講題目是 "從視覺、觸覺和聽覺中學習",深入探討了深度學習方法如何在不使用大量標注訓練數據的情況下發現有意義的場景表征。舉例說明了他們的DNN如何在視覺場景和環境中的聲音之間建立聯系。讀者可參閱Aytar等人關于這一主題的代表性文章。
同樣來自麻省理工學院的James DiCarlo博士的下一個演講題目是 "視覺智能逆向工程"。他將 "逆向工程 "定義為根據對行為的觀察和對輸入的反應推斷大腦的內部過程,將 "正向工程 "定義為創建ANN模型,以便在相同輸入的情況下產生相應的行為。他的研究小組的一個目標是建立神經認知任務的性能基準,人類或其他靈長類動物以及ML模型可以同時達到這些基準。他的演講展示了大腦處理模型如何適應ANN實現的初步結果,并提出了ANN通過結合這些適應密切模擬人類行為,進而準確描述大腦功能的理由。
第一場會議的第三場講座由加州大學伯克利分校的Jitendra Malik教授主講,題為 "圖靈的嬰兒"。這個題目也許是指最早的電子存儲程序計算機之一,綽號 "寶貝",其創造者之一受到了阿蘭-圖靈的啟發。馬利克教授首先引用了圖靈的觀點:與其創建一個模擬成人思維的程序,不如從模擬兒童思維開始。從本質上講,這意味著創造一種人工智能,通過與環境互動以及向其他人工智能和人類學習來學習和成長。這被稱為具身機器智能。馬利克教授認為,監督學習本質上是處理靜態數據集,因此顯示了在精心策劃的時間點上運行的非實體智能。具體而言,他認為監督訓練方法不適合創建能夠提供人類水平的世界理解,特別是人類行為理解的人工智能。Malik教授介紹了 "Habitat",這是一個由他和他的合作者開發的平臺,用于嵌入式人工智能的研究。在隨后的小組討論中,與會人員討論了演講者所涉及的主題,以及與機器人學習和當前兒童智力發展模型相關的主題。
第二部分“數據合成:方法和驗證”以一個題為“學習生成還是生成學習?”,作者是斯坦福大學的Leonidas gu教授。在研究用于訓練ML的合成數據生成的動機中,他指出可以減輕大量人工注釋訓練數據的負擔。他的前提是,無論合成數據是用于訓練ML還是供人類使用,其生成效率和真實性都非常重要。不過,他表示其他質量指標還沒有得到很好的定義,需要進一步研究。他舉例說明了在混合合成數據和真實數據上訓練ML時,ML的物體識別性能有所提高,但他也承認很難得出可推廣的結論。
卡內基梅隆大學的Jessica Hodgins博士發表了第二場會議的第二個演講,題為 "生成和使用合成數據進行訓練"。演講展示了她的研究小組生成的精細合成場景。利用從真實場景到合成場景的風格轉移過程,她的研究小組創造了一些實例,說明在混合了大量風格適應的合成數據和一些真實數據的基礎上進行訓練的ML方法的性能優于僅在真實數據集或僅在合成數據集上進行訓練的方法。性能提高的原因在于風格轉移克服了合成數據集與真實數據集之間的 "分布差距"。
第二場會議的最后一場講座由加州大學伯克利分校的Trevor Darrell教授主講。他的演講題為 "生成、增強和調整復雜場景",分為三個部分。第一部分詳細介紹了演講者及其核心研究人員開發的一種名為 "語義瓶頸場景生成 "的技術,用于根據地面實況標簽合成場景。該技術可進一步與通過生成過程生成此類地面標簽的模型相結合。Azadi等人對該技術進行了詳細描述。 第二部分涉及增強和自我監督學習。發言人提出,當前的對比學習方法在合成增強數據時建立了不變量,而這些不變量可能是有益的,也可能是無益的。例如,建立旋轉不變性可能有利于識別場景中的花朵,但可能會阻礙對特定方向物體的有效識別。演講者介紹了他的研究小組考慮具有特定不變性的多種學習路徑的方法,并展示了與現有技術相比性能有所提高的結果。 第三部分介紹了一種名為 "Tent"(測試熵)的技術。其前提是DNN應用過程中遇到的數據分布可能與訓練數據不同,從而導致性能下降。因此,需要對DNN參數進行實時或測試時調整,以防止性能下降。Tent技術通過調整權重使DNN輸出的測量熵最小化來實現這一目標。演講者隨后用常用數據集展示了該技術相對于先前方法的改進性能。隨后的小組討論涉及合成方面的挑戰,尤其是紅外圖像方面的挑戰。
第二天的第三場會議以 "領域轉移的挑戰 "開始。約翰霍普金斯大學布隆伯格特聘教授Rama Chellappa博士發表了題為 "解決美國防部實際問題的綜合數據期望與最大化"的演講。演講首先回顧了過去二十年來國防部處理合成圖像的多個項目的歷史。他提出了一個重要論斷,即如果在合成過程中考慮到真實數據的物理特性,那么真實數據和合成數據之間的領域轉換就會減少。Chellappa教授還就領域自適應表示法提供了快速教程,涵蓋了正規數學方法以及較新的生成對抗網絡(GANs)。演講者及其核心研究人員開發的基于GAN的方法可以修改合成數據的分布,使之與目標分布相匹配。講座舉例說明了這種方法優于之前的非GAN方法。
佐治亞理工學院的Judy Hoffman教授發表了題為 "從多個數據源進行泛化的挑戰 "的演講。她考慮的問題是在模擬中學習模型,然后將模型應用于現實世界。她指出了四個挑戰: 生成、列舉、泛化和適應。發言人介紹了應對這些挑戰的幾種不同方法。具體來說,用于泛化的特定領域掩碼(DMG)方法通過平衡特定領域和領域不變特征表征來生成一個能夠提供有效領域泛化的單一模型,從而解決多源領域學習問題。
第三場會議的第三位也是最后一位演講者是波士頓大學的Kate Saenko教授,他的演講題目是 "圖像分類和分割的Sim2Real領域轉移的最新進展和挑戰"。Saenko教授延續了前兩場講座的主題,介紹了視覺領域適應的歷史,并探討了領域和數據集偏差問題。在糾正數據集偏差的不同方法中,講座詳細討論了領域適應。特別重要的是,Saenko教授及其合作者開發的技術能夠顯示合成到真實的適應性,就像從游戲引擎到真實數據一樣。隨后的小組討論提出了幾個有趣的問題,包括訓練域和測試域的不同,不是感興趣的對象不同,而是對象所處的環境不同,例如訓練時軍用車輛在沙漠環境中,而測試時則在熱帶植被背景中。
三個主題的分組討論同時進行。在 "人類學習與泛化 "分組討論中,首先討論了 "人類如何學習?"、"ML模型如何模仿人類過程?"以及 "合成數據如何實現這些過程?"等問題。從童年到青春期和成年期,學習和成長之間的關系成為關鍵點。其他被認為有助于人類學習的因素包括人類心理、情感、同時參與多維活動、記憶以及解除學習的能力。
關于 "數據綜合: 方法與驗證 "分論壇確定了數據合成的幾個問題,特別是圖像和視頻。主要問題涉及結合物理學的有用性、視覺外觀保真度與成本之間的權衡、保真度的衡量標準、保真度本身的重要性以及當前技術(包括GANs技術)的局限性。據觀察,合成圖像和視頻生成至少已有幾十年的歷史,但大多數產品要么是為視覺效果而設計,要么是為再現物理測量而設計(例如,紅外模擬中的輻射剖面)。它們并不適合用于ML培訓。提出的另一個問題是,合成的二維圖像必須與物體和環境的底層三維幾何圖形保持一致。還有人提出,能夠在特定的感興趣的環境中生成大量合成數據,可以作為第一道工序測試新的人工智能和ML方法,而不管這些方法是否能夠在真實數據中很好地工作。
專題3 "領域轉移挑戰 "的分組討論確定了MDO所需的關鍵人工智能能力,即從孤立學習到機器與人類之間的聯合或協作學習。會議還討論了在多種數據模式下同時訓練ML的聯合學習。人們認識到,這些領域的工作才剛剛開始。分組討論的牽頭人強調,需要向士兵明確說明基于人工智能的系統在特定情況下將會做什么。這引發了對系統魯棒性的討論。分組組長向ASPSM聽眾提供了討論摘要。
根據本次ASPSM的討論,我們確定了以下值得陸軍進一步進行科技投資的領域:
1.支持多模式互動學習的合成技術和數據集。與當前流行的捕捉 "時間瞬間 "的靜態數據集(如農村環境中的車輛圖像)相比,有必要開發更能代表支持持續學習的體現性體驗的模擬器,就像我們在人類身上看到的那樣,并實現對世界更豐富的表征。混合方法(如增強現實)也可將人類監督的優勢與合成環境的靈活性結合起來。
2.學習和合成因果關系和層次關系的算法和架構。最近的一些方法,如基于圖的卷積神經網絡,已經在學習空間和時間的層次關系(如物體-部件和因果關系)方面顯示出前景。鑒于在現實世界中收集和注釋此類數據的復雜性,合成數據的生成可能特別有用。識別層次關系是一般國防部和戰場情報分析的關鍵要素。
3.支持持續、增量、多模態學習的算法和架構。深度強化學習方法被成功地用于訓練虛擬或機器人代理的相關行動策略,如捕食者與獵物之間的相互作用。基于模仿的方法承認學習的社會性,通常讓代理與(通常是人類)教師合作學習新策略。這些類型的交互式持續學習可進一步與多模態學習(即融合來自多個傳感器的數據)相結合,以實現更豐富的世界表征,使其更穩健、更具通用性。同樣,在這一領域難以獲得大量經過整理的數據,這也為探索合成引擎提供了動力。
4.學習物理或具備相關物理領域知識的算法和架構。在許多領域(例如紅外光下的物體感知),從圖像感知和合成圖像需要了解世界的基本物理特性,例如光與材料之間的相互作用。然而,當前的深度學習模型缺乏這種物理知識。開發賦予ML物理領域知識的技術對這些系統的性能至關重要。
5.具有豐富中間表征的領域適應技術。為了縮小真實數據和合成數據之間的領域差距,必須進一步推動當前建立領域不變中間表征的趨勢,特別是使用語義詞典和生成式對抗網絡。能夠理解數據底層結構(如光照、旋轉、顏色)的表征更有可能成功抽象出合成數據中不重要的細節。
6.深入了解ML模型內部表征的方法,以及合成表征與真實表征的比較。網絡剖析技術 "打開 "了深度學習模型的隱藏層,允許解釋網絡中的每個階段正在學習哪些特定概念或其更細的方面。這些技術揭示了具有真實輸入和合成輸入的DNN的內部表征,有助于識別所學內容的關鍵差異,從而找到克服這些差異的解決方案。
為期兩天的虛擬ASPSM吸引了眾多美國防部科學家和工程師、頂尖學術專家以及科技項目管理人員的熱情參與。多學科的討論強化了這樣一種觀點,即開發用于訓練ML方法的生成合成數據的改進方法與理解和改進ML方法本身是分不開的。一個特別重要的需求是了解ML方法,尤其是當前的學習架構,是如何創建場景的內部表示的。另外兩個重要領域是:1)理解人類學習與ML世界中可能存在的學習之間的異同;2)多模態數據--從合成和ML的角度。我們預計近期國防部和學術研究人員將在本報告確定的領域加強合作。
在現代空戰中,超視距(BVR)交戰越來越頻繁。飛行員面臨的主要挑戰之一是機動計劃,這反映了他們的決策能力,并能決定成敗。為確保采用虛擬BVR空戰模擬的飛行員訓練取得成功,計算機生成部隊(CGF)的高精度水平至關重要。要實現這一目標,不僅要充分復制和模擬實體的物理特性,還要使其具有接近人類的行為。在本文中,我們提出了應對這些挑戰的總體概念: 首先,我們引入飛行運動動態模型(飛機、導彈、箔條)以及干擾器。然后,我們分析典型的超視距空戰的工作流程,將其分為攻擊、自衛和決定。在此背景下,我們引入行為樹作為這些任務的建模方法,并解釋其優點。進一步的計劃包括在未來由人類控制的對手飛機(飛行員)與CGF對飛的實驗活動中驗證和確認CGF的行為。最后,我們對未來的工作進行了展望,我們打算在包含多個自由度的任務中采用強化學習。
對使用無人駕駛飛行器(UAV),即無人機,在不同的應用中,如包裹遞送、交通監測、搜索和救援行動以及軍事戰斗交戰,有越來越多的需求。在所有這些應用中,無人機被用來自主導航環境--沒有人的互動,執行特定的任務和避免障礙。自主的無人機導航通常是通過強化學習(RL)完成的,智能體作為一個領域的專家,在避開障礙物的同時導航環境。了解導航環境和算法限制在選擇適當的RL算法以有效解決導航問題中起著至關重要的作用。因此,本研究首先確定了主要的無人機導航任務并討論了導航框架和仿真軟件。接下來,根據環境、算法特點、能力和在不同無人機導航問題中的應用,對RL算法進行了分類和討論,這將有助于從業人員和研究人員為他們的無人機導航用例選擇合適的RL算法。此外,確定的差距和機會將推動無人機導航研究。
自主系統(AS)是能夠在沒有人類干擾的情況下執行所需任務的系統,如機器人在沒有人類參與的情況下執行任務、自動駕駛汽車和無人機送貨。自主系統正在侵入不同的領域,以使操作更加有效,并減少人為因素產生的成本和風險。
無人駕駛航空器(UAV)是一種沒有人類飛行員的飛機,主要被稱為無人機。自主無人機由于其多樣化的應用而受到越來越多的關注,如向客戶交付包裹、應對交通事故以滿足傷員的醫療需求、追蹤軍事目標、協助搜索和救援行動,以及許多其他應用。
通常情況下,無人機配備有攝像頭和其他傳感器,可以收集周圍環境的信息,使無人機能夠自主地導航該環境。無人機導航訓練通常是在虛擬的三維環境中進行的,因為無人機的計算資源和電源有限,而且由于墜毀而更換無人機部件可能很昂貴。
不同的強化學習(RL)算法被用來訓練無人機自主導航的環境。強化學習可以解決各種問題,在這些問題中,代理人就像該領域的人類專家一樣。代理人通過處理環境的狀態與環境互動,用行動作出回應,并獲得獎勵。無人機相機和傳感器從環境中捕捉信息,用于表示狀態。代理人處理捕捉到的狀態并輸出一個行動,決定無人機的運動方向或控制螺旋槳的推力,如圖1所示。
圖1:使用深度強化智能體的無人機訓練
研究界對不同的無人機導航問題進行了回顧,如視覺無人機導航[1, 2]、無人機植群[3]和路徑規劃[4]。然而,據作者所知,目前還沒有與RL在無人機導航中的應用有關的調查。因此,本文旨在對各種RL算法在不同無人機自主導航問題上的應用進行全面系統的回顧。這項調查有以下貢獻:
本文的其余部分組織如下: 第2節介紹了系統回顧過程,第3節介紹了RL,第4節全面回顧了各種RL算法和技術在無人機自主導航中的應用,第5節討論了無人機導航框架和仿真軟件,第6節對RL算法進行分類并討論了最突出的算法,第7節解釋了RL算法的選擇過程,第8節指出了挑戰和研究機會。最后,第9節對本文進行了總結。
荷蘭的Smart Bandits項目旨在開發顯示真實戰術行為的計算機生成部隊(CGF),以提高戰斗機飛行員模擬訓練的價值。盡管重點在于展示空對空任務中的對抗行為,但其結果更廣泛地適用于模擬領域。
傳統上,CGF的行為是由腳本控制的,這些腳本規定了在一組特定事件中的預定行動。腳本的使用有一定的缺陷,例如,在考慮完整的任務場景時,腳本的復雜性很高,而且腳本的CGF往往表現出僵硬和不現實的行為。為了克服這些缺點,需要更復雜的人類行為模型,并結合最先進的人工智能(AI)技術。Smart Bandits項目探討了應用這些人工智能技術的可能性。
本文解釋了在理論行為模型和用于戰斗機訓練的CGF中的實際實施之間架起橋梁的主要架構。測試CGF的訓練環境包括四個聯網的F-16戰斗機模擬器。這種設置能夠為飛行員提供實驗性訓練,以對抗敵人的戰斗機編隊(以智能CGF的形式)。該架構是通用的,因為它可以滿足各種人類行為模型,在概念上,它們在使用人工智能技術、認知的內部表示和學習能力方面彼此不同。基于認知理論的行為模型(例如,基于情境意識、心智理論、直覺和驚訝的理論)和基于機器學習技術的行為模型實際上都嵌入到這個架構中。
戰斗機飛行員在模擬器中的戰術訓練已經被廣泛使用。戰術訓練的一個基本特征是除了受訓者之外,還有其他參與者的存在。這些參與者可以是隊友,如編隊中的其他戰斗機,支持力量,如前方空中管制員,中立力量,如平民,或敵方力量,如對手的戰斗機。在模擬中,這些參與者的角色可以由人類、半自動化部隊(SAFs)或CGFs來完成。半自動部隊有一些執行角色相關任務的功能,例如,多個虛擬實體可以由一個人控制。然而,使用人類專家參與戰術模擬可能既不符合成本效益,也不具有操作性。首先,這些人類參與者是昂貴的資產。其次,由于模擬的目的不是為他們提供訓練,他們可以在其他地方使用。因此,由CGF來扮演這些角色更為有效,只要這些CGF有能力以適當的方式扮演這些角色。
然而,目前最先進的CGFs在許多情況下并不能滿足戰術訓練的需要,因為它們的行為很簡單。除了前面提到的SAFs,可以區分四類CGF-行為(Roessingh, Merk & Montijn, 2011)。
1)非反應性行為,在這種情況下,CGF根據預先確定的行動序列行事,對環境的觀察或反應能力最小;例如,這種CGF能夠遵循由航點定義的路線。
2)刺激-反應(S-R)行為,在這種行為中,CGF對來自環境的某一組刺激或輸入的反應,總是表現出一致的行為;例如,這樣的CGF能夠在能夠連續觀察到飛機位置時攔截飛機。
3)延遲反應(DR)行為,在這種情況下,CGF不僅考慮到當前環境中的一組刺激,而且還考慮到以前的刺激,這些刺激存儲在CGF的存儲器中。這樣的CGF通過記憶以前的位置,能夠攔截一架飛機,即使這架飛機不能被連續觀察到。
4)基于動機的行為,這種CGF結合了S-R和DR行為,但另外考慮到其動機狀態。這些動機狀態是內部過程的結果,可以代表目標、假設、期望、生物和情感狀態。例如,這樣一個CGF可以假設,一架目標飛機的燃料不足,它將返回基地。因此,CGF可能決定放棄攔截。或者,CGF可能預計到飛機的路線改變,并決定在一個更有利的位置攔截飛機。
到目前為止,CGF的一個特點沒有被納入討論,那就是學習行為或適應行為(在Russell和Norvig, 2003的意義上)。表現出S-R、DR或基于動機的行為的CGF,可以在機器學習(ML)的基礎上擴展適應這種行為的能力。ML技術使CGF的發展能夠更好地適應受訓者的專業知識。此外,ML技術還可以防止為每個要解決的具體問題或情況制定一套艱苦的規則(例如 "如果-那么規則"),這些規則是基于對業務知識的人工啟發,而這些知識在很大程度上是隱性的,不能簡單地用邏輯規則來解釋。
本文的目標是說明在 "智能強盜 "項目(2010-2013年)中開發智能CGFs。該項目旨在將類似人類的智能植入模擬任務場景中出現的CGF中。通過Smart Bandits項目,荷蘭國家航空航天實驗室(NLR)和荷蘭皇家空軍(RNLAF)的目標是在模擬戰術戰斗機飛行員訓練領域邁出重要一步。本文的核心信息是,認知模型是在CGF中創造基于動機的行為的有力手段。然而,為了減輕認知建模的缺點,我們主張額外使用ML技術。這些技術對于減少開發在復雜領域中行動的代理的知識誘導工作至關重要。它展示了如何將不同的方法組合成混合模型。
產生智能行為的一種方法是認知建模。在這種方法中,計算模型被設計來模擬人類的認知。在Smart Bandits項目中,到目前為止已經設計了三個認知模型:一個自然的決策模型,一個驚喜生成模型和一個情況意識模型。所有這三個模型都是利用空戰領域的抽象場景進行評估的。
由于決策是產生任何智能行為的關鍵部分,在項目的早期就開發了一個自然決策模型。該模型的靈感來自于達馬西奧的體細胞標記假說。軀體標記假說提供了一種決策理論,該理論將體驗到的情感作為決策的直覺部分發揮了核心作用,同時將這種直覺部分與理性推理相結合,形成一個兩階段的決策過程。Hoogendoorn, Merk & Treur (2009)對這個模型進行了描述。
驚訝被認為是人類對意外情況的普遍體驗的認知反應,對行為有可識別的影響。然而,在CGF的研究中,很少有人關注驚訝現象,很少有CGF有類似人類的機制來產生驚訝強度和驚訝行為。這就導致了CGF在人類會做出驚訝反應的情況下,其行為是貧乏的和不現實的。對于空戰來說,這形成了一個問題,因為許多軍事專家認為驚訝因素是軍事行動的一個重要因素。
出于這個原因,我們開發了一個產生驚訝強度及其對行為影響的模型(Merk, 2010)。該模型是基于各種理論和對人類驚訝行為的認知研究的經驗結果。除了情境的意外性,其他的認知因素,如情境的新穎性也被考慮在內。
有效決策的一個重要因素是情景意識(Situation Awareness,SA)。SA在工作領域尤其重要,在那里信息流可能相當大,錯誤的決定可能導致嚴重的后果。為此,我們根據Endsley(1995)的SA的三個層次設計了一個模型:(1)對線索的感知,(2)對信息的理解和整合,(3)對未來事件的信息投射。
在Smart Bandits中用于智能CGF的基本SA模型(見Hoogendoorn, van Lambalgen & Treur, 2011)包括五個部分。(1)觀察,(2/3)對當前情況的信念形成,(4)對未來情況的信念形成和(5)心理模型。對當前情況和未來情況的信念通過閾值函數被激活(接收一個激活值),這是一種從神經學領域采用的技術。圖1中的SA模型代表了用于形成信念的領域的知識。人類使用專門的心理模型,這些模型代表了各種觀察和關于環境的信念形成之間的關系,反過來,這些模型又指導了要進行的進一步觀察。
圖1:情況意識的認知模型:概述
另一個重要的方面是在苛刻的環境下可能出現的SA的退化。當時間有限時,感知和線索的整合會受到影響,導致對環境的不完整了解。此外,由于工作記憶的限制,人類并不總是能夠進行所有必要的觀察。根據可用時間的多少,可以通過考慮不太活躍的信念來進一步完善對情況的了解。這些特點反映在智能CGF的行為中。上述模型的詳細描述可以在Hoogendoorn, Lambalgen and Treur (2011)中找到。
機器學習技術的一個常見區別是監督學習和無監督學習(例如Russel和Norvig,2003)。在監督學習中,在每次試驗后,代理人會得到與他應該采取行動的輸入演示(也稱為輸入實例)相匹配的反應。實際反應和預期反應之間的差異被用來訓練代理,就像培訓師或監督員讓學生意識到預期反應一樣。例如,代理人可以通過向其展示正確的反應來學習飛行動作。在無監督學習中,代理只是被告知輸入的例子。代理人必須在所提供的例子中找到隱藏的結構。由于給代理的例子沒有伴隨著反應,所以沒有差異信號來訓練代理。例如,代理可以學習區分友軍和敵軍的戰術。
強化學習具有上述兩種學習技術的要素。代理人在每次試驗后不是被告知正確的反應,而是在每次試驗的執行過程中收到來自環境的反饋。雖然反饋不一定代表每個單獨行動的正確反應,但該學習技術的目的是為整個試驗提供匯總反饋,從而平均強化正確反應。然而,這并不能保證收斂到正確的反應。強化學習的技術實現在Sutton & Barto (1998)中有所解釋。
強化學習特別適合代理在模擬環境中的應用,因為在這種環境中,代理能夠探索環境,從而可以評估大量成功和不成功的反應。另外,在復雜的環境中,所需的反應,如最佳的對手交戰戰術,往往是未知的。強化學習提供了一種技術,通過每次試驗來改進反應,從而發現更好的戰術。
強化學習的一個普遍問題是,它需要大量的內存來存儲中間計算值(反應與代理在其環境中的狀態相結合,如其位置、速度和方向)。在現實的戰術環境中,這實際上轉化為無限量的反應-狀態組合("狀態-行動空間")。在Smart Bandits項目中,模擬了兩架友軍飛機和兩架敵軍飛機之間的空對空交戰,后兩者由學習型代理人代表。在這些交戰中,學習型代理只能以四種方式做出反應(左、右、前和射擊)。在這個例子中,我們將狀態-動作空間存儲在一個表格中,在可接受的學習試驗數量之后,它需要2千兆字節的內存。這種內存需求隨著額外參數的增加而呈指數級增長。驚人的內存需求可以通過對狀態-動作-空間的近似來減少,而不是保留所有的精確值。近似一個大的狀態動作空間的方法是使用神經網絡(NN),這將在下一節解釋。
在一般意義上,NN(Haykin,1998)可以被認為是一個可以模擬任何數學函數的網絡。在這種情況下,我們使用NN來近似上述的狀態-動作空間。NN的輸入是代理人在其環境中的當前狀態。NN的輸出是代理的每個可能行動的值。NN的輸出是在RL算法產生的數據基礎上進行優化的。RL算法的數據不需要再被存儲。事實上,NN是用RL算法產生的數據來訓練的。以前我們需要2千兆字節的內存來解決一個相對簡單的空對空問題,現在我們只需要大約10千兆字節的數據來存儲這個問題的NN知識。這種知識是由NN的權重值表示的。而且,內存需求不再隨著問題的復雜性呈指數增長,而只是呈線性增長。為此,可以使用相對簡單的前饋型NN,而不是遞歸型NN。然而,我們發現有兩個原因要為需要在復雜戰術場景中行動的代理類型開發替代的ML技術。
1)與一些領域不同,如解決象棋等游戲中的問題,其中最佳的下一步行動完全由世界的當前狀態決定,而解決戰術問題的特點是需要使用以前的世界狀態。例如,一個空對空的對手可能會消失一段時間,并可能在不同的位置突然出現,代理人必須考慮到這一點。換句話說,戰術問題的特點是對環境的不完善或不完全了解1。眾所周知,RL技術對這些類型的問題并不太健壯,當面對更復雜的問題時,我們確實經歷了與我們的代理人的正確反應相背離的情況。
2)一些現實的戰術問題需要在當前的決策中考慮到對以前狀態的記憶。正因為如此,基于RL的代理不能很好地適用于現實的戰術問題。對于需要延遲反應行為或基于動機的行為的應用(見第1章),RL可能不是首選技術。
對于空對空領域的更高級問題,下一節將研究進化技術作為RL的替代品。
人工自主系統被期望在動態、復雜的環境中生存和運行。在這樣的環境中,代理人的具體能力是很難事先預測的,更不用說詳細說明了。自主系統的人工進化使代理人能夠在復雜的動態環境中優化他們的行為,而不需要使用領域專家的詳細先驗知識。RL技術假定問題的解決方案具有馬爾科夫特性(見前面的腳注),而進化技術(B?ck, Fogel, Michalewicz, 1997)不受這種約束,適用于更大的問題集。
進化技術使用一個迭代過程,在一個解決方案的群體中搜索適配性景觀,在這種情況下,就是戰術問題的解決方案。種群中更成功的實例在有指導的2次隨機搜索中被選擇,使用平行處理來實現期望的解決方案。這種過程通常受到生物進化機制的啟發,如突變和交叉。許多進化技術的實驗使用神經網絡來控制代理。神經網絡提供了一個平滑的搜索空間,對噪聲具有魯棒性,提供了概括性并允許擴展(見Nolfi和Floreano, 2000)。此外,網絡結構可以被進化或優化以允許延遲響應行為。這些特性與優化網絡的進化方法相結合,為復雜、動態領域提供了一個有趣的研究領域。作為一個例子,我們可以使用智能強盜的進化技術更新SA模型(見第2.3節)的連接強度的權重。
由于像SA模型這樣的認知模型通常有一大套相互關聯的參數,使用主題專家來確定它們的(初始)值是很麻煩的,而且是投機性的和勞動密集的。這就需要使用進化學習技術來為上述觀察、簡單信念、復雜信念和未來信念之間的聯系確定適當的權重。圖2給出了第2.3節中提到的SA模型的網絡表示的一個簡化例子(取自Hoogendoorn, van Lambalgen & Treur, 2011)。
圖2:情況意識的例子模型(Hoogendoorn, van Lambalgen & Treur, 2011)。
為了學習圖2中網絡的連接權重,我們采用了兩種不同的方法(Gini, Hoogendoorn & van Lambalgen, 2011),即遺傳算法應用和基于權重重要性的專門方法。后一種方法被稱為 "基于敏感度 "的方法。這兩種方法都利用了一個健身函數,表示一個解決方案與期望狀態的符合程度。在這種情況下,可以通過實際激活水平和主題專家估計的激活水平之間的差異來衡量適合度。遺傳算法的表現明顯優于基于敏感性的方法。
多Agent系統(MASs)屬于兩類中的一類:集中式或分散式控制的系統。集中式控制系統由具有一定程度自主權的代理組成,但整個系統由一個統一的戰略、方法或代理控制,以實現特定的目標。然而,盡管有整體的統一策略,單個代理并不知道其他代理在做什么,所以團隊策略通常在任務中的不同點與單個代理的策略相沖突。這個問題3已經成為在復雜環境中實施MAS的典型障礙。分散式系統與集中式系統不同,它的代理具有更高的自主性,但缺乏指導所有代理的預先存在的戰略。它們通常有某種形式的通信系統,允許代理在探索其環境的同時制定所需的整體戰略。開發能夠進行空對空戰術的智能CGF的挑戰,直接屬于MAS環境的集中式類別。因此,各個代理必須在同一環境中一起訓練。然而,這使狀態空間以環境中存在的代理數量的倍數膨脹。這是每個代理保持自己對環境的獨特看法的結果,這種看法被記錄在自己的狀態空間中。然而,追求多代理的方法是有道理的,特別是在與領域有關的問題上,不同的飛行成員可能有不同的,可能有沖突的目標和不完整的情況意識。
Smart Bandits項目中用于CGF的仿真環境是STAGE ?,這是一個場景生成和CGF軟件套件。作為一個基本的場景工具,STAGE為我們提供了一定的保真度和抽象度,很適合目前考慮的戰術空對空作戰模擬。當需要更高的平臺、傳感器或武器模型的保真度時,STAGE提供的基本功能將得到擴展。這種擴展CGF環境基本功能的能力是STAGE被選為Smart Bandits的主要CGF軟件套件的原因之一。
傳統上,代理人的刺激-反應(S-R)行為(見第1章)可以通過使用腳本和/或基本條件語句在CGF軟件中實現。結合這些簡單的構件,通常可以為CGF行為提供一定程度的可信度,這對于許多模擬培訓練習來說可能是足夠的。然而,對于更高級的問題和相關的代理行為,包括學習行為,如第2和第3節所述,這種方法將是不夠的。正如前幾節所論述的那樣,存在著大量的技術用于發展CGF行為和在模擬環境中控制CGF。一個標準的CGF平臺并不能滿足實現這些不同的技術。
為了將STAGE作為Smart Bandits中的CGF平臺,同時將CGF的控制權委托給外部軟件(即使用選擇的編程語言構建的特定軟件),我們開發了一個接口,外部軟件可以通過該接口接收來自STAGE中任何CGF的觀察結果,并可以命令CGF在仿真環境中執行操作。這個中間件層(圖3中所謂的調解器)通過特定的協議(nCom,Presagis專有)與STAGE進行實時通信,可以向不同的代理(可能分布在不同的計算機上)發送和接收上述的觀察和行動。為了與調解器通信,外部軟件使用一個特定的接口,該接口定義在一個庫中,可以很容易地鏈接到軟件中,例如用Java或C++。
圖 3:將智能代理納入商用現成 CGF 包(STAGE?)的架構,智能代理可以使用 C++ 或 Java 接口,通過調解器與 STAGE 通信。
本文介紹了一種認知建模的技術和各種機器學習技術。不幸的是,似乎沒有一種單一的技術來解決從事空對空任務的智能CGF的所有突發戰術問題。
認知模型是在CGF中創造基于動機的行為的有力手段。然而,為了減輕認知模型的缺點,我們主張額外使用機器學習技術。機器學習技術對于減少在復雜領域中行動的CGFs的開發的知識誘導工作至關重要。本文建議將不同的方法組合成混合模型。
這里提出的主要架構的目標有三個方面:
將智能CGF模型與戰術戰斗機模擬脫鉤。
促進人類行為模型與上述模擬的連接過程。
使得智能CGF模型能夠在不同的客戶端進行分配。
這三個特點共同促成了對混合方法的追求。
在Smart Bandits項目中,智能CGF的行為和設計必須適應手頭的戰術訓練目標。在本文中,我們沒有明確地處理訓練要求。然而,在本文中,我們隱含著這樣的假設:作戰戰斗機飛行員的戰術訓練所需的CGF行為包括以下方面:使人類對手吃驚的能力,看似隨機的行為,即不重復的反應,以及從武器平臺的角度來看是真實的。到目前為止,已經創建的智能CGF將在未來的項目階段(2012/2013)根據訓練要求進行驗證。因此,在 "智能土匪 "項目中,未來工作的兩個主要項目是:
實施混合模型,其中認知建模和ML相結合,以及
根據具體的學習目標或能力來調整智能機器人的行為。
人工智能(AI)正在成為國防工業的一個重要組成部分,最近美國DARPA的AlphaDogfight試驗(ADT)證明了這一點。ADT試圖審查能夠在模擬空對空戰斗中駕駛F-16的人工智能算法可行性。作為ADT的參與者,洛克希德-馬丁公司(LM)的方法將分層結構與最大熵強化學習(RL)相結合,通過獎勵塑造整合專家知識,并支持策略模塊化。該方法在ADT的最后比賽中取得了第二名的好成績(共有8名競爭者),并在比賽中擊敗了美國空軍(USAF)F-16武器教官課程的一名畢業生。
由DARPA組建的空戰進化(ACE)計劃,旨在推進空對空作戰自主性并建立信任。在部署方面,空戰自主性目前僅限于基于規則的系統,如自動駕駛和地形規避。在戰斗機飛行員群體中,視覺范圍內的戰斗(dogfighting)學習包含了許多成為可信賴的機翼伙伴所必需的基本飛行動作(BFM)。為了使自主系統在更復雜的交戰中有效,如壓制敵方防空系統、護航和保護點,首先需要掌握BFMs。出于這個原因,ACE選擇了dogfight作為建立對先進自主系統信任的起點。ACE計劃的頂峰是在全尺寸飛機上進行的實戰飛行演習。
AlphaDogfight Trials(ADT)是作為ACE計劃的前奏而創建的,以減輕風險。在ADT中,有八個團隊被選中,其方法從基于規則的系統到完全端到端的機器學習架構。通過試驗,各小組在高保真F-16飛行動力學模型中進行了1對1的模擬搏斗。這些比賽的對手是各種敵對的agent。DARPA提供了不同行為的agent(如快速平飛,模仿導彈攔截任務),其他競爭團隊的agent,以及一個有經驗的人類戰斗機飛行員。
在本文中,我們將介紹環境、agent設計、討論比賽的結果,并概述我們計劃的未來工作,以進一步發展該技術。我們的方法使用分層強化學習(RL),并利用一系列專門的策略,這些策略是根據當前參與的背景動態選擇的。我們的agent在最后的比賽中取得了第二名的成績,并在比賽中擊敗了美國空軍F-16武器教官課程的畢業生(5W - 0L)。
自20世紀50年代以來,人們一直在研究如何建立能夠自主地進行空戰的算法[1]。一些人用基于規則的方法來處理這個問題,使用專家知識來制定在不同位置背景下使用的反機動動作[2]。其他的探索以各種方式將空對空場景編成一個優化問題,通過計算來解決[2] [3] [4] [5] [6]。
一些研究依賴于博弈論方法,在一套離散的行動上建立效用函數[5] [6],而其他方法則采用各種形式的動態規劃(DP)[3] [4] [7]。在許多這些論文中,為了在合理的時間內達到近似最優的解決方案,在環境和算法的復雜性方面進行了權衡[5] [6] [3] [4] [7] 。一項值得注意的工作是使用遺傳模糊樹來開發一個能夠在AFSIM環境中擊敗美國空軍武器學校畢業生的agent[8]。
最近,深度強化學習(RL)已被應用于這個問題空間[9] [10] [11] [12] [13] [14]。例如,[12]在一個定制的3-D環境中訓練了一個agent,該agent從15個離散的機動動作集合中選擇,并能夠擊敗人類。[9]在AFSIM環境中評估了各種學習算法和場景。一般來說,許多被調查的深度RL方法要么利用低保真/維度模擬環境,要么將行動空間抽象為高水平的行為或戰術[9] [10] [11] [12] [13] [14]。
與其他許多作品相比,ADT仿真環境具有獨特的高保真度。該環境提供了一個具有六個自由度的F-16飛機的飛行動力學模型,并接受對飛行控制系統的直接輸入。該模型在JSBSim中運行,該開源軟件被普遍認為對空氣動力學建模非常精確[15] [16]。在這項工作中,我們概述了一個RL agent的設計,它在這個環境中展示了高度競爭的戰術。
將一個復雜的任務劃分為較小的任務是許多方法的核心,從經典的分而治之算法到行動規劃中生成子目標[36]。在RL中,狀態序列的時間抽象被用來將問題視為半馬爾科夫決策過程(SMDP)[37]。基本上,這個想法是定義宏觀行動(例程),由原始行動組成,允許在不同的抽象層次上對agent進行建模。這種方法被稱為分層RL[38][39],它與人類和動物學習的分層結構相類似[40],并在RL中產生了重要的進展,如選項學習[41]、通用價值函數[42]、選項批評[43]、FeUdal網絡[44]、被稱為HIRO的數據高效分層RL[45]等。使用分層RL的主要優點是轉移學習(在新的任務中使用以前學到的技能和子任務),可擴展性(將大問題分解成小問題,避免高維狀態空間的維度詛咒)和通用性(較小的子任務的組合允許產生新的技能,避免超級專業化)[46]。
我們使用策略選擇器的方法類似于選項學習算法[41],它與[47]提出的方法密切相關,在這些方法中,子策略被分層以執行新任務。在[47]中,子策略是在類似環境中預訓練的基元,但任務不同。我們的策略選擇器(類似于[47]中的主策略)學習如何在一組預先訓練好的專門策略下優化全局獎勵,我們稱之為低級策略。然而,與關注元學習的先前工作[47]不同,我們的主要目標是通過在低級策略之間動態切換,學習以最佳方式對抗不同的對手。此外,考慮到環境和任務的復雜性,我們不在策略選擇器和子策略的訓練之間進行迭代,也就是說,在訓練策略選擇器時,子策略agent的參數不被更新。
為dogfighting場景提供的環境是由約翰霍普金斯大學應用物理實驗室(JHU-APL)開發的OpenAI體育場環境。F-16飛機的物理特性是用JSBSim模擬的,這是一個高保真的開源飛行動力學模型[48]。環境的渲染圖見圖1。
圖1: 仿真環境的渲染圖
每個agent的觀察空間包括關于自己的飛機(燃料負荷、推力、控制面偏轉、健康狀況)、空氣動力學(α和β角)、位置(本地平面坐標、速度和加速度)和姿態(歐拉角、速率和加速度)的信息。agent還獲得其對手的位置(本地平面坐標和速度)和態度(歐拉角和速率)信息以及對手的健康狀況。所有來自環境的狀態信息都是在沒有建模傳感器噪聲的情況下提供的。
每一模擬秒有50次行動輸入。agent的行動是連續的,并映射到F-16的飛行控制系統(副翼、升降舵、方向舵和油門)的輸入。環境給予的獎勵是基于agent相對于對手的位置,其目標是將對手置于其武器交戰區(WEZ)內。
圖2:武器交戰區(WEZ)
WEZ被定義為位于2度孔徑的球形錐體內的點的位置,該錐體從機頭延伸出來,也在500-3000英尺之外(圖2)。盡管agent并沒有真正向其對手射擊,但在本文中,我們將把這種幾何形狀稱為 "槍響"。
我們的agent,PHANG-MAN(MANeuvers的自適應新生成的策略層次),是由兩層策略組成的。在低層,有一個策略陣列,這些策略已經被訓練成在狀態空間的一個特定區域內表現出色。在高層,一個單一的策略會根據當前的參與情況選擇要激活的低層策略。我們的架構如圖4所示。
圖4:PHANG-MAN agent的高層結構