美國國防部(DoD)正迅速與各軍種合作,從多年期(如 7-10 年)傳統采購計劃轉向基于商業行業的軟件開發方法。雖然商業技術和方法為快速部署任務能力以應對威脅提供了機會,但商業技術是否適用于滿足水面作戰系統的實時要求尚不清楚。這項研究建立了技術數據,以驗證當前商業技術的有效性和適用性,從而滿足國防部作戰管理系統的硬實時要求。有學者進行了類似的研究;然而,微服務、容器和容器編排技術當時還未出現在國防部的雷達上。該領域的最新知識將為國防部未來的路線圖和投資提供參考。將采用基于任務的方法,利用任務工程為應用研究設定背景。已經建立了一個假設的但與業務相關的海峽過境方案,以便在評估假設時為確定實驗參數提供背景。將系統模型聯合起來形成一個系統架構,并利用云計算環境中的數據收集數據進行定量分析。
本文件編排如下:
第 1 章(導言)討論了擬議研究背后的理論體系,討論了本研究的目的,并確定了要解決的問題。
第 2 章(研究背景)介紹了文獻綜述,并討論了以往研究的局限性。
第 3 章(方法論)討論了方法論方法,闡明了任務工程背景,提出了預測和假設,并討論了原型測試環境的開發和實例化。
第 4 章(結果)討論統計分析結果。
第 5 章(討論)概述了研究結果,并討論了研究意義和局限性。
第 6 章(結論)介紹了本研究對工程管理與系統工程(EMSE)"知識體系 "的貢獻,并對未來研究提出了建議。
美國海軍正在重組其艦隊結構。美海軍正在探索使用無人潛航器 (UUV) 平臺來補充艦隊的可行性。目前的 UUV 只能提供最低限度的監視和水雷探測能力;一種解決方案是在 UUV 平臺上增加攻擊性和增強型探測能力。本研究采用基于模型的系統工程(MBSE)方法,在聯合戰區模擬級全球作戰環境中探索具有增強能力的 UUV 的效果。該方法包括概念原型開發過程、作戰概念、效果衡量標準、不同的 UUV 因素(速度、組成和聲納類型)以及實驗設計。在對 540 次模擬運行的輸出結果進行分析后,結果證明所有三個因素對 UUV 的作戰性能都有重要影響,并表明使用先進的 UUV 可以提高特遣部隊的能力。此外,實驗還揭示了 UUV 的組成與探測和交戰速度之間的強相關性,并證實了使用主動聲納在作戰中的優勢,從而形成了 UUV 功能的交換空間。這項研究證明了 MBSE 在為未來艦隊進行可行性評估方面的實用性。
2016 財年,美國參議院軍事委員會下令海軍將艦隊規模擴大到 355 艘。然而,建造設施的缺乏阻礙了這一工作。負責預算的海軍副助理部長布萊恩-盧瑟少將估計,355 艘艦艇的目標要到 2050 年代才能實現(Larter 2018)。因此,美國海軍正在探索潛在的艦隊重組方案。海軍對用無人系統來補充傳統的有人海軍資產非常感興趣。無人潛航器 (UUV) 就是這樣一種系統。由于高層對艦隊和無人系統都很感興趣,海軍研究辦公室(N9)要求提供測試 UUV 未來能力的方法和流程,以及開展此類研究的實驗環境或工具。此外,目前的無人潛航器主要用于支持水雷戰和小型監視任務(美國防部,2007 年),因此還不了解其對其他角色的影響。
本研究的目的是在計算機輔助兵棋推演中使用基于模型的系統工程(MBSE)方法,特別是聯合戰區級模擬全球行動(JTLS-GO),以探索先進的 UUV 能力作為未來美國海軍艦隊資產的影響,以及作為日益減少的潛艇部隊的替代品的影響。
MBSE 方法是一個多步驟過程,從頭至尾探索整個項目。通過這種方法,我們開發出了一種先進的 UUV 概念和 "眼鏡蛇黃金 2018"(CG18)小插圖或作戰概念(CONOP),這是一種六國(太平洋司令部主辦)指揮所演習(CPX)。小插圖的創建允許對 CG18 進行反復檢查,以確定 UUV 可以解決的能力不足問題。在這種情況下,虛擬演習的重點是敵方(索諾拉)特遣部隊與盟軍特遣部隊(包括 USS Benfold (DDG-65) 和 RSS Endurance (LS-207))之間的互動。實際演習的結果包括上述艦艇的傷亡。造成這些傷亡的原因是缺乏態勢感知和進攻火力。這些問題為在模擬中注入 UUV 以增強傳感器和火力提供了機會和動力。隨后,確定和建立新能力的作戰要求和限制的過程隨之展開。新的模擬 UUV 設計必須能夠提供額外的進攻和偵察能力。衡量無人潛航器的性能如何以及哪些屬性需要改變,從而制定了效能衡量標準(MOE)和性能衡量標準(MOPs)。這些衡量標準有助于指導實驗設計(DOE)的制定,從而指導名義 UUV 的實驗和評估。
性能指標包括探測效果和敵方減員。關注的性能因素(屬性)包括 UUV 速度、UUV 數量(UUV 艦隊組成)和聲納類型(主動或被動)。DOE 包括對這些因素在三個不同值(水平)下的測試。不同水平的因素組合產生了 18 個設計點。
JTLS-GO 模型是由 Rolands and Associates 設計的事件驅動兵棋推演模擬,用于測試多方聯合戰役和行動(Rolands and Associates 2018)。該項目測試戰爭的多個層面,包括政治、戰略、作戰和戰術層面。
雖然 JTLS-GO 在模擬交戰方面很有用,但根據 Cayirci 和 Marincic(2009 年)的說法,其功能是培訓總部人員更有效地指揮和控制單元。因此,僅使用 JTLS-GO 測試未來概念是不可行的,因為這需要大量資源。為了充分利用 CG18 的人的反應和結果,作者在 NPS 仿真實驗和高效設計(SEED)中心的幫助下,將原始 JTLS-GO 仿真程序轉換為自動化計算機輔助兵棋推演(CAW)仿真。這種轉換允許對未來能力進行多次重復模擬,以便進行統計分析。
這項工作涉及 540 次模擬運行,耗費了 810 個小時的計算機時間。通過回歸分析、趨勢分析和分區樹分析,得出了以下結論:
1.通過在 JTLS-GO 中的 CG18 自動版本中建立建模和實驗環境,MBSE 方法為評估未來 UUV 能力對作戰的影響提供了途徑。
JTLS-GO 中的 CG18 提供了一個框架,利用 MBSE 方法來定義操作差距、創建 UUV 原型、定義測量方式和內容(MOE 和因素)并快速進行實驗。MBSE 所要求的有條不紊和一絲不茍的努力表明,應用這一過程有利于探索 UUV 的未來能力,同時也表明它如何為考察未來艦隊的一系列能力提供機會。
2.UUV 的存在為提供態勢感知和攻擊火力提供了額外的能力,減少了水面的脆弱性。
即使增加了效果最差的因子組合的 UUV,也產生了積極的結果:3 個 "索諾蘭 "單元被擊斃,60% 的單元被發現。采用首選探測因子值的 UUV 使 RSS Endurance (LS-207) 在 30 次模擬中擊沉了 12 次。與此同時,USS Benfold (DDG-65) 在使用這些 UUV 的 30 次模擬演習中只擊沉了 2 次。當環境中存在具有優先損耗因子值的 UUV 時,RSS Endurance (LS-207) 在 30 次模擬中擊沉了 10 次,USS Benfold (DDG-65) 在 30 次模擬中擊沉了 2 次。因此,UUV 的性能導致模擬環境中盟軍傷亡人數減少。
3.主動聲納提高了殺傷力和探測能力,但在速度和 UUV 艦隊組成方面,并不是越多越好。
表 ES-1 列出了實驗中最佳和最差的 UUV 配置。根據該表,推薦的最佳組合是一支中等規模的 UUV 艦隊,以 8 節的速度航行并配備主動聲納。這種配置平均可摧毀近 88% 的敵方目標。
采用自動 JTLS-GO 仿真軟件包的 MBSE 方法所得出的結果可為先進的 UUV 性能提供深入見解,而無需投入大量人力和物力。海軍在規劃其未來架構的過程中,應考慮使用此類工具對平臺進行評估。此外,海軍還應考慮增加先進的 UUV 平臺以補充艦隊。
美國空軍越來越關注人工智能(AI)在增強作戰各方面能力方面的潛力。在這個項目中,空軍要求蘭德公司的研究人員考慮人工智能無法做到的事情,以了解人工智能在作戰應用中的局限性。
研究人員沒有試圖確定人工智能的一般限制,而是選擇并調查了四個具體的作戰應用作為潛在用例:網絡安全、預測性維護、兵棋推演和任務規劃。選擇這些應用是為了代表各種可能的用途,同時突出不同的限制因素。在可以獲得足夠數據的三個案例中進行了人工智能實驗;剩下的兵棋推演案例則廣泛探討了如何應用或不能應用人工智能。
本報告是五卷系列中的第一卷,總結了所有應用案例的研究結果和建議。報告面向政策制定者、采購專業人員以及對將人工智能應用于作戰普遍感興趣的人員。
該項目為與使用無人系統支持分布式海戰(DMO)有關的作戰概念和系統設計決策提供信息。研究通過系統地改變仿真模型中的系統設計特征和作戰活動,支持對無人系統(UVC)進行能力級分析。分析結果表明,UVC 可提高各種無人系統的作戰可用性(Ao)和使用時間(TOS),因為它可隨時進入維護、加油和重新武裝設施,而無需長時間前往岸基設施或分布式支援艦艇。在比較使用 UVC 的配置與在自適應兵力包 (AFP) 中分配無人系統支持的配置時,單個無人系統的 Ao 提高了 6% 到 31%。仿真模型分析確定了 UVC 架構,其中包括至少 8 個無人機發射回收站、至少 3 個船舷托架和至少 5 個甲板井托架,以最大限度地提高 Ao。
在支持分布式海上作戰(DMO)時,無人系統有可能發揮兵力倍增器的作用,在提高殺傷力的同時降低有人系統的風險。然而,無人系統到岸基維護、加油和重新武裝設施的轉運時間減少了可用于支持執行 DMO 的自適應兵力包(AFP)的總體駐扎時間(TOS)。本項目研究了無人水面艦艇 (USV)、無人水下航行器 (UUV) 和無人機 (UAV) 在美國海軍現有艦艇上的集成問題,該艦艇已被重新改裝為無人載具 (UVC)。在本報告中,"UxV "一詞用于描述無人系統這一類別。
如 Van Bossuyt 等人(2019 年)所述,項目團隊采用了系統定義、系統建模和系統分析的通用系統工程流程序列。在系統定義過程中,項目團隊重點開發了作戰概念(CONOPS),并定義了 UVC 的系統要求。系統建模活動的重點是構建 UVC 的離散事件仿真模型。在系統分析階段,團隊利用所開發的模型來評估 UVC 的各種設計參數對每種無人系統類型的運行可用性(Ao)的影響。
A. 系統定義
在系統定義階段,從自上而下和自下而上的角度開發和考慮了 UVC 要求。從自上而下的角度來看,團隊分析并確定了滿足總體任務有效性目標所需的能力,而與任何現有的候選平臺無關。從自下而上的角度來看,團隊評估了一艘登陸直升機船塢(LHD)艦,以確定該平臺可實現的最大 UVC 能力。通過查閱文獻和分析利益相關者的需求,項目團隊確定了 UVC 的以下關鍵能力:指揮與控制 (C2)、UxV 發射、UxV 維護和 UxV 回收。根據設想,UVC 將包括著陸甲板無人機發射和回收站、無人機維護/布防/燃料艙、用于大型 USV/UUV 操作的船舷艙或站,以及用于小型 USV/UUV 操作的井甲板艙。
B. 系統建模
項目構想將 UVC 視為針對地面和岸上敵對兵力實施 DMO 的 AFP 的一部分。UVC 的作用是支持 UxV 對敵方岸基導彈基地進行偵察和打擊。在打擊階段之前、期間和之后,UxV 提供全天候的情報、監視和偵察(ISR)、目標定位和戰損評估服務。UVC 的總體目標是通過消除到岸基支持設施的較長運輸時間來增加 UxV 的全時服務時間。為實現這一總體目標,研究小組選擇 "航程 "和 "持續停留時間 "作為性能指標(MOP),并選擇 "UxV 任務時間"、"UxV 停機時間 "和 "維護灣利用率 "作為效果指標(MOE)。
設計并開發了一個離散事件仿真模型,用于分析 UVC 設計參數對 MOP 和 MOE 的影響。該模型是通過 ExtendSim10 建模程序開發的。該模型包括 UxV 發射和回收、UxV 維護活動以及 UxV 重新武裝和加油活動。UxV 的發射時間表和總模擬運行時間是根據擬議的 UVC CONOPS 制定的。目前,該模型并未考慮 UxV 的損失或故障;這是未來可能開展工作的一個領域。模型的主要輸出是每種 UxV 的 Ao。
C. 系統分析
為了廣泛探索實驗空間,同時減少試驗總數和模型運行時間,我們專門設計了一個填充空間的拉丁超立方設計。每次試驗重復模擬 30 次并收集結果。合并所得的 Ao 值,得出每個試驗的統計平均值。
分析結果表明,UVC 可隨時提供維護、加油和重新武裝設施,而無需在岸基設施或分布式支援艦艇之間進行長時間的轉運,從而改善了每種 UxV 的 Ao 值和 TOS 值。對于任何特定的 UxV,通過增加 UVC 發射、回收和維護站的數量,從而消除或減少這些服務的排隊時間,可獲得最大的 Ao。分析表明,UVC 在設計時應至少配備 8 個無人機發射/回收站、至少 3 個船舷托架和至少 5 個焊接甲板托架。這些參數沒有確定上限,這也是未來研究的一個潛在領域。
有趣的是,雖然 UVC 的存在改善了大型無人水面艦艇(LUSV)的航速,但 UVC 的實際設計似乎對 LUSV 的航速沒有影響。這可能是由于 LUSV 的假定任務持續時間長,假定維護間隔長,因此不可能出現任何排隊現象。單個船側停泊區似乎足以為多艘 LUSV 提供服務,但即使是單個船側停泊區,也可通過消除到岸基設施的轉運時間來改善 Ao。
作為分布式海上作戰(DMO)的一個關鍵原則,盡管有人和無人、水面和空中、作戰人員和傳感器在物理時空上都有分布,但它們需要整合成為一支有凝聚力的網絡化兵力。本研究項目旨在了解如何為 DMO 實現有凝聚力的作戰人員-傳感器集成,并模擬和概述集成實施所需的系統能力和行為類型。作為一個多年期項目,本報告所述的第一項工作重點是建立一個適用于 DMO 建模、模擬和分析的計算環境,尤其側重于有人和無人飛機的情報、監視和偵察 (ISR) 任務。
在半個世紀的建模和仿真研究與實踐(例如,見 Forrester, 1961; Law & Kelton, 1991),特別是四分之一世紀的組織建模和仿真工作(例如,見 Carley & Prietula, 1994)的基礎上,獲得了代表當前技術水平的計算建模和仿真技術(即 VDT [虛擬設計團隊];見 Levitt 等人, 1999)。這種技術利用了人們熟知的組織微觀理論和通過基于代理的互動而產生的行為(例如,見 Jin & Levitt, 1996)。
通過這種技術開發的基于代理的組織模型在大約三十年的時間里也經過了數十次驗證,能夠忠實地反映對應的真實世界組織的結構、行為和績效(例如,參見 Levitt, 2004)。此外,幾年來,已將同樣的計算建模和仿真技術應用到軍事領域(例如,見 Nissen, 2007),以研究聯合特遣部隊、分布式作戰、計算機網絡行動和其他任務,這些任務反映了日益普遍的聯合和聯盟努力。
本報告中描述的研究項目旨在利用計算建模來了解如何為 DMO 實現有凝聚力的戰斗傳感器集成,并建模和概述集成實施所需的系統能力和行為類型。作為一個多年期項目,本報告所述的第一項工作重點是建立一個適用于 DMO 建模、模擬和分析的計算環境。在這第一項工作中,將對當今的海上行動進行建模、模擬和分析,重點是有人駕駛和無人駕駛飛機的情報、監視和偵察(ISR)任務。這為與執行 ISR 任務的一個或多個 DMO 組織進行比較確立了基線。這也為與其他任務(如打擊、防空、水面戰)進行比較建立了基線。第二階段接著對一個或多個備用 DMO 組織進行建模、模擬和分析。
在本技術報告的其余部分,首先概述了 POWer 計算實驗環境,并列舉了一個實例,以幫助界定 DMO 組織和現象的計算建模。依次總結了研究方法。最后,總結了沿著這些方向繼續開展研究的議程。這些成果將極大地提高理解和能力,使能夠為 DMO 實現戰斗員與傳感器的集成,并為集成實施所需的系統能力和行為建模和概述。
隨著機器學習應用越來越能夠執行安全關鍵功能,海軍部將開始把它們集成到有人和無人平臺中。不過,在海軍部(DON)目前的測試與評估(T&E)框架下,DON試圖測試的機器學習算法將沒有適當的工件來表明算法將以安全和合乎道德的方式可靠地執行任務。本研究介紹了海軍部適航性的基本原理和當前的 T&E 框架,然后回顧了一個代理測試項目,以研究如何調整當前的海軍部 T&E 框架,為機器學習算法的實戰提供更多保證。
這項研究為海軍航空事業(NAE)內的利益相關者提供了對當前已有或正在開發的工具、方法和框架的了解,如果對這些工具、方法和框架進行調整,就能為使用機器學習來完成目前由人類操作員完成的任務的系統提供額外的學習保證。本文的主要目的已經達到,即掌握了基礎知識,并將在未來一年內通過實際測試加以驗證。驗證將通過研究使用案例來完成,具體來說,就是無人機系統(UAS)與有人駕駛平臺之間的自主空對空加油(A3R),以及如何將保障領域的新能力應用到測試計劃、執行和分析過程中。次要目標是掌握完成初始測試和評估的流程,使這些程序可用于并擴展到未來可能適合自主系統的任務集。隨著對這一特定使用案例的初步測試和評估的進行,將會學到更多的知識,而一旦掌握了這些知識,將有助于為今后海軍對自主平臺的所有測試和評估奠定基礎。
人工智能解決方案在陸軍野戰應用中的使用將在很大程度上依賴于機器學習(ML)算法。當前的ML算法需要大量與任務相關的訓練數據,以使其在目標和活動識別以及高級決策等任務中表現出色。戰場數據源可能是異構的,包含多種傳感模式。目前用于訓練ML方法的開源數據集在內容和傳感模式方面都不能充分反映陸軍感興趣的場景和情況。目前正在推動使用合成數據來彌補與未來軍事多域作戰相關的真實世界訓練數據的不足。然而,目前還沒有系統的合成數據生成方法,能夠在一定程度上保證在此類數據上訓練的ML技術能夠改善真實世界的性能。與人工生成人類認為逼真的語音或圖像相比,本文為ML生成有效合成數據提出了更深層次的問題。
人工智能(AI)是美國國防現代化的優先事項。美國國防部的人工智能戰略指示該部門加快采用人工智能并創建一支適合時代的部隊。因此,它自然也是陸軍現代化的優先事項。從陸軍多域作戰(MDO)的角度來看,人工智能是解決問題的重要因素,而MDO是建立在與對手交戰的分層對峙基礎上的。雖然人工智能本身沒有一個簡明和普遍接受的定義,但國防部人工智能戰略文件將其稱為 "機器執行通常需要人類智能的任務的能力--例如,識別模式、從經驗中學習、得出結論、進行預測或采取行動--無論是以數字方式還是作為自主物理系統背后的智能軟件"。這句話的意思是,當機器在沒有人類幫助的情況下獨立完成這些任務時,它就表現出了智能。過去十年中出現的人工智能解決方案的一個重要方面是,它們絕大多數都符合模式識別模式;在大多數情況下,它們根據經過訓練的人工神經網絡(ANN)對相同輸入數據的輸出結果,將輸入數據分配到數據類別中。具體來說,深度學習神經網絡(DNN)由多層人工神經元和連接權重組成,最初在已知類別的大量數據上進行訓練以確定權重,然后用于對應用中的實際輸入數據進行分類。因此,機器學習(ML),即自動機(這里指DNN)在訓練階段學習模式的過程,一直是一個主導主題。事實上,DNN在計算機視覺領域的成功是商業和政府部門加大對人工智能關注和投資的原因。訓練算法和軟件開發工具(如tensorflow)的進步、圖形處理器(GPU)等計算能力的可用性,以及通過社交媒體等途徑獲取大量數據,使得深度學習模型在許多應用中得到了快速探索。
在監督學習中,人類專家創建一組樣本來訓練ML算法,訓練數據與實際應用數據的接近程度對人工智能方法的性能起著重要作用。將ML模型應用于軍事問題的主要瓶頸是缺乏足夠數量的代表性數據來訓練這些模型。有人提出使用合成數據作為一種變通辦法。合成數據集具有某些優勢:
然而,最關鍵的問題是在合成數據或混合合成和真實數據上訓練ML模型是否能使這些模型在真實數據上表現良好。美國陸軍作戰能力發展司令部陸軍研究實驗室的研究人員和合作者使用合成生成的人類視頻進行機器人手勢識別所獲得的初步結果表明,在合成數據和真實數據混合的基礎上進行訓練可以提高ML手勢識別器的性能。然而,并沒有普遍或分類的結果表明,當全部或部分使用合成數據進行訓練時,真實世界的ML性能會得到一致的提高。因此,有必要進行系統調查,以確定使用合成數據訓練ML方法的可信度。我們有理由假設,合成數據在提高ML性能方面的有效性將受到實際應用領域、合成數據與真實數據的保真度、訓練機制以及ML方法本身等因素的影響。合成數據與真實數據的保真度反過來又取決于數據合成方法,并提出了通過適當指標評估保真度的問題。以圖像為例,合成數據訓練的ML方法的性能與人類視覺感知的真實場景的保真度是否成正比并不清楚。有可能數據的一些關鍵特征對于ML的性能比那些影響人類感知的特征更為重要。組織這次陸軍科學規劃和戰略會議(ASPSM)的一個主要目的是讓合成數據生成、人工智能和機器學習(AI & ML)以及人類感知方面的頂尖學術界和國防部專家討論這些問題。會議的技術重點主要是圖像和視頻數據,反映了組織者在計算機視覺和場景感知方面的任務領域。
根據上一節提出的問題,會議圍繞三個主題展開:
1.人類的學習和概括: 人類可以從最小的抽象和描述概括到復雜的對象。例如,在許多情況下,觀察一個物體的卡通圖像或線描,就足以讓人類在真實場景中識別出實際的三維物體,盡管后者比卡通圖像或線描具有更復雜的屬性。 這遠遠超出了當前人工智能和ML系統的能力。如果能夠開發出這種能力,將大大減輕數據合成機器的負擔,確保真實數據的所有屬性都嚴格保真。這個例子也說明了一個事實,即用于訓練ML模型的合成數據生成研究與提高ML模型本身的能力密切相關。因此,這項研究的重點是探索人類和動物的學習,以啟發ML和數據合成的新方法。
2.數據合成方法和驗證: 大多數應用ML方法的領域都有針對其領域的數據合成技術和工具。游戲平臺提供了一個流行的視頻合成商業范例。問題是如何評估特定領域中不同合成方法的性能。顯然,我們必須確定執行此類評估的指標或標準。通常情況下,合成工具的作者也會就工具的性能或功效發表聲明。驗證將是評估此類聲明的過程。本研究的目的是探討指導合成和驗證過程的原則。合成技術的例子包括基于計算機圖形的渲染器(如電影中使用的)、基于物理的模擬(如紅外圖像)和生成模型(目前傾向于基于神經網絡)。
3.領域適應挑戰: ML中的領域適應是指使用一個領域(稱為源領域)的數據訓練ML模型,然后將ML應用于不同但相關領域(稱為目標領域)的數據。例如,使用主要為民用車輛的源圖像數據集訓練識別車輛的ML算法,然后使用訓練好的算法識別主要為軍用車輛的目標數據集中的車輛。在使用合成數據進行訓練時,它們通常構成源域,而實際應用數據則是目標域。本次會議的重點是確定和討論有效領域適應中的關鍵問題和挑戰。
ASPSM的審議分四次會議進行。第一天的兩場會議討論了前兩個主題。第二天的第一場會議討論第三個主題,第二場會議在三個主題下進行分組討論。ASPSM兩天的日程安排分別如圖1和圖2所示。從圖中可以看出,每個主題會議首先由該領域的學術專家進行40分鐘的主講,然后由大學專家進行兩個20分鐘的講座。隨后由來自學術界和國防部的專家組成的小組進行討論。最后一個環節是分組討論,與會者可以討論與主題相關的各個方面。
麻省理工學院電子工程與計算機科學系的Antonio Torralba教授在第一分會場發表了關于人類學習與泛化的主題演講。他的演講題目是 "從視覺、觸覺和聽覺中學習",深入探討了深度學習方法如何在不使用大量標注訓練數據的情況下發現有意義的場景表征。舉例說明了他們的DNN如何在視覺場景和環境中的聲音之間建立聯系。讀者可參閱Aytar等人關于這一主題的代表性文章。
同樣來自麻省理工學院的James DiCarlo博士的下一個演講題目是 "視覺智能逆向工程"。他將 "逆向工程 "定義為根據對行為的觀察和對輸入的反應推斷大腦的內部過程,將 "正向工程 "定義為創建ANN模型,以便在相同輸入的情況下產生相應的行為。他的研究小組的一個目標是建立神經認知任務的性能基準,人類或其他靈長類動物以及ML模型可以同時達到這些基準。他的演講展示了大腦處理模型如何適應ANN實現的初步結果,并提出了ANN通過結合這些適應密切模擬人類行為,進而準確描述大腦功能的理由。
第一場會議的第三場講座由加州大學伯克利分校的Jitendra Malik教授主講,題為 "圖靈的嬰兒"。這個題目也許是指最早的電子存儲程序計算機之一,綽號 "寶貝",其創造者之一受到了阿蘭-圖靈的啟發。馬利克教授首先引用了圖靈的觀點:與其創建一個模擬成人思維的程序,不如從模擬兒童思維開始。從本質上講,這意味著創造一種人工智能,通過與環境互動以及向其他人工智能和人類學習來學習和成長。這被稱為具身機器智能。馬利克教授認為,監督學習本質上是處理靜態數據集,因此顯示了在精心策劃的時間點上運行的非實體智能。具體而言,他認為監督訓練方法不適合創建能夠提供人類水平的世界理解,特別是人類行為理解的人工智能。Malik教授介紹了 "Habitat",這是一個由他和他的合作者開發的平臺,用于嵌入式人工智能的研究。在隨后的小組討論中,與會人員討論了演講者所涉及的主題,以及與機器人學習和當前兒童智力發展模型相關的主題。
第二部分“數據合成:方法和驗證”以一個題為“學習生成還是生成學習?”,作者是斯坦福大學的Leonidas gu教授。在研究用于訓練ML的合成數據生成的動機中,他指出可以減輕大量人工注釋訓練數據的負擔。他的前提是,無論合成數據是用于訓練ML還是供人類使用,其生成效率和真實性都非常重要。不過,他表示其他質量指標還沒有得到很好的定義,需要進一步研究。他舉例說明了在混合合成數據和真實數據上訓練ML時,ML的物體識別性能有所提高,但他也承認很難得出可推廣的結論。
卡內基梅隆大學的Jessica Hodgins博士發表了第二場會議的第二個演講,題為 "生成和使用合成數據進行訓練"。演講展示了她的研究小組生成的精細合成場景。利用從真實場景到合成場景的風格轉移過程,她的研究小組創造了一些實例,說明在混合了大量風格適應的合成數據和一些真實數據的基礎上進行訓練的ML方法的性能優于僅在真實數據集或僅在合成數據集上進行訓練的方法。性能提高的原因在于風格轉移克服了合成數據集與真實數據集之間的 "分布差距"。
第二場會議的最后一場講座由加州大學伯克利分校的Trevor Darrell教授主講。他的演講題為 "生成、增強和調整復雜場景",分為三個部分。第一部分詳細介紹了演講者及其核心研究人員開發的一種名為 "語義瓶頸場景生成 "的技術,用于根據地面實況標簽合成場景。該技術可進一步與通過生成過程生成此類地面標簽的模型相結合。Azadi等人對該技術進行了詳細描述。 第二部分涉及增強和自我監督學習。發言人提出,當前的對比學習方法在合成增強數據時建立了不變量,而這些不變量可能是有益的,也可能是無益的。例如,建立旋轉不變性可能有利于識別場景中的花朵,但可能會阻礙對特定方向物體的有效識別。演講者介紹了他的研究小組考慮具有特定不變性的多種學習路徑的方法,并展示了與現有技術相比性能有所提高的結果。 第三部分介紹了一種名為 "Tent"(測試熵)的技術。其前提是DNN應用過程中遇到的數據分布可能與訓練數據不同,從而導致性能下降。因此,需要對DNN參數進行實時或測試時調整,以防止性能下降。Tent技術通過調整權重使DNN輸出的測量熵最小化來實現這一目標。演講者隨后用常用數據集展示了該技術相對于先前方法的改進性能。隨后的小組討論涉及合成方面的挑戰,尤其是紅外圖像方面的挑戰。
第二天的第三場會議以 "領域轉移的挑戰 "開始。約翰霍普金斯大學布隆伯格特聘教授Rama Chellappa博士發表了題為 "解決美國防部實際問題的綜合數據期望與最大化"的演講。演講首先回顧了過去二十年來國防部處理合成圖像的多個項目的歷史。他提出了一個重要論斷,即如果在合成過程中考慮到真實數據的物理特性,那么真實數據和合成數據之間的領域轉換就會減少。Chellappa教授還就領域自適應表示法提供了快速教程,涵蓋了正規數學方法以及較新的生成對抗網絡(GANs)。演講者及其核心研究人員開發的基于GAN的方法可以修改合成數據的分布,使之與目標分布相匹配。講座舉例說明了這種方法優于之前的非GAN方法。
佐治亞理工學院的Judy Hoffman教授發表了題為 "從多個數據源進行泛化的挑戰 "的演講。她考慮的問題是在模擬中學習模型,然后將模型應用于現實世界。她指出了四個挑戰: 生成、列舉、泛化和適應。發言人介紹了應對這些挑戰的幾種不同方法。具體來說,用于泛化的特定領域掩碼(DMG)方法通過平衡特定領域和領域不變特征表征來生成一個能夠提供有效領域泛化的單一模型,從而解決多源領域學習問題。
第三場會議的第三位也是最后一位演講者是波士頓大學的Kate Saenko教授,他的演講題目是 "圖像分類和分割的Sim2Real領域轉移的最新進展和挑戰"。Saenko教授延續了前兩場講座的主題,介紹了視覺領域適應的歷史,并探討了領域和數據集偏差問題。在糾正數據集偏差的不同方法中,講座詳細討論了領域適應。特別重要的是,Saenko教授及其合作者開發的技術能夠顯示合成到真實的適應性,就像從游戲引擎到真實數據一樣。隨后的小組討論提出了幾個有趣的問題,包括訓練域和測試域的不同,不是感興趣的對象不同,而是對象所處的環境不同,例如訓練時軍用車輛在沙漠環境中,而測試時則在熱帶植被背景中。
三個主題的分組討論同時進行。在 "人類學習與泛化 "分組討論中,首先討論了 "人類如何學習?"、"ML模型如何模仿人類過程?"以及 "合成數據如何實現這些過程?"等問題。從童年到青春期和成年期,學習和成長之間的關系成為關鍵點。其他被認為有助于人類學習的因素包括人類心理、情感、同時參與多維活動、記憶以及解除學習的能力。
關于 "數據綜合: 方法與驗證 "分論壇確定了數據合成的幾個問題,特別是圖像和視頻。主要問題涉及結合物理學的有用性、視覺外觀保真度與成本之間的權衡、保真度的衡量標準、保真度本身的重要性以及當前技術(包括GANs技術)的局限性。據觀察,合成圖像和視頻生成至少已有幾十年的歷史,但大多數產品要么是為視覺效果而設計,要么是為再現物理測量而設計(例如,紅外模擬中的輻射剖面)。它們并不適合用于ML培訓。提出的另一個問題是,合成的二維圖像必須與物體和環境的底層三維幾何圖形保持一致。還有人提出,能夠在特定的感興趣的環境中生成大量合成數據,可以作為第一道工序測試新的人工智能和ML方法,而不管這些方法是否能夠在真實數據中很好地工作。
專題3 "領域轉移挑戰 "的分組討論確定了MDO所需的關鍵人工智能能力,即從孤立學習到機器與人類之間的聯合或協作學習。會議還討論了在多種數據模式下同時訓練ML的聯合學習。人們認識到,這些領域的工作才剛剛開始。分組討論的牽頭人強調,需要向士兵明確說明基于人工智能的系統在特定情況下將會做什么。這引發了對系統魯棒性的討論。分組組長向ASPSM聽眾提供了討論摘要。
根據本次ASPSM的討論,我們確定了以下值得陸軍進一步進行科技投資的領域:
1.支持多模式互動學習的合成技術和數據集。與當前流行的捕捉 "時間瞬間 "的靜態數據集(如農村環境中的車輛圖像)相比,有必要開發更能代表支持持續學習的體現性體驗的模擬器,就像我們在人類身上看到的那樣,并實現對世界更豐富的表征。混合方法(如增強現實)也可將人類監督的優勢與合成環境的靈活性結合起來。
2.學習和合成因果關系和層次關系的算法和架構。最近的一些方法,如基于圖的卷積神經網絡,已經在學習空間和時間的層次關系(如物體-部件和因果關系)方面顯示出前景。鑒于在現實世界中收集和注釋此類數據的復雜性,合成數據的生成可能特別有用。識別層次關系是一般國防部和戰場情報分析的關鍵要素。
3.支持持續、增量、多模態學習的算法和架構。深度強化學習方法被成功地用于訓練虛擬或機器人代理的相關行動策略,如捕食者與獵物之間的相互作用。基于模仿的方法承認學習的社會性,通常讓代理與(通常是人類)教師合作學習新策略。這些類型的交互式持續學習可進一步與多模態學習(即融合來自多個傳感器的數據)相結合,以實現更豐富的世界表征,使其更穩健、更具通用性。同樣,在這一領域難以獲得大量經過整理的數據,這也為探索合成引擎提供了動力。
4.學習物理或具備相關物理領域知識的算法和架構。在許多領域(例如紅外光下的物體感知),從圖像感知和合成圖像需要了解世界的基本物理特性,例如光與材料之間的相互作用。然而,當前的深度學習模型缺乏這種物理知識。開發賦予ML物理領域知識的技術對這些系統的性能至關重要。
5.具有豐富中間表征的領域適應技術。為了縮小真實數據和合成數據之間的領域差距,必須進一步推動當前建立領域不變中間表征的趨勢,特別是使用語義詞典和生成式對抗網絡。能夠理解數據底層結構(如光照、旋轉、顏色)的表征更有可能成功抽象出合成數據中不重要的細節。
6.深入了解ML模型內部表征的方法,以及合成表征與真實表征的比較。網絡剖析技術 "打開 "了深度學習模型的隱藏層,允許解釋網絡中的每個階段正在學習哪些特定概念或其更細的方面。這些技術揭示了具有真實輸入和合成輸入的DNN的內部表征,有助于識別所學內容的關鍵差異,從而找到克服這些差異的解決方案。
為期兩天的虛擬ASPSM吸引了眾多美國防部科學家和工程師、頂尖學術專家以及科技項目管理人員的熱情參與。多學科的討論強化了這樣一種觀點,即開發用于訓練ML方法的生成合成數據的改進方法與理解和改進ML方法本身是分不開的。一個特別重要的需求是了解ML方法,尤其是當前的學習架構,是如何創建場景的內部表示的。另外兩個重要領域是:1)理解人類學習與ML世界中可能存在的學習之間的異同;2)多模態數據--從合成和ML的角度。我們預計近期國防部和學術研究人員將在本報告確定的領域加強合作。
2018年美國國防戰略強調,由于新技術的 "無情"發展,安全環境正在迅速變化。隨著這些新興技術在未來戰爭中變得越來越重要,美國國家安全界必須投資擴大具有必要的關鍵技能的個人群體,以應對這種以技術為中心的新環境的挑戰。為了實現這一目標,美國國防部實施了一些外聯計劃,針對從小學到大學和研究生課程的學生,鼓勵他們考慮在科學、技術、工程和數學(STEM)領域的職業。同樣,國防部也投資了許多招聘計劃,包括實習、獎學金和招聘會。這些對關鍵技能的宣傳、教育和招聘的投資也必須與私營部門對許多相同技能不斷增長的需求相競爭。
認識到高技能勞動力對國家安全任務的極端重要性,參議院關于2020財政年度(FY)國防授權法案的第116-48號報告要求向參議院和眾議院的軍事委員會提交一份報告,評估國防部教育和招聘關鍵技能人員的計劃,包括網絡安全、STEM、創新、計算機科學和關鍵語言。作為回應,人事和戰備副部長辦公室(OUSD(P&R))的文職人員政策主任要求國防分析研究所(IDA)確定導致現有國防部招聘和發展計劃成功或失敗的共同因素,以改善文職和軍警人員隊伍中關鍵技能的可用性。此外,IDA還被要求就如何改進當前和未來的招募和教育計劃提出建議。
為了完成這項研究,我們與127名個人進行了62次訪談,包括招聘人員、招聘經理和人事專家,以及一系列利益相關者,包括來自學院和大學的代表、研究和發展伙伴以及專業附屬團體。我們還研究了國防部外聯、教育和招聘計劃的現有數據以及其他關于文職雇員和擁有關鍵技能的軍人的數據。由于這些數據來源不包括外聯和招聘計劃的成本,并且在大多數情況下不包括個別計劃的有效性的客觀指標(例如,產生的線索數量,雇用的質量,雇用的保留),這項研究不包括對個別計劃的投資回報的系統評估。相反,我們著眼于整個針對關鍵技能的項目組合,并提供我們對有助于國防部有效獲得具有關鍵技能的個人的能力的因素的觀察。
對美國防部吸引所需技能勞動力的能力有重要影響的一個關鍵點是其截然不同的民用和軍用招募方法。雖然軍事招聘是在全國范圍內進行的,每個軍種都有一支全國性的招聘隊伍,但國防部通常將文職人員招聘作為各個司令部和組織的地方責任。因此,文職人員招募工作資源不足,往往是一種 "拾人牙慧 "的游戲,在組織和規劃方面存在很大不足。此外,文職人員的需求幾乎總是圍繞著現有的勞動力,而不是圍繞著對需要完成的工作和如何最好地完成工作的戰略分析。因此,文職人員的招聘過程通常是被動的。當一個職位出現空缺時,該部就開始尋找替代者;然而,這些職位可能會空缺很多個月才被填補。
相比之下,軍事招聘是非常集中的,并有意識地關注需求。這個系統的弱點是,要求是基于現有的職業道路和技能組合,這可能無法充分確定對新的和新興的STEM相關技能的要求。由于各軍種正在滿足對STEM、軟件和其他關鍵技能的現有要求(在這種要求被記錄下來的情況下),他們的招聘指揮部認為沒有必要采取任何特別的激勵措施或其他措施來改善這些領域的招聘。各軍種在充分確定與STEM有關的關鍵技能的要求方面努力不足所引起的潛在擔憂,可能會因為軍隊采取的培養技能而不是招募技能的方法而得到部分緩解。每個軍種都告訴我們,他們的戰略是招募高質量的人員,然后對部隊進行培訓和教育,以培養專業技能。
基于這些以及在訪談中和通過數據來源提供的其他見解,我們提出了12條建議--8條針對文職人員隊伍,4條針對軍警人員隊伍--國防部如何提高其提供任務關鍵技能的招聘和教育計劃的有效性。
建議1:制定一個招聘需求程序。軍事部門和國防機構應制定一個需求程序,系統地評估文職人員的招聘需求,考慮到預期的人員流動;可能需要的新技能;軍事人員、文職人員和承包商的適當組合;以及初級人員和有經驗人員之間的平衡。國防部各組織應至少每年評估一次招聘需求,并將這些需求滾動到一個足夠的水平,以確保它們能夠在整個組織內得到系統的解決。
建議2:廣播一個一致的信息。軍事部門和國防部門應尋求渠道,通過這些渠道傳播一致的信息,以提高該部門作為平民雇主的意識。國防部各組織認識到,他們很難僅靠報酬來競爭。為此,國防部吸引高素質人才的努力應強調工作的質量、任務的重要性、工作場所的包容性以及其他工作生活平衡問題。
建議3:確定優先次序,平衡資金。該部應系統地收集和評估主要招聘和雇用激勵措施的成本,包括實習;獎學金和研究金;招聘、搬遷和保留獎金;以及其他形式的溢價薪酬。該部應利用這些成本數據來確定招聘激勵措施的資金缺口,并酌情為具有成本效益的項目提供額外的資金(包括像為關鍵的STEM技能設立的采購勞動力發展賬戶那樣的專門資金來源)。
建議4:制定衡量標準。國防部各組織應制定衡量標準;系統地收集和維護關于新員工的外聯和招聘工作的數據;并對項目績效進行定期評估。衡量標準應包括外聯和招聘活動的成本、從這些活動中開發的線索數量、從這些線索中產生的新員工數量、新員工的來源、員工的質量、員工的多樣性以及員工的保留等方面的數據。衡量標準可能會在地方一級收集,但需要中央指導,以確保數據可以滾動起來,在各組織之間進行比較,并用于指導資源和評估招聘和雇用選擇。
建議5:建立招聘關系。國防部各組織應與不同的高校組合發展和培養系統的招聘關系。可能需要為具有關鍵STEM技能的學生建立一個專業的核心招聘人員,以便在招聘會和類似的一次性活動之外建立校園存在。這些招聘人員可能還需要通過接觸學生組織、與STEM部門互動、贊助學生競賽、利用贊助研究、協助撰寫簡歷以及幫助學生通過國防部的招聘官僚機構來發展更深入的關系。
建議6:制定虛擬工具的最佳實踐。國防部應系統地審查其組織和私營部門的同行如何使用虛擬招聘和雇用工具(如Handshake、USAHIRE、LinkedIn、Salesforce和TalentNeuron)。然后,國防部應制定一套首選工具和最佳做法,并在整個部門推廣。國防部應考慮是否可以通過捆綁要求或企業范圍內的許可證來更有效地資助其中一些工具。
建議7:制定直接聘用的最佳做法。該部應制定使用直接雇用授權的最佳做法,以確保這些授權不會默認為傳統方法或 "更快地做同樣的事情"。最佳做法應旨在提供靈活性和選擇,以適應具體的雇用需求,而不是規定為單一的首選方法。這些做法還應該為公布工作機會、暫定工作機會、使用虛擬招聘工具和評估候選人的方法(包括簡歷、面試、中小企業評估和招聘小組)提供指導。
建議8:解決官僚主義瓶頸。軍事部門和國防部門應通過進行根本原因分析和解決程序缺陷來減少招聘過程中的官僚主義瓶頸。為了實現這一目標,國防部可以改善招聘經理和人事處理組織之間的關系,對這些組織的工作人員進行培訓,使其了解如何使用直接招聘的權限,或者派出專門的團隊,與國防部那些擁有獨特招聘權限和對關鍵STEM技能有強烈需求的組織相配合。
建議1:評估和確定STEM需求。各軍種應定期、系統地評估其對現有軍事職業領域中未包括的前沿STEM技能的需求。這些技能包括軟件開發、數字工程、機器學習和人工智能。一旦各軍種確定了制服所需的技能,就應該將這些技能與職業領域、職業道路和部隊要求聯系起來,以便向招募人員傳達。
建議2:整合干部隊伍的宣傳和招募。各軍種應將STEM推廣工作(包括機器人活動、電子競技比賽、黑客活動和類似活動)與征兵目標聯系起來,通過與正在發展關鍵技能并顯示出服兵役傾向的潛在新兵保持持續接觸,努力建立征兵管道。空軍似乎為這種整合提供了最佳模式,它努力系統地跟蹤機器人項目、電子競技比賽和黑客活動等活動的參與者,從中學到大學和其他地方。
建議3:調整STEM推廣和招聘方法。各軍種應制定有針對性的方法,在需要關鍵STEM技能的職業領域識別、激勵和招募個人(如前述建議所確定)。例如,可以修改軍事能力測試,以確定潛在的軟件人才;可以設計單獨的廣告活動,以接觸STEM領域的人才;可以組建專門的團隊,系統地追求STEM的招聘。在某些情況下,尋求具有特定技能的應聘者,而不是尋求整體 "質量",并認為技能可以通過在職培訓計劃來培養,這可能是合適的。在任何情況下,針對STEM技能的招聘應該超越簡單的建立技術形象,進入更廣泛的廣告和營銷工作。
建議4:協調文職人員招聘。各軍種應該協調軍事招聘和民事招聘,至少在STEM領域。各軍種應擴大其外聯和招募工作,以確定和追求具有關鍵STEM技能的個人,無論他們是否有能力達到軍事體能標準和服兵役的傾向。此外,對于那些無法完成ROTC或軍事學院的課程,但擁有有用技能和服務愿望的人,可以將其轉為可能的民事任務。
認知方法在幾乎所有方面可提高現有雷達的性能,這導致了近年來研究的激增,空軍雷達建模和仿真(M&S)工具的一個關鍵差距是缺乏針對分布式全適應雷達(FAR)系統的全面、動態分布式雷達情景生成能力。截至2015年初,所有的研究都是在理論上推進概念,并通過模擬檢驗其性能,或者最多使用預先錄制的數據。沒有關于實驗驗證概念的報告,主要是因為還沒有開發出測試它們的必要硬件。然而,為了確定應用認知處理方法的真正性能潛力,這一步驟是至關重要的。為了解決這個問題,俄亥俄州立大學(OSU)電子科學實驗室(ESL)的認知傳感實驗室(CSL)與Metron公司、空軍研究實驗室(AFRL)和空軍科學研究辦公室(AFOSR)一起,已經開始了一項研究計劃,從分析和實驗上開發和檢驗認知雷達處理概念。
CSL設計并建造了認知雷達工程工作區(CREW),這是世界上第一個專門用來測試完全自適應和認知算法的雷達測試平臺,Metron和OSU開發了一個認知FAR系統的理論框架,在單一傳感器和目標的目標探測和跟蹤范圍內確定了關鍵的系統組件并進行了數學建模。我們一直在開發建模、模擬、分析和實驗能力,以證明FAR系統比傳統的前饋雷達(FFR)系統取得的性能改進。我們從OSU的軟件定義雷達(SDR)系統的模擬場景和預先記錄的數據開始。我們現在有能力利用CREW演示認知雷達跟蹤系統的實時操作。
這個項目的目標是為分布式FAR雷達開發一個基于MATLAB的M&S架構,從而能夠在模擬的、以前收集的和實時的流式數據上進行算法開發和測試。在第一階段,我們開發了一個基線FAR M&S架構,該架構采用面向對象編程(OOP)方法在MATLAB中編碼。它包括一個控制感知-行動(PA)周期運行的FAR引擎和確定下一組傳感參數的軟件對象;從傳感器獲取數據;處理數據以跟蹤目標;存儲和顯示傳感和跟蹤過程的結果。我們開發的模塊實現了模擬和預先錄制的SDR數據實例,以及實時和模擬的CREW數據實例。
第一階段開發的FAR M&S架構允許在模擬和實驗CREW數據源之間,以及在驅動傳感的FAR算法之間進行透明切換。輕松交換傳感和處理對象的能力將允許快速開發和測試認知雷達算法,通過構建M&S功能來避免重復工作和 "單點 "解決方案。它將使工業界、學術界和空軍的研究人員之間的合作成為可能,因為不同研究人員開發的算法可以使用一致的模擬、收集的數據和實驗室條件進行測試和比較。
由于傳感器數量和人工智能(AI)應用快速增多,未來的作戰環境將以豐富的信息和機器速度的決策為特征。因此,美國陸軍指揮官和他們參謀人員將需要有能力篩選大量的信息,更快地做出決策。商業人工智能系統有可能提供這種能力,但美國陸軍不能指望"開箱即用"的商業人工智能系統具有通用能力,因為這種系統需要針對美國陸軍的情況進行充分的訓練。此外,還需要進行研究,以了解軍隊中的人工智能目前可以做到什么和不可以做到什么。總的來說,人工智能往往擅長于主要通過模式識別來解決的任務,以及可以從任務數據中進行預測的任務,如圖像識別、醫療診斷和文本轉錄。然而,目前還不知道人工智能是否可以用于提高美國陸軍信息收集效率。因此,在目前的研究中,探討了以下問題:人工智能能否用于提高美國陸軍任務指揮過程中的信息收集效率?
為了回答研究問題,本文使用了一個商業人工智能應用系統,它反映了軍隊任務指揮部人工智能應用原型的首次開發工作。在這項研究工作中,比較了這個為軍隊量身定做的人工智能系統和其他兩種信息收集方法的參與者在信息收集任務中的表現:傳統的信息收集方法(在計算機文件夾中搜索PDF文件)和非軍隊量身定做的人工智能系統版本。軍隊定制的系統使用軍隊相關的知識來幫助搜索(例如,它知道 "MDMP "等同于 "軍事決策過程"),而非軍隊定制的系統則沒有。我們在以下方面比較了這三種搜索方法:1)參與者找到準確的搜索結果所需的時間,2)參與者搜索結果的準確性,3)參與者對其搜索結果的信任程度,4)參與者對使用該系統工作負荷的看法,5)參與者對該系統可用性的看法。
參與者在使用人工智能系統時比使用傳統搜索方法時既不快也不準確。當使用人工智能系統而不是傳統方法時,參與者對他們的搜索結果也沒有更多信任。然而,在使用軍隊定制的人工智能系統而不是非軍隊定制的系統時,參與者的搜索速度更快,但準確性也更低。最后,在不同的搜索方法之間,參與者對工作負荷和可用性的感知沒有明顯的差異。
這項研究是確定人工智能系統對信息收集效率影響的第一步。總的來說,我們的研究結果表明,人工智能系統可能不會大幅提高美國陸軍任務指揮過程中的信息收集效率,至少不會立即提高。雖然這項研究的重點是在受控實驗室中的無關要害任務(即尋找戰術情況下的理論解決方案),但未來計劃的使用將不會那么無害,這表明需要未來研究來測試假設。對人工智能的投資應該伴隨著對培訓和研究的投資,以獲得人工智能的全部優勢并減少風險。假設人工智能系統是銀彈是不審慎的,事實上,這項研究表明人工智能系統需要被充分審查。
戰爭正變得越來越復雜。陸軍指揮官需要考慮在地面、空中和海上的戰斗,以及在信息和網絡環境中的戰斗(美陸軍部,2017)。隨著社交媒體的出現和計算機的日益強大,在這些環境中的行動可能會導致地緣政治損失,而在過去,只有通過更傳統的行動,如地面攻擊、空中打擊和海上轟炸才能實現。此外,美陸軍指揮官不僅應該期待來自其他民族國家部隊的復雜和有影響的打擊,而且還應該期待看起來不復雜的對手,因為網上零售商使人們很容易購買到過去難以獲得的產品(包括合法的和非法的),如無人機、夜視鏡和槍支。在這一切之上,陸軍指揮官需要在一個前所未有的水平上做出準確和及時的決策,因為人工智能(AI)正在許多軍事職能和領域中實施,如網絡戰、航空和信息收集。這些因素加在一起,為陸軍指揮官創造了復雜的作戰環境。
為了在復雜的環境中有效運作,陸軍指揮官及其參謀人員需要有能力從不同的來源收集大量的數據,并迅速處理收集到的信息,以便及時對信息采取行動。例如,如果對手正在準備一次大規模的作戰行動,信息環境、網絡環境和物理環境中新的但微妙的多變量模式可能會出賣對手的意圖。然而,為了及時發現這些模式,陸軍指揮官和他們的參謀人員將需要有能力快速匯總和分析從各個環境傳來的數據。此外,為了根據這些數據迅速采取行動,陸軍指揮官及其參謀人員需要有能力迅速找到相關的陸軍和聯合理論,以實施戰術和戰略,并吸取經驗教訓,以利用曾面臨類似情況的指揮官經驗。對于這兩項任務--檢測模式和根據模式采取行動--人工智能可能被證明是一個非常有用的工具。
正如其名稱所暗示的那樣,人工智能是由機器而非人類或動物等非人工實體所展示的智能。在這種情況下,智能包括通常與人類相關的認知功能,如推理、計劃、學習和感知。因此,人工智能的主要目的是取代或增強人類的某些任務,如駕駛、飛行和圖像識別(例如,自動檢測和識別人群中的面孔)。例如,谷歌和優步等公司目前正在自動駕駛汽車中使用人工智能,人工智能充當了車輛的駕駛員,因此是使自動駕駛汽車自動化的實體。此外,美國陸軍目前正在探索將人工智能用于自動車輛識別。
人工智能主要通過兩種方式實現 "智能化"。一種方式是通過編程使人工智能的軟件接受某些輸入并根據輸入做出某些輸出。例如,視頻游戲中的人工智能競爭者可能被編程為在玩家向右移動(輸入)時向左移動(輸出),或者在玩家攻擊時進行阻擋。這種方法使用簡單的算法--人工智能要遵循的規則--除了最基本的任務外,其他都是低效的,因為人工智能的軟件程序員必須思考并手動編程每個規則。這樣做很快就會變得不方便,因為許多任務需要許多規則和嵌套的規則--其他規則中的規則(例如,如果接近一個讓行標志,如果有另一輛車出現,則要讓行,但只有當另一輛車在附近時)。此外,思考一項任務的每一個可能的規則很快就會變得困難,即使是人類認為很容易的任務(如駕駛)。
使人工智能智能化的更好方法是使用機器學習,這是一個從數據中創建統計模型的過程,以提高預測和決策的準確性。機器學習不是明確地告訴人工智能系統如何應對其環境中的某些事件,而是允許人工智能系統從其環境中的行動中學習。更簡單地說,機器學習允許人工智能系統從經驗中學習。例如,谷歌通過向人工智能系統提供組成游戲顯示屏的像素,并允許人工智能系統通過游戲控制器對這些像素進行操作,從而訓練人工智能系統成功地玩視頻游戲Atari Breakout(Leo Benedictus,2016)。人工智能系統的程序很簡單,就是通過游戲控制器的動作來最大化其游戲分數,并使用游戲分數來確定一個動作是否有益。起初,人工智能系統在游戲中做出看似隨機的行動,但一段時間后,它開始獲得得分點,并最終學會了一種人類玩家從未使用過的有用技巧。
機器學習讓人工智能在日常生活中變得非常普遍,以至于人工智能被一些人認為是 "新電"(Lynch, 2017)。人工智能傾向于擅長那些主要通過模式識別就能解決的任務。因此,人工智能擅長于圖像識別、醫療診斷和轉錄等任務。像駕駛這樣的任務給人工智能帶來了更大的難度,因為目前自動駕駛汽車上的傳感器無法檢測到標記模糊的道路上的模式(例如,被雪覆蓋的道路)。人工智能對于從數據中進行預測是異常有用的。例如,醫生可以使用人工智能來幫助醫療診斷,因為人工智能能夠處理病人的所有數據,將這些數據與已知的醫療條件進行比較,并從比較中產生醫療診斷。人工智能在視覺搜索方面也很有用。一家公司使用人工智能系統搜索航拍圖像,以尋找住宅區內水浪費的證據(Griggs, 2016)。該人工智能系統能夠通過使用游泳池的存在、灌木的數量和大小以及房屋周圍草地的綠色程度等因素,準確判斷一個家庭是否在浪費水。該人工智能系統能夠以每秒208張航空圖像的速度完成這項任務。
信息收集是人工智能具有潛力的另一項任務。信息收集是指從一個來源,如文件庫或互聯網上提取所需信息的過程。通過使用自然語言處理--人工智能的一個分支,用于處理自然語言數據--人工智能可以從非結構化數據中提取信息,而非結構化數據占世界數據的80%(High, 2012)。與結構化數據不同,結構化數據是以預先定義的方式組織的,包括電子表格和日志,非結構化數據不是以預先定義的方式組織的。非結構化數據包括文本文件、照片、視頻和音頻記錄。人工智能可以用來從非結構化數據中提取相關信息和意義,并以各種方式利用這些信息和意義。例如,美國陸軍和美國空軍正在探索使用人工智能,從車輛維護和車載系統日志中預測車輛故障(Osborn,2017;Vincent,2018)。此外,未來的人工智能任務指揮系統可能會不斷挖掘從眾多來源流入的數據,包括社交媒體、新聞頻道和衛星數據,并使用這些數據來預測戰略競爭對手的行動。這種方法將通過利用過去的非結構化數據(維護日志、社交媒體帖子等),并確定這些數據的哪些特征可以預測車輛故障和競爭者的行動。例如,人工智能系統可能會發現車輛運行溫度和車輛故障之間的關系,并利用這種關系來預測未來的故障。像這樣的關系將形成一個數學模型,當新的數據出現時,人工智能系統將持續更新。
通過使用自然語言處理,人工智能也可能有助于從陸軍條令和經驗教訓中提取所需信息。陸軍有許多條令出版物,指揮官和他們的工作人員經常需要在一個以上的出版物中尋找信息。例如,如果計劃進行一次接觸行動,指揮官可能不僅需要參考作戰條令,還需要參考與指揮官所在梯隊相關的條令;如果指揮官的部隊要通過一個人口中心,還需要參考民政條令;如果指揮官要使用網絡能力,還需要參考網絡戰條令。此外,指揮官可能還需要快速找到相關條令,特別是在面臨對手的意外行動時。在計劃一項行動時,指揮官也可能會查閱陸軍的經驗教訓集,以利用過去進行過類似行動的指揮官的經驗。
也許有可能使用人工智能來幫助指揮官及其參謀人員在條令和經驗教訓中找到所需的信息。要做到這一點,必須采取一些步驟。首先,必須為人工智能系統建立一個語料庫,將條令和經驗教訓的出版物加載到人工智能系統中。從這個語料庫中,人工智能系統可以學習相關的語言,包括術語,并使用自然語言處理建立一個詞庫。然后,人工智能系統可以通過建立索引和元數據對數據進行預處理,使其更有效地處理數據。最后,人類主題專家必須訓練人工智能系統,以使人工智能系統提供更精確的答案和識別模式。訓練可以通過向人工智能系統上傳問題和答案對形式的訓練數據來完成。這種訓練數據不會為人工智能系統提供每個可能問題的答案,但這些數據將幫助人工智能系統學習相關領域的語言模式。一旦人工智能系統被部署,該系統可以通過與用戶的持續互動進一步學習。
通過使用上述方法創建人工智能系統,指揮官及其參謀人員可能會比沒有人工智能系統可供使用時更快、更準確地從條令和經驗教訓中收集所需信息。如果沒有人工智能系統,指揮官將不得不通過手動搜索每個可能與所需信息有關的條令或經驗教訓出版物來尋找所需信息。這種手工搜索是一個耗時的過程,可能不會產生最佳的信息產品,特別是當進行搜索的人有時間壓力的時候。事實上,人類經常會搜索信息,直到達到一個可接受的閾值(例如,做出決定所需的最小信息量),以避免花費太多的認知資源和精力去尋找一個完美的結果(Simon, 1955; 1956; 1957)。然而,通過使用這種方法,人類可能會產生不那么充分的結果。此外,Simon還觀察到,這種方法不太可能產生一個最佳的結果,因為人類通常不會搜索足夠長的時間來找到這樣一個結果。然而,試圖找到最佳結果可能并不理想,因為這樣做需要時間,而當找到最佳結果時,結果可能已經不再有用。因此,如果指揮官試圖找到一個最佳的結果,指揮官可能無法進入對手的決策周期;指揮官需要平衡尋找結果的時間和結果的質量。另一方面,人工智能信息收集系統可能更有可能找到最佳結果,而且人工智能系統可能更有可能在比人類花費更少的時間內找到最佳結果。
盡管在人類信息處理能力有限的情況下,人工智能系統在尋找條令和經驗教訓中的所需信息方面可能比人類更有效率(Baddeley,1992),但這一結果是以人工智能系統經過充分訓練以識別條令和經驗教訓出版物中的語言模式為前提。如果人工智能系統沒有經過充分的訓練,那么人工智能系統的使用者可能會發現次優的結果,并因此對人工智能系統感到失望,最終使人工智能系統被廢棄。此外,人工智能系統只有在人工智能系統的人類用戶適當地校準他們對系統的信任時才會有用(Hancock等人,2011;de Visser, Pak, & Shaw, 2018)。許多人工智能系統由于各種原因,包括環境背景、用戶錯誤和不同背景下的訓練不一致,導致其性能不一致(Rovira, McGarry, Parasuraman, 2007)。例如,一個人工智能系統產生與火力作戰功能相關的準確結果,與機動作戰功能相比,可能產生不太準確的結果。如果人工智能系統的人類用戶完全信任該系統的結果,可能會出現性能下降(Hancock等人,2011)。訓練人類用戶了解人工智能系統何時可能準確,何時不可能準確是至關重要的(de Visser, Pak, & Shaw, 2018)。相反,如果人工智能系統的人類用戶對人工智能系統缺乏信任,那么該系統很可能會被廢棄。因此,人工智能系統不會提高指揮官尋找信息的效率,即使該系統本身在這方面表現出色(Hancock等人,2011)。
盡管人工智能往往擅長于主要用模式識別來解決的任務,以及可以從任務數據中進行預測的任務,如圖像識別、醫療診斷和轉錄,但目前還不知道人工智能是否可以用于提高美國陸軍背景下的信息收集效率,特別是在陸軍指揮官及其參謀人員需要在陸軍條令中尋找信息的背景下。因此,在目前的研究中,我們探討了以下問題:人工智能能否用于提高美國陸軍任務指揮過程中的信息收集效率?為了回答這個問題,我們使用了一個商業人工智能應用系統,這反映了陸軍任務指揮部人工智能應用原型的首次開發工作。在這項研究工作中,我們比較了這個為陸軍量身定做的人工智能系統和其他兩種信息收集方法的參與者在信息收集任務上的表現:一種傳統的信息收集方法(在計算機文件夾中搜索PDF文件),以及一種非陸軍量身定做的人工智能系統。
這項研究評估了與智能團隊輔導系統(ITTS)一起工作的三人小組在虛擬軍事監視任務中的表現和團隊技能如何受到反饋隱私、參與者角色、任務經驗、先前團隊經驗和隊友熟悉程度的影響。智能輔導系統(ITSs)以前的工作主要集中在個人學習者的任務技能訓練結果上。隨著研究擴展到團隊的智能輔導,任務技能和團隊技能對于良好的團隊表現都是必要的。這項工作包括對以前關于ITTSs、反饋、團隊和團隊工作的研究的簡要回顧,包括敘述與本研究相關的團隊工作表現框架的兩個類別,即溝通和認知。這項研究考察了智能Agent以及團隊、其成員和正在進行的任務特點對團隊溝通(通過相關按鍵測量)和團隊態勢感知(通過測驗分數測量)的影響。三十七個由三名參與者組成的團隊,每個人都在自己的電腦上運行一個多人監控模擬,在四個5分鐘的試驗中,他們得到了及時的私人(個人交付)或公共(團隊交付)的性能反饋。在第四次試驗中,三名參與者中的兩名交換了角色。反饋類型、團隊工作經驗和隊友熟悉程度對溝通或團隊態勢感知沒有統計學上的顯著影響。然而,較高的角色經驗和任務經驗對溝通表現有明顯的、中等規模的影響。基于表現數據和結構化訪談回答的結果還揭示了未來反饋設計中需要改進的地方,以及基于行動導向嚴肅游戲的ITTS中反饋頻率的潛在基準。在結論中,提出六個未來ITTS的設計目標,為未來設計有效的ITTS的研究奠定了基礎,這些ITTS可以訓練新生團隊的人際交往能力。