近年來,美海軍對無人系統的綜合衛星-地面網絡(ISTN)架構表現出興趣。隨著衛星網絡的發展和越來越多的無人系統網絡的連接,安全和隱私是ISTN的主要問題。在這篇論文中,我們專門為ISTN開發了一個網絡入侵檢測系統(NIDS)。我們確定了NIDS在ISTN架構中的關鍵位置,并使用決策樹機器學習算法對各種威脅載體進行網絡攻擊檢測,包括分布式拒絕服務。決策樹算法被用來對攻擊流量和良性流量進行分類和隔離。我們使用文獻中提供的開放源ISTN數據集來訓練我們的算法。決策樹使用不同的分割標準,不同的分割數量,以及使用主成分分析(PCA)來實現。我們操縱訓練數據的大小和數據特征的數量以達到合理的假陽性率。我們表明,我們基于決策樹學習的NIDS框架可以有效地檢測和隔離不同的攻擊數據類別。
頻譜稀缺是許多通信系統面臨的問題,在軍事領域和其他領域都是如此。認知無線電網絡是一種機會主義地利用廣播頻譜的方法。其基本概念包括將用戶分為兩類:第一類和第二類。主要用戶在資源分配過程中擁有優先權,而次要用戶需要使用頻譜進行通信。本論文試圖應用認知無線電的概念來實現高流量環境下的蜂群通信。主要用戶可能包括無法控制的優先友好或敵對發射器。這項研究采用了認知無線電的概念和機器學習算法,在網絡內開發了一種動態聚類技術,將優化資源分配。提出了三種方法來訓練神經網絡以找到最佳的頻譜分配。即使提出的算法沒有超過基線啟發式的表現,但證明了最優解決方案的存在。建議繼續這項研究,因為所使用的算法可以進一步修改并以各種方式應用。
評估飛行員的心理和認知狀態作為衡量飛行性能的一種手段,一直是軍隊和學術界的主要目標,特別是在開發提高戰備狀態的強化訓練系統方面。態勢感知(SA)是評估飛行員在訓練中表現的一種方法。傳統上,客觀地測量SA是一個繁瑣的過程,必須由訓練有素的科學家和專家來設計,由于數據和收集過程的性質,對結果的分析只能在事后進行(Endsley, 2017)。測量的過程通常需要飛行員打亂他們的訓練來回答與飛行環境有關的問題。此外,以這種方式測量SA需要人員在整個訓練過程中直接參與對飛行員的監測和評估,這既昂貴又耗時。自動測量SA將加速實現飛行員的準備狀態,而不需要讓更多的人員參與到飛行員的訓練中。
在我們之前評估神經狀態(Wilson, Nair, Scielzo, and Larson, 2021)和飛行員的飛行正確性(Wilson, Scielzo, Nair, and Larson, 2020)的工作中,我們假設認知和凝視測量可以幫助開發自動SA測量。我們的結果顯示,認知負荷的主觀測量和教員指定的凝視模式分類一起為評估SA提供了有意義的信息(Scielzo, Wilson, and Larson, 2020)--盡管評估不是完全自動化的。本文的貢獻是一種結合生物識別數據和眼動數據的方法,在回歸和分類任務中評估SA。也就是說,我們使用機器學習,在一個沉浸式的模擬飛行場景中,對飛行員的SA進行自動分類。我們表明,在40名參與者中,各種級別的SA可以被分類,準確率高達70%以上。所有的人體實驗都得到了SMU機構審查委員會的批準。
機器學習的應用非常廣泛,對各種工業和軍事目標都很有用,但目前的方法是否魯棒(穩健)?魯棒性要求的不僅僅是在理想條件下的準確性;它意味著系統能夠抵抗數據中的擾動,包括自然和對抗性原因的擾動。這項研究的目的是分析用于電網故障分類的神經網絡的魯棒性。我們專注于經典的9總線模型模擬產生的數據;然而,這些方法和結果可以擴展到更復雜的微電網,如海軍艦艇、潛艇和基地上的微電網。首先,我們測量隨機和對抗性噪聲對測試數據的影響,并比較三種網絡類型。然后,我們通過改變節點和層的數量來測試不同的結構。最后,我們測試了在訓練數據中加入噪聲是否能提高魯棒性。在潛艇上采用機器學習方法之前,我們必須首先了解其弱點和潛在的錯誤。這項研究為如何測試魯棒性,神經網絡在哪些地方有隨機或對抗性噪聲的風險,以及如何修改網絡以提高其魯棒性提供了基礎。
現代戰術戰爭越來越復雜,需要更快和更有效的決策。為了支持這些快速決策,有人提出使用自動決策輔助工具作為解決方案(Johnson 2019, 63)。鑒于現代戰場的復雜性質,決策輔助工具需要大量的數據。為了支持決策輔助工具的發展,機器學習代表了一種支持有效決策輔助工具的潛在方法。這項研究的目標是進行實驗,探索應用機器學習來幫助作戰人員進行復雜的激光武器系統與無人機群的交戰決策。為了實現這一目標,研究了激光武器系統和無人機威脅,并選擇了一個仿真程序來生成可用于訓練機器學習算法的交戰數據。
這篇論文研究了威脅交戰方法,確定了有效操作激光武器系統必須考慮的決策因素,以及人工智能和機器學習在支持決策方面的應用。對無人駕駛飛行器或無人機的威脅進行了基礎研究,以確定風險并支持交戰方法的發展。該基礎研究支持選擇場景并將其編入兵棋和仿真軟件Swarm Commander Tactics,該軟件用于模擬戰斗。這項研究進行了一項實驗,通過建模和仿真交戰場景來開發機器學習算法的概念驗證,以收集訓練數據并使用這些數據來訓練機器學習算法。訓練算法的目的是為了確定使用模擬艦載激光武器時的生存能力和成功的交戰方法。在生成模擬交戰數據后,使用模擬交戰測試了多種機器學習技術,以確定機器學習預測是否能夠支持基于模擬數據的自動決策輔助。這項研究研究了機器學習的算法方法以及開發和訓練機器學習系統的過程。
總的來說,對多種機器學習技術進行了評估,以支持在模擬交戰中預測成功的無人機交戰方法,發現最適合的是樹狀分類技術。實驗證明了機器學習在這個問題領域的應用,通過建模和模擬,機器學習算法訓練是成功的。最終機器學習算法預測的結果,在預測基于敵人類型、數量和激光武器系統攻擊方法的交戰結果時,總體準確率為96%;假陽性預測,即算法預測的勝利是失敗的,為2.1%。這些結果表明,一個復雜的戰斗空間模擬軟件可以用來準確地訓練預測性機器學習算法。
這項研究表明,將兵棋模擬與機器學習算法相結合,為支持復雜的決策和交戰提供了一種機制,由激光武器系統來對付敵人的無人機群。通過實施訓練有素的機器學習算法,可以分析具有異質無人機群的復雜戰斗空間,從而選擇適當的交戰技術,從而優化目標交戰的生存能力和有效性。這篇論文的主要研究目標是探索機器學習方法在識別和支持模擬艦載激光武器系統的有效目標選擇和交戰方法方面的功效。這項研究是生成決策輔助工具的一個組成部分,以支持無人機群與激光武器系統的交戰。現代戰斗空間的復雜性質需要決策輔助工具來減少作戰人員的認知負擔。
人工智能(AI)方法能否檢測出軍用全球定位系統(GPS)基礎設施上的欺騙行為?利用人工智能和機器學習(ML)工具,展示了對美國防部高級GPS接收器(DAGR)欺騙行為的成功檢測。利用系統工程原理,對問題空間進行了分析,包括進行文獻審查以確定人工智能的技術水平。這一探索的結果揭示了應用于解決這一問題的新穎解決方案。在早期階段,考慮了各種系統設計,然后確定了一個同時包含實時和模擬的GPS信息流量的系統。將基于模型的系統工程(MBSE)原則整合到設計概念中,以映射系統層次和互動。Humphreys等人(2008)將GPS欺騙威脅定義為三種技術,即簡單攻擊、中級攻擊和復雜攻擊。簡單的攻擊建立在使用商業GPS信號模擬器、放大器和天線向目標GPS接收器廣播信號的概念上。中級欺騙攻擊是利用基于接收機的欺騙器,向目標接收器的天線產生欺騙信號。復雜的欺騙攻擊是三種方法中最復雜的,有能力改變每個天線發射的載波和碼相輸出,同時控制發射天線之間的相對碼/載波相位(Humphreys等人,2008)。由于成功的GPS欺騙攻擊會影響到時間、頻率和空間領域,所開發的系統至少必須考慮這些參數。設計概念采用了識別數據集中非明顯和非瑣碎關系的要求。
該系統的設計采用了雙管齊下的方法;1)開發一個硬件系統,在GPS基礎設施上注入欺騙信號;2)開發一個軟件應用程序,以檢測欺騙的注入。該硬件系統包括一個用于創建欺騙場景的GNSS模擬器、一個便于輸入實時和模擬信息流的射頻(RF)分離器、一個DAGR和各種數據收集工具。系統操作遵循簡單的欺騙攻擊技術來執行公開欺騙攻擊。公開欺騙的一個特點是 "干擾-欺騙 "策略。Chapman(2017,1)將公開欺騙攻擊描述為 "偽造的GPS信號只是以明顯高于真實衛星信號的功率水平進行廣播"。在公開欺騙中,對手增加欺騙信號的功率,以壓倒合法的GPS信號饋送。我們成功地將公開欺騙技術應用于工程系統,并收集數據進行分析。該數據集構成了人工智能開發工具的基礎,包括國家海洋電子協會0183(NMEA 0183)和接口控制文件-GPS 153(ICD GPS153)信息流。雖然NMEA 0183標準定義了用于商業用途的GPS信息,但ICD 153標準是用于設計和實施軍事平臺上使用的信息。在這項研究中,我們同時使用了NMEA 0183和ICD 153信息標準的信息。
在數據集上應用主成分分析(PCA)等數據縮減工具,發現參數的相關性導致數據集的方差約為94%。第一個主成分PC1解釋了這些方差。對人工智能工具的研究確定了無監督和有監督學習工具的適用性。無監督學習對識別數據集內的特征很有效,而有監督學習方法則適用于有已知目標的數據集。使用聚類方法,如k-means,我們清楚地識別了在信號上應用欺騙所形成的聚類。聚類作為一種視覺工具是有效的。無監督學習模型有效地識別了由欺騙情況形成的聚類。欺騙行為對數據結構的影響在與應用欺騙信號前后形成的聚類不同的聚類中顯示出來。我們發現了數據參數中的特殊性和以前未被發現的關聯性,這對研究有啟發性。
利用數據挖掘和數據分析工具,我們再次對數據集進行了處理,以應用標記的參數,并訓練一個監督模型來對欺騙行為進行分類。我們對數據集進行了處理,并使用幾個監督學習模型檢查結果。我們在標記的數據集上執行了這些模型,其中85%的數據用于訓練,15%的數據保留給測試,同時使用交叉驗證。對模型應用交叉驗證,就不需要對數據集進行驗證分割。隨機森林和邏輯回歸模型的結果顯示,在訓練集和測試集上都有100%的真陽性率,進一步證明了人工智能模型可以檢測GPS用戶基礎設施上的欺騙行為。
使用一套通常適用于ML、數據科學和統計問題的性能指標來評估監督學習模型的有效性。模型的訓練呈現出優秀的結果,所有模型的召回率和精確度都很完美。召回率是一個重要的指標,用于評估一個工具在檢測惡意活動方面的效果,如對DAGR的欺騙企圖。這項研究的結果表明,如果有適當的工具和權限,對手可以有效地欺騙軍用GPS設備。我們在整個論文中開發和展示的工具表明,人工智能方法可以檢測到對軍用GPS基礎設施的欺騙性攻擊。
私營部門不斷收集和整理關鍵數據及其來源,以通過利用數據密集型的人工智能機器學習(AI/ML)技術來確保支持和發展新的業務。大部分行業數據都是有價值的共享資源,而海軍到目前為止還沒有實現這種做法。本頂點研究通過研究、訪談和個人專業知識,探討了海軍在創造數據可用性和質量方面的挑戰性任務。研究側重于過程、技術和管理,采用了詳細需求評估、利益相關者分析、功能設計。其研究結果是一個集中式人工智能庫(CAIL)的概念框架,旨在匹配行業對數據作為關鍵商品的堅定關注。美國海軍需要持久和動態的數字化準備,因此這個擁有70多年美國海軍數據專業知識的頂點團隊建議 OVERMATCH 考慮這些發現并生成一個確保海軍數據可用性和質量的系統。
美國海軍部(DON)對研究和開發人工智能和機器學習(AI/ML)系統的興趣源于這些創新能力對海軍任務和對作戰人員的直接支持所帶來的深遠和改變游戲規則的影響。人工智能/機器學習系統可以被用來改善任務規劃,減少人員配置,改善戰術決策,簡化系統維護和支持,提高安全性,在某些情況下,還可以將作戰人員從危險中移除。戰士日常活動的許多方面將發生變化,從常規和勞動密集型工作的自動化到支持復雜和時間緊迫的戰斗空間決策。
只有當美國國防部首先釋放數據的力量,才能實現AI/ML系統的這些進步。目前,在獲取或"釋放"DON的數據以開發未來的AI/ML系統方面存在許多障礙。整個海軍的數據主要停留在"筒倉"或難以訪問的數據庫中,每個"筒倉"都在其領域內受到保護。在DON的數據領域內,定位、請求、獲取和策劃數據的過程并不正式。米勒(2021)說:"數據的所有者是美國人民。海軍只是管理人和監護人"。這句話包含了將數據從孤島中 "解放"出來的需要,以使海軍真正成為一個以數據為中心的企業,并實現海軍的數字化準備。
這個頂點項目開始了一項研究,以了解美國防部內AI/ML開發人員的數據需求,并制定一個概念性的解決方案來解決數據需求。其他目標是:
研究AI/ML方法如何在DON任務中應用。
了解數據需求是否在DON任務中普遍是標準的,或者數據需求是否在DON任務中有所不同。
制定一套 DON AI/ML利益相關者的要求。
為一個支持DON AI/ML數據需求的系統制定一個概念性設計。
研究實施概念性解決方案系統的潛在成本和進度效益。
時區團隊(Team Time Zone)應用系統工程分析方法研究DON AI/ML開發人員的數據需求,并開發和評估一個概念性的系統解決方案,以解決這一數據挑戰,并最終支持DON未來的數字準備,以解決復雜的任務。該團隊通過采訪三個不同的海軍任務領域的主題專家(SME)來進行利益相關者的需求分析:系統維護、物理安全和戰備。這三個任務被認為是 "數據提供者"的代表。此外,該團隊還采訪了數據研究人員和AI/ML科學家,以了解他們的數據需求。訪談為團隊提供了基于獨特和不同領域和經驗的關注、挫折、經驗教訓和挑戰的洞察力。從數據提供者的角度來看,反復出現的主題包括所有權的劃分、信息保障的需要、數據未被收集或存儲的情況以及對可訪問性的擔憂。從數據用戶的角度來看,明顯的軼事包括尋找數據的耗時,承諾的數據并不總是能夠實現,以及即使在獲得數據后,理解數據的背景也是至關重要的。該小組根據利益相關者的訪談和信息收集工作,為DON AI/ML制定了一套數據要求。DON AI/ML的數據需求是:
數據必須能夠被外部組織訪問。
數據必須被翻譯成與其領域應用兼容的標準格式。
數據必須有確定的所有者。
數據必須伴隨著描述性的元數據。
數據必須有標準化的管理。
數據必須以其 "最低標準"的形式被訪問。
數據必須具有保護和適當共享的安全性。
數據必須具有混淆性,以保護個人身份信息(PII)。
數據必須伴有背景信息。
為了解決DON數據研究人員和AI/ML科學家確定的數據需求,Team Time Zone開發了一個中央AI庫(CAIL)系統的概念設計,作為解決方案。CAIL系統的目的是簡化 DON內部的數據訪問和管理,以支持AI/ML系統的開發。CAIL系統旨在減少訪問數據的時間(和相關費用),騰出更多時間用于AI/ML系統的實際開發、培訓和評估。該團隊提出,為了滿足未來計劃的訪問和整合要求,CAIL需要成為一個 "數據云"。圖1是CAIL的OV-1;它描述了為AI/ML開發簡化DON數據訪問和管理的擬議過程。
圖1. CAIL OV-1
該團隊根據六個主要類別制定了CAIL系統要求:數據準備、數據偏差、數據整理、數據分類、數據治理和數據安全。每一個類別都是針對利益相關者分析過程中發現的需求。CAIL系統將主要與外部聯合數據、數據庫、文件和權威數據生產商/供應商的內容對接。它將像 "谷歌 "一樣為DON用戶尋找數據。數據將是結構化的,并將伴隨著元數據(關于數據的描述性信息),使數據可以被搜索。一個管理數據的社區將提供規則來管理對數據的安全訪問和授權。
在利益相關者的分析中,很明顯,在訪問數據之前需要進行一些重要的活動。AI/ML開發人員解釋了了解數據收集方式、數據來源以及其他有關數據的特定領域的背景方面的重要性。Team Time Zone將這些過程指定為 "預CAIL活動",并將其作為整個CAIL過程的一部分。
Team Time Zone進行了成本分析,以估計為DON實施CAIL系統的成本。該團隊使用了兩種方法來估計成本:傳統的成本估計和基于模型的系統工程(MBSE)方法。該小組估計CAIL系統的成本(基于傳統的成本估算)為3380萬美元,持續時間為5年,每年的重復維持成本為400萬美元。團隊估算的CAIL系統成本(基于MBSE方法),在運行了一萬次蒙特卡洛模擬后,平均為3290萬美元,持續時間為5年。運營和維護模型的平均成本為每年440萬美元。表1顯示了CAIL開發和維護成本的摘要。
表1. CAIL系統成本匯總
為了使DON的AI/ML項目蓬勃發展,并在未來幾十年內實現AI/ML的進步,DON必須確保數據的管理,并使AI/ML的發展能夠被訪問。Team Time Zone提出的CAIL系統解決方案將為AI/ML項目提供一個單一來源的綜合數據環境,以訪問存儲在整個DON各種數據庫中的數據庫目錄。Team Time Zone建議海軍實施CAIL系統,通過確保AI/ML開發者訪問持久和動態的數字數據來支持數字準備。CAIL系統支持DON項目和開發人員的協調方法,以安全訪問數據。該小組建議超配項目(Project Overmatch)考慮這些發現并實施CAIL系統和流程,以確保海軍的數據可用性和質量。該小組開發了一個CAIL標志(見圖2),表明CAIL系統是海軍的一個重要基礎。
圖2:CAIL標志。改編自美國海軍標志。
技術的進步給軍事領域帶來了新的威脅類型和現有威脅的改進版本。對抗性威脅的進步要求海軍改進現有的能力并開發新的能力,以提高防御能力并應對這些威脅。能力的增強需要提高速度、隱身性、機動性、反措施、擴大范圍、更早發現和更大的殺傷力。這些增強的能力使我們能夠在不確定的、復雜的和時間緊迫的條件下做出關鍵決定。現代戰術作戰人員面臨著越來越復雜的決策空間。他們需要獲得對動態戰斗空間的態勢感知,并確定有效的行動方案(COA)以滿足任務需求。圖1強調了造成這種戰術復雜決策空間的因素。決策的復雜性來自于威脅環境,來自于知識的不確定性,來自于戰爭和信息系統本身,來自于作戰人員與自動化系統和信息系統的互動和使用所產生的挑戰,以及任務決策的重要性或后果的嚴重性。
圖1:戰士的復雜決策空間。資料來源:Johnson (2021).
美國國防部(DOD)和海軍部(DON)正在研究使用人工智能(AI)來解決復雜的戰術決策空間,通過改善態勢感知和提供自動決策輔助來支持戰術作戰人員。利用人工智能方法的先進算法可以通過減少信息過載、改善態勢感知、提高決策速度和加強一般的戰術決策來減輕作戰人員的認知負荷。預測分析(PA)可以支持對系統可靠性和故障概率的預測,這為物流提供了廣泛的改進(Zhao和Mata 2020)。諸如PA等技術可以通過開發 "what-if "和 "if-then "情景來加強戰術決策,通過預測決策選擇的長期影響來改善戰士的COA決策(Johnson 2020)。人工智能方法可以通過檢測異常情況和從大量的安全攝像機數據中識別可能的威脅來改善海軍基地的物理安全。
米切爾(2019)將人工智能定義為一個包括許多不同方法的領域,以創造具有智能的機器。圖2顯示,人工智能存在于一套廣泛的自動化方法中,使機器能夠根據命令和規則執行任務。人工智能是使系統能夠執行模仿人類智能的功能的一套方法。機器學習(ML)方法是人工智能方法的一個子集。ML方法允許系統從被訓練的大型數據集上學習。ML系統從訓練的數據集中學習。然后,這些 "訓練有素 "的ML系統在操作上被用來識別模式,并在新的操作數據下產生預測的結果(Johnson 2021)。
圖2:什么是人工智能?資料來源:Johnson (2021)。
人工智能算法是編碼的計算機程序,用于對數據進行分類、分析和得出預測。監控、交通預測和虛擬個人助理是實施ML算法的應用實例。
開發人工智能系統,特別是ML系統,是一項具有挑戰性的工作。ML算法的初始訓練是一個數據密集型的演變。人工智能/ML系統對數據要求很高,其準確性在很大程度上取決于數據訓練集的質量和數量(Godbole 2020)。作為一個參考點,訓練DeepMind的AlphaGo Zero系統學習下圍棋花了大約40天,包括2900萬場比賽(Feldman, Dant, and Massey 2019)。想象一下人工智能/ML武器系統算法所涉及的額外復雜性,它需要考慮戰爭背景(戰爭游戲、冷戰、和平時期)、朋友或敵人、道德和合法性等概念(Feldman, Dant, and Massey 2019)。
隨著美國防部開始開發人工智能和ML方法,出現了獨特的數據挑戰。開發人員需要大量的驗證數據來訓練他們的算法;這些數據需要準確、安全和完整,以確保算法不會被破壞或有偏見。這些數據集必須代表適當的操作環境。對于海軍的應用,訓練數據必須代表眾多的任務,包括海上、空中、太空、水下、沿岸、網絡和陸基領域的任務。盡管許多海軍司令部和實驗室正在研究和開發基于人工智能/ML系統的未來能力,但沒有協調的程序來獲取他們所需的海軍數據。在許多情況下,數據是存在的,但要確定國防部的數據來源并獲得數據是一項耗時和昂貴的工作。
這個頂點項目采用了系統工程分析方法來研究DON AI/ML開發者的數據需求,并確定和評估一個概念性的系統解決方案來解決這個數據挑戰,并最終支持未來DON的數字準備來解決復雜的任務。
DON對研究和開發AI/ML系統的興趣為各種應用帶來了數據挑戰。盡管DON的許多指揮部和實驗室正在研究和開發基于AI/ML系統的未來能力,但沒有一個協調的程序來訪問他們所需的DON數據。AI/ML系統需要大量的驗證數據來支持他們的發展和訓練算法。在許多情況下,數據是存在的,但要確定美國防部的數據來源并獲得數據是一項耗時和昂貴的工作。這個頂點研究了這個問題,并進行了需求分析,以確定DON AI/ML開發人員的數據需求,并開發和評估了解決DON數字準備這方面的解決方案概念。
這個頂點項目的主要目標是分析 DON AI/ML 開發的數據需求,并開發一個概念性的解決方案來解決數據需求。其他目標是
研究AI/ML方法如何在DON任務中應用。
了解數據需求在DON任務中是否有普遍的標準,或者數據需求在DON任務中是否有差異。
制定一套 DON AI/ML利益相關者的要求。
為一個支持DON AI/ML數據需求的系統制定一個概念性設計。
研究實施概念解決方案系統的潛在成本和進度效益。
時區團隊由五個具有不同學術和專業經驗的NPS系統工程學生組成。該團隊由以下人員組成。
Robert French于2016年畢業于Old Dominion大學,獲得了計算機工程和電子工程的學士學位。他目前是位于弗吉尼亞州弗吉尼亞海灘的海軍水面作戰中心Dahlgren分部-Dam Neck附件的特殊傳感器技術部門的R.F.工程師。羅伯特也是美國艦隊司令部海上作戰中心N6(信息系統)的高級入伍領導(USNR)。他曾在現役中擔任電子技術員超過14年,并成為現役預備役軍人達9年之久。
Wallace Fukumae前擁有夏威夷大學的電子工程學位。他目前居住在夏威夷,為海軍太平洋信息戰中心工作,擔任印度-太平洋部門主管。他的經驗包括指揮和控制(C2)系統的開發和交付以及操作。
Kheng Hun目前居住在日本,擁有華盛頓大學的電子工程學位。他目前在海軍信息戰中心(NIWC)太平洋分部工作,擔任位于日本橫須賀的夏威夷西太平洋(HWP)分部的項目工程師。他的專業背景包括設計和安裝各種C4I系統,如電子安全系統(ESS)和網絡系統以及MILCON項目的C4I系統規劃。
Obed Matuga擁有馬里蘭州巴爾的摩市摩根州立大學的工業工程學位,在華盛頓特區的海軍海洋系統司令部工作。與宙斯盾和艦船自衛系統一起工作,目前居住在馬里蘭州。
Caitlyn O’Shaughnessy于2015年畢業于馬薩諸塞大學達特茅斯分校,獲得計算機科學學士學位。她目前是羅德島紐波特的海軍海底作戰中心的CANES(S.S.)項目的首席工程師。
圖3描述了時區團隊(Team Time Zone)的組織結構和每個團隊成員的主要職責。圖中還顯示了NPS的項目顧問,Bonnie Johnson博士(系統工程系)和美國海軍上尉Scot Miller(退役)(信息科學系)。
圖3:團隊時區組織圖
時區團隊采用了系統工程的方法來進行這個項目。圖4說明了該團隊的過程。團隊從需求分析開始,以了解問題并為DON AI/ML開發者定義數據要求。在這個階段,團隊確定了三個DON任務領域作為AI/ML應用的代表性領域。接下來,團隊在功能分析和系統綜合的基礎上,制定了一個名為中央人工智能庫(CAIL)系統的解決方案戰略的概念設計。該小組對CAIL系統進行了建模,并利用DON的三個任務領域來分析實施CAIL系統的效用和潛在的成本/進度效益。該團隊的分析過程涉及幾種分析方法,包括定性調查、定量調查、建模和模擬、數據結構和格式分析、需求分析和操作概念評估。
圖4:頂點項目的方法
首先,該團隊通過進行需求分析和為海軍AI/ML開發人員制定一套數據要求來確定需求的定義。該團隊確定了利益相關者,并與來自不同海軍任務領域的AI/ML開發者會面,以了解他們的數據需求。該小組進行了文獻回顧,以收集背景信息并了解當前的人工智能/ML方法。團隊對來自利益相關者會議和文獻審查的信息進行了匯編,以了解與支持海軍AI/ML應用有關的要求和限制、數據所有者、數據源、數據系統、數據元素和數據屬性。
該小組研究并確定了利益相關者和三個海軍任務主線的獨特數據要求:系統維護、實體安全和戰斗群準備。該小組確定并采訪了任務領域的主題專家(SMEs),以了解獲得AI/ML實施數據的過程,并關注需要從DON系統和組織中收集和存儲哪些數據。圖5說明了海軍的三個任務主線,以及數據、架構、基礎設施和互操作性能力在支持這些作戰人員任務領域方面的直接潛在重要性。
圖5:美國防部任務領域
接下來,團隊根據需求分析結果,制定了一個概念設計方案,以解決海軍對人工智能/ML發展的數據需求。該團隊綜合了CAIL系統,并生成了CAIL操作概念(CONOPS)和CAIL功能模型。基于國防部建筑框架(DODAF)和系統建模語言(SysML),該團隊開發了概念模型,詳細說明了CAIL的系統特征、功能和操作概念。
頂點項目的最后階段是團隊對CAIL解決方案方法的評估和分析。該團隊使用Innoslate(一種基于模型的系統工程工具)開發了一個模型,以表示CAIL系統在三個海軍任務主線中的使用情況。該小組評估了CAIL系統的能力,以簡化和改善收集、格式化、策劃、驗證和確保安全訪問海軍任務數據集的過程,以支持在三個海上任務線領域工作的AI/ML開發人員。對該模型進行了評估,以估計海軍實施CAIL系統的潛在成本和調度效益。CAIL系統模型被用來驗證和確認需求。
第一章提供了項目的介紹和動機,描述了問題陳述、項目目標,以及團隊的組織和完成項目的方法。
第二章總結了團隊的文獻回顧,為需求分析提供了基礎,強調了訓練AI和ML算法所需的數據。文獻回顧包括對數據科學、統計學習、深度學習、分類學以及支持AI和ML系統的企業信息技術解決方案的信息探索。
第三章包含了團隊的需求分析結果。
第四章包含了對團隊的概念性解決方案--CAIL系統的描述。
第五章介紹了團隊對CAIL系統的分析和評估結果,該系統是解決海軍在支持AI/ML發展方面的數據挑戰的解決方案。
最后,第六章討論了擁有CAIL系統的影響和結論以及對后續研究和工作的建議。
收購分析和政策辦公室是國防部負責收購和維持的副部長辦公室(OUSD(A&S))的一部分,該辦公室委托IDA評估使用機器精益分析主要國防收購項目(MDAPs)合同的可行性。分析的目的是從合同中提取數據,并預測項目績效。該研究分為三個階段:爬行、步行和跑步。
爬行階段包括建立一個數據集。在分析的這一階段,收集和處理合同。所選擇的合同在1997年12月至2018年12月期間被列入選定的采購報告(SARs),并且來自截至2019年11月不再報告的MDAPs。對這一時期的合同進行檢查,確保了每個項目都有90%以上的完整性。此外,數據集被限制在這一時期,因此計劃的績效結果是已知的,這在使用機器學習算法進行預測時是必要的。我們收集了24,364份PDF格式的合同文件,涉及149個合同號和34個MDAPs。(最后,我們使用國防分析研究所的文本分析(IDATA)功能,將收集到的文件變成機器可讀的數據集。
在步行階段,通過在我們的數據上訓練機器學習算法來評估合同數據,以回答相對簡單的問題。這項活動確保了數據集具有合理的質量,機器學習算法運行正常,并能產生合理的答案。在這個階段,每個程序都產生了詞云。下圖顯示了兩個程序的詞云,分別是CH-47F和ATACMS-APAM。
ATACMS-APAM計劃的詞云
字云顯示了每個計劃的合同中各種詞匯的頻率,去掉了 "和"、"的"等常見詞匯。這些圖形對于揭示每個項目的文件中最頻繁使用的詞語很有幫助,并有助于確保我們收集到合理的數據。
接下來,我們在這些數據的訓練集上訓練了一個天真貝葉斯分類器,并要求它將每份合同按五個類別之一進行區分:(1)研究、開發、測試和評估(RDT&E);(2)RDT&E修改;(3)采購;(4)采購修改;以及(5)采購運營和維護(O&M)修改。這些類別很容易由人類確定,預計機器學習也會產生同樣的結果。下表顯示了合同類別的分布和每種合同類型的數量。
該算法對80%的文件進行了訓練,然后用來預測其余20%的文件的類別。下面的混淆矩陣顯示了該算法預測合同類型的效果。
文件類型識別的混淆矩陣
對角線元素,也就是最大的數字,顯示了算法在測試樣本中正確識別合同類型的地方。總的來說,該算法對4872個文件中的4607個進行了正確分類,導致總體準確率為94.6%。準確率取決于樣本大小。例如,該算法預測測試數據中的52個文件是RDT&E合同,而95個文件是RDT&E合同,導致近55%的準確率,而3238個采購模式中的3080個,或剛剛超過95%,被正確分類。
后面描述的其他模型表明,合同被成功地轉化為數據。因此,這表明有可能將我們的算法應用于這個數據集,提出相對簡單的問題并獲得合乎邏輯的答案。
在跑步階段,我們提出了更難的預測問題,以測試機器學習算法使用合同數據集來預測項目績效的能力。我們使用Q-比率作為數量增長的衡量標準,使用數量調整后的項目采購單位成本作為成本增長的衡量標準,以及項目結束日期。使用70%的項目來訓練支持向量機(SVM)模型,并對其余30%的項目的績效指標進行預測。支持向量機無法比隨機猜測更好地預測績效。我們還研究了使用聚類來識別類似程序。盡管我們可以識別相似的程序,但很難確定這些程序為什么相似,這表明在這個領域還需要更多的研究。
我們發現,文本分析和機器學習算法很適合從合同中提取信息,并將這些信息轉化為結構化的數據集。盡管我們的分析使用了幾個不同的指標,表明提取的數據對描述性的目的是有用的,但我們無法確定機器學習算法是否能預測項目的表現。然而,這一結果并不意味著用合同數據集預測項目績效是不可行的。它可能意味著,更完整(或不同)的合同集、其他績效指標或替代算法將改善預測結果。此外,為了改善預測,可能有必要將合同數據與其他來源的數據相結合。
疲勞是導致水域事故的一個已知因素,降低了操作效率,并影響了作戰人員的健康。戰士認知狀態的實時反饋將允許提高對能力/限制的認識,并根據戰士的準備情況作出適應性決策。使用機器學習(ML)和可穿戴技術的疲勞檢測/預測項目旨在開發一種ML算法,能夠檢測出副交感神經系統(PNS)的變化,這些變化通過使用商用現成(COTS)腕戴設備檢測,進一步可分析認知疲勞。收集了30名參與者(包括一些現役軍人)執行可量化的警戒任務的生物識別數據集,并對操作者的表現指標和認知負荷進行了注釋。麥克沃思(Mackworth )時鐘是一項廣泛用于心理測量研究以量化認知參與和疲勞的警覺性任務,它的變體被用來生成定量的操作者績效指標和離散的認知負荷狀態。在有注釋的生物識別數據集上訓練和驗證了ML模型,以:1)回歸操作者任務表現的準確性,以及2)對認知負荷/任務難度進行分類。一個訓練有素的卷積神經網絡(CNN)回歸模型能夠預測麥克沃思鐘任務表現的準確性,平均絕對誤差在2.5%以內。此外,一個單獨的CNN分類器模型達到了86.5%的二元任務類型分類準確率,不同類型的任務對應著較高和較低的認知負荷。該研究與開發(R&D)工作的下一階段將包括與海軍有關的任務(即船舶導航、軌道管理和其他站崗任務)的額外測試活動,參與者僅包括現役人員。這項工作的最終目標是提供一個可穿戴設備和配套的軟件,能夠檢測和預測各種與海軍有關的任務的認知疲勞,目的是優化作戰人員的表現,以減少用戶的錯誤或最大限度地提高性能。
戰術軍事陸地行動嚴重依賴地形,因此在軍事決策過程中始終需要考慮地形。地形相關(地理空間)戰術信息產品,例如最佳路線或近場途徑通常由情報單元中的地形分析師確定,但也可以自動生成。這些產品可用于決策支持工具,以支持規劃過程。當在這些決策支持工具中使用機器學習時,這些產品還有助于對軍事單位的行為進行建模,這是通過機器學習找到表現良好的行動方案所需的。這項工作概述了地理空間產品,并將它們分類為基于層的體系結構,其中產品基于底層的產品。我們進一步規范了創建機器學習所需的戰術地形模型和戰術任務模型的步驟。基于兩個實際示例,我們演示了如何在提出的架構中生成地理空間產品,這些產品如何用于機器學習以進行戰術規劃,以及如何將學習到的行動和情報產品提供給規劃者以支持決策。
【導讀】分布式機器學習Distributed Machine Learning是學術界和工業界關注的焦點。最近來自荷蘭的幾位研究人員撰寫了關于分布式機器學習的綜述,共33頁pdf和172篇文獻,概述了分布式機器學習相對于傳統(集中式)機器學習的挑戰和機遇,討論了用于分布式機器學習的技術,并對可用的系統進行了概述,從而全面概述了該領域的最新進展。
?論文地址: //www.zhuanzhi.ai/paper/161029da3ed8b6027a1199c026df7d07 ?
摘要 在過去的十年里,對人工智能的需求顯著增長,而機器學習技術的進步和利用硬件加速的能力推動了這種增長。然而,為了提高預測的質量并使機器學習解決方案在更復雜的應用中可行,需要大量的訓練數據。雖然小的機器學習模型可以用少量的數據進行訓練,但訓練大模型(如神經網絡)的輸入隨著參數的數量呈指數增長。由于處理訓練數據的需求已經超過了計算機器計算能力的增長,因此需要將機器學習的工作負載分布到多臺機器上,并將集中式的學習任務轉換為分布式系統。這些分布式系統提出了新的挑戰,首先是訓練過程的有效并行化和一致模型的創建。本文概述了分布式機器學習相對于傳統(集中式)機器學習的挑戰和機遇,討論了用于分布式機器學習的技術,并對可用的系統進行了概述,從而全面概述了該領域的最新進展。
1. 引言
近年來,新技術的快速發展導致了數據采集的空前增長。機器學習(ML)算法正越來越多地用于分析數據集和構建決策系統,因為問題的復雜性,算法解決方案是不可行的。例如控制自動駕駛汽車[23],識別語音[8],或者預測消費者行為[82]。
在某些情況下,訓練模型的長時間運行會引導解決方案設計者使用分布式系統來增加并行性和I/O帶寬總量,因為復雜應用程序所需的訓練數據很容易達到tb級的[29]。在其他情況下,當數據本身就是分布式的,或者數據太大而不能存儲在一臺機器上時,集中式解決方案甚至都不是一個選項。例如,大型企業對存儲在不同位置的[19]的數據進行事務處理,或者對大到無法移動和集中的天文數據進行事務處理[125]。
為了使這些類型的數據集可作為機器學習問題的訓練數據,必須選擇和實現能夠并行計算、數據分布和故障恢復能力的算法。在這一領域進行了豐富多樣的研究生態系統,我們將在本文中對其進行分類和討論。與之前關于分布式機器學習([120][124])或相關領域的調查([153][87][122][171][144])相比,我們對該問題應用了一個整體的觀點,并從分布式系統的角度討論了最先進的機器學習的實踐方面。
第2節深入討論了機器學習的系統挑戰,以及如何采用高性能計算(HPC)的思想來加速和提高可擴展性。第3節描述了分布式機器學習的參考體系結構,涵蓋了從算法到網絡通信模式的整個堆棧,這些模式可用于在各個節點之間交換狀態。第4節介紹了最廣泛使用的系統和庫的生態系統及其底層設計。最后,第5節討論了分布式機器學習的主要挑戰
2. 機器學習——高性能計算的挑戰?
近年來,機器學習技術在越來越復雜的應用中得到了廣泛應用。雖然出現了各種相互競爭的方法和算法,但所使用的數據表示在結構上驚人地相似。機器學習工作負載中的大多數計算都是關于向量、矩陣或張量的基本轉換——這是線性代數中眾所周知的問題。優化這些操作的需求是高性能計算社區數十年來一個非常活躍的研究領域。因此,一些來自HPC社區的技術和庫(如BLAS[89]或MPI[62])已經被機器學習社區成功地采用并集成到系統中。與此同時,HPC社區已經發現機器學習是一種新興的高價值工作負載,并開始將HPC方法應用于它們。Coates等人,[38]能夠在短短三天內,在他們的商用現貨高性能計算(COTS HPC)系統上訓練出一個10億個參數網絡。You等人[166]在Intel的Knights Landing(一種為高性能計算應用而設計的芯片)上優化了神經網絡的訓練。Kurth等人[84]證明了像提取天氣模式這樣的深度學習問題如何在大型并行高性能計算系統上進行優化和快速擴展。Yan等人[163]利用借鑒于HPC的輕量級概要分析等技術對工作負載需求進行建模,解決了在云計算基礎設施上調度深度神經網絡應用程序的挑戰。Li等人[91]研究了深度神經網絡在加速器上運行時對硬件錯誤的彈性特性,加速器通常部署在主要的高性能計算系統中。
與其他大規模計算挑戰一樣,加速工作負載有兩種基本的、互補的方法:向單個機器添加更多資源(垂直擴展或向上擴展)和向系統添加更多節點(水平擴展或向外擴展)。
3. 一個分布式機器學習的參考架構
圖1 機器學習的概述。在訓練階段,利用訓練數據和調整超參數對ML模型進行優化。然后利用訓練后的模型對輸入系統的新數據進行預測。
圖2 分布式機器學習中的并行性。數據并行性在di上訓練同一個模型的多個實例!模型并行性將單個模型的并行路徑分布到多個節點。
機器學習算法
機器學習算法學習根據數據做出決策或預測。我們根據以下三個特征對當前的ML算法進行了分類:
反饋、在學習過程中給算法的反饋類型
目的、期望的算法最終結果
方法、給出反饋時模型演化的本質
反饋 訓練算法需要反饋,這樣才能逐步提高模型的質量。反饋有幾種不同類型[165]:
包括 監督學習、無監督學習、半監督學習與強化學習
目的 機器學習算法可用于各種各樣的目的,如對圖像進行分類或預測事件的概率。它們通常用于以下任務[85]: 異常檢測、分類、聚類、降維、表示學習、回歸
每一個有效的ML算法都需要一種方法來迫使算法根據新的輸入數據進行改進,從而提高其準確性。通過算法的學習方式,我們識別出了不同的ML方法組: 演化算法、隨機梯度下降、支持向量機、感知器、神經網絡、規則機器學習、主題模型、矩陣分解。
圖3所示:基于分布程度的分布式機器學習拓撲
4. 分布式機器學習生態系統
圖4所示。分布式機器學習生態系統。通用分布式框架和單機ML系統和庫都在向分布式機器學習靠攏。云是ML的一種新的交付模型。
5 結論和當前的挑戰
分布式機器學習是一個蓬勃發展的生態系統,它在體系結構、算法、性能和效率方面都有各種各樣的解決方案。為了使分布式機器學習在第一時間成為可行的,必須克服一些基本的挑戰,例如,建立一種機制,使數據處理并行化,同時將結果組合成一個單一的一致模型。現在有工業級系統,針對日益增長的欲望與機器學習解決更復雜的問題,分布式機器學習越來越普遍和單機解決方案例外,類似于數據處理一般發展在過去的十年。然而,對于分布式機器學習的長期成功來說,仍然存在許多挑戰:性能、容錯、隱私、可移植性等。