高光譜線掃描儀提供了大量的數據,從這些數據中可以得出信息并意識到潛在的威脅。然而,由于必須處理的數據量太大,對這些數據的實時分析很困難;因此,這些數據歷來都是經過后處理的。我們通過研究高階統計(偏度和峰度)和信息理論(熵)來使用傳入數據的統計表示,為每個傳入光譜提供特定的概率分布函數數據,從而減少計算負擔。在2020-2021財年的這項工作中,我們表明,我們對數據的統計表示可以用于異常檢測。我們通過收集數據,處理實驗和模擬光譜,為統計分析開發地面實況,以及對使用我們的數據進行預處理的分析來做到這一點。此外,我們確定,使用半監督機器學習來實施我們的算法,可以對我們獲得的高光譜數據進行實時分析(100毫秒的幀率,每幀250個光譜)。這種算法可以在需要立即了解情況的情況下實施,從而提高作戰人員的殺傷力。
獲得戰術優勢并不總是意味著決定性地確定關于周圍環境的信息。獲得戰術優勢的一種方式是通過異常檢測,例如,發現獨特或不預期的事情。根據Chandola等人的說法,異常檢測是 "在數據中找到與預期行為不一致的模式"。獲得戰術優勢可以簡單到了解什么時候有不符合模式的東西,并可能引起關注。從作戰人員在戰場上獲得戰術優勢的角度來看,異常檢測可以指示出目標或噪聲信號流中感興趣的情況。因此,異常檢測可以松散地通過信號檢測理論的眼光來看待必須做出決定的噪聲信號。更具體地說,異常檢測可以是一種新穎性檢測,其中新穎性不是訓練方法的一部分。存在許多異常檢測技術,這些技術包括(但不限于)分類、聚類、近鄰、統計、信息論和光譜異常檢測技術。
所采用的異常檢測器的類型不僅僅取決于被分析的數據類型,更取決于數據的管理或處理方式。例如,高光譜數據是與光譜信息同時收集的空間信息,形成一個三維的超立方體信息,如圖1(左)所示,可用于表面威脅分析。也有一些技術可以在光譜數據中找到異常點。然而,當它們應用于高光譜數據時,往往計算成本很高。大多數高光譜處理技術都是一次性處理整個超立方體。 由于需要實時分類和處理的數據量太大,實時處理數據會變得計算量過大,必須實現減少計算負擔的方法來接近實時分析。
有一些方法旨在減少高光譜分析中處理的數據量,這些方法大多依賴于多頻段分析。可以利用幾個光譜帶從高光譜數據集中獲得相關的信息,如圖1(中間和右邊)所示。這可以有效地減少正在處理的數據量,但它也依賴于存在的一小部分光譜數據,導致更快速的處理。
圖1:由空間分離的光譜組成的高光譜超立方體(左),可表示為光譜的單幀掃描(中),并可處理為概率分布,得出可用于分析的參數(右)。
圖2:一個信號(如頻譜)(A)通過頻譜Y軸上的強度值進行分檔,并計算出出現的次數(B)。這個分布可以用來進行信息論計算,或者用適當的函數來擬合高階統計(C)。
我們采用兩種方法來降低信號的維度,首先是檢查頻譜值的概率密度函數(PDF),計算高階統計(HOS)和信息論技術。信號的PDF(圖2B和圖2A,分別),包括頻譜的PDF,是通過將強度值分組并計算出現次數產生的。當分組和計數時,PDF可用于計算信息論參數,或用適當的函數擬合以計算相關的HOS,如圖2C所示。
在數學上,HOS是一個求和序列,在計算上沒有負擔,從而減少了處理數據的時間。具體來說,在這項工作中,我們試圖采用偏度和峰度,它們分別是PDF的第三和第四時刻。HOS在數學上被描述為:
其中mk是第k個時刻,n是數據的長度,σ是數據的標準差,???是數據的樣本平均值。偏度提供k = 3,峰度提供k = 4。圖3是HOS的一個直觀表示。圖3A顯示了隨著偏度和峰度的變化,分布的變化方式。圖3A中心的凹陷灰色箭頭在圖3B中表示。可以清楚地看到,隨著偏度變正(上行),分布向左移動,而隨著偏度變負(下行),它向右移動。當峰度大于3時(右列),分布變得更尖,而當峰度小于3時(左列),分布變得更平頂。正態分布的偏度和峰度分別等于0和3,如圖3A中的中間分布和圖3C中所示。因此,擬合PDF講的是PDF的形狀,當PDF由于光譜特征而發生變化時,相關的HOS也會發生變化。
熵利用的是對數函數,可以用查找表快速而容易地確定,也是一種求和:
其中S是熵,p是事件x發生的概率,通過規范化的發生率確定。雖然HOS有助于解釋PDF的形狀,但熵是指一個特定PDF中的信息量。這將隨著光譜中峰的數量(但不是位置)的變化而變化,因為這必然會改變PDF。這些的組合可以用來描述譜的變化。
圖3:改變HOS的估計分布(A),HOS如何變化,如(A)中心的正態分布(B)和HOS采取的正態分布的值(C)所代表的。
在這份報告中,我們提供了我們在2020年和2021年財政年度完成的對高光譜實時威脅異常檢測(Hyper Thread)的研究,重點是爆炸物。首先,我們展示了不同的PDF如何改變熵和HOS,包括當PDF中存在一個以上的模式時。隨后,我們分析了峰度如何可能被用作識別閾值的機制。第3.3節深入探討了高光譜數據的參數化以及如何使用我們所使用的儀器的數據。隨后,第3.4節概述了我們開發的算法以及如何在實時分析中采用上述參數,并在實驗室環境中全面實施該算法。第3.5節討論了開發和分析地面實況以適當地描述算法的性能。最后,在第3.6節中討論了使用輻射校正的必要性以及對太陽和人工照明的差異的分析。
認知型雷達,根據IEEE標準雷達定義686[1],是 "在某種意義上顯示智能的雷達系統,根據不斷變化的環境和目標場景調整其操作和處理"。特別是,嵌入認知型雷達的主動和被動傳感器使其能夠感知/學習動態變化的環境,如目標、雜波、射頻干擾和地形圖。為了達到探測、跟蹤和分類等任務的優化性能,認知雷達中的控制器實時適應雷達結構并調整資源分配策略[2, 3, 4]。對于廣泛的應用,已經提出了不同的適應技術和方法,例如,自適應重訪時間調度、波形選擇、天線波束模式和頻譜共享,以推進認知雷達背景下的數學基礎、評估和評價[5, 6, 7, 8, 9, 10]。
雖然認知方法和技術在提高雷達性能方面取得了很大進展,但認知雷達設計和實施的一個關鍵挑戰是它與最終用戶的互動,即如何將人納入決策和控制的圈子。在國家安全和自然災害預報等關鍵情況下,為了提高決策質量和增強態勢感知(SA),將人類的認知優勢和專業知識納入其中是必不可少的。例如,在電子戰(EW)系統中,在設計適當的反措施之前,需要探測到對手的雷達。在這種情況下,戰役的進程和成功取決于對一個小細節的觀察或遺漏,僅靠傳感器的自動決策可能是不夠的,有必要將人納入決策、指揮和控制的循環中。
在許多應用中,人類也充當了傳感器的角色,例如,偵察員監測一個感興趣的現象(PoI)以收集情報。在下一代認知雷達系統中,最好能建立一個框架來捕捉基于人類的信息來源所建議的屬性,這樣,來自物理傳感器和人類的信息都可以被用于推理。然而,與傳統的物理傳感器/機器4的客觀測量不同,人類在表達他們的意見或決定時是主觀的。人類決策的建模和分析需要考慮幾個因素,包括人類的認知偏差、處理不確定性和噪音的機制以及人類的不可預測性,這與僅由機器代理組成的決策過程不同。
已經有研究工作利用信號處理和信息融合的理論來分析和納入決策中的人類特定因素。在[11]中,作者采用了先驗概率的量化來模擬人類在貝葉斯框架下進行分類感知而不是連續觀察的事實,以進行協作決策。在[12,13]中,作者研究了當人類代理人被假定使用隨機閾值進行基于閾值的二元決策時的群體決策性能。考慮到人類受到起點信念的影響,[14]中研究了數據的選擇、排序和呈現對人類決策性能的影響。在人類協作決策范式中,已經開發了不同的方案和融合規則來改善人類人群工作者的不可靠和不確定性[15, 16]。此外,在[17,18]中,作者將前景理論(PT)用于描述人類的認知偏見,如風險規避,并研究了現實環境中的人類決策行為。在[19, 20]中也探討了基于人類和機器的信息源在不同場景下的信息融合。在[19]中,作者表明,人類的認知力量可以利用多媒體數據來更好地解釋數據。一個用戶細化階段與聯合實驗室主任(JDL)融合模型一起被利用,以在決策中納入人類的行為因素和判斷[20]。
未來的戰場將需要人類和機器專業知識的無縫整合,他們同時在同一個環境模型中工作,以理解和解決問題。根據[21],人類在隨機應變和使用靈活程序、行使判斷和歸納推理的能力方面超過了機器。另一方面,機器在快速反應、存儲大量信息、執行常規任務和演繹推理(包括計算能力)方面勝過人類。未來雷達系統中的高級認知尋求建立一種增強的人機共生關系,并將人類的優點與機器的優點融合在一起[22]。在本章中,我們概述了這些挑戰,并重點討論了三個具體問題:i)人類決策與來自物理傳感器的決策的整合,ii)使用行為經濟學概念PT來模擬人類在二元決策中的認知偏差,以及iii)在相關觀測下半自主的二元決策的人機協作。
本章的其余部分組織如下。在第11.1節中,我們介紹了一項工作,說明如何將人類傳感器的存在納入統計信號處理框架中。我們還推導出當人類擁有機器無法獲得的輔助/側面信息時,這種人機一體化系統的漸進性能。我們采用行為經濟學的概念前景理論來模擬人類的認知偏差,并在第11.2節中研究人類在二元假設檢驗框架下的決策行為。第11.3節討論了一種新的人機協作范式來解決二元假設檢驗問題,其中人的知識和機器的觀察的依賴性是用Copula理論來描述的。最后,我們在第11.4節中總結了與這個問題領域相關的當前挑戰和一些研究方向,然后在第11.5節中總結。
在這份報告中,我們提出了一種數據驅動的方法,用于實驗室技術載具的閉環控制。我們使用近似策略優化(PPO)算法,這是一種強化學習算法,已被證明在各種任務中表現良好。PPO的成功是由于它在尋找解決方案方面的穩定性,此外還具有策略梯度方法的許多積極特性。雖然PPO在整個文獻中被證明是成功的,但在獎勵稀疏的情況下,它確實受到了影響;這恰好是我們的精確彈藥應用的情況,其目標是擊中一個特定目標。為了解決這個稀疏獎勵的問題,我們提出了一個圍繞PPO的課程學習方法。該課程將學習分為幾個階段,這些階段的復雜度逐漸增加,緩解了獎勵信號的稀疏性。所提出的方法被證明優于沒有課程的學習方法。
最近,用于自主系統的引導、導航和控制的數據驅動方法已經得到了普及。這要歸功于機器學習的最新進展,特別是深度學習和人工神經網絡。強化學習(RL)是深度學習的一種類型,旨在利用與環境的互動來學習從環境狀態到代理行動的適當映射,從而使所需的輸出最大化。這個程序的靈感來自于自然過程,因為大多數生物系統通過大量的行動和隨后的反饋來學習在其環境中的操作。在RL中,來自環境的反饋被稱為獎勵信號。系統試圖調整輸入以最大化這個期望的獎勵信號。系統的輸入被定義為代理行動,而狀態和獎勵是從環境中觀察到的。這些收集的數值被用來驅動學習過程。在這項工作中,我們提出了一種RL方法來開發一個遠程精確武器的閉環控制方案。我們在本報告中使用的數據驅動的方法是基于近似策略優化(PPO)RL算法的。
快速發展的機器學習行業導致了RL的新進展,使新穎的、數據驅動的方法能夠用于控制開發。即使是高度密集的輸入,如圖像幀,也可以推斷出行動,使性能最大化。很多時候,這種方法使閉環控制更加直接,如在基于視覺的系統中,基于圖像的算法將不必與控制分開獨立開發。這種非常規的方法與傳統的控制器設計相反,它是一種基于模型的方法,依賴于系統模型的近似。由于參數的不確定性和/或系統的非線性而做出的近似,往往阻礙了基于模型的方法,導致控制器性能不足或保守的控制器。例如,自主特技飛行是一個具有挑戰性的控制問題,因為它需要在飛行包絡線的邊緣進行精確控制。盡管傳統的、基于模型的方法在面對不相干的情況時可能表現不佳,但它們確實對已知的操作領域提供了寶貴的性能保證,使它們通常是安全的和可預測的。另外,無模型方法需要較少的模型開發和調整來得出閉環控制。純粹的數據驅動,無模型方法可以學習系統的復雜性,甚至可以擴展使用的代理數量。然而,他們需要更多的數據,而且控制設計中的性能保證可能更難實現。
RL方法得益于環境的簡化,如獎勵的塑造或行動空間和狀態的離散化,以實現更快的學習。在經典的RL任務中,可以同時收集行動和獎勵,以不斷調整策略和最大化獎勵。現實世界的問題很少以允許這種方式提出。例如,當訓練一個自主代理找到一個迷宮的盡頭時,在每個時間步驟中,沒有跡象表明代理正在對系統應用正確的行動,直到它達到時間范圍或目標。這些類型的問題注定要用稀疏的獎勵信號來定義。為了幫助使用稀疏獎勵的學習,設計者可以塑造獎勵以持續提供反饋。這種成型的獎勵有一個缺點,即無意中支配了閉環控制的解決方案,減少了通過允許代理不定向探索而獲得的緊急解決方案的機會。然而,當有廣泛的領域知識可供利用時,這種方法仍有其優點。好奇心驅動的方法采取相反的方法,鼓勵對不為人知的領域進行探索。這已被證明在許多環境中是有效的,因為好奇心是唯一的獎勵信號。另一種方法是將系統結構化,使其逐步學習更難的任務以獲得期望的目標。這被稱為課程學習,其中課程是系統必須逐步學習的逐漸困難的任務的集合。這里的想法是,當任務容易時,獎勵會在開始時更頻繁地出現,為RL算法提供有價值的反饋,以用于調整其控制器。
RL已經在許多空間得到了實現,包括醫療、社會和工程應用。在本報告中,我們應用RL來控制一個智能彈藥。以前關于導彈制導的RL的工作利用獎勵塑造方法來克服稀疏的獎勵問題。如前所述,這種方法可能導致系統不探索對設計者來說不直觀的路徑。由于彈丸的高度不確定性和非線性動力學,自主彈藥制導、導航和控制是一項艱巨的任務。由于在估計視線率和走時方面的挑戰,比例導航可能難以實現。
比例導航是基于線性化的嚙合幾何,這可能不適合于整個軌跡。這常常導致從 "中途 "制導法和 "終點 "制導法轉換的臨時決定點。估計方面的一些困難來自于系統的非線性,這迫使控制設計者對系統進行近似和線性化。一些用于射彈控制的系統使用飛行方程的數值微分,這導致控制決策是基于由噪聲測量產生的可能錯誤的狀態。數據驅動的方法對這些系統可能是有利的。然而,由于稀疏的獎勵信號,機器學習過程非常困難。
在這份報告中,我們提出了一種將RL應用于智能射彈的閉環控制這一難題的方法。我們設計了一個OpenAI gym環境,其中嵌入了一個功能模擬單元(FMU)模型,以密切模擬真實的射彈。因此,由于尋找有用的控制策略所需的探索任務的規模,這個問題比經典的RL任務更加困難。這里的狀態包括位置、速度和與目標的距離。輸入動作是在身體框架的水平和垂直方向上的加速指令。由于我們的問題中存在稀疏的獎勵,因此實施了一種課程學習方法,其中課程的各個階段與從大到小的 "目標 "尺寸一致。我們通過實驗表明,通過這個系統,我們可以學會駕駛智能彈藥并精確地擊中目標。
我們在第3節中介紹了我們的環境模擬,在第4節中提供了PPO算法的概述,在第5節中介紹了我們的課程學習方法,在第6節中給出了訓練的概述,然后在第7節中介紹了我們的結果。
美國陸軍未來司令部的士兵致命性(SL)跨職能小組(CFT)正在研究通過頭戴式和武器式能力的組合來增強下馬步兵的新方法。根據SLCFT的指示,美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室的研究人員探索了加強輔助目標識別能力的技術,作為陸軍下一代智能班組武器計劃的一部分。
敵對環境中涉及潛在目標的復雜決策必須由下馬的士兵做出,以保持戰術優勢。這些決定可能是人工智能(AI)技術的強大信息,如AI支持的火力或指揮和控制決策輔助工具。例如,一個士兵發射武器是一個明確的跡象,表明該地區有一個敵對的目標。然而,一個士兵在環境中追蹤一個潛在的目標,然后放下他們的武器,這是一個模糊的、隱含的跡象,表明該目標受到關注,但最終被該士兵認為不是一個直接的威脅。在近距離作戰的環境中,與士兵狀態相關的隱性標記數據(如光電視頻、位置信息或火力行動)可用于輸入決策輔助工具,以得出真實的戰場背景。然而,需要對這些行動進行更徹底的檢查。此外,來自單個士兵的突發非交流行為在整個班級中的匯總可以增強戰術態勢感知。盡管它們有可能產生戰術影響,但這些狀態估計或行為指標往往不能以立即可用的形式獲得。
DEVCOM陸軍研究實驗室(ARL)的研究人員調查了一種通過機會主義感應來進行下馬士兵狀態估計的方法--一種不需要人類明確行動就能收集和推斷關鍵的真實世界數據的方法。在通過正常使用武器追蹤和攻擊移動和靜止目標時,連續獲得數據以解釋士兵的行為。這項工作中使用的士兵-武器行為分類方法主要來自人類活動識別(HAR)研究。然而,在這項工作中,為了提高行為結果的生態有效性,在眼球追蹤文獻中經常使用的實驗范式被反映出來,將眼球運動和認知推理聯系起來。具體來說,眼動跟蹤研究的一個子集的目標是收集和解釋與公開的視覺注意力有關的眼動事件(即固定、囊狀運動和追逐),這可以揭示認知過程和關于環境的客觀內容。在戰斗中,士兵們可能會將他們的目標停留在一個靜態的目標上(固定),當出現新的目標時迅速轉換目標點,有潛在的目標出現(囊狀運動),或者在潛在目標移動時跟蹤他們的目標點(平滑追擊)。
目前,頭戴式眼動跟蹤技術正在開發用于戰斗。然而,與校準誤差有關的凝視數據中的噪聲使其難以有效地使用這些數據。一個更突出的解決方案可能存在于士兵和他們的武器之間的互動中,這項工作使用傳統的HAR技術進行。執行HAR的主要方法是在一個人進行一些身體活動時,使用慣性測量單元收集時間序列數據。然后使用機器學習技術來訓練分類模型,根據數據信號預測行動。這種方法可以擴展到包括在人類與物體互動時對其運動的分類。在這種情況下,當近距離作戰的士兵與潛在的威脅進行互動時,武器的運動特征被伺機獲得,這為這些士兵在這種環境中做出的復雜決定提供了一個窗口。
論文中記錄并發表了對這一評估的全面分析。對來自動態士兵狀態估計的運動數據進行建模和分析以實現對形勢的理解。
美國陸軍作戰能力發展指揮部分析中心創建了一種算法,用于估計定位、導航和授時(PNT)傳感器和系統的目標位置誤差。即使系統用來尋找感興趣目標的確切算法是專有的或未知的,該算法也可以使用。該程序具有高度的模塊化和可擴展性;因此,相對來說,添加各種不同的PNT傳感器、系統和目標是很容易的。然而,目前僅有的傳感器是使用到達時間差、到達頻率差和/或到達角度的信號智能系統,以及可能有激光測距儀和測量校準源輻射的光子計數探測器的電子光學/紅外(EO/IR)系統。
美國防部有各種傳感器,作戰人員可以用它們來尋找位置。一些傳感器可以讓作戰人員找到潛在的威脅。如果作戰人員目前不能使用GPS,他們可能需要使用傳感器來確定自己的位置。傳感器可以單獨使用,也可以在更復雜的情況下連接在一起,以估計一個感興趣的物體的位置。為了確保美國陸軍為作戰人員配備能夠執行任務的傳感器,建立一個能夠估計這些位置傳感器在任何情況下的性能的模型至關重要。
美國陸軍作戰能力發展司令部(DEVCOM)分析中心需要一種算法來估計正在進行定位、導航和授時(PNT)計算的各種傳感器和系統的性能。DEVCOM分析中心(DAC)開發了多用途通用簡化TLE計算器(MUSTC)模型,該模型可用于查找各種傳感器的目標位置誤差(TLE),進而用于定位各種物體。
MUSTC算法并不要求用戶了解系統如何使用傳感器的測量結果來確定位置。在MUSTC軟件中添加一個新的傳感器類型所需要的只是一個模型,該模型可以估計傳感器測量的原始值,作為傳感器和目標參數以及它們的位置的函數。
為了使算法能夠確定TLE,算法需要知道所有參考傳感器和目標在場景中的位置、可能影響位置測量的變量和這些變量的不確定性,以及用戶希望為感興趣的項目計算TLE值的空間位置。然后,該算法將假定感興趣的物品在名義上位于用戶想要估計TLE的位置。一旦知道了位置,軟件就可以使用測量模型來確定傳感器將為該場景測量什么。然后,該軟件可以使用這些測量結果,以及優化算法,來確定感興趣的項目在空間指定點的TLE。
該算法的主要優點是,它可以擴展到確定來自不同傳感器類型的測量的各種不確定性如何影響總TLE,或找到感興趣的項目的位置的不確定性。
該算法的主要缺點是,由于反復調用實現優化算法的函數來計算TLE,所以計算有時會很耗時。程序可以使用許多優化算法,有些算法比其他算法快。即使程序使用一個相對較快的優化算法,如果優化算法被調用足夠多的次數,計算時間仍然會增加。DAC努力減輕這一缺點,找到了可用的最快的優化算法,但仍能產生正確的答案,將程序寫成多線程應用程序,以便利用大多數現代計算機處理器的多個核心,并試圖在最終結果的準確性和必須調用優化算法的次數之間找到最佳平衡。
2022 年 10 月 11 日,美國陸軍發布了一份綜合數據計劃(ADP),這是一種全軍范圍內改進數據管理以確保陸軍成為以數據為中心的組織的方法。
該計劃是一項為期三年的工作,將改善整個陸軍的數據管理、數據治理和數據分析。作戰任務是陸軍數據計劃的當前重點。ADP 在該任務領域的成果是通過進行必要的更改來確保作戰人員的數據得到正確管理和使用,從而為作戰人員提供優勢。陸軍已經開始對數據管理能力、工具和模型進行原型設計,以實現這一目標。
陸軍首席信息官 Raj Iyer 博士說:“數據以及如何在所有梯隊中整合這些數據以實現真正快速、敏捷的決策,才是真正為陸軍提供其在未來戰爭中所需的競爭優勢的關鍵。”
數據和數據分析將為 2030 年的陸軍提供動力。士兵將需要在正確的時間和正確的地點獲得正確的數據,以便在每個梯隊做出更快、更好的決策——以超越任何對手的思維和步伐。
與早期的軍事行動相比,現在的戰爭范圍更大且范圍不斷擴大。作為聯合全域作戰的一部分,多域作戰是陸軍必須準備并贏得下一場戰斗的地方。這是一個數據豐富的環境。
每個領域都有自己的信息和數據流,一些信息來自開源情報,一些來自天基傳感器,還有一些來自網絡空間。今天的士兵和指揮官需要跨領域的綜合來主宰戰場。
ADP 概述了工作的組織并提供了總體戰略目標。它側重于中期努力,未來將被另一個更新所取代。
通過陸軍數據計劃實現這一決策優勢是陸軍的關鍵目標。
本備忘錄報告是對美國海軍研究實驗室(NRL)資助項目 "對抗性在線學習"研究成果的總結,該項目資助周期為2017財年到2020財年。其主要目標是研究和展示在線機器學習算法的安全漏洞,并以博弈論分析和計算方法為支撐進行利用和反制。
對抗性在線學習項目中的目標是研究和展示在線機器學習算法的安全漏洞,并以博弈論分析和計算方法來支持開發和反措施。人工智能和機器學習算法經常被建模為具有單一目標函數的解決方案,這暗示著存在非智能對手。對抗性環境意味著有多個具有競爭性目標的智能Agent,需要一種更復雜的解決方法,這正是我們所尋求的。
美國海軍研發框架(Naval R&D 框架)包括機器學習和推理算法,其是自主和無人系統的智能推動器。這項研究將學習與推理相結合,以減輕對手對數據的欺騙性操縱,從而影響旨在保護我們資產的在線學習算法的預測。此外,為了實現信息主導地位,未來的系統必須包括利用和操縱對手數據的能力,并保護我們數據的完整性。這項研究在信息主導權方面具有防御性以及進攻性的用途。
美國海軍信息優勢路線圖預測,未來的作戰環境將是高度競爭和信息密集的。它要求對對手進行快速分析和生成情報。探測對手的算法正在改進并變得越來越動態。然而,這些算法并不 "知道 "何時以及如何通過欺騙來隱藏自己的弱點,或對沖他們對數據的欺騙性操縱的預測,而這正是本研究的目標。
四年一度的國防審查和國防戰略越來越強調網絡空間對國家安全的重要性以及潛在對手探測我們關鍵基礎設施的風險。減輕網絡風險需要發展創新的行動概念,以挫敗對手戰略。
技術方法是基于一個博弈論的計算框架,我們將對抗性機器學習的問題視為一個被稱為學習器或防御器的機器學習算法與對手或攻擊者之間的博弈。
對抗性機器學習的背景。我們的研究主要考慮有監督的機器學習算法。在有監督的機器學習中,學習器被提供了一組稱為訓練集的樣本。訓練集中的每個樣本都可以被看作是從一組輸入變量或特征到稱為標簽或類別的輸出變量的映射。學習器的目標是通過觀察訓練集中的樣本(輸入和輸出對)來學習這種映射。訓練結束后,學習器使用其學到的映射來預測輸入的標簽,稱為查詢,其輸出或標簽并沒有提供給學習器。換句話說,機器學習算法使學習器能夠自動確定一個查詢的輸出。舉個例子,如果學習器是一個自動的垃圾郵件過濾器,對學習器的查詢可能是一個電子郵件的文本,而學習器則輸出該郵件是否是垃圾郵件。對抗性機器學習為上述機器學習問題增加了另一個層次的復雜性:對抗者通過不知不覺地修改有效的查詢來向學習器提供可疑的查詢,從而誤導學習器的輸出。例如,一個垃圾郵件發送者可以改變合法電子郵件中的有效超鏈接的幾個字符,并將超鏈接重定向到一個惡意網站,使該電子郵件成為有害或垃圾郵件。但是,學習器可以把不正確的超鏈接解釋為一個打字錯誤,并把修改后的電子郵件歸類為非垃圾郵件。對手略微修改合法軟件可執行文件的類似活動可以將良性軟件轉化為惡意軟件,從而繞過自動惡意軟件檢測器,嚴重損害受保護的計算機系統。顯然,在對抗性機器學習中,學習器有兩個目標:其主要目標是學習有效訓練實例的基礎功能,此外,還要學習識別和正確分類對抗者發送的查詢。在本報告的其余部分,我們根據討論的背景,交替使用了學習器和防御器,以及攻擊者和對手這些術語。
我們的技術方法將學習器和對手之間的互動建模為一個2人博弈。為此,學習器從過去與對手的互動中建立了一個對手的行為模型。然后,學習器與對手的模型進行多次互動,稱為博弈,以便從對手那里獲得不同的攻擊策略并確定相應的反應。例如,在我們的自動垃圾郵件檢測器學習者的例子中,學習器收到的詢問是對對手的模型所發送的電子郵件文本的不同修改。然后,學習器計算出適當的反應,以正確歸類敵方的電子郵件以及來自非敵方的合法電子郵件。我們在學習器與對手的博弈框架中考慮了三個主要方向,如下所述:
1.機器探測:我們專注于兩個問題:(1)如何找到學習器的盲點以操縱預測,以及(2)如何探測學習器以泄露有關其可預測性的信息以達到規避目的。這種類型的互動對應于探索性攻擊,試圖獲得關于學習器的信息(例如,它的偏見、它的特征或它的訓練數據)。
2.機器教學:這里的主要問題是如何毒害學習者,使其在盡可能少的嘗試中做出不準確的預測。這種類型的互動對應于通過訓練數據直接影響學習器的致病攻擊。機器教學被認為是機器學習的一個逆向問題,它將目標模型映射到一組樣本上。
3.反制措施:這方面的研究解決了從機器探測和機器教學中引出的漏洞。我們努力開發一個元學習器,作為學習器的封裝,它將權衡學習器的行動與自適應對手的關系,后者根據學習器的預測動態地演變其戰術。對于博弈的每個方面,探測或教學,我們在對手和學習器之間設置了一個博弈,對手的行動是對數據的操作,而學習器的行動是使用哪種策略來進行預測或攝取數據。收益是錯誤分類風險和學習器特征評估成本與修改對手數據成本的比值。我們的評估基于與非對抗性學習器的性能差異。
總之,我們的技術方法是在機器學習和計算博弈論的交叉點。該研究涉及分析和開發攻擊者與防御者之間的博弈,其中對手試圖回避或學習學習器使用的機器學習算法的信息,對手試圖主動修改學習器使用的機器學習算法的機器教學,以及反制措施,即學習器學會對對手的機器探測和機器教學相關行動做出戰略反應。
我們按財政年度總結了項目的主要結果和成果,如下所述。
在項目的第一年,我們研究對比了應用于網絡安全的生成性和判別性機器學習(ML)模型。我們開發了一個基于深度學習的ML模型,利用字符級卷積神經網絡(CharCNN)[1]將電子郵件文本數據分類為垃圾郵件或非垃圾郵件,并使用Kaggle電子郵件和安然電子郵件數據集驗證了該ML模型(//www.kaggle.com/venky73/spam-mails-dataset,//www.kaggle.com/wanderfj/enron-spam)。我們還在[2]中發表了一個初步的基于博弈論的框架,使基于ML的分類器能夠預測它所收到的查詢是合法的還是來自對手的探測攻擊。
該項目涉及使用快速梯度符號法(FGSM)[3]從圖像數據的干凈樣本中生成擾動樣本的算法。該技術在生成來自MIST數據集的手寫數字的擾動圖像方面得到了驗證[4]。
在項目的第二年,主要致力于開發ML技術,用于模擬對手生成對抗性數據的策略。最近關于最先進的網絡安全技術的調查顯示,電子郵件文本和網絡數據包經常被攻擊者用來繞過網絡防御,如電子郵件垃圾郵件過濾器或惡意軟件檢測器[5, 6]。基于這一觀察,主要使用字符串數據,如電子郵件和社交媒體上的帖子的文本數據,以及網絡流量數據作為我們研究的主要數據模式。
作為第一個任務,開發了一個生成對抗性文本數據的算法。實現了Liang等人[7]的算法的一個略微修改版本,用于對文本數據樣本進行最小化的擾動,以生成一個對抗性樣本。Liang等人的原始算法被設計為戰略性地確定在一個給定的干凈文本樣本中改變哪些字符和多少字符,從而使改變后的文本被分類為與干凈文本不同的標簽,而該模型已被預先訓練為文本數據的分類。我們略微修改了算法,使干凈文本中要被擾亂的字符數可以作為算法的輸入參數來指定。這使我們能夠對使用不同擾動量或擾動強度的對手進行建模,這與他們的能力(如可用的預算、計算資源等)相稱,以從干凈的數據中產生對抗性數據。
接下來,我們研究了當對手的預算有限時產生對抗性數據的問題。對用于分類查詢的ML模型的參數和超參數的了解是對手產生成功規避攻擊的一個關鍵因素。這種知識通常由對手通過發送查詢和觀察分類器的輸出或預測來探測分類器而獲得。現有的文獻主要考慮了對手可用的ML模型參數知識的兩個極端:白盒,即對手有完全的知識,和黑盒,即對手沒有知識。白盒攻擊通常需要對手有大量的預算來發送幾個探針,而黑盒攻擊則假設對手沒有預算來發送探針并獲得ML模型參數的知識。然而,在許多現實生活中,對手可能有有限的預算,可以負擔得起發送幾個探針以獲得ML模型參數的部分知識。我們研究了一個預算有限對手的場景,稱為灰盒技術[8]。我們用一個基于深度學習的文本分類器評估了我們提出的灰盒技術,同時對一個名為DBPedia(
我們研究的最后一個問題是確定文本數據的有效向量表示或嵌入,因為有效的數據表示將使防御者的分類器能夠快速計算出查詢的類別或標簽,同時減少錯誤。大多數現有的生成文本數據嵌入的技術都是在字符級或詞級對文本進行編碼。這兩種表示法都有一定的缺陷:字符級表示法會導致非常大的矢量表示法,消耗空間并需要更多的計算時間,而詞級表示法會導致對不太常用的詞的矢量表示法效率低下,或者對以前未見過的詞沒有表示,導致在從干凈的文本樣本中生成對抗性樣本時,矢量數學計算不精確。我們開發了一種混合的字詞嵌入,其中一個叫做注意力的自適應參數被用來動態地確定是使用字符級還是字詞級編碼來確定一段文本中每個字的向量表示[9]。該技術在一個由學生用英語書寫的考試答案的開源數據集上進行了評估,該數據集被稱為 "劍橋學習者語料庫-英語第一證書"(CLC-FCE)數據集(
我們還組織并主持了一個題為 "網絡安全中的對抗意識學習技術和趨勢 "的研討會,作為AAAI 2018秋季系列研討會的一部分,在弗吉尼亞州阿靈頓舉行。研討會上,人工智能和網絡安全領域的知名研究人員發表了兩個主題演講,并發表了十篇關于對抗性學習的同行評審研究論文。我們在2018年10月的 "AAAI對抗性學習技術和網絡安全趨勢研討會(ALEC 2018)論文集 "上發表了在線研討會的會議記錄[10]。
在這一年里,我們的研究重點是將博弈論與ML結合起來,以開發針對ML模型的對抗性攻擊的反制措施或防御措施。我們今年的主要貢獻是開發了一個新的基于博弈論的框架和算法,稱為重復貝葉斯連續博弈(RBSG)。該技術使使用基于分類器的自動預測機制的學習者能夠降低其分類成本,而不影響在存在對抗性輸入時的分類質量。RBSG結合了一種稱為聯合蒙特卡洛樹搜索(MCTS)的隨機樹搜索算法,該算法有效地探索了學習者和對抗者之間的博弈樹,以及具有對手模型的強盜算法。然后,RBSG算法確定了學習者和對手的每個可能的 "動作 "或行動的效用,并向學習者推薦可能的最佳行動(換言之,具有最大預期效用的行動)。我們為這個問題建立了一個正式的數學模型,包括對防御者和對手可以使用的策略的描述,一個基于博弈論的技術,稱為自我發揮,使防御者能夠建立一個準確的對手行為模型,一個基于蒙特卡洛樹搜索(MCTS)的算法,使用自我發揮的對手模型使防御者能夠快速探索可能的策略,以及RBSG算法,使防御者能夠計算像納什均衡策略一樣的戰略反應,以有效地應對對手的攻擊。我們驗證了我們提出的在存在戰略性修改文本數據的對手的情況下預測文本數據標簽的技術,同時使用收集的亞馬遜產品評論、Yelp商業評論和電子郵件信息的開源文本數據集。我們的結果表明,我們能夠將分類成本降低30-40%,而不會降低分類器的性能指標,如準確率和精確度。
RBSG技術似乎對海軍和國防部有很高的價值潛力,因為它可以降低關鍵應用的操作成本,如網絡安全、導彈探測、雷達和其他信號分析技術,這些應用依賴于對傳入數據的分類,并可能受到對手的攻擊。我們通過NRL專利處理辦公室為RBSG技術的潛在美國專利申請提交了一份發明披露。我們還開始與一家名為Varonis的公司探討CRADA,以實現RBSG技術在網絡安全產品上的潛在商業化。
在這一年里,我們還發表了一份關于網絡安全任務中基于博弈論的對抗性學習技術的全面調查[11]。在調查中,我們將相關技術歸類為攻擊者和防御者之間的零和游戲和一般和游戲。我們為所調查的技術提出了一個新的分類,使用不同的類別,如防御者可獲得的關于對手的初始信息,防御者建立的代表對手攻擊的模型以及技術被驗證的應用領域。調查的最后,我們討論了網絡安全問題中與使用對抗性機器學習技術進一步調查有關的幾個開放性問題。
最后,我們為21財年6.1基礎項目提出了一個題為 "用于防御應用的博弈論機器學習 "的項目,該項目擴展了本報告中的結果,使用強化學習和基于博弈論的技術,在攻擊者與防御者的場景中建立有效的防御措施。
在20財政年度,我們的研究主要集中在兩個方向:研究改進RBSG技術的計算技術,以及評估RBSG在網絡安全相關場景中的應用。在第一個方向下,我們開發了一種基于最近提出的基于博弈論的概念的技術,稱為安全值[12],用于計算防御者的策略。與原始的RBSG技術中基于納什均衡的計算不同,安全值方法假設攻擊者總是做出理性的決定,同時以最佳方式選擇其策略(即攻擊者選擇一個使其效用最大化的策略),安全值方法假設攻擊者可能偶爾會偏離最佳發揮,并且,使防御者能夠預測并利用攻擊者的偏離來改善防御者的表現(減少防御者分類器的操作成本)。我們實施了一種安全值方法,稱為安全的限制性斯塔克伯格反應(RSRS),并將其與RBSG算法相結合。RSRS算法的初步結果顯示,與在RBSG內部使用基于納什均衡的計算方法的成本相比,防御者的成本有5-10%的改善。
對于第二個方向,我們研究了生成惡意軟件數據的對抗性實例的技術,并建立了用于對抗性惡意軟件數據分類的ML模型。生成惡意軟件數據需要從干凈或正常運行的軟件可執行文件中創建惡意軟件可執行文件。這個問題的主要挑戰之一是,從圖像和文本模式的干凈數據中生成對抗性數據的相稱技術不能直接適用于軟件可執行文件,因為使用圖像或文本數據擾動技術擾動可執行文件內的二進制數據可能會破壞可執行文件的功能,使其無法正常工作。我們的研究基于MalGAN[13]技術,并在EMBER[14]和Kaggle惡意軟件數據集(
我們還開始研究一種合適的技術,以正式代表網絡安全場景中防御者與攻擊者的互動,如網絡入侵檢測。具體來說,我們研究了一個正式的數學模型,稱為攻擊圖博弈[15, 16]。在攻擊圖博弈中,攻擊者以順序的方式攻擊網絡資產,而防御者的目標是預測攻擊者未來的攻擊位置并保護它們。我們開始開發一種基于強化學習的算法,與納什均衡等博弈論概念相結合,在攻擊圖博弈框架內為防御者確定合適的策略,同時對攻擊者以前未見過的攻擊、隱蔽性和欺騙性做出智能反應。該算法在網絡入侵檢測場景中的實施和評估目前正在進行。
我們發表了幾篇關于RBSG技術研究成果的文章,包括在國防部AI/ML技術交流會議上的海報[17],在關于AI for Cyber-Security的非存檔研討會[18]上的論文(與AAAI 2020同地舉行),以及在名為FLAIRS(佛羅里達州AI研究協會)會議的同行評審存檔會議上對該研討會論文的略微擴展版本[19]。我們還在INFORMS(運籌學和管理科學研究所)2020年年會上發表了擴展摘要,并應邀介紹了我們在這個主題上的研究[20]。我們在19財年提交的RBSG技術的發明公開,在2020年7月被NRL審查小組批準獲得專利申請。
我們在人工智能、機器學習和網絡安全的交叉領域編輯了一本名為 "Adversary Aware Learning Techniques and Trends in Cyber-Security "的書[21]。該書由人工智能/ML和網絡安全領域的知名研究人員撰寫的10個章節組成,涵蓋了各種不同但又相互關聯的主題,包括以博弈的人工智能和博弈論作為對人工智能/ML系統攻擊的防御手段,有效解決在大型分布式環境(如物聯網)中運行的人工智能/ML的漏洞的方法,以及使人工智能/ML系統能夠與可能是惡意對手和/或善意隊友的人類進行智能互動的技術。
我們為上述書籍貢獻了一章,題為 "重新思考智能行為作為處理機器學習的對抗性挑戰的競爭性博弈"[22],其中我們描述了對抗性機器學習如何需要重新審視傳統的機器學習范式以及對抗性學習如何表現出智能行為。我們認為,發展對對手攻擊的抵抗力可以被建模為競爭性的多人博弈,包括具有矛盾和競爭性目標的不同玩家之間的戰略互動。在進一步的探索中,我們討論了不同的多人博弈環境的相關特征,這些環境被作為研究平臺來調查,以解決公開的問題和挑戰,從而開發出能夠超越人類智慧的人工智能算法。
繼續這個方向,我們在項目中研究的最后一個研究課題是如何通過機器學習技術發展智能能力,在復雜的互動場景中,如《星際爭霸-II》等實時戰略多人博弈中呈現的場景,發展對對手攻擊的抵抗能力[23]。我們開發了一種基于強化學習的算法,使防御者能夠智能地學習博弈戰術,包括何時以及部署多少游戲單位,以何種配置部署游戲單位等,以戰略性地擊敗更強大的對手。我們在虛擬舉行的2020年國防部AI/ML技術交流會上以海報形式展示了我們的研究成果[24],我們在會上表明,由防御者利用強化學習自動學習的策略可以勝過由人類專家手工編碼的基于啟發式的策略。我們目前正在繼續這一研究方向,同時將其擴展到更復雜的攻擊者-防御者類型的交互場景中。
戰爭的特點正在發生根本性的變化,這些變化對空中力量的影響尤其深遠。多域整合為空中力量和越來越多的空間力量在未來幾年內的一系列轉變做好了準備,這些轉變不僅與技術有關,而且與空軍組織和進行規劃和行動的戰略和作戰概念有關。
迫在眉睫的、不可避免的多域作戰似乎是空中力量的一個明顯的邏輯演變,它可能會引發這樣的問題:為什么我們沒有更早地沿著這些思路思考和發展作戰概念?畢竟,對優化、作戰協同和武力經濟的尋求在空中力量中是持久的。可以說,多年來,空軍及其相關部門事實上已經嘗試以某種方式或形式在多域背景下運作。然而,在整個部隊甚至整個戰區范圍內,為多域作戰(MDO)提出的早期作戰概念(CONCOPS),在多域作戰空間產生作戰協同和效果的努力是前所未有的。
諸如聯合全域指揮與控制(JADC2)這樣的結構闡述了一個作戰云賦能的未來戰爭,其中任務指揮和戰斗空間管理被有效地隱含在整個戰斗部隊中,觀察-定向-決定-行動(OODA)環路被加速到邊緣計算的速度。傳感器和通信網絡決定了空軍承擔幾乎所有傳統任務的功能能力。數據和數據流將變得比空軍傳統上對機動自由的依賴更加重要,并且有效地成為其戰略推動者。空軍力量將越來越多地與網絡而非平臺、數據而非武器系統有關。
任務的成功和失敗一直是由指揮官和作戰人員可用的態勢感知水平決定的。在新興的作戰模式中,空軍以近乎實時的速度收集、處理和利用數據的能力有效地使數據成為最大的工具和最令人垂涎的武器。收集、處理、匯總、分析、融合和傳播大量的數據、信息和知識將需要像未來有爭議的戰場上的事件速度一樣快。目前正在進行的戰爭數字化將導致在未來幾年內將 "大數據"廣泛用于作戰過程。空間領域將在實現全球范圍內連續的、有保障的和安全的通信方面發揮顯著的作用,除了更傳統的遠程監視用途外,它還被用作這種通信的運輸層。
對信息主導地位的追求將以新的和不確定的方式在物理、電磁和虛擬世界中擴展競爭的連續性。隨著空軍對帶有嵌入式人工智能(AI)工具和應用的作戰云的使用,新的風險、脆弱性和故障點將被引入。本出版物收集了來自世界各地領先的思想家的文章和見解,對多域整合和空中力量的信息優勢框架和概念的一些最相關問題提供了深入的觀點。這里的觀點和討論反映了當前對各種戰略、指揮和作戰層面的思考,讀者會發現這些思考對他們更廣泛的理解很有幫助。
這里介紹的專家展望本身既不樂觀也不悲觀,正如我們所期望的那樣,所確認的是各種新技術促成的 "飛躍"機會正在地平線上形成,但其有效利用帶來了復雜和破壞性的新挑戰。在強調其中一些關鍵的挑戰和更好地理解這些挑戰的必要性的同時,正如通常的情況一樣,沒有快速的解決辦法或現成的解決方案。然而,有令人信服的理由認為,今天所預見的眾多挑戰似乎在理論上和技術上是可以克服的,有些甚至在未來幾年內就可以克服。在未來存在的許多不確定因素中,可以肯定的是,空中力量將被徹底重新定義。
機器學習(ML),從廣義上講,是一類自動優化參數以處理給定輸入并產生所需輸出的計算機算法。ML的一個經典例子是線性回歸,據此找到一條最適合(通過)一組點的線。最近的一個例子是分類任務,如用 "貓 "這樣的單字來標記一張百萬像素的圖像。
對于許多應用,ML完成了人類可以做得同樣好的任務。然而,ML在兩種情況下大放異彩:1)任務的數量巨大,例如數百萬;2)問題的維度超出了人類思維的理解。一個簡單的例子是同時實時監控成千上萬的安全攝像頭,尋找可疑的行為。也許一個ML方法可以發現異常事件,并只與人類觀察者分享這些視頻片段。更好的是,異常圖像可以被暫時貼上諸如 "1號入口處的蒙面入侵者 "之類的標簽,以幫助保安人員只關注相關的信息。
除了減少人類的負擔外,ML還可以將人類可能無法識別的復雜的相互聯系拼湊起來。例如,一個ML算法可以發現,在一百萬個銀行賬戶中,有五個賬戶的交易似乎是同步的,盡管它們沒有相互發送或接收資金,也沒有向共同的第三方發送或接收資金。
鑒于手持和固定設備的計算資源不斷增加,我們有必要想象一下,ML可以在哪些方面改變戰爭的打法。當然,ML已經對美國陸軍的科學研究產生了影響,但我們也可以很容易地想象到自主車輛和改進的監視等作戰應用。
本文件的主要目標是激勵美國陸軍和美國防部的人員思考ML可能帶來的結果,以及為實現這些結果,哪些研究投資可能是有成效的。
在ARL的許多研究項目中,機器學習目前正在被使用,或者可以被使用。我們列出了一些使用ML或可能從ML中受益的研究項目。我們列出的與ML相關的ARL研究工作絕非完整。
雖然從技術上講,機器學習自19世紀初高斯發明線性回歸以來就一直存在,但我們相信,ML的最新進展將以我們目前無法想象的方式影響軍隊。在本節中,我們概述了我們認為將得到加強的軍隊行動的許多領域,以及可能采用的ML方法的種類。
軍事情報包括信息收集和分析,因為它涉及到指揮官做出最佳決策所需的信息。由于收集的數據量越來越大,處理必須自動化。需要考慮的主要問題是數據的數量、速度、真實性和多樣性。大量的數據(又稱大數據)需要在許多計算節點上對數據進行智能分配。速度要求快速計算和網絡連接到數據流。真實性是對信息來源和異常檢測的信任問題。多樣性相當于使用許多不同的ML算法的不同訓練模型的應用。我們在本小節中概述了不同類型的數據和分析要求。
讓計算機從從各種媒體來源收集到的大型文本數據庫中提煉出重要的概念和文本部分,有很大的好處。最近報道的另一個ML突破是不同語言之間的精確文本翻譯。 軍隊的一個獨特挑戰是翻譯不常見的語言,因此專業翻譯人員較少。在人工通用智能(AGI)領域,一些團體聲稱,自然語言處理將是類似人類認知的基礎。
鑒于人類、傳感器和代理產生的數據的激增,一個很大的問題是,除了證明其收集的直接用途之外,這些數據還包含什么剩余價值。數據挖掘可以是統計學和機器學習的努力,以發現數據中的模式,否則人類操作者就會錯過。
傳統上,異常檢測是通過首先識別已知數據的群組和描述數據的分布來進行的。然后,當新的輸入被處理時,它們被識別為屬于或不屬于原始分布。如果它們在已知分布之外,就被認為是異常的。以下許多類型的異常檢測系統可能對軍隊有用。
網絡入侵檢測:超出常規的網絡流量。McPAD和PAYL是目前使用的軟件中的2個這樣的例子,它們使用了異常檢測。
生活模式異常:人們的視覺和生物統計學上的行為方式與常人不同,表明他們可能正在進行一些對抗性行動。
基于條件的維護:在當前生命周期中,材料/系統在其年齡段不典型的信號。
士兵異常:有理由相信士兵的生物識別技術不正常。
異物檢測:在已知物資數據庫中無法識別的物體的視覺效果。
自動目標識別(ATR)是一個非常成熟的領域,已經使用機器學習幾十年了。
1)目前深度學習的進展將在多大程度上增強ATR?
2)更復雜的算法是否需要更復雜/更耗電的機載計算?
ML是否能對目標的各種欺騙性的混淆行為具有魯棒性?
強化學習在多大程度上可以用來進行實時軌跡調整?
機器學習在機器人學中的應用也是一個巨大的領域。ML應用領域包括傳感、導航、運動和決策。目前,傳感將從計算機視覺的所有進展中受益。導航,除了使用標準的GPS之外,還可以從自我運動中受益,也就是基于自身感知的運動估計。運動可以被學習,而不是規劃,這不僅會導致更快的開發時間,而且還能在新的環境或受損的模式下重新適應(例如,失去四條腿中的一條)。最后,隨著機器人的數量超過人類操作員的數量,機器人將有必要自行決定如何執行其規定的任務。它將不得不做出這樣的決定:"由于電池電量不足,我是否要回到大本營?"或者 "我是否繼續前進一點,然后自我毀滅?"
除了機器人技術,人們最終希望任何系統在損壞或不能滿負荷工作時能夠自我糾正。這需要在某種程度上的智能,以自主診斷缺陷和問題,并利用其可用的資源糾正這些問題。
在通過機器學習來學習自主權的情況下,問題將是:"自主系統將如何應對X情況?" 這里的問題是,對于一個擁有潛在致命武力的系統,我們怎么能確定它只會正確合法地使用武力?我們推測,在機器學習的算法擁有使用致命武力的實際能力之前,必須對其進行廣泛的測試,即使它與人類的環形決策相聯系。
近年來,大量的研究都在研究使用機器學習來自主地玩各種視頻游戲。在某些情況下,報告的算法現在已經超過了人類玩游戲的水平。在其他情況下,仍然存在著處理長期記憶的挑戰。對于美國空軍來說,智能代理已經成功地在以戰斗為中心的飛行模擬器上進行了訓練,這些模擬器密切模仿現實生活。陸軍的問題包括以下內容。
智能代理能否附加到機器人平臺上?
智能在多大程度上可以通用于處理現實生活與視頻游戲中遇到的各種情況?
當我們可能不理解一個訓練有素的代理的邏輯時,我們能相信它的行動嗎?
代理在多大程度上能夠與人類合作?
在過去的十年里,機器學習在網絡安全方面發揮了不可或缺的作用。具體來說,ML可以用于異常檢測,檢測已知威脅的特定模式,并辨別網絡行為是否可能由惡意代理產生。隨著該領域的不斷加強,問題是ML是否能使安全比對手領先一步,因為對手可能利用ML來混淆檢測。
一個長期的設想是,軍隊使用的每一個機械系統都有一些關于系統當前和預測健康的內部感應。相關問題如下。
我們能從有限的傳感器中辨別出一個系統或系統組件的當前健康狀況嗎?
機載ML能否預測一個系統或系統部件在暴露于特定環境或彈道侮辱之后的健康狀況?
隨著基因組序列的數量繼續呈指數級增長,比較在現場獲得的序列所需的計算工作可能變得無法管理。機器學習可以通過對序列進行不同層次的分類來減少必要的比較。
93 近年來,機器學習已經在檢測各種組織中的惡性腫瘤方面取得了長足的進步。94 它同樣可以被用來描述創傷或創傷后應激障礙(PTSD)95,并制定治療計劃。
陸軍的一個重要組成部分集中在對行動、系統、研究和測試的分析上。傳統上,分析人員使用大量的工具,包括機器學習,以多維回歸、聚類和降維的形式。隨著深度學習的出現,一套新的工具應該是可能的,可以更有效地處理需要更復雜模型的大型數據集。例如,應該有可能從測試期間拍攝的視頻流中提取特征和物理屬性,這可能超過目前的標準做法。
自適應用戶界面(AUI)和情感計算。ML可以用來確定用戶的心理和/或情緒狀態,并提供適合這種狀態的界面。此外,可變的AUI可以服務于用戶的變化。例如,一些用戶可能喜歡音頻反饋而不是視覺反饋。
推薦系統。最流行的推薦系統之一是根據以前看過的電影的評分來選擇用戶想看的下一部電影(例如,所謂的 "Netflix問題")。對于軍隊來說,可以根據以前的使用情況和庫存核算的反饋來推薦后勤補給的情況。
搜索引擎/信息檢索。傳統上,搜索引擎返回文件的 "點擊率"。新的范式是以簡明的形式回答用戶的問題,而不是簡單的模式匹配。
情感分析。社交媒體上的流量和對環境進行訓練的各種傳感器不僅可以檢測關鍵的關鍵詞或特定物體的存在,還可以推斷出可能的攻擊的可能性。
有針對性的宣傳。傳統上,宣傳是通過散發傳單來完成的,如今,宣傳可以通過社交媒體來傳播。ML的角度是如何以最有說服力的信息向正確的人口群體進行宣傳。此外,重要的是快速檢測和顛覆來自對手針對我們自己的人員/人民的宣傳。
本研究的目標之一是確定當前研究中的差距,這些差距可能會限制ML在軍隊研究和行動中的全部潛力。本節借用了ARL運動科學家Brian Henz博士和Tien Pham博士(未發表)的戰略規劃工作。
傳統上,在一個特定領域采用ML的一半戰斗是弄清楚如何適應現有的工具和算法。對于陸軍所面臨的許多問題來說,這一點更為突出,與其他學術、商業或政府用途相比,這些問題可能是獨一無二的。任何數據分析員面臨的第一個問題是使數據適應他們想要使用的統計或ML模型。并非所有的數據都使用連續變量或者是一個時間序列。離散/標簽數據的管理可能非常棘手,因為標簽可能不容易被轉換成數學上的東西。在自然語言處理中的一個例子是,單詞經常被轉換為高維的單熱向量。另一個例子可能是如何將大量的維修報告轉換為對某一特定車輛在一段時間內的表現的預測。
此外,陸軍的要求超出了典型的商業部門的使用范圍,不僅需要檢測物體和人,還需要檢測他們的意圖和姿態。這將需要開發新的模型。另一個大的要求是可解釋性,正如DARPA最近的一個項目所概述的那樣:是什么因素導致ML算法做出一個特定的決定?在一個真實的事件中,如果一個ML算法在沒有人類驗證的情況下宣布一個重要目標的存在,我們能相信這一決定嗎?
隨著對計算要求高的ML任務的設想,開發人員正在使用多線程、并行和異構架構(GPU、多核)來加快計算速度。ML的分布式實現遠不如GPU版本常見,因為分布式計算中的節點間通信存在固有的網絡瓶頸,而且在單精度浮點性能方面,GPU相對于CPU有很大優勢。除了目前對GPU的強烈依賴,生物啟發式神經計算旨在尋找非馮-諾伊曼架構來更有效地執行ML,并可能更快。這方面的一個例子是IBM的神經形態芯片。97 未來的研究應該關注如何分配ML處理,使節點之間的網絡通信最小化。另外,像聚類這樣的無監督學習算法在多大程度上可以被映射到神經網絡中?
其他需要考慮的事情。
目前的ML軟件(特定的神經網絡)在一個小型的GPU集群中表現最好。
大多數基于非神經網絡的ML算法的并行性不高,或者根本就沒有并行。
另一個軍隊的具體挑戰是分析基本上沒有標記的數據集(例如,用無監督學習)。手動標注集群將是一種半監督學習的形式。
隨著進入偏遠地區或任何遠離基地的地區,軍隊必須限制系統的尺寸、重量和功率。此外,在 "激烈的戰斗 "中,時間是關鍵。例如,人們不能在遭到槍擊時等待作戰模擬的完成。最后,在其他商業發射器占主導地位的地區,或者在限制無線電通信以提高隱蔽性的情況下,網絡帶寬可能會受到很大限制。
在這種倍受限制的環境中,機器學習將需要有效地進行,而且往往是以一種孤立的方式進行。截然相反的條件是使用大型數據庫訓練大型神經網絡,這往往是最先進的機器學習功力的情況。商業部門正在開發自動駕駛汽車,據推測將使用低功耗的計算設備(如現場可編程門陣列、移動GPU)進行自主駕駛、道路/障礙物檢測和導航。然而,陸軍將有更多的要求,包括自主傳感器和執行器、態勢感知/理解、與人類的通信/合作,以及廣泛的戰場設備。這將需要多幾個因素的計算能力和特定算法的硬件,以實現最佳的小型化和低功耗。
在混亂的環境中,操作環境預計會有比通常密度更高的靜態和動態物體。此外,人們完全期待主動欺騙以避免被發現。我們也希望能夠開發出足夠強大的算法,至少能夠意識到欺騙,并相應地調低其確定性估計。
基于CNN的目標分類的突破可以部分歸功于每個物體類別的成千上萬個例子的可用性。在軍隊場景中,某些人和物體的數據可能是有限的。人們最終將需要one-hot99或multishot分類器,其中幾個有代表性的數據條目就足以學習一個新的類別。到目前為止,最好的選擇是 "知識轉移",通過調整以前訓練的模型的所有參數的子集來學習新的類別。我們的想法是,由于需要優化的參數較少,修改這些參數所需的數據也較少。
即使對于我們可以產生大量圖像的目標類別(例如,友好物體),我們也需要訓練自己的模型,以便從每個類別的潛在的數千張圖像中識別軍隊相關類別。軍隊還使用商業車輛中通常不存在的其他傳感模式(例如,熱能和雷達)。因此,需要為這些非典型的傳感設備訓練模型。從根本上說,非典型傳感設備可能需要新的神經網絡拓撲結構以達到最佳的準確性和緊湊性。
一個值得研究的有趣領域是將模型和模擬與機器學習相結合。有很多方法可以做到這一點。例如,ML可以用來推導出模擬的起始參數。此外,ML還可以用來處理模擬的輸出。一個耐人尋味的新領域是開發基于物理學或類似物理學的模擬,使用類似ML的模型/方程。一個這樣的應用是預測 "如果?"的情景。例如,"如果我跑過這棵樹呢?接下來會發生什么?"
機器學習在傳統上被認為是人工智能的硬性(即數學)表現形式。有可能最終,所有的人工智能任務都會被簡化為數學。然而,就目前而言,一些智能任務似乎更多的是基于推理或情感。對于之前描述的方法中的任務,ML并不能充分解決以下軟性人工智能的特點。
人類并不總是完全按邏輯推理,但他們也有能力將不完整的信息拼湊起來,做出 "最佳猜測 "的決定。幾十年來,對這種行為進行編碼一直是一個挑戰。
情緒似乎是驅動人類達到某些目的的動機/目標功能。例如,快樂可能會導致不活動或追求生產性的創造力。另一方面,恐懼則可能會導致忍氣吞聲。計算機是否需要情感來更有效地運作,還是說它們最好擁有100%的客觀性?這既是一個哲學問題,也是一個未來的研究方向。不過現在,毫無疑問的是,在人與代理人的團隊合作中,計算機需要準確地解釋人類的情感,以實現最佳的團體結果。
與人類的互動性是陸軍研究未來的首要關注點。一個類似的問題是,不同的計算機系統之間如何進行交流,而這些系統不一定是由同一個實驗室設計的。研究的一個領域是用計算機來教那些在這方面有困難的人進行社會交流。 再一次,對于人與代理的合作,代理將需要能夠參與社會互動,并在人類的陪伴下遵守社會規范。
創造力通常被認為是隨機合并的想法,與新的元素相結合,由一個鑒別功能決定新創造的項目的功能和/或美學。在某些方面,創造力已經被某些計算機實驗室所證明。例如,為了設計的目的,計算機可以被賦予某些方面的創造力。
人工智能的最終目標是將許多狹義的智能算法合并成一個統一的智能,就像人類的頭腦一樣。75鑒于許多狹義的人工智能任務已經比人類的某些任務要好,即使是早期的所謂人工通用智能(AGI)也可能具有一些超人的能力。AGI的一個主要目標是將目前由人類執行的某些任務自動化。
如果不提及許多哲學家的猜測,機器學習將最終能夠改進自己的編程,導致能力的指數級提高,也許會遠遠超過人類智能,那么機器學習的研究就不完整了。這些設想既是烏托邦式的104,也是烏托邦式的105。希望超級智能能夠解決世界上的許多問題。
在這項工作中,我們回顧了機器學習的不同類別,并描述了一些更常用的方法。然后,我們指出了一小部分關于ML在ARL中的應用的例子。最后,我們預測了ML在未來可以應用于軍隊的各個領域,并概述了為實現這一結果需要解決的一些挑戰。我們希望這份文件能夠激勵未來的研究人員和決策者繼續投資于研究和開發,以充分利用ML來幫助推動美國陸軍的發展。
態勢感知是作戰人員的必需能力。一種常見的監視方法是利用傳感器。電子光學/紅外(EOIR)傳感器同時使用可見光和紅外傳感器,使其能夠在光照和黑暗(日/夜)情況下使用。這些系統經常被用來探測無人駕駛飛機系統(UAS)。識別天空中的這些物體需要監測該系統的人員開展大量工作。本報告的目的是研究在紅外數據上使用卷積神經網絡來識別天空中的無人機系統圖像的可行性。本項目使用的數據是由作戰能力發展司令部軍備中心的精確瞄準和集成小組提供的。
該報告考慮了來自紅外傳感器的圖像數據。這些圖像被送入一個前饋卷積神經網絡,該網絡將圖像分類為有無無人機系統。卷積模型被證明是處理這些數據的第一次嘗試。本報告提供了一個未來的方向,以便在未來進行擴展。建議包括微調這個模型,以及在這個數據集上使用其他機器學習方法,如目標檢測和 YOLO算法。
低速、慢速和小型 (LSS) 飛行平臺的普及給國防和安全機構帶來了新的快速增長的威脅。因此,必須設計防御系統以應對此類威脅。現代作戰準備基于在高保真模擬器上進行的適當人員培訓。本報告的目的是考慮到各種商用 LSS 飛行器,并從不同的角度定義 LSS 模型,以便模型可用于LSS 系統相關的分析和設計方面,及用于抵制LSS系統(包括探測和中和)、作戰訓練。在北約成員國之間提升 LSS 能力并將 LSS 擴展到現有分類的能力被認為是有用和有益的。
【報告概要】
在安全受到威脅的背景下考慮小型無人機系統 (sUAS)(通常稱為無人機)時,從物理和動態的角度進行建模和仿真遇到了一些獨特的挑戰和機遇。
無人機的參數化定義包括以下幾類:
描述無人機飛行動力學的分析模型在數學上應該是合理的,因為任務能力在很大程度上取決于車輛配置和行為。
考慮到剛體在空間中的運動動力學需要一個固定在剛體本身的參考系來進行合適的力學描述,并做出一些假設(例如,剛體模型、靜止大氣和無擾動、對稱機身和作用力在重心處),可以為 sUAV 的飛行動力學開發牛頓-歐拉方程。
在檢測 sUAS 時,必須考慮幾個現象,例如可見波范圍內外的反射、射頻、聲學以及相關技術,如被動和主動成像和檢測。
由于需要多個傳感器檢測 sUAS,因此有必要考慮識別的參數以便針對不同類型的檢測器對特征進行建模。此外,對多個傳感器的依賴還需要在信息融合和集成學習方面取得進步,以確保從完整的態勢感知中獲得可操作的情報。
無人機可探測性專家會議表明了對雷達特征以及不同無人機、雷達和場景的聲學特征進行建模的可能性,以補充實驗數據并幫助開發跟蹤、分類和態勢感知算法。此外,雷達場景模擬的適用性及其在目標建模和特征提取中的潛在用途已得到證實。
然而,由于市場上無人機的復雜性和可變性以及它們的不斷增強,就其物理和動態特性對無人機簽名進行清晰的建模似乎并不容易。
sUAS 特性的復雜性和可變性使得很難完成定義適合在仿真系統中使用的模型的任務。這是由于無人機本身的幾個參數,以及考慮到無人機的所有機動能力和特性所需的飛行動力學方程的復雜性。
此外,sUAS 特性的復雜性和可變性不允許定義用于評估相關特征的參數模型。
圖1 無人機類別與其他類別/參數的關系(part 1)
圖2 無人機類別與其他類別/參數的關系(part 2)
圖3 參考坐標系
【報告目錄】