亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

為了打擊日益多變和易變的現代惡意軟件,機器學習(ML)現在是對現有基于簽名的惡意軟件分流和識別技術的一種流行和有效的補充。然而,ML也是對手的一個現成的工具。最近的研究表明,惡意軟件可以通過深度強化學習(RL)技術進行修改,以繞過基于人工智能和基于簽名的反病毒系統,而不改變其原有的惡意功能。這些研究只專注于生成規避樣本,并假設靜態檢測系統為敵人。

惡意軟件檢測和回避本質上形成了一個雙方的貓鼠游戲。在本文中,我們模擬現實生活中的場景,按照零和多智能體強化學習(MARL)的范式,提出了第一個用于規避惡意軟件檢測和生成的雙人競爭博弈。我們對最近的惡意軟件進行的實驗表明,所產生的惡意軟件檢測智能體對對抗性攻擊更加強大。此外,所產生的惡意軟件修改智能體能夠產生更多的規避樣本,騙過基于人工智能和其他反惡意軟件技術。

關鍵詞:對抗性學習,惡意軟件分析,神經網絡,強化學習,馬爾科夫決策過程

圖1:單次的H4rm0ny訓練過程。還顯示了所有系統配置的結果。從我們的數據集中選擇一個惡意軟件的樣本。然后,它被送到一個修改的過程中。如果任何修改產生了一個惡意軟件的回避樣本,該樣本將被訓練成檢測智能體。一旦樣本被訓練成檢測智能體,修改智能體的策略就會隨著對惡意軟件樣本和檢測智能體的狀態所采取的一系列行動而更新。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

在這份報告中,我們提出了一種數據驅動的方法,用于實驗室技術載具的閉環控制。我們使用近似策略優化(PPO)算法,這是一種強化學習算法,已被證明在各種任務中表現良好。PPO的成功是由于它在尋找解決方案方面的穩定性,此外還具有策略梯度方法的許多積極特性。雖然PPO在整個文獻中被證明是成功的,但在獎勵稀疏的情況下,它確實受到了影響;這恰好是我們的精確彈藥應用的情況,其目標是擊中一個特定目標。為了解決這個稀疏獎勵的問題,我們提出了一個圍繞PPO的課程學習方法。該課程將學習分為幾個階段,這些階段的復雜度逐漸增加,緩解了獎勵信號的稀疏性。所提出的方法被證明優于沒有課程的學習方法。

1 引言

最近,用于自主系統的引導、導航和控制的數據驅動方法已經得到了普及。這要歸功于機器學習的最新進展,特別是深度學習和人工神經網絡。強化學習(RL)是深度學習的一種類型,旨在利用與環境的互動來學習從環境狀態到代理行動的適當映射,從而使所需的輸出最大化。這個程序的靈感來自于自然過程,因為大多數生物系統通過大量的行動和隨后的反饋來學習在其環境中的操作。在RL中,來自環境的反饋被稱為獎勵信號。系統試圖調整輸入以最大化這個期望的獎勵信號。系統的輸入被定義為代理行動,而狀態和獎勵是從環境中觀察到的。這些收集的數值被用來驅動學習過程。在這項工作中,我們提出了一種RL方法來開發一個遠程精確武器的閉環控制方案。我們在本報告中使用的數據驅動的方法是基于近似策略優化(PPO)RL算法的。

快速發展的機器學習行業導致了RL的新進展,使新穎的、數據驅動的方法能夠用于控制開發。即使是高度密集的輸入,如圖像幀,也可以推斷出行動,使性能最大化。很多時候,這種方法使閉環控制更加直接,如在基于視覺的系統中,基于圖像的算法將不必與控制分開獨立開發。這種非常規的方法與傳統的控制器設計相反,它是一種基于模型的方法,依賴于系統模型的近似。由于參數的不確定性和/或系統的非線性而做出的近似,往往阻礙了基于模型的方法,導致控制器性能不足或保守的控制器。例如,自主特技飛行是一個具有挑戰性的控制問題,因為它需要在飛行包絡線的邊緣進行精確控制。盡管傳統的、基于模型的方法在面對不相干的情況時可能表現不佳,但它們確實對已知的操作領域提供了寶貴的性能保證,使它們通常是安全的和可預測的。另外,無模型方法需要較少的模型開發和調整來得出閉環控制。純粹的數據驅動,無模型方法可以學習系統的復雜性,甚至可以擴展使用的代理數量。然而,他們需要更多的數據,而且控制設計中的性能保證可能更難實現。

RL方法得益于環境的簡化,如獎勵的塑造或行動空間和狀態的離散化,以實現更快的學習。在經典的RL任務中,可以同時收集行動和獎勵,以不斷調整策略和最大化獎勵。現實世界的問題很少以允許這種方式提出。例如,當訓練一個自主代理找到一個迷宮的盡頭時,在每個時間步驟中,沒有跡象表明代理正在對系統應用正確的行動,直到它達到時間范圍或目標。這些類型的問題注定要用稀疏的獎勵信號來定義。為了幫助使用稀疏獎勵的學習,設計者可以塑造獎勵以持續提供反饋。這種成型的獎勵有一個缺點,即無意中支配了閉環控制的解決方案,減少了通過允許代理不定向探索而獲得的緊急解決方案的機會。然而,當有廣泛的領域知識可供利用時,這種方法仍有其優點。好奇心驅動的方法采取相反的方法,鼓勵對不為人知的領域進行探索。這已被證明在許多環境中是有效的,因為好奇心是唯一的獎勵信號。另一種方法是將系統結構化,使其逐步學習更難的任務以獲得期望的目標。這被稱為課程學習,其中課程是系統必須逐步學習的逐漸困難的任務的集合。這里的想法是,當任務容易時,獎勵會在開始時更頻繁地出現,為RL算法提供有價值的反饋,以用于調整其控制器。

2 問題

RL已經在許多空間得到了實現,包括醫療、社會和工程應用。在本報告中,我們應用RL來控制一個智能彈藥。以前關于導彈制導的RL的工作利用獎勵塑造方法來克服稀疏的獎勵問題。如前所述,這種方法可能導致系統不探索對設計者來說不直觀的路徑。由于彈丸的高度不確定性和非線性動力學,自主彈藥制導、導航和控制是一項艱巨的任務。由于在估計視線率和走時方面的挑戰,比例導航可能難以實現。

比例導航是基于線性化的嚙合幾何,這可能不適合于整個軌跡。這常常導致從 "中途 "制導法和 "終點 "制導法轉換的臨時決定點。估計方面的一些困難來自于系統的非線性,這迫使控制設計者對系統進行近似和線性化。一些用于射彈控制的系統使用飛行方程的數值微分,這導致控制決策是基于由噪聲測量產生的可能錯誤的狀態。數據驅動的方法對這些系統可能是有利的。然而,由于稀疏的獎勵信號,機器學習過程非常困難。

2.1 貢獻

在這份報告中,我們提出了一種將RL應用于智能射彈的閉環控制這一難題的方法。我們設計了一個OpenAI gym環境,其中嵌入了一個功能模擬單元(FMU)模型,以密切模擬真實的射彈。因此,由于尋找有用的控制策略所需的探索任務的規模,這個問題比經典的RL任務更加困難。這里的狀態包括位置、速度和與目標的距離。輸入動作是在身體框架的水平和垂直方向上的加速指令。由于我們的問題中存在稀疏的獎勵,因此實施了一種課程學習方法,其中課程的各個階段與從大到小的 "目標 "尺寸一致。我們通過實驗表明,通過這個系統,我們可以學會駕駛智能彈藥并精確地擊中目標。

2.2 組織

我們在第3節中介紹了我們的環境模擬,在第4節中提供了PPO算法的概述,在第5節中介紹了我們的課程學習方法,在第6節中給出了訓練的概述,然后在第7節中介紹了我們的結果。

付費5元查看完整內容

背景

在與美陸軍分析小組及其研究促進實驗室進行CRADA的過程中,Entanglement, Inc.(EI)已經展示了比任何已知技術更快、更準確的網絡安全異常檢測能力--假陽性現象少得多。

全球大多數網絡安全報告(包括2022年Sonicwall報告)認為,2021年幾乎所有類型的網絡攻擊都大幅上升,包括zeroday和勒索軟件攻擊。所有這些攻擊都有一個共同點:網絡異常。網絡安全中的異常檢測是指識別罕見的發生、項目或事件,由于其特征與大多數處理的數據不同而引起關注,這使得組織能夠跟蹤安全錯誤、結構缺陷甚至欺詐。異常檢測的三種主要形式是:無監督的、有監督的和半監督的。安全運營中心(SOC)分析師在網絡安全應用中使用這些方法中的每一種,都有不同程度的有效性。局限于監督式機器學習的系統往往會標出許多潛在的異常現象,以至于分析員不得不與無休止地增長的假陽性警報作斗爭,遭受認知過載。

過多的登錄,兩點之間的流量高峰,以及異常大量的遠程登錄是異常的幾個例子。正如我們在2020年的大流行病應對中所了解到的,后一種 "異常 "對于許多組織來說是必要的,以便在工人被困在家里時保持業務運轉。鑒于COVID-19大流行期間遠程工作的規模所帶來的挑戰,以及2021年網絡威脅的增加,美國陸軍轉向私營部門,探索一系列可能的解決方案。

2021年5月,拜登發布了一項行政命令,授權所有聯邦機構采用零信任安全。2021年第三季度,提出了一種新的網絡安全方法,以解決最近授權的零信任安全架構的持續監測部分。如果成功的話,這種能力可以應用于軍隊和其他聯邦機構運營的更大的網絡,并幫助提供實時態勢感知。這部分是基于對深度神經網絡的研究,其目標是:(a)加速自動編碼器(AE)功能;(b)加速生成對抗網絡(GAN)功能;以及(c)整合一種叫做支持向量機(SVM)的量子啟發優化算法。該方法包括二次無約束二元優化(QUBO)在網絡安全異常和離群點檢測方面的新應用,是由美國政府委托的。在業務轉型辦公室的指導下,陸軍分析小組(AAG)立即開始與可能被用于擊敗網絡異常威脅的新興技術的廣泛潛在來源合作。2021年6月,AAG的主任丹-詹森先生了解到Entanglement公司的無償援助提議,該公司選擇了其戰略伙伴和團隊參與者美國半導體公司Groq公司,為陸軍提供新穎、突破性的專利技術以及計算服務。

Entanglement團隊提供服務,協助陸軍在12個月內確定一個最佳的網絡安全異常檢測能力。2021年6月,AAG和Entanglement延長了題為 "COVID-19資源分配優化 "的現有合作研究與開發協議(CRADA)。Entanglement團隊在接下來的幾周內與Clay Stanek博士領導的AAG研究促進實驗室一起工作,并在2021年10月展示了顯著的性能改進和可行性。

主要發現、影響和建議

CRADA下的工作最終驗證了解決網絡安全異常檢測的能力,比傳統方法更快,并具有更好的性能,正如關鍵性能參數(KPP)所衡量。關鍵性能參數涵蓋了與每秒總推斷量、檢測到的威脅百分比、準確性、召回率、精確度、其他基于混淆矩陣的指標以及曲線下面積(AUC)有關的指標。

對于額外的變量或更大的數據集,Entanglement/Groq能力提供了比傳統方法更高的效率,可以大規模地解決原本難以解決的問題。核心技術是一種專有的專用數字電路設計,具有高度的并行性,用于解決可表示為深度神經網絡模型和二次無約束二元優化(QUBO)問題的各類問題。AAG以前的努力顯示了每秒檢測12萬個推斷的能力。這是用QUBO模型作為基準和標準所能達到的指標。基準是基于一個解決方案集,它將算法解決方案與專有的量子啟發芯片結合起來。芯片解決方案可以擴展到卡、節點,甚至更多。此外,為CRADA的可行性而設定基準的現有解決方案已經在開發下一代的更新,這將提高模塊化程度并減少熱信號。

在六個月內,Entanglement能夠實現每秒72,000,000次推斷的異常檢測率,并展示了在廣泛的數據處理系統領域實現每秒120,000,000次推斷的潛力。

驗證案例由KDD Cup 1999(KDD99)數據集和CICIDS2017數據集構建。如模型性能部分所述,AE和GAN解決方案的計算輸出在確定異常情況方面非常有效。QUBO SVM是以量子化形式建立的,在異常檢測方面也很有效,最后能夠在大約250毫秒內完成整個數據集的計算。

付費5元查看完整內容

第1章 概述

1.1 引言

本論文提出的問題是:"我們能否設計出既有效又高效的審計策略來防御現代信息系統中的數據濫用?"。

幾十年來,計算和存儲技術的不斷進步一直激勵著人類和我們日常生活的數字化。這種現象深刻地改變了信息交流、決策、以及人們思考和創新的方式。由于對提高信息交流效率和保證信息準確性和完整性的卓越能力的共同信念,許多現代信息系統已經出現,通過收集、存儲和處理人類產生的數據為人類社會提供關鍵服務。電子病歷(EHR)系統是這些重大創新之一(見圖1.1a的例子),它能帶來許多好處,包括臨床人員和病人之間的有效溝通[1, 2],通過隨時訪問提高護理效率[3],以及減少醫療錯誤[4, 5]。金融管理信息系統(見圖1.1b為例)是另一個顯著的模式,它能實現可靠的交易服務、高效的財富管理和持續的服務提供[6]。這些系統不僅加快了人類活動的步伐,而且還重塑了日常生活的性質。

(a) Epic EHR系統的一個示例界面,顯示一個假的病人。

(b) Mifos銀行系統的一個示例界面,顯示一個假的客戶。

圖1.1: 激發本論文研究的具體領域,也是直接影響本論文研究的具體領域。

同時,不幸的是,由于這些關鍵任務的信息系統在促進人類社會方面發揮的重要作用,以及它們所擁有的數據的巨大價值,攻擊從未缺席[7, 8, 9]。雖然攻擊會導致一系列的后果,從中斷信息系統的持續運行到破壞數據的完整性,但它們的最終目標往往匯聚到對個人隱私的侵犯。2015年,美國最大的醫療保險供應商之一Anthem的醫療數據泄露事件創造了美國歷史上數據泄露的新紀錄[10],通過對其數據服務器的犯罪黑客攻擊,影響了超過7880萬人。2017年,在針對頂級信用報告機構Equifax的攻擊中,約1.45億美國人的個人身份數據被泄露[11]。盡管大量守護安全和隱私的人工和自動篩查策略(或組合)被不斷開發和部署,但針對信息系統及其所持有的敏感數據的成功攻擊不斷登上頭條。因此,人們普遍認識到,沒有一個系統是不受攻擊的,也沒有一個系統是不受損害的,尤其是面對那些不斷適應、不斷發展、不斷改進其方式以破壞保護措施和掩蓋其真實目的的攻擊。

一個廣泛使用的防御信息系統中數據濫用的解決方案是創建并分析系統審計日志[12, 13, 14, 15]。這個簡單的想法已經被實踐了很久,并被用來支持信息系統管理的多個目標[16, 17, 18, 19],包括在系統安全和數據隱私方面的合規性和問責制[20, 21, 22, 23]。審計日志的結構可以是異質的,但是它們通常按照 "誰在什么時間點進行了什么活動,導致了什么系統狀態 "的思路來記錄系統的事件細節[20, 21, 24]。這種機制很有價值,因為它使管理員能夠對可疑事件進行回顧性調查,這樣,在被審計時,真正的攻擊可以在造成更大損失之前被識別和阻止。更進一步的是,為了審計方便,可疑事件通常根據其特征被映射到預定義的語義類型中,每個類型都對應著不同的惡意情況[25, 26]。這些語義類型可以有多種形式,并擅長于篩選不同的威脅。例如,基于規則的機制可以很容易地挑出存儲在系統中的非常重要的人(VIP)的記錄的訪問活動,而機器學習檢測模型可以準確地找出顯示出異常系統訪問模式的惡意賬戶。然后,檢測到的可疑事件及其相應的類型會作為警報提交給系統管理員(或審計師)進行審計,這為提前制定有效的審計策略增加了復雜性。

然而,由于審計師在現實世界領域中可能面臨的幾個明顯的挑戰,審計在實踐中是非同小可的。首先,通常的情況是,審計工作量大大超出了審計的可用資源(例如,安全管理員或隱私官員的時間)[27, 28, 29]。第二,由于缺乏精確定義惡意行為的能力,導致假陽性率很高,使得審計效率低下[30, 31, 32]。第三,人類攻擊者通常根據他們的知識和對系統運行的觀察采取戰略性的行動,以減少被審計師發現的概率,這使得固定的審計模式變得脆弱[33, 34, 35]。例如,攻擊者可以通過操縱他們的攻擊行為,輕易地繞過基于警報類型重要性的審計策略或訓練有素的機器學習異常點檢測工具。第四,與需要保護的目標固定為防御者和攻擊者的先驗知識的情況相比(如機場航站樓巡邏),數據濫用審計中需要調查的對象(即警報)在一個審計周期(如一天)開始之前是未知的。

從本質上講,數據濫用審計是一項尋求將有限的調查資源分配給對抗性環境中的大量警報的任務。不幸的是,幾乎所有以前的作品在推導其策略時都未能基于審計的這一基本特征進行開發。然而,本論文將審計師和攻擊者之間的互動建模為領導者-追隨者博弈,即審計師(防御者)首先承諾采取隨機審計策略,然后攻擊者根據其觀察結果以某種目標或類型的攻擊作為回應,同時試圖將被發現的可能性降到最低。事實上,這種建模架構下的審計方案通過戰略隨機化將不確定性納入空間,并沿著現實的激勵機制擴大參與者的利益最大化,與其他方案相比,表現出固有的優勢。沿著這個建模方向,在本論文中,我們探討了各種智能審計機制設計可以實現的潛力,以提高防御的效率,甚至對數據泄露的威懾。

1.2 貢獻總結

圖1.2總結了本論文的高層次目標和相關的具體博弈建模策略。基本上,本論文從兩個不同的角度考慮設計審計機制:離線優先和在線信號(或在線警告)。在這里,我們用離線和在線這兩個詞來表示在實時數據訪問過程中,審計人員和數據用戶之間是否通過任何審計機制進行互動。特別是,我們通過回答審計師和攻擊者之間的對抗性環境的兩個問題來展開調查。1)是否有可能以一種智能的方式對警報進行優先排序,從而使審計師能夠從這種隨機的順序中獲得最大的利益,以及2)審計機制能否以一種實時的方式運作,從而使正在發起攻擊的攻擊者在成功之前被阻止。第一個觀點源于這樣的觀察:在實踐中,系統管理員或隱私官員傾向于關注極少數符合他們最大利益的警報類型的調查(或者等同于,在他們的重要性排名中最重要的警報類型)。因此,由于預算的限制,其余的很少被觸及,這為攻擊者提供了免費的午餐。除了完全脫機進行審計外,第二個觀點是探索將參與者之間的信息交流實時化(例如,當用戶請求敏感數據時),以影響攻擊者的策略選擇,甚至阻止攻擊者。雖然我們的貢獻可以應用于一般的信息服務,但在這篇論文中,我們依靠一個有代表性的用例--EHR的濫用審計來使我們的調查有一個背景,即醫療機構(HCO)的雇員(或EHR用戶)可以通過非法訪問濫用病人的數據并侵犯病人的隱私。

更具體地說,為了回答第一個問題(對應于圖1.2中的目標1),我們通過同時考慮兩個維度,建立了一個新穎的博弈論審計框架原型。1)如何確定被觸發的警報的優先順序;2)為每個警報類型分配多少預算(例如,人力資本或貨幣預算)的上限是什么。在這個博弈中,審計師就警報類型的順序和確定的預算分配策略選擇一個隨機的審計政策,而潛在的攻擊者選擇他們的記錄(如EHR)來實施攻擊作為他們的回應。我們表明,即使是該問題的高度限制版本也是NP-Hard。盡管如此,我們提出了一系列解決這些問題的算法方法,這些方法利用線性編程和列生成的組合,計算出一個近乎最優的隨機策略,以確定警報類別的優先次序。使用一個合成的數據集,在這個數據集上得出精確的解決方案是可行的,我們首先證明了我們的方法在接近最優解決方案方面的有效性,并在效率上有了極大的提高。然后,我們用1)范德比爾特大學醫療中心(VUMC)超過1.5個月的審計日志來測試整個框架的有效性,這是美國一個主要的學術醫療中心,我們分配了一個可信的回報結構,明確表示攻擊者被抓或不被抓時玩家的收益和損失;2)一個公開的信用卡應用數據集。一組廣泛的實驗結果表明,我們的方法總是優于最先進的審計策略(忽略了博弈論),無論組織的預算如何。這項調查提供了強有力的證據,證明博弈論輔助的審計可以通過在對抗性環境中優化策略選擇而有利于審計師。這已經作為同行評議的會議論文[36]和期刊論文[37]發表。

圖1.2:本論文的三個主要部分的圖形總結。

第二個研究問題旨在將對抗性建模的好處擴展到實時。具體來說,我們開發了一個概念--在線信號,并將其納入審計博弈。在高層次上,在線信號的功能如下:每當一個可疑的事件開始時(例如,請求訪問病人的記錄,系統配置文件等),系統可以實時警告提出請求的用戶(例如,通過一個有一定概率優化的彈出窗口)"這個事件可能被審計"。然后,用戶可以選擇停止(如果他們是內部人員,從而被阻止)或繼續進行當前的行動。然后,在一段時間后,這些收到信號的事件的一個子集被審計。因此,通過信號傳遞實現威懾力的最大化將我們引向一個在線優化問題,我們必須確定:1)是否應該發出警告;2)該事件被審計的可能性。

作為本論文的第二個研究目標(如圖1.2所示),我們將這個審計問題原型化和形式化為信號審計博弈(SAG),作為初始步驟,我們對審計者和攻擊者之間的互動,以及被部署時的可用性成本(即阻止正常系統用戶的現象)進行建模。我們將審計師的最優方案稱為在線斯塔克伯格信號政策(OSSP),并在理論上證明,OSSP永遠不會比在沒有信號的博弈中取得的最優方案差。我們用來自VUMC的1000萬份EHR訪問事件--包含26000多份警報--進行了一系列實驗,以說明SAG的潛力和其與現有方法相比的優勢的一致性。這已作為同行評議的會議論文發表[38]。

雖然基于信號的在線審計利用了審計師的信息優勢,有可能勝過非信號策略,但由于幾個關鍵的缺陷,SAG在實踐中表現不佳。首先,SAG假設所有攻擊者都有相同的目標,因此他們對攻擊目標的偏好是相同的。他們的偏好由攻擊被抓住或沒有被抓住時雙方的獎勵和懲罰來表示。然而,在現實中,攻擊者破壞系統或敏感數據的動機有很大不同。例如,一個HCO的員工出于好奇偷看了一個VIP的EHR,可能比一個在黑市上出售相同記錄(然后實施身份盜竊)的員工更不需要擔心。第二,按照安全博弈建模的標準假設,SAG假設攻擊者總是以無誤的效用最大化的理性行事。然而,這是一個不合理的強勢假設,因為現實世界的攻擊者可能沒有時間、精力或知識來進行準確的效用計算來選擇策略。而且經驗表明,面對現實世界的攻擊者,博弈建模中的這種假設會給審計師帶來過大的損失[39],因為審計師可以對那些他們認為攻擊者不可能攻擊的目標保護不足。

本論文的第三個目的(如圖1.2所示)是通過解決它們的上述缺陷使在線信令審計機制變得穩健。我們引入了一個新的審計框架,我們稱之為魯棒貝葉斯SAG。首先,我們通過對SAG進行貝葉斯式的擴展,在審計環境中對多個攻擊者類型進行建模,其中審計者在選擇其審計策略時考慮了參與者的回報和偏好的不確定性。然后,由此產生的問題可以通過一個緊湊的表述來解決。第二,為了模擬現實世界中攻擊者的不完全理性,我們探索了穩健優化中的兩種不同類型的方法。1)約束攻擊者的策略選擇與他們的最優策略的最壞情況下的偏差,以及2)約束攻擊者的偏差對審計師損失的影響。我們將每種類型的約束納入實時解決穩健貝葉斯SAG的算法中,并為每種約束建立了相應的解決概念。我們研究了這些解決方案的理論屬性以及它們之間的關系。令人驚訝的是,這兩種算法,雖然視角完全不同,但在某些情況下可以導致等價,并表現出魯棒性的一致性。為了評估穩健貝葉斯SAG的性能,我們構建了兩個環境。1)與VUMC超過1000萬次真實EHR訪問的審計日志相關的真實環境(與目標2中的評估數據集相同);2)從真實數據中得到的模擬控制環境,這使我們能夠模擬攻擊者關于其理性程度的行為。我們特別評估了我們的解決方案和最先進的審計方法在不同條件下的預期效用,以證明新的審計解決方案的價值和其可擴展性。這已經提交給一個會議進行審查。

1.3 學位論文結構

本論文的其余部分組織如下。第二章調查了相關工作。之后,我們通過將相應的問題形式化為特定的博弈論模型,推導出它們的解決方案,然后使用真實和模擬的數據集進行評估,對上述每個目標進行擴展。具體來說,在第三章中,我們將預警優先級的博弈形式化,并推導出其解決算法,以改善離線數據濫用審計。在第四章中,我們介紹了在線信號的概念,以及由此產生的模型-SAG,然后是解決方案的理論屬性和性能評估。第五章提出了考慮到多種攻擊者類型和他們在選擇策略時的不完全理性的SAG的強大框架。在第六章中,我們總結了我們的貢獻并討論了未來的工作,從而結束了論文。

付費5元查看完整內容

這項工作是由Calian團隊為加拿大國防研究與發展部-多倫多研究中心(DRDC TRC)進行的任務5 "人機協作決策支持系統的初步要求",是大型人機交互(HAI)任務授權合同(TAC;合同號:W/001/TOR)的一部分。HAI TAC的目標是設計、開發、實施和評估士兵-機器人合作(SRT)的概念、方法和技術,以改善加拿大武裝部隊(CAF)的整體人機系統(HMS)性能。

在本技術說明中,報告了最近對傳感器技術的研究和發展以及未來在有人-無人系統(MUM-T)作業期間在小型無人系統上實現感知和規避(SAA)能力的文獻回顧。

在傳感器技術方面,我們研究了合作和非合作的傳感器,其中非合作的傳感器又分為主動和被動的。我們認為:(1)無源非合作傳感器在尺寸、重量和功率(SWAP)方面比其他傳感器有優勢。被動工作確保了無人平臺在敵對環境中的安全。為了補充單個傳感器能力的約束和限制,我們還認為,關于(2)傳感器和數據融合的趨勢和未來要求是有希望的,以實現動態、不確定環境中的連續和有彈性的測量。(3)此外,我們應關注無人系統領域正在開發的新型傳感器套件。

在檢測和規避方法方面,我們按照SAA流程進行了全面的研究,從檢測沖突、危險或潛在威脅,到跟蹤目標(物體)的運動;評價和評估風險和信心;根據評估的參數對沖突進行優先排序;然后宣布或確認沖突和沖突的程度;確定正確的沖突解決方式;然后是指揮,最后是執行。為了支持這一過程,對各種SAA算法進行了審查,包括探測算法、跟蹤算法和規避策略。我們認為,(4)基于學習的智能算法需要放在未來的SAA要求中,因為它們具有支持任務的適應能力。

最后,我們從各種使用案例中審查了支持MUM-T行動的SAA。我們認為,(5)與蜂群式小型UxV的人-系統接口提供了半自主的SAA能力,而人的參與程度有限。這種綜合的人-機器人互動提供了智能決策支持工具。該系統旨在使單個人類操作員能夠有效地指揮、監測和監督一個UxV系統。基于技術重點的趨勢,我們最終認為,(6)沒有士兵參與的完全自主在現階段的研究和開發進展方面是不成熟的,但我們將積極關注該領域的最新發展。

付費5元查看完整內容

美國海軍和國防部(DOD)正在優先考慮在各戰爭領域迅速采用人工智能(AI),以保持對美國有利的技術優勢。機器學習(ML)是最近人工智能發展的基礎,它存在著一個持續的、沒有得到充分解決的關鍵缺陷:對抗性樣本。自2013年發現以來,在深度神經網絡(DNN)分類器中出現了許多新形式的對抗性樣本攻擊,并提出了許多狹義和特殊的防御措施。這些防御措施都沒有經受住反測試。一些研究人員提出,這種易受攻擊性可能是不可避免的。到目前為止,還沒有發現有效的、可計算的、通用的方法,可以加固DNN,使其免受這種和相關的泛化問題的影響。我們的前提是,ML模型對所有對抗性樣本的魯棒性與抵抗力,可以通過將模型分類空間數據密集區之間的數據點稀疏的潛在空間,作為障礙隔離來改進。我們研究了兩種不同的方法來實現這種對基于對抗性樣本的攻擊防御,測試這些防御對最有效的攻擊,并將結果與現有的技術狀態的防御進行比較。

第一章 引言

人工智能(AI)已被提出來作為推進國防部能力的一個關鍵推動因素。人工智能國家安全委員會在其最終報告中寫道:"如果我們的武裝部隊不加速采用人工智能,他們的軍事技術競爭優勢可能會在未來十年內喪失",建議 "美國現在必須采取行動,將人工智能系統投入使用,并在人工智能創新方面投入大量資源,以保護其安全,促進其繁榮,并保障民主的未來" [1]。鑒于人工智能或更具體地說,深度神經網絡(DNN)中的機器學習(ML)最近在科學和工業領域取得了廣泛的突破,這種關注無疑是恰當的。然而,在國防應用中利用ML和其他現代 "深度學習 "方法并非沒有其固有的附加風險。

最近的人工智能主張已經近乎夸大其詞;當然,在與軍事和文職領導層的高層溝通中,也發生了一些夸大其詞的情況。作為這種夸張的例子,參考一下《2019年美國總統經濟報告》是如何向美國領導人介紹機器視覺方面的人工智能狀況的。在第343頁題為 "2010-17年人工智能和人類的圖像分類錯誤率 "的圖表中,它顯示了 "人類分類 "錯誤率與機器分類錯誤率將在2015年超過人類圖像分類能力。對這一說法仔細考慮并對參考研究甚至是當前最先進研究進行檢查,顯示這一特殊的發展仍然是一個遙遠的、尚未達到的里程碑。

1.1 深度學習的突破

即使ML仍然存在挑戰,近年來,機器學習在科學、工業和商業領域的成功應用也在急劇增加。深度神經網絡已經在自然語言處理、天文學、癌癥診斷、蛋白質折疊、語音識別和機器視覺等不同領域取得了巨大的進步[2]-[8]。因此,這類系統的潛在軍事應用同樣比比皆是:分析頻譜上下的聲學和電磁傳感器數據、機器視覺、尋找-修復-跟蹤和瞄準對手的飛機、地下、水面和陸地戰斗人員、人類語言處理、語音識別、自主空中/地面/地下/陸地車輛、信息戰、情報、監視和偵察(ISR)整合、機器人技術、網絡防御、網絡攻擊、戰術決策輔助,等等。

1.2 深度學習的脆弱性

盡管這項技術帶來了巨大進步,但目前的ML分類方法創建的模型在其核心上是有缺陷的,因為它們非常容易受到對抗性樣本攻擊和相關欺騙技術的影響[9]。廣義上講,文獻中定義的這類攻擊有三類:探索性攻擊、逃避性攻擊和中毒性攻擊。在本報告中,我們主要關注防御我們認為最關鍵的需求,即逃避攻擊。為了提供背景,我們簡要地概述了這三種攻擊。探索性攻擊,對手并不試圖實現錯誤分類,而是試圖通過精心設計輸入來獲得模型的知識,這些輸入的結果將提供關于模型內部狀態的信息,其目的是減少模型的不確定性,以支持未來的攻擊。中毒攻擊試圖在訓練期間修改模型,以偷偷地完成模型的一些未被發現的行為變化。最后,在逃避攻擊中,攻擊者不知不覺地修改了人工制定或模型的輸入,以產生分類的變化,從良性的或最初設定的類別到一些其他的、欺騙性的不真實的類別[10]。這最后一類是我們防御的重點,從這一點出發,我們把這些簡單地稱為對抗性樣本攻擊[11]。

自從2013年最初發現DNN分類器中的對抗性攻擊(逃避)以來,已經出現了許多種這樣的攻擊,并且至少提出了同樣多的狹義的特定防御措施作為回應。不幸的是,到目前為止,所提出的防御措施沒有一個能經受住反測試和適應性攻擊[12]。一些研究人員提出,這種易感性可能是空間中問題表述的一個不可避免的特征[13]。目前,還沒有發現一種有效的、計算上可接受的、通用的方法,可以支撐DNN對抗類似的相關的泛化問題[12], [14]。

1.3 國防部(DoD)的影響

在國防部的范圍內,大家都承認欺騙在戰爭中起著核心作用。因此,戰爭系統必須被設計成對欺騙有高度的適應性[15]。馬基雅弗利在“Prince”中寫道:"......雖然在任何行動中使用欺騙都是可憎的,但在發動戰爭時,它是值得稱贊的,并能帶來名聲:用欺騙征服敵人與用武力征服敵人一樣受到稱贊。" 對孫子來說,這甚至是更重要的因素,"所有的戰爭都是基于欺騙"。在國防應用中,至關重要的是,不僅系統在戰斗開始時就如設計之處那樣工作,而且它們應該具備有彈性對狡猾的、有同樣資源和動機的對手的潛在計劃。

誠然,ML在民用和科學方面已經取得了巨大的成功。盡管民用工業技術領域與軍事技術需求有很大的內在交集,但應該注意到,后者并不是前者的完美子集。也就是說,戰爭的現實要求其技術必須為虛假信息和故意欺騙的行動、展示和通信做好準備。這兩個領域之間的這些不同假設意味著,在一個領域已經準備好的東西,在另一個領域可能還沒有準備好。在整個國防部,納入這些技術的系統正在被考慮、開發,在某些情況下已經被采用,目的是增強或取代我們一些最關鍵的國家安全能力。在軍事應用中,特別是武器系統和殺傷鏈內的系統,必須消除或至少減少對抗樣本,并對其進行補償,使故障呈現最小的風險。其余的風險必須被明確指出、發現并被作戰人員充分理解。不仔細和充分地解決這個問題是不可想象的,否則我們就有可能采用脆弱性技術,將災難性的漏洞引入我們關鍵戰爭系統。

1.4 增強防御措施

在防御基于機器學習技術的系統不受欺騙的潛在戰略背景下,我們介紹了一種防御措施。我們的前提是,ML模型對所有對抗性樣本的魯棒性與抵抗力,可以在模型分類器的分類空間數據密集區之間的數據點稀疏潛在空間中插入一個 "填充 "或 "屏障 "的方法來提高[13], [16]。我們相信,通過統計學插值或采用變分自動編碼器(VAE)[17]或生成對抗網絡(GAN)[18]來插值和投射到這個空間的模型可以創建人工填充類樣本來增加數據集,所產生的模型將能夠成功地區分合法數據點和對抗性樣本,同時保持與最先進分類方法相稱的準確性。

付費5元查看完整內容

摘要

實時戰略游戲已經成為開發和分析人工智能(AI)和基于深度機器學習的競爭、攻擊者與防御者場景的算法的一個有吸引力的環境。基于計算機的實時戰略游戲和用于軍事訓練的戰爭游戲的特征之間的相似性也提供了一種手段,可以將基于人工智能的實時戰略游戲的結果和教訓過渡到幫助和告知作戰人員的決策能力。我們的論文研究了基于人工智能的實時戰略游戲和軍事決策中的戰略規劃之間的這種交集,這個領域被稱為對抗性人工智能。我們描述了在實時戰略游戲中開發有效的對抗性人工智能的問題和挑戰,我們最近組織了一次對抗性人工智能競賽,使用的是海洋環境中的模擬版奪旗游戲。我們討論了比賽的條目、結果和從競爭者的反饋中獲得的教訓,并為基于人工智能的、復雜的、對立的實時戰略游戲規定了未來的方向和公開的挑戰。

引言

近年來,人工智能(AI)已經成為用于軍事和民用領域的自動化系統背后的主要使能技術。自動化系統必須不斷與環境中的其他實體互動,包括人類、智能設備、計算機和其他人工智能。傳統上,基于人工智能的系統在設計時假定與它們互動的其他實體是良性的。換句話說,互動的實體不會故意做出對抗性的行為來打敗或顛覆人工智能。然而,在現實世界中,隨著基于人工智能的系統變得更加普遍,敵對行為者不斷想出新的方法來迷惑基于人工智能的系統,使其失敗并以不正確、不安全甚至危險的方式運行。我們的論文描述了正在進行的應對這些挑戰的努力,作為 "五眼"(FVEY)技術合作計劃(TTCP)人工智能戰略挑戰(AISC)的一部分,在一個被稱為對立人工智能(OAI)的技術領域。

OAI的目標是更好地理解來自不同利益相關者的基于人工智能的系統在以噪聲和低質量數據為特征的環境中相互作用時出現的問題,這些利益相關者的心態和目標是不一致的,可能是相反的。OAI支柱的一個主要方向是將OAI問題建模為一個防御者與攻擊者的游戲,并使用強化學習技術開發和分析不同的游戲策略。為了實現這一目標,我們正在使用一個名為Aquaticus奪旗(CTF)的多人游戲。游戲編程界面是用Python和OpenAI Gym編寫的,以便與強化學習算法輕松靈活地整合,通過分析可能的攻擊和防御策略空間,智能地學習游戲和贏得比賽。在本文中,我們描述了與開發有效的基于人工智能的技術有關的問題和挑戰,這些技術可以使玩家在OAI場景中獲得決定性的優勢,以及我們在組織首屆OAI Aquaticus CTF比賽中的經驗。最后,我們討論了從比賽中獲得的一些經驗,并確定了未來的方向,這些方向將使人工智能研究普遍化,并使其更適于過渡到戰場上的對立場景中的有效決策。

圖1. MOOS-IvP模擬器內的Aquaticus奪旗游戲截圖(左),以及MOOS-IvP模擬器界面疊加在真實海洋環境中的Aquaticus CTF游戲;每隊有4名玩家(右)
付費5元查看完整內容

機器學習是現代戰爭系統的關鍵組成部分。本文探討了人工智能的 7 個關鍵軍事應用。

機器學習已成為現代戰爭的重要組成部分,也是我(Nicholas Abell)作為陸軍退伍軍人和數據科學家的主要興趣點。與傳統系統相比,配備人工智能/機器學習的軍事系統能夠更有效地處理大量數據。此外,人工智能由于其固有的計算和決策能力,提高了作戰系統的自我控制、自我調節和自我驅動能力。

人工智能/機器學習幾乎被部署在所有軍事應用中,軍事研究機構增加研發資金有望進一步推動人工智能驅動系統在軍事領域的應用。

例如,美國國防部 (DoD) 的國防高級研究計劃局 (DARPA) 正在資助一種機器人潛艇系統的開發,該系統預計將用于從探測水下水雷到參與反潛行動的各種應用。此外,美國國防部在 2017 財年在人工智能、大數據和云計算方面的總體支出為 74 億美元。預計到 2025 年,軍事 ML 解決方案的市場規模將達到 190 億美元。

以下是機器學習將在未來幾年證明其重要性的七種主要軍事應用。

1. 作戰平臺

來自全球不同國家的國防軍隊正在將人工智能嵌入陸地、海軍、空中和太空平臺上使用的武器和其他系統中。

在基于這些平臺的系統中使用人工智能,可以開發出更少依賴人工輸入的高效作戰系統。它還增加了協同作用,提高了作戰系統的性能,同時需要更少的維護。人工智能還有望使自主和高速武器能夠進行協作攻擊。

2. 網絡安全

軍事系統通常容易受到網絡攻擊,這可能導致機密軍事信息丟失和軍事系統損壞。然而,配備人工智能的系統可以自主保護網絡、計算機、程序和數據免受任何未經授權的訪問。

此外,支持人工智能的網絡安全系統可以記錄網絡攻擊的模式,并開發反擊工具來應對它們。

3. 物流運輸

人工智能有望在軍事后勤和運輸中發揮關鍵作用。貨物、彈藥、武器和部隊的有效運輸是成功軍事行動的重要組成部分。

將人工智能與軍事運輸相結合可以降低運輸成本并減少人力工作負荷。它還使軍用艦隊能夠輕松檢測異常并快速預測組件故障。最近,美國陸軍與 IBM 合作,使用其 Watson 人工智能平臺來幫助預先識別 Stryker 戰車的維護問題。

4. 目標識別

正在開發人工智能技術以提高復雜戰斗環境中目標識別的準確性。這些技術使國防軍隊能夠通過分析報告、文檔、新聞提要和其他形式的非結構化信息來深入了解潛在的作戰領域。此外,目標識別系統中的人工智能提高了這些系統識別目標位置的能力。

支持人工智能的目標識別系統能力包括基于概率的敵人行為預測、天氣和環境條件匯總、潛在供應線瓶頸或漏洞的預測和標記、任務方法評估以及建議的緩解策略。機器學習還用于從獲得的數據中學習、跟蹤和發現目標。

例如,DARPA 的競爭環境中的目標識別和適應 (TRACE) 計劃使用機器學習技術在合成孔徑雷達 (SAR) 圖像的幫助下自動定位和識別目標。

5. 戰場醫療

在戰區,人工智能可以與機器人手術系統 (RSS) 和機器人地面平臺 (RGP) 集成,以提供遠程手術支持和疏散活動。美國尤其參與了 RSS、RGP 和其他各種用于戰場醫療保健的系統開發。在困難條件下,配備人工智能的系統可以挖掘士兵的病歷并協助進行復雜的診斷。

例如,IBM 的 Watson 研究團隊與美國退伍軍人管理局合作開發了一種稱為電子病歷分析器 (EMRA) 的臨床推理原型。這項初步技術旨在使用機器學習技術來處理患者的電子病歷,并自動識別和排列他們最嚴重的健康問題。

6. 戰斗模擬與訓練

模擬與訓練是一個多學科領域,它將系統工程、軟件工程和計算機科學結合起來構建計算機模型,使士兵熟悉在軍事行動中部署的各種作戰系統。美國正在越來越多地投資于模擬和訓練應用。

美國海軍和陸軍都在進行戰爭分析,啟動了幾個傳感器模擬程序項目。美國海軍已經招募了 Leidos、SAIC、AECOM 和 Orbital ATK 等公司來支持他們的計劃,而美國陸軍的計劃得到了包括 SAIC、CACI、Torch Technologies 和 Millennium Engineering 在內的公司的支持。

7. 威脅監控和態勢感知

威脅監控和態勢感知在很大程度上依賴于情報、監視和偵察 (ISR) 工作。ISR 行動用于獲取和處理信息以支持一系列軍事活動。

用于執行 ISR 任務的無人系統既可以遠程操作,也可以按照預先定義的路線發送。為這些系統配備人工智能有助于防御人員進行威脅監控,從而提高他們的態勢感知能力。

具有集成 AI 的無人駕駛飛行器 (UAV) - 也稱為無人機 - 可以巡邏邊境地區,識別潛在威脅,并將有關這些威脅的信息傳輸給響應團隊。因此,使用無人機可以加強軍事基地的安全,并提高軍事人員在戰斗中或偏遠地區的安全性和效率。

結論

人工智能在軍事技術硬件和軟件的大規模采用,向我們展示了現代戰爭中令人難以置信和可怕的范式轉變。毫不奇怪,世界上最大的軍隊比其他任何事情都更加關注這項技術,而這場技術競賽的獲勝者可能會比美國在研制原子彈后擁有更多的全球影響力。 (作者:Nicholas Abell,美國陸軍退伍軍人)

付費5元查看完整內容

摘要

現代多領域沖突日益復雜,使得對其戰術和戰略的理解以及確定適當行動方案具有挑戰性。作為概念開發和實驗 (CD&E) 的一部分的建模和仿真提供了新的見解,以更快的速度和更低的成本比物理機動更易實現。其中,通過計算機游戲進行的人機協作提供了一種在各種抽象級別模擬防御場景的強大方法。然而,傳統的人機交互非常耗時,并且僅限于預先設計的場景,例如,在預先編程的條件計算機動作。如果游戲的某一方面可以由人工智能來處理,這將增加探索行動過程的多樣性,從而導致更強大和更全面的分析。如果AI同時扮演兩個角色,這將允許采用數據農場方法,從而創建和分析大量已玩游戲的數據庫。為此,我們采用了強化學習和搜索算法相結合的方法,這些算法在各種復雜的規劃問題中都表現出了超人的表現。這種人工智能系統通過在大量現實場景中通過自我優化來學習戰術和策略,從而避免對人類經驗和預測的依賴。在這篇文章中,我們介紹了將基于神經網絡的蒙特卡羅樹搜索算法應用于防空場景和虛擬戰爭游戲中的戰略規劃和訓練的好處和挑戰,這些系統目前或未來可能用于瑞士武裝部隊。

付費5元查看完整內容

摘要

現代戰爭的特點是復雜性越來越高,敵手聰明且技術優良。為了解決現代戰爭的一些復雜性,基于機器學習(ML)的技術最近為戰場上的自動化任務提供了合適的手段。然而,配備了ML技術的聰明敵人不僅在戰場上參與公平競爭,而且還利用欺騙和隱蔽攻擊等策略,制造惡意方法來破壞ML算法,獲得不公平的優勢。為了應對這些威脅,自動化戰場系統上使用的ML技術必須能夠強大地抵御敵方的攻擊。

我們在一種稱為“示范學習”(LfD)的強化學習算法的背景下,分析了競爭場景中的對抗學習問題。在LfD中,學習智能體觀察由專家完成的操作演示,以學習快速有效地執行任務。LfD已成功應用于軍事行動,如使用機器人團隊進行自主搜索和偵察,或自主抓取拆除簡易爆炸裝置。然而,惡意的敵人可以通過植入敵對的專家來利用LfD,這些專家要么給出不正確的演示,要么修改合法的演示,從而使學習智能體在任務中失敗。為了解決這個問題,我們首先分析了在LfD框架內對抗專家可以使用的不同的演示修改策略,根據對手的修改成本和修改學習代理對任務性能的影響。然后,我們提出了一個新的概念,利用對手和學習智能體之間的博弈,學習智能體可以使用LfD從潛在的對手專家演示中戰略性地學習,而不顯著降低其任務性能。在AI-Gym環境中,我們對提出的魯棒學習技術進行了評估,該技術通過對雅達利類游戲“LunarLander”中的專家演示進行對抗性修改。

圖1所示。(左)使用LfD學習自動駕駛設置時敵對軌跡對策略的影響。(右)在我們提出的方法中,干凈(綠色)和對抗(紅色)軌跡首先是等分的。然后,在使用選項(金虛線)接受或拒絕軌跡部分后,對每個分區學習策略,或對未分區的軌跡使用傳統的強化學習(藍虛線)。

對抗性專家演示框架

我們考慮這樣一個場景,學習智能體必須通過從專家給出的任務演示(LfD)中進行強化學習來在環境中執行任務。一些專家可能是敵對的,并修改軌跡演示的意圖,使學習智能體不能正確執行任務,而遵循修改的演示。在本文的其余部分中,為了便于閱讀,我們將對抗性專家稱為專家。LfD框架采用馬爾可夫決策過程(MDP)[12]進行形式化。LfD算法的輸出是一個策略,該策略為執行任務提供狀態到動作映射。RL通過一個叫做訓練的過程學習策略,在這個過程中,它探索環境,觀察在探索過程中收到的狀態-行為-獎勵配對,最后選擇一系列導致更高期望獎勵的狀態-行為-獎勵配對作為它的策略。

專家們的演示以被稱為軌跡的狀態-行動-獎勵元組序列的形式給出。專家軌跡可能是良性的,也可能是敵對的。良性和敵對的專家軌跡分別展示了完成任務的正確和不正確的方式,并幫助或阻礙了學習智能體學習執行任務。專家演示被整合到智能體的學習中,使用名為DAGGER[1]的LfD算法執行任務。DAGGER使用來自專家演示軌跡的監督學習來學習策略,但添加了一個權重參數β,該參數表示學習主體在將軌跡納入其學習策略時的權重或信任度。

算法1。學習器用來接受或拒絕軌跡演示的算法。

算法2。由專家用來修改干凈軌跡的算法。

付費5元查看完整內容
北京阿比特科技有限公司