防御計算機入侵中最令人頭疼的問題之一是看似無窮無盡的可利用軟件錯誤,盡管在安全軟件開發實踐方面取得了重大進展,但這些錯誤仍然存??在。每月至少一次(例如,在補丁星期二),主要軟件供應商發布補丁,以修復已發現的已部署軟件代碼庫中的漏洞。這些補丁通常是在已知漏洞并被利用后發布的,在某些情況下會持續數月甚至數年。在當前部署的系統中,攻擊者有一個靜態目標來研究和發現漏洞,然后有一個暴露窗口來利用漏洞獲得對他人機器和網絡的特權訪問,直到發現漏洞,發現漏洞,發布補丁,然后廣泛應用。這個過程的動態明顯有利于攻擊者而不是防御者,因為攻擊者只需要找到一個可利用的漏洞,而防御者必須確保不存在任何漏洞。攻擊者有充足的時間分析軟件代碼,而防御者不知道攻擊者何時會發動攻擊。最后,防御者通常只能在已知漏洞利用或漏洞后才能阻止漏洞被利用,從而使攻擊者自動獲得利用零日漏洞訪問的優勢。
在此背景下,開發了移動目標防御 (MTD) 主題,以平衡防御者與攻擊者的競爭環境。 MTD 的基本概念是動態地改變被防御系統的攻擊面,從而剝奪了對手能夠離線研究目標系統并發現可以在攻擊時利用漏洞的優勢。盡管漏洞暴露在外,MTD 系統仍提供概率保護,只要攻擊者在攻擊時無法預測這些漏洞。 MTD 已被確定為白宮網絡安全研發戰略計劃的四個重點領域之一。
在 MTD 的第一卷中,我們介紹了 MTD 基礎、基于軟件轉換的 MTD 方法以及網絡和軟件堆棧配置的論文。在 MTD 的后續第二卷中,一組領先的研究人員描述了用于構建和分析 MTD 系統的博弈論、網絡機動和軟件轉換方法。
本書中的章節介紹了基于博弈論方法、基于網絡的網絡機動和軟件轉換的一系列 MTD 挑戰和有希望的解決方案路徑。
在第一章, Manadhata 探討了攻擊面轉移在移動目標防御方法中的使用。本章形式化了轉移軟件系統攻擊面的概念,介紹了一種量化轉移的方法,并提出了一種博弈論方法來確定最佳的移動目標防御策略。
在第二章,Jain等人描述將博弈論應用于安全的具有挑戰性的現實世界問題,并提出解決和理解大型現實世界安全博弈特征的關鍵思想和算法,該領域的一些關鍵開放研究挑戰,以及初步成功的范例部署的系統。
在第三章,Bilar等人詳細研究Conficker 蠕蟲的協同進化及其相關防御措施,以及解釋協同進化的定量模型。這項研究以具體的方式表明,攻擊者和防御者相互呈現移動目標,因為一方的前進會被另一方反擊。
在第四章,Gonzalez 總結了個人層面的人類行為計算模型的當前狀態,并描述了擴展它們以解決 2 人(即防御者和攻擊者)非合作動態網絡安全情況中的預測的挑戰和潛力。
接下來的兩章探討網絡環境中的網絡機動。在第五章,Torrieri等人識別來自外部來源和內部人員的干擾和其他攻擊的研究問題和挑戰。他們提出了一個基于機動密鑰作為擴頻密鑰概念的通用框架;這些補充了更高級別的網絡加密密鑰,并提供了抵抗和響應外部和內部攻擊的方法。
在第六章,Yackosk等人描述了一種基于 IPv6 的網絡架構,該架構結合了強大的加密機制來限制攻擊者在網絡內進行計劃、傳播和通信的能力。
其余章節介紹基于軟件轉換的 MTD 方法。在第七章,Le Goues等人描述 Helix Metamorphic Shield 在空間和時間維度上不斷改變程序的攻擊面,并通過應用新穎的進化算法自動修復漏洞來減少程序的攻擊面。轉移攻擊面和減少攻擊面之間的相互作用導致新程序變體的自動演變,其質量隨著時間的推移而提高。
在第八章,Jackson等人回顧他們基于編譯器的自動化代碼多樣化技術,對該技術進行深入的性能分析,并通過多樣化整個系統堆棧來證明其在現實世界中的適用性。
最后,在第九章,Pappas等人描述就地代碼隨機化,一種可以直接應用于第三方軟件的軟件多樣化技術。它們演示了就地代碼隨機化如何強化固有易受攻擊的 Windows 7 應用程序,并提供概率保護以防止面向返回的編程 (ROP) 攻擊。
對手建模是使用先驗知識和觀察來預測對手行為的能力。本綜述全面概述了對抗領域的現有對手建模技術,其中許多必須解決隨機、連續或并發動作,以及稀疏、部分可觀察的收益結構。我們討論了對手建模系統的所有組件,包括特征提取、學習算法和策略抽象。這些討論使我們提出了一種新的分析形式,用于描述和預測博弈狀態隨時間的演變。然后,我們介紹了一個促進方法比較的新框架,使用所提出的框架分析了具有代表性的技術選擇,并突出了最近提出的方法之間的共同趨勢。最后,我們列出了幾個未解決的問題,并討論了受人工智能研究啟發的對手建模和其他學科相關研究的未來研究方向。
這項綜述的目標有四個。首先,我們全面回顧了對抗領域中對手建模的工作。其次,我們提出了一個新的數學視角,通過它可以理解和分析兩種或多種策略的相互作用。第三,我們引入了一個通用框架來比較和評估對手建模技術。第四,鑒于當前的最新技術,我們討論了對手建模和潛在研究領域的開放問題。
對手建模的工作已用于許多現實世界的應用中,包括足球、籃球和網球等職業運動,編隊預測和巡邏行為等軍事任務,甚至視頻游戲設計(Ontan′on et al. , 2013; Bakkes 等人, 2012)。這些技術也被應用于各種基礎研究計劃,其中機器人足球及其變體是其中的佼佼者。理論上,這些領域中的許多都可以使用部分可觀察隨機博弈 (POSG) 進行建模,并且在某些條件下,POSG 求解器可以找到可證明的最優策略。然而,許多感興趣的場景要么太復雜以至于生成的 POSG 變得難以處理,要么沒有可以寫下來的收益函數,要么是因為它們太復雜,要么是因為它們只是未知。這些類型的場景需要不同的方法。對手建模研究不是完全建模問題并先驗地計算最優策略,而是使用從過去經驗甚至在線收集的數據,來完成或改進僅部分預定義的對手行為模型。此外,一些交互可能支持多個不兼容的均衡,檢測哪些動作與當前均衡兼容需要進行對手建模。
學術文獻引用了對手建模研究的許多潛在應用,為了簡化不同技術和概念的討論和比較,我們將使用一個運行示例。 RoboCup (Kitano et al., 1997) 是每年舉辦一次的國際機器人足球比賽,機器人團隊在類似人類足球運動的比賽中相互競爭。盡管 RoboCup 及其各個部門與其他對手建模應用程序有所不同,但它保留了許多使其成為具有挑戰性和有用的領域基本屬性。
原則上,這些屬性包括連續動作、隨機動作、并發動作、稀疏且部分可觀察的收益結構,以及在某些 RoboCup 聯賽中,多個智能體的分散協調。例如,發送給機器人的驅動目標分別是連續的位置或速度變量和
。擊球和傳球所需的方向和速度也是連續變量。此外,當機器人執行這些驅動或踢動作時,結果是隨機的,由未來某個時間機器人或球位置、速度變量的概率密度函數描述。因為進球射門是唯一直接影響勝利條件的事件,所以收益結構是稀疏的,大多數動作對任何一支球隊的即時收益都為零。此外,即使可以使用為非目標行為產生收益估計的評估函數,這種函數的最佳形式也沒有得到普遍認可,并且智能體不知道他們的對手使用的函數。
不出所料,這些特性引起了許多研究對手建模的研究人員的關注,特別是 RoboCup 模擬聯盟支持了各種對手建模研究(Pourmehr & Dadkhah,2011)。從這里開始,我們將使用基于 RoboCup 的示例來說明概念,并且由于這個基礎,我們將與決策制定和預測相關的一組變量(包括完全可觀察的和部分可觀察的)稱為“博弈狀態” Y。盡管本次綜述中提出的大多數研究并未同時表現出上述所有屬性的問題,例如一些方法假設離散動作、確定性動作、回合制博弈等,但在研究問題公式如何演變以利用問題各個方面的額外信息或確定性方面,存在有價值的視角。 Albrecht & Stone (2018) 也討論了其中的一些研究,盡管我們更關注對抗領域,特別是各種方法如何模擬博弈狀態的演變。
個人對手建模方法在實踐中運作良好所需的高度專業化,通常掩蓋了文獻中存在的趨勢和模式。此外,由于個別論文專注于其應用的特定領域方面,因此可能難以識別長期限制或更廣泛地揭示對手建模研究中的隱含假設。我們認為對手建模研究有巨大的進步潛力,特別是隨著無監督學習技術的不斷改進,以及許多現實世界的問題,如軍事行動、保護工作和視頻游戲娛樂,將大大受益于提高對手性能的進展建模系統。此外,許多其他多智能體應用領域可能會受益于對手建模的進步,因為這些領域通常仍然需要對另一個智能體的隱藏狀態進行建模。相反,我們也認為來自其他研究領域的見解可以激發對手建模的創新。
圖 1:對手建模管道概述。所有對手建模系統都從以前的博弈過程中收集的數據開始,或在操作期間收集數據,或兩者兼而有之。大多數系統都需要一個預處理步驟,其中使用特征提取或分割和標記技術對數據進行擴充或轉換,以便正確格式化數據以供后續學習或推理。一些管道同時使用特征和標簽。行為預測要么直接完成,要么在分類步驟之前進行,其中對手行為被映射到抽象類,然后使用類標識來預測行為。最后,預測的行為用于計算響應。基于行為預測而不是預測本身的準確性來衡量響應效果的實驗在文獻中的代表性不足。
圖 2:收集對手建模系統的數據處理挑戰。從左到右:藍色的機器人 3 顯示了傳感器輸入到大多數現實世界對手建模系統的不確定、含噪的性質。黃色方框中的這對機器人與右邊緊密關聯。確定它們是否提供有用的信息具有挑戰性。最右邊的橙色箭頭代表機器人 5 可能踢過的可能軌跡,中間的軌跡代表測量的內容。顯然,傳球或射門是有意的,但很難貼上正確的標簽。
圖 3:假設博弈狀態和策略流形的幾個不斷約束的版本圖示。在圖的頂部,顯示了水平曲線,表示策略流形的每個部分智能體 i 的值。紫色線在 x2 的某個恒定值處沿著流形的值函數行進。如果智能體 i 只能影響 x1 ∈ Y ,則紫色曲線的切線表示策略梯度,此處顯示在沿紅色線的任意點處。
提供了一個(非常)簡短的博弈論介紹。編寫了這些筆記以提供對博弈論一些基礎知識的快速訪問;主要是為那些,假設熟悉博弈論但并不要求它作為先決條件的課程的學生提供幫助。當然,這里討論的材料只是眾所周知的冰山一角,還有很多資料可以提供更完整的主題處理。在這里,介紹了一些最基本的概念,并提供了足夠的討論。
執行非合作博弈論分析的基本要素是(1)根據參與者可用的行動及其作為行動的函數的回報來構建情境,以及(2)使用各種均衡概念來進行描述性或規定性預測。在構建分析框架時,一些問題變得很重要。首先,球員是誰?他們可能是人、公司、組織、政府、族群等等。其次,他們可以采取哪些行動?應列出玩家可能采取的可能影響任何玩家收益的所有行動。第三,互動的時機是什么?行動是同時采取的還是順序采取的?交互是否重復?比賽的順序也很重要。在另一個玩家之后移動可以讓玩家 i 知道其他玩家做了什么;它還可能使玩家 i 在失去時間或采取某些行動的能力方面處于不利地位。不同的玩家在采取行動時有什么信息?第四,互動對不同參與者的回報是什么?確定收益涉及估計所有參與者每組潛在選擇的成本和收益。在許多情況下,估計某些玩家(例如您自己)的收益可能比其他人更容易,并且可能不清楚其他玩家是否也在進行戰略思考。這種考慮表明要仔細注意敏感性分析。
一旦我們確定了情況,我們就可以從不同參與者的角度來分析哪些行動對他們來說是最佳的。我們可以使用各種標準。
圖書簡介
本書的主題元學習,作為機器學習研究中增長最快的領域之一,研究了通過調整機器學習和數據挖掘過程來獲得有效模型和解決方案的方法。這種適應能力通常利用來自過去其他任務的經驗信息,并且適應過程可能涉及機器學習方法。作為與元學習相關的領域和當前的熱門話題,自動化機器學習(AutoML)關注的是機器學習過程的自動化。元學習和AutoML可以幫助AI學習控制不同學習方法的應用并更快地獲取新的解決方案,而無需用戶進行不必要的干預。
本書全面而透徹地介紹了元學習和 AutoML的幾乎所有方面,涵蓋了基本概念和架構、評估、數據集、超參數優化、集成和工作流,以及如何使用這些知識來選擇、組合、調整和配置算法和模型,以更快更好地解決數據挖掘和數據科學問題。因此,它可以幫助開發人員開發可以通過經驗改進自己的系統。
本書是2009年第一版的重大更新,共18章,內容幾乎是上一版的兩倍。這使作者能夠更深入地涵蓋最相關的主題,并結合各自領域最近研究的概述。這本書適用于對機器學習、數據挖掘、數據科學和人工智能領域感興趣的研究人員和研究生。
章節瀏覽
元學習(Metalearning)或者叫做“學會學習”(Learning to learn),它希望模型獲取一種“學會學習”的能力,使其可以在獲取已有“知識”的基礎上快速學習新的任務,它的意圖在于通過少量的訓練實例設計能夠快速學習新技能或適應新環境的模型。
作者寄語
“本書的第一版出版于2009年,在過去的十幾年中,元學習的飛速發展,取得了巨大的進步。于是我們決定出版本書的第二版。在新的版本中,我們添加了AutoML的相關知識,并且深入探討了AutoML與Metalearning的關系;同時,由于自動化工作流程設計仍在初期發育的階段,我們也把相關研究和信息增加到了本書的第二版中。”
圖書簡介
本書的主題元學習,作為機器學習研究中增長最快的領域之一,研究了通過調整機器學習和數據挖掘過程來獲得有效模型和解決方案的方法。這種適應能力通常利用來自過去其他任務的經驗信息,并且適應過程可能涉及機器學習方法。作為與元學習相關的領域和當前的熱門話題,自動化機器學習(AutoML)關注的是機器學習過程的自動化。元學習和AutoML可以幫助AI學習控制不同學習方法的應用并更快地獲取新的解決方案,而無需用戶進行不必要的干預。
本書全面而透徹地介紹了元學習和 AutoML的幾乎所有方面,涵蓋了基本概念和架構、評估、數據集、超參數優化、集成和工作流,以及如何使用這些知識來選擇、組合、調整和配置算法和模型,以更快更好地解決數據挖掘和數據科學問題。因此,它可以幫助開發人員開發可以通過經驗改進自己的系統。
本書是2009年第一版的重大更新,共18章,內容幾乎是上一版的兩倍。這使作者能夠更深入地涵蓋最相關的主題,并結合各自領域最近研究的概述。這本書適用于對機器學習、數據挖掘、數據科學和人工智能領域感興趣的研究人員和研究生。
近年來,博弈論對計算機科學產生了重大影響,特別是在互聯網和電子商務相關問題上。首次發表于2007年的算法博弈論,以清晰簡潔的方式闡述了這一令人興奮領域的核心思想和結果。在這個領域中,超過40位頂尖的研究人員已經撰寫了從基礎到技術的各個章節。關于均衡的算法方法、機制設計和組合拍賣的基本章節之后是關于激勵和定價、成本分擔、信息市場、密碼和安全等重要博弈論應用的章節。這項決定性的工作將為今后幾年乃至更久的研究奠定基調。學生、研究者和實踐者都需要更多地了解這些引人入勝的理論發展及其廣泛的實際應用。
題目: An Overview of Privacy in Machine Learning
序言: 在過去幾年中,谷歌、微軟和亞馬遜等供應商已經開始為客戶提供軟件接口,使他們能夠輕松地將機器學習任務嵌入到他們的應用程序中。總的來說,機構現在可以使用機器學習作為服務(MLaaS)引擎來外包復雜的任務,例如訓練分類器、執行預測、聚類等等。他們還可以讓其他人根據他們的數據查詢模型。當然,這種方法也可以在其他情況下使用(并且經常提倡使用),包括政府協作、公民科學項目和企業對企業的伙伴關系。然而,如果惡意用戶能夠恢復用于訓練這些模型的數據,那么由此導致的信息泄漏將會產生嚴重的問題。同樣,如果模型的內部參數被認為是專有信息,那么對模型的訪問不應該允許對手了解這些參數。在本文中,我們對這一領域的隱私挑戰進行了回顧,系統回顧了相關的研究文獻,并探討了可能的對策。具體地說,我們提供了大量關于機器學習和隱私相關概念的背景信息。然后,我們討論了可能的對抗模型和設置,涵蓋了與隱私和/或敏感信息泄漏有關的廣泛攻擊,并回顧了最近試圖防御此類攻擊的結果。最后,我們總結出一系列需要更多工作的開放問題,包括需要更好的評估、更有針對性的防御,以及研究與政策和數據保護工作的關系。
題目: A Game Theoretic Framework for Model Based Reinforcement Learning
摘要: 基于模型的強化學習(MBRL)最近獲得了極大的興趣,因為它具有潛在的樣本效率和合并非策略數據的能力。然而,使用富函數逼近器設計穩定、高效的MBRL算法仍然具有挑戰性。為了從抽象的角度揭示MBRL的實際挑戰并簡化算法設計,我們開發了一個新的框架,將MBRL描述為:(1)一個策略參與者,它試圖在學習模型下最大化回報;(2)一個模型player,它試圖與策略player收集的真實數據相匹配。在算法開發方面,我們構造了一個雙方參與的Stackelberg博弈,并證明了它可以用近似的雙層優化來解決。這就產生了兩種自然的MBRL算法,基于這兩種算法,玩家被選擇為Stackelberg游戲的領導者。它們一起封裝、統一和泛化了許多以前的MBRL算法。此外,我們的框架是一致的,并提供了一個明確的基礎啟發式已知是重要的實踐,從以往的工作。最后,通過實驗驗證了所提出的算法具有較高的樣本效率,匹配無模型策略梯度的漸近性能,并能擴展到靈巧手操作等高維任務。
主題: Deep Reinforcement Learning with Applications in Transportation
簡介: 交通運輸,特別是移動乘車共享領域,存在許多傳統上具有挑戰性的動態決策問題,這些問題涉及研究文獻,而且很容易從人工智能(AI)中受益匪淺。一些核心示例包括在線乘車指令調度,該系統將可用的駕駛員與乘車共享平臺上的出行請求乘客實時匹配;路線規劃,用于規劃行程起點和終點之間的最佳路線;交通信號控制,可動態自適應地調整區域內的交通信號以實現低延遲。所有這些問題都有一個共同的特征,即在我們關注某個范圍內的一些累積目標時,要做出一系列決定。強化學習(RL)是一種機器學習范例,可訓練代理通過與之交互并獲取反饋信號來學習在環境中采取最佳行動(以所獲得的總累積獎勵衡量)。因此,它是用于解決順序決策問題的一類優化方法。得益于深度學習研究和計算能力的飛速發展,深度神經網絡和RL的集成為解決復雜的大規模學習問題在RL中產生了爆炸性的進展,近年來引起了巨大的興趣。深度學習和RL的結合甚至被認為是通往真正AI的道路。它具有巨大的潛力,以前所未有的方式解決運輸中的一些難題。
目錄簡介: