該項目側重于從博弈論分析中開發算法,以便在調查限制條件下成功識別攻擊者控制的基礎設施,并達到或優于傳統的實踐狀態。
在這個項目中,我們通過開發算法來應對尋找已經存在于網絡中的對手的挑戰,通過將威脅獵取建模為網絡偽裝游戲(CCG),一種在 "探測 "者(類似于威脅獵取者)和潛在的欺騙性 "目標"(類似于攻擊者)之間進行的數學游戲。
我們將在模擬環境中測試這些算法,并使用從CCG分析和威脅獵取領域得出的指標評估成功與否。云遙測數據將被用來開發和驗證獵殺算法,評估這些數據對威脅獵殺的充分性,并找出潛在的差距,反饋給供應商的要求和開放標準,使威脅獵殺在云原生環境中更加有效。
做出決定是很難的! 值得慶幸的是,人類已經開發了許多概念框架,如決策理論、運籌學、倫理理論、統計學、博弈論和強化學習,以幫助解決這個過程。這些框架中的每一個都可以通過它們將決策的哪些方面放在前面和中心,哪些方面被忽略來描述。
本論文涉及統計學、博弈論和強化學習的交叉領域的課題。廣義上講,這些領域可以有以下特點。
統計學是關于不確定性的量化:給定一些產生數據的過程,統計學提供了正式的工具,將數據轉換為關于該過程的陳述,這些陳述是根據數據所傳達的證據量來校準的。在一個典型的統計問題中,科學家對一個系統進行干預,并在每次干預后收集系統的數字測量。統計學家的任務是利用這些數據來提供(i)干預措施效果的估計值,以及(ii)這些估計值中不確定性的一些原則性量化。如何處理這些估計值的問題完全由科學家(或其他領域的專家)來決定。
博弈論是關于戰略的,即在有其他決策者存在的情況下的決策考慮。它把有關相互作用的決策者或智能體之間的沖突、合作和激勵的問題放在最前面和中心。一個典型的博弈論問題是:給定一組智能體可用的選項和智能體對結果的偏好,什么樣的智能體行為分配是穩定的,以至于沒有智能體會有動力改變他們的行為?博弈論想當然地認為,智能體確切地知道他們的偏好(用數字表示),并且通常假設,一旦考慮到其他智能體行動的不確定性,就可以確定地知道行動的后果。
強化學習是關于從經驗中學習。在強化學習中,決策者通過采取行動和觀察與所采取行動的質量相關的數字 "獎勵 "信號來與系統互動。學習問題是更新決策規則以獲得更大的獎勵。這些更新可能會影響到收集到的數據的分布,從而引入統計方面的挑戰。在這種情況下,決策者面臨著基本的權衡,如是否采取行動以收集更多的信息,或是否采取行動以獲得更大的獎勵(所謂的探索-利用權衡)。強化學習的一個典型問題是反復玩有限數量的老虎機,保持對其報酬分布的估計,目的是獲得最大的累積報酬。鑒于其對行為和行為引起的獎勵的強調,強化學習(狹義上的解釋)不關注不確定性的量化,也不關注其他決策者的存在。
上述每個框架都提供了一個獨特的視角來分析決策問題,并提供了強大的工具來進行分析。每個框架也都有其局限性。例如,傳統的統計學可以被認為是一種完全的描述性工作,適用于分析者不與之互動的系統:它沒有明確地納入決策,并經常假設數據是以一種方便的方式取樣的,例如,作為獨立和相同的人口抽樣。這就排除了分析本身可能會改變產生的數據。在光譜的另一端,經典博弈論幾乎沒有試圖進行描述,而是相當規范,詳細說明了 "理性 "智能體必須采取行動的方式,并規定了這些智能體的理論上穩定的配置。博弈論是抽象的,它假設了許多不確定性的來源,如環境中的不確定性或自己對結果的偏好。
寬泛地說,強化學習在純粹的描述性或規范性之間做出了妥協:它的工具可以用來分析現實世界的智能體所產生的數據,或者為智能體推薦或規定行動。它的研究重點通常是制造理想的行為,這使得它更適合作為一門工程學科(如控制理論),而不是用于對不確定性進行仔細量化的數據稀缺環境,或對其他智能體的考慮至關重要的現實世界環境。
鑒于它們的優點和缺點,這些框架中的每一個都有一些強大的東西可以提供給其他的框架。正是這種觀察激勵了本論文的工作,它試圖以各種方式將這些框架融合在一起,以提供更好的工具,在復雜的世界中做出決策。下面,我們概述了三種不同的框架融合方式的動機和結果,每一種都構成了本論文的一個章節。
鑒于其規范性方向,博弈論并沒有提供數據驅動的分析工具,因為它們是由人或算法進行的游戲。這種類型的分析是很重要的。視頻游戲是全世界范圍內大規模流行的娛樂形式,為了創造或平衡它們,游戲設計師必須了解它們是如何被玩的。例如:某些策略是否對游戲的結果產生了不良影響?隨機性是否發揮了過大的作用?除了游戲設計之外,在美國和全世界的許多司法管轄區,在游戲上賭博的合法性取決于在決定該游戲的結果時是技巧還是機會 "占優勢"。這個概念并沒有一個既定的正式說法。因此,在游戲設計和賭博法中,都需要有統計工具來描述各方面對游戲結果的影響。
在第二章(廣義形式游戲的方差分解)中,我們采用了一種常見的統計工具,并為廣義形式游戲開發了一個版本,廣義形式游戲是一種具有離散步驟和部分可觀察性的游戲的一般模型,包括國際象棋和撲克這些特殊情況。這個工具就是方差分解,它在統計學中被用來量化感興趣的結果中的變化來源。游戲的方差分解允許用戶將游戲結果的變化歸因于不同的玩家和機會,使分析游戲的新方法可能對賭博法或游戲設計產生影響。具體來說,我們推導出一個封閉式表達式,并估算出可歸因于單一玩家或機會的廣義游戲結果的方差。我們分析了撲克牌,發現發牌的隨機性對每一手牌的結果的影響小得令人吃驚。我們簡要地評論了這一想法的延伸,它可以用來測量游戲的其他有趣的屬性。本章是Cloud和Laber(2021)的翻版,稍作修改。
在過去的五年里,機器學習方法在決策方面有了快速的發展,特別是在復雜的、大規模的、多人游戲中,如國際象棋、圍棋、Dota II、星際爭霸和戰略游戲。學習玩這些游戲的一個明顯的困難是弄清楚如何采取行動,以便在復雜的環境中實現某些變化。這正是強化學習所要解決的問題。然而,還有一個重要的困難,在文獻中得到了很好的理解,但也許并不普遍:在有多個智能體的情況下學習。在上述所有的游戲中,機器學習算法必須學會以尊重游戲的隱含動態性的方式行事:通過游戲環境,智能體可能面臨許多不同種類的對手。這些對手可能會利用曾對其他智能體產生有利結果的行為。例如,應用于 "剪刀石頭布 "游戲的天真強化學習算法,在對 "布"的對手進行訓練后,將產生一個 "剪刀 "智能體,在對其訓練對手時獲得高額獎勵,但被 "石頭 "智能體嚴重懲罰。對這些多智能體動態的考慮存在于博弈論的領域。因此,為了定義合適的收斂概念和設計達到收斂的算法,多智能體強化學習問題必須將博弈論引入其中。
在第三章(預期的虛構游戲)中,我們研究了一種經典的博弈論算法,這種算法之前已經被成功地擴展到多智能體強化學習中。該算法被稱為 "虛構游戲",用于在雙人競爭游戲中尋找平衡點。然而,正如我們在理論上和經驗上所顯示的,它在一些感興趣的游戲中收斂得很慢。為了解決這一缺陷,我們提出了一種新的虛構游戲的變體,稱為預期性虛構游戲。預測性虛構游戲被證明是收斂的,被證明具有優越的經驗性能,并被擴展到多智能體強化學習的環境中。在此過程中,我們提供了一種易于實現的多智能體強化學習算法,其性能優于由虛構游戲驅動的算法。本章是Cloud等人(2022)的復制品,做了些許修改,仿真結果也不那么廣泛。
在許多數據驅動的決策問題中,對其他智能體的考慮并不重要,因此,不需要博弈論。例如,在臨床試驗、推薦系統或其他許多獨立個體與系統互動的環境中,通常把問題當作病人或網站用戶是可以互換的、獨立的和固定的。這是合理的,因為,例如,給一個病人提供治療,不太可能導致另一個病人后來對同一治療有不同的反應。使用數據為臨床試驗中的個人定制治療方法,或向網絡用戶推薦媒體,是一個強化學習問題。然而,在需要 "安全 "概念的環境中,強化學習的天真應用不可能是合適的。如果一個決策系統要可靠地遵守對其行動效果的約束,就必須能夠量化其行動效果的不確定性。進行這種不確定性的量化是統計推理的一個問題。
在第四章(上下文強盜中的安全約束在線學習)中,我們提出并研究了一個受約束的強化學習問題,除了獎勵最大化之外,決策者還必須根據對其 "安全性 "的約束來選擇行動。約束滿足,就像潛在的獎勵信號一樣,是由噪聲數據估計的,因此需要仔細處理不確定性。我們提出了一個新的算法框架,它采用了樣本分割,以便比現有的安全算法更有效地利用數據。我們框架的通用性意味著它有可能被應用于各種現實世界中的安全關鍵決策問題,包括那些使用人工神經網絡等難以分析的函數近似器的問題。然而,我們在更有限的線性背景下研究了我們的框架,以便得出理論結果,暗示該方法的實際安全性和實用性。我們證明,在適當的條件下,我們的算法保證在極限情況下產生最佳的安全行為,甚至在小樣本環境下也是近似安全的。在各種模擬中,我們驗證了該理論,并證明了卓越的經驗性能。通過這種方式,我們提供了一種可靠的算法,可用于現實世界的安全關鍵數據驅動的決策問題。本章是Cloud, Laber和Kosorok(即將出版)的論文的預印本。
在過去的幾十年里,機器學習在眾多人工智能應用中取得了長足的進步。然而,它的成功主要依賴于在一個封閉的環境中使用大量的離線數據訓練模型,然后在類似的測試環境中對它們進行評估。這意味著大多數機器學習模型無法在很少的觀察下快速適應新環境并在線學習新知識。相比之下,我們的人類大腦可以從在線感官輸入流中學習新的表示、概念和技能。**本文旨在使具有幾個核心能力的機器能夠在開放世界中學習新概念,而無需訪問大量精心策劃的標記數據。**具體來說,它解決了幾個關鍵問題,如使用有限的標記數據、增量數據、無標記數據以及不平衡和噪聲數據進行學習。本文提出的算法可以自然地與任何深度神經網絡相結合,并且與網絡架構無關。它們可以為各種開放世界條件提供更大的靈活性和魯棒性,使基于學習的方法適合部署在一般的基于智能體的智能系統中。
1.引言
**機器學習是人工智能領域的核心課題之一。由于許多智能行為不能簡單地由標準程序定義,而不是依靠人工設計的規則,本文使用機器學習來獲得函數逼近,給定許多輸入和輸出觀測。**今天,在機器學習的幫助下,我們的計算機可以識別我們的聲音和筆跡,記住我們的臉,標記我們的照片,翻譯不同的語言,在下棋和圍棋中擊敗我們,并在道路上安全駕駛汽車。就像阿蘭·圖靈在20世紀50年代設想的那樣,今天的計算機使用機器學習來“模擬”兒童的思維,這是一張逐漸充滿各種各樣的知識和表示的白紙。然而,機器的學習過程與兒童的學習過程仍有很大的差距。也許機器學習和人類學習之間最顯著的區別之一是能夠學習自然世界中稀缺數據的任務。如今的機器學習往往依賴于在一個封閉的世界環境中訓練模型,并在大量經過整理的數據中進行評估,然后在類似或相同的測試環境中進行評估。這意味著,與人類不同,標準的機器學習算法無法在很少的觀察下快速適應新環境并在線學習新知識。在本文中,我們將這種期望的能力稱為開放世界學習。 我們如何彌合人類和機器之間的這種明顯差距?我的論文旨在尋求解決方案,使機器能夠在一個開放的世界中學習新概念,而不需要獲取大量的策劃標簽。具體來說,它解決了開放世界學習框架下的幾個關鍵問題,如使用有限的標記數據、增量數據、無標記數據、不平衡和噪聲數據、在線和流數據進行學習,所有這些都是今天典型的機器學習管道中沒有考慮的。這些問題的最終解決方案將對我們所有人產生深遠的影響。首先,它將允許未來的智能體在飛行中學習:你未來的家庭機器人將適應你的房子,識別新家具,并學習使用新設備;你的增強現實眼鏡將通過你對世界的視角來學習,這些視角是你過去從未經歷過的;您的個人AI助理將適應您的偏好,并在與您的對話中學習新技能。此外,它將在許多工業應用中節省數百萬小時的工程、標簽和數據管理工作。最后,通過將我們的學習過程投射到計算框架中,這也將是探索理解人類智能的一個里程碑。
本文概述
**本文提出的貢獻,使機器能夠用很少的標記示例獲得新概念,并使它們對許多自然主義和開放世界條件更魯棒。**在過去,有幾種機器學習范式,如小樣本學習、持續學習、自監督學習等,它們都是由使機器學習在開放世界中更加靈活和自適應的大愿景所驅動的。第二章概述了這些課題的背景文獻。具體來說,本文首先討論了各種學習范式,這些范式鼓勵在與訓練不同的環境中進行測試時的學習,例如小樣本學習和持續學習,然后討論了另一個相關研究的思路,旨在從無標簽的示例中學習,例如自監督學習。 然而,這些學習范式通常只專注于一個特定的屬性,如域偏移量或標記數據點的數量。有時,這些性質是正交的,它們的解可以組合在一起,但通常提出的解決方案依賴于一些額外的不現實的假設。例如,標準的半監督學習利用未標記的數據來提高學習模型的質量;然而,它假設未標記的數據與標記的數據來自相同的分布,并且也屬于預定義的類別之一。在另一個例子中,標準的少樣本學習旨在用很少的數據點來學習新類別,但它假設數據點平均分布于在訓練期間從未見過的幾個新類別。或者,類不平衡問題通常假設類標簽是正確的,因此高訓練成本意味著數據點來自少數類。在這些示例中,假設學習環境的其他屬性的解決方案在同時存在多個問題的開放世界中部署時可能會崩潰。因此,本文的核心主題是尋求新的解決方案,以同時解決開放世界的多種特性,如有限的標記數據學習、輸出空間的增量增長、無標記、不平衡和有噪聲的數據。為了實現這一目標,我們不僅需要開發新的學習算法,還需要重新思考定義問題的學習范式。因此,論文的一部分,如第4章和第6章的部分,也旨在定義具有額外自然屬性的新的學習范式或基準。
**用有限的標記數據進行學習的文獻被廣泛稱為少樣本學習。然而,標準的少樣本學習在測試時只處理少量的新類。**在第3章中,我們關注的是增量少樣本學習的問題,模型需要識別訓練時多次出現的舊類別和測試時剛剛引入的新類別。令人驚訝的是,許多只專注于解決新類別的經典少樣本學習方法,實際上在處理結合新舊類別的更現實問題時受到了影響,可能是因為新舊類別的表示彼此不兼容。與直接使用新類樣本的某些特征向量作為分類器權重的傳統方法不同,本文提出的方法是基于連續優化的,通過平衡新舊類帶來的目標來求解權重,并在測試時達到更好的優化解。在整個增量學習新類別的過程中,現實世界的智能體通常會遇到更多的未標記樣本。在第4章中,我們又向前邁進了一步,將未標記數據引入到小樣本學習問題中。本文提出一種半監督少樣本學習的新學習范式,除了在每個學習片段中標記的數據點很少的約束外,還考慮未標記的樣本。本文工作是第一個同時解決半監督學習和少樣本學習的工作。它不僅減少了訓練和測試任務中對標記數據量的依賴,而且解決了干擾因素的問題,即不屬于任何已知類別的類別,因為在經典的半監督學習中不考慮這一問題。本文提出新的少樣本學習模型,可以規避分干擾類的影響,同時仍然設法利用來自未標記數據的有用信息。
**盡管小樣本學習取得了廣泛的成功,但情節通常是從精心策劃的數據集中采樣,而不是從自然世界的噪聲長尾分布中采樣。**我們在第4章中介紹的干擾物例子也可以被認為是一種噪聲訓練數據。在第5章中,我們將研究在標準機器學習環境下的不平衡和噪聲類標簽學習問題。雖然這兩個問題在自然學習環境中普遍發生,但傳統上,它們被分開研究,采用相互矛盾的補救方法。為了解決這一沖突,本文提出了一種數據驅動的示例權重機制,可以在統一的框架下直接應用于這兩個問題。該算法利用干凈和平衡的驗證集來校準訓練樣本權重。該模型還強調了一種同時聯合更新內層和外層循環參數的高效學習方法。少樣本學習通常伴隨著僵化的情景設置,這使得對新概念的持續增量獲取進行建模變得不自然。第6章提出了一種新的在線情境化小樣本學習范式。雖然我們在第3章中研究了新舊類別的組合,但之前的方法主要關注情節的概念,但知識從未隨著時間順序和增量增長。雖然已經有一些努力使這些情節更有順序,就像設置增量類學習一樣,但訓練和測試階段的分離仍然使評估變得繁重。現實世界的智能體不依賴偶發的停止,而是執行在線持續學習,在序列的每個時間步中產生一些輸出預測,通過自上而下的上下文信息流進行調制。新范式包含了許多自然主義屬性,如在線、增量、上下文化、少樣本和半監督,還開發了一個基于室內家庭圖像的新基準,模仿現實世界智能體的視覺輸入流。提出了一種新的模型——上下文原型記憶(context Prototypical Memory, CPM),成功地解決了在有限標記數據下的在線上下文類學習問題。
最后,在第7章中,我們研究了在不使用任何類別標簽的情況下,通過在線視覺輸入流動態學習表示和類別。在前幾章中,學習仍然主要由帶標簽的示例驅動:例如,在第6章中,只有當環境告訴智能體它是一個新類時,新的類別簇才會創建。在本章中,我們將介紹一種算法,該算法允許智能體同時從未標記的數據流中學習表示和類別。這可以被視為發展過程中的一個前階段,因為智能體可以首先通過在沒有標記數據的情況下學習表示和類別來探索環境,然后在一些示例的監督下進行。所提出的模型,在線無監督原型網絡,將用于概念學習的原型網絡與基于聚類的自監督表示學習相結合,并與僅使用在線數據流進行訓練的最先進的自監督視覺表示學習方法相比較。此外,該算法對不均衡分布也具有較強的魯棒性。
目錄內容:
1.對機器學習系統如何學習一項任務給出一個概述。 2.識別對手攻擊ML系統的三種方式。 3.識別防御者可能需要解決的九個問題,以防御一個ML系統。
自從十年前發現針對機器學習模型的對抗性攻擊以來,對抗性機器學習的研究已經迅速演變為一場永恒的戰爭,捍衛者尋求提高ML模型對對抗性攻擊的魯棒性,而對手則尋求開發能夠削弱或擊敗這些防御的更好攻擊。然而,這個領域幾乎沒有得到ML從業者的支持,他們既不關心這些攻擊對他們在現實世界中的系統的影響,也不愿意犧牲他們模型的準確性來追求對這些攻擊的魯棒性。
在本文中,我們旨在設計和實現Ares,這是一個對抗性ML的評估框架,允許研究人員在一個現實的兵棋推演環境中探索攻擊和防衛。Ares將攻擊者和防御者之間的沖突設定為強化學習環境中目標相反的兩個Agent。這允許引入系統級的評估指標,如失敗的時間和評估復雜的策略,如移動目標防御。我們提供了我們初步探索的結果,涉及一個白盒攻擊者對一個經過對抗性訓練的防御者。
人工智能系統的大規模采用,促使人們重新審視人工智能算法的可靠性、隱私性和安全性。在安全性方面,人們很早就發現,基于圖像的人工智能算法很容易受到一類對抗性規避攻擊[1],[2]。在這種攻擊中,對手會引入人眼無法察覺的少量噪聲,以便在推理過程中可靠地誘發錯誤分類。自其發現以來,大量的研究提出了許多經驗性的防御策略,如改造模型的輸入[3],修改神經網絡結構[4],以及在另一個訓練數據集上訓練網絡[5]。盡管有大量的工作,無論是開發新的對抗性攻擊還是提出新的防御措施,包括強大的物理世界攻擊[6],對抗性威脅模型對ML從業者來說仍然沒有動力。在一項小型的行業調查中,Kumar等人[7]發現,雖然大多數被調查的組織都知道對抗性樣本,但他們說 "對抗性ML是未來的",并且缺乏研究和緩解這種攻擊的工具。
我們認為,有兩個關鍵問題阻礙了人們接受對抗性規避攻擊作為一種威脅:(1)大多數先前的工作所使用的非激勵性威脅模型;(2)缺乏評估復雜的對抗性攻擊者和防御者互動的工具。遵循Kerckhoffs原則,對抗性攻擊和防御的研究主要采用白盒威脅模型,即對網絡和防御參數的完全了解。在這種視角下,許多提議的防御措施被證明是無效的,因為擁有完美知識的攻擊者可以適應防御[8]。然而,這樣一個強大的威脅模型只能由具有內部訪問AI算法和訓練數據的攻擊者復制。在真實的部署場景中,一個組織主要關注的是其人工智能系統對外部攻擊者的安全性。
盡管沒有認識到對抗性ML是一種威脅,但對抗性攻擊庫已經興起,使ML從業者能夠研究目前最先進的攻擊和防御算法。一些例子包括多倫多大學的CleverHans[9],麻省理工學院的魯棒性包[10],圖賓根大學的Foolbox[11],以及IBM的對抗性魯棒性工具箱(ART)[12]。每個庫都定義了一個統一的框架,從業者可以通過它來評估使用自己的人工智能系統的攻擊或防御的有效性。不幸的是,這種評估在本質上是有限的,因為評估的威脅模型受到攻擊算法的限制。此外,攻擊者和防御者都被認為是靜態的。他們不會根據對方的行動來修改自己的行為,因此,報告的有效性是誤導性的,不能轉化為現實世界中的有意義的有效性概念。
在本文中,我們描述了一個新的評估框架--Ares,它將對抗性攻擊場景表現為攻擊者和防御者之間復雜的、動態的互動。我們將攻擊者和防御者之間的沖突作為強化學習(RL)環境中的兩個獨立Agent來探索,其目標是對立的,為對抗性ML評估創造了一個更豐富、更真實的環境。通過利用這種RL環境,我們能夠將攻擊者或防御者的策略(RL策略)調整為靜態的、隨機的、甚至是可學習的。Ares還允許調查白盒和黑盒威脅模型,從先前評估的局限性中汲取靈感。
作為其首次亮相,我們使用Ares重新審查了白盒場景下的集合/移動目標防御(MTD)框架的安全性,并強調了這種設置的脆弱性。使用自然訓練和對抗性訓練模型的不同組合,Ares評估發現,一般來說,攻擊者總是獲勝,對抗性訓練只能稍微延遲攻擊者的成功。正如之前的工作所討論的,攻擊者的成功主要是由于對抗性例子的可轉移性[2]。我們通過Ares的視角對這一現象進行了更深入的調查,發現網絡之間共享的損失梯度,無論訓練方法或模型架構如何,都是罪魁禍首。然后,我們討論了如何根據這一發現改進MTD,以及我們下一步如何通過Ares在黑盒威脅模型中評估MTD和其他先前的工作。
在本文中,我們做出了以下貢獻:
我們開發了Ares,一個基于RL的對抗性ML的評估框架,允許研究人員在系統層面上探索攻擊/防御策略。
利用Ares,我們重新審查了白盒威脅模型下的集合/移動目標防御策略,并表明這種失敗的根本原因是由于網絡之間的共享損失梯度。
Ares框架在// github.com/Ethos-lab/ares上公開提供,我們將繼續開發更多的功能和改進。
強化學習是一種為需要做出一系列決定的任務制定最佳策略的方法。以平衡短期和長期結果的方式做出決定的能力,使強化學習成為醫療機構中規劃治療的潛在強大工具。不幸的是,傳統的強化學習算法需要對環境進行隨機實驗,這在醫療衛生領域通常是不可能的。然而,強化學習提供了從觀察數據中評估策略的工具,這是一個被稱為離策略評估的子項目。
在這項工作中,我們討論了離策略評估在應用于醫療數據時變得如此困難的主要挑戰,并設計了一些算法來改進目前執行離策略評估的方法。我們描述了幾種改進現有方法的準確性和統計能力的算法,最后介紹了一種新的方法,通過開發一種將專家臨床醫生及其知識納入評價過程的評價技術來提高離策略評估方法的可靠性。
強化學習(RL)是機器學習(ML)中的一個子領域,它為學習需要平衡短期和長期結果的任務中的連續決策策略提供了一個框架。RL的關鍵范式是將學習算法視為一個與環境互動的智能體,采取行動并觀察環境對這些行動的變化。通過與環境的不斷互動和實驗,智能體學會了實現預期目標的最佳策略。這個強大的想法促進了RL算法在廣泛的應用中的成功,如游戲和機器人。
然而,在這些應用中,與環境的隨機互動--使RL如此強大的關鍵特性--是不可能的。例如,在醫療保健中,隨機治療病人并觀察其反應是不道德的。
從批量觀察數據中評估RL決策的任務被稱為離策略評估(OPE),這個術語用來表示用于收集數據的策略與我們希望評估的策略不同。OPE只關注評估一個特定的策略,而不是學習一個最優的onc,這是大多數RL應用的目標。
這項工作的動力來自于這樣的認識:盡管在OPE方面取得了重大的理論突破,但目前的方法仍然遠遠不夠可靠,無法證明其在實際應用中的使用和部署。這些限制在醫療保健領域尤為突出,因為那里的數據非常嘈雜,而且錯誤的代價很高。 我們首先強調了使OPE在觀察性醫療環境中如此困難的關鍵因素,并展示了這些算法可能失敗的主要方式。然后,我們描述了幾種改善OPE算法性能的方法。這些方法可以應用于所有RL領域,但我們在醫療數據中經常遇到的具體特征是其強大的動力。
雖然這項工作中所描述的方法有助于提高OPE方法的性能,但它們基本上都試圖從數據中提取出更多的統計能力。不幸的是,僅從數據中提取出的知識是有限的,而且往往我們所能做的最好的也是不夠好。 然而,試圖僅從原始數據中獲得知識,卻忽視了臨床醫生和其他醫療專家所擁有的大量知識和專長。在這項工作的最后一部分,我們將論證,為了使OPE的性能足夠好,使其能夠被信任并用于醫療領域,領域專家必須被納入評估過程。為了能夠在OPE中使用領域專家,必須開發新的方法,使幾乎總是不熟悉RL和OPE技術細節的臨床醫生能夠有效地提供對OPE過程有用的意見。我們將在這個方向上邁出一步,描述一種方法,使臨床醫生能夠隨意地識別OPE方法何時可能給出不可靠的結果,并討論發展這一研究途徑的未來方向。
總而言之,這項工作應該概述了OPE在醫療領域的狀況,以及將其引入現實世界所必須做出的努力--從詳細說明當前方法可能失敗的方式和解決這些問題的可能方法,到描述臨床醫生可以被納入評估過程的方式。本論文的其余部分的結構如下:本章的其余部分介紹了本論文將使用的基本符號,并涵蓋了相關文獻。 第三章繼續討論基于模型的OPE,并介紹了一種建立模型的方法,該方法的訓練強調從評估策略下可能出現的例子中學習,并沿用了Liu等人的工作。最后,在第四章中,我們討論了如何利用臨床醫生的輸入來調試和驗證OPE的結果,沿用了Gottesman等人的方法。
在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。
美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。
美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。
集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。
在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。
為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。
在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。
簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。
在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。
圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。
圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。
圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。
MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。
如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。
在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。
敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。
在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。
聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。
本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。
在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。
RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。
在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。
在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。
隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。
在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。
總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。
在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。
學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。
環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。
通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。
有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。
與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。
在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。
由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。
無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。
深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。
DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。
然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。
鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。
Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。
盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。
在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。
另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。
從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。
RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。
MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。
為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?
雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。
與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。
在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。
最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。
對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。
與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。
在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。
由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。
DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。
此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。
互動、討論和各種信息的交流使網絡成為今天的場所。文本、圖像、視頻,甚至諸如地理空間和健康數據等信息都以前所未有的規模被分享。網絡上的這種信息交流為各種數據驅動的應用產生了一個廣泛的、可自由訪問的數據源--有多種機會,但也有風險。在本文中,我們介紹了研究項目ADRIAN--"在線網絡中依賴權威的風險識別和分析 "的總體思路,該項目致力于研究和開發基于人工智能的方法,以檢測基于異質性在線數據集的個人和機構的潛在威脅。我們將首先監測選定的社交運動應用程序,并分析收集的地理空間數據。在第二步,體育應用和社交媒體平臺的用戶資料將被關聯起來,以便能夠形成一個個人集群,并能夠識別潛在的威脅。由于所謂的 "數字孿生 "可以通過這種方式重建,因此會產生敏感數據。如果這些數據也能與其他機密數據相關聯,就有可能估計出個人、團體或地點所受威脅的合理性。
現代網絡是基于互動、討論和信息交流的。然而,網絡也為數據驅動的應用創造了一個巨大的、可自由訪問的信息源。由于網絡上用戶生成的數據以自動化的方式與現有資源有效地聯系在一起,即使是無意中透露的個人信息也會產生破壞性的后果。因此,即使是微不足道的,有時是無意披露的信息也會對個人、團體或整個組織產生潛在的有害影響[1,2,3]。盡管服務提供商現在有責任和利益來確保網絡上用戶數據的安全和隱私,但這些數據被濫用、泄露,或者公開的信息被用來對付原始創建者[4]或政府機構[5]的情況越來越多。執法部門和其他人群在社交媒體平臺上面臨著越來越多的潛在威脅,這不僅僅是自2020年美國發生暴亂以來。特別是,社交媒體賬戶和帖子(如Twitter或Instagram)與流行的體育應用程序的跟蹤和位置數據的收集和鏈接,使用戶和他們的親人可以被識別,使他們可以追蹤,成為網絡攻擊的潛在目標(如網絡跟蹤,doxing,身份盜竊)[5,6]。在這種情況下,另一個與安全有關的方面是,可以利用收集到的跑步路線的地理空間數據來定位軍事基地[7]。由于不是所有的信息本身或組合都會造成威脅,單純的數據最小化、限制數據訪問、數據規避和預防工作是不夠的[8]。在研究項目ADRIAN--"在線網絡中依賴權威的風險識別和分析"中,我們采取了主動搜索、建模、預測和突出網絡威脅的方法,并特別針對政府機構進行研究。我們的方法的目標是自動監測選定的(體育)應用程序,并分析其收集的數據,將其與社會媒體資料相關聯,形成個人集群,以確定潛在的目標并評估其風險潛力。這是基于處理文本(如推文)、圖像(如建筑物前的自拍、地圖)和地理空間信息(如跑步路線)。這意味著我們正在處理一個異質的數據集。由于它的構成,對處理方法的要求也非常不同。由于在數據分析和知識提取過程中可以通過這種方式重建所謂的 "數字孿生",因此產生了極其敏感的(元)數據[6]。通過將這些信息與其他分類數據相關聯,就有可能確定相應(群體)個人或地點的威脅可信度。為了實現這些目標,技術實施必須結合信息檢索方法和法醫語言學的方法。此外,網絡分析和聚類的方法將被用來開發新的評估功能,以根據披露的信息識別目標(人、地點等)。
在本文中,我們介紹了我們對這一主題的理解,也介紹了我們的方法和我們的原型,我們正在不斷地開發。本文的組織結構如下。在第2節中,我們回顧了當前的研究現狀,重點是現有的方法和定義,因為通常缺乏統一的術語。在第3節中,我們介紹了我們自己在ADRIAN中采取的方法,從有針對性的數據收集、數據聚合和充實以及交互式可視化開始。在第4節中,我們介紹了我們在原型上的工作,并在第5節中討論了我們的方法,然后在第6節中得出結論并提出展望。
近年來,現代網絡應用的技術和服務取得了重大進展,包括智能電網管理、無線通信、網絡安全以及多智能體自主系統。考慮到網絡實體的異構性質,新興的網絡應用程序需要博弈論模型和基于學習的方法,以創建分布式網絡智能,以響應動態或對抗環境中的不確定性和中斷。
本文闡述了網絡、博弈和學習的融合,為理解網絡上的多智能體決策奠定了理論基礎。我們在隨機近似理論的框架內提供了博弈論學習算法的選擇性概述,以及在現代網絡系統的一些代表性環境中的相關應用,例如下一代無線通信網絡、智能電網和分布式機器學習。除了現有的關于網絡上的博弈論學習的研究工作外,我們還強調了與人工智能的最新發展相關的博弈學習的幾個新角度和研究工作。一些新的角度是從我們自己的研究興趣中推斷出來的。本文的總體目標是讓讀者清楚地了解在網絡系統背景下采用博弈論學習方法的優勢和挑戰,并進一步確定理論和應用研究方面富有成果的未來研究方向。
網絡上的多智能體決策最近吸引了來自系統和控制界的呈指數增長的關注。該領域在工程、社會科學、經濟學、城市科學和人工智能等各個領域獲得了越來越大的發展勢頭,因為它是研究大型復雜系統的普遍框架,并被廣泛應用于解決這些領域中出現的許多問題。例如社交網絡分析 [1]、智能電網管理 [2, 3]、交通控制 [4]、無線和通信網絡 [5-7]、網絡安全 [8,9] 以及多智能體自主系統[10]。
由于現代網絡應用中先進技術和服務的激增,解決多智能體網絡中的決策問題需要能夠捕捉新興網絡系統的以下特征和自主控制設計的新模型和方法:
博弈論為解決這些挑戰提供了一套自然的工具和框架,并將網絡連接到決策制定。它需要開發數學模型,以定性和定量地描述具有不同信息和理性的自利行為體之間的相互作用是如何達到一個全局目標或導致在系統水平上出現行為的。此外,通過底層網絡,博弈論模型捕獲了拓撲結構對分布式決策過程的影響,在分布式決策過程中,智能體根據其目標和可獲得的局部信息(如對其鄰居的觀察)獨立規劃其行動。
除了網絡上的博弈論模型之外,在為網絡系統設計分散管理機制時,學習理論也是必不可少的,以便為網絡配備分布式智能。通過博弈論模型和相關學習方案的結合,這種網絡智能允許異構智能體相互進行戰略性交互,并學會對不確定性、異常和中斷做出響應,從而在網絡或最優系統上產生所需的集體行為模式級性能。這種網絡智能的關鍵特征是,即使每個智能體自己的決策過程受到其他決策的影響,智能體也會以在線和分散的方式達到均衡狀態,即我們稍后將闡明的納什均衡.為了給網絡配備分布式智能,聯網智能體應該通過在他們可能不知道的大型網絡上通過有限的局部觀察來適應動態環境。在計算上,分散式學習可以有效地擴展到大型和復雜的網絡,并且不需要關于整個網絡的全局信息,這與集中式控制法則相比更實用。
本文闡述了網絡、博弈和學習的融合,為理解網絡上的多智能體決策奠定了理論基礎。
圖 1:網絡、博弈和學習的融合。博弈論建模和學習理論的結合為各種網絡系統帶來了彈性和敏捷的網絡控制。
我們的目標是對博弈論學習方法及其在網絡問題中的應用提供系統的處理,以滿足上述三個要求。如圖 1 所示,新興的網絡應用需要新的方法,并且由于分散的性質,博弈論模型以及相關的學習方法為解決來自各個領域的網絡問題提供了一種優雅的方法。具體來說,我們的目標有三個:
我們的目標是讓讀者清楚地了解在網絡系統的背景下采用新穎的博弈論學習方法的優勢和挑戰。除了突出顯示的內容外,我們還為讀者提供了進一步閱讀的參考。在本文中,完全信息博弈是本課題的基礎,我們將簡要介紹靜態博弈和動態博弈。關于這個主題的更全面的處理以及其他博弈模型,例如不完全信息博弈,可以在 [11-13] 中找到。由于大多數網絡拓撲可以通過博弈的效用函數結構來表征 [1, 14],因此我們沒有闡明網絡拓撲對博弈本身的影響。相反,我們關注它對博弈學習過程的影響,其中玩家的信息反饋取決于網絡結構,我們展示了具有代表性的網絡應用程序來展示這種影響。我們推薦讀者參考 [1,14] 以進一步閱讀各種網絡上的博弈。
我們的討論結構如下。在第 2 節中,我們介紹了非合作博弈和相關的解決方案概念,包括納什均衡及其變體,它們記錄了自利參與者的戰略互動。然后,在第 3 節,我們轉向本文的主要焦點:在收斂到納什均衡的博弈學習動態。在隨機逼近框架內,提供了各種動力學的統一描述,并且可以通過常微分方程(ODE)方法研究分析性質。在第 4 節中,我們討論了這些學習算法在網絡中的應用,從而導致了網絡系統的分布式和基于學習的控制。最后,第 5 節總結了本文。
在過去的十年里,神經網絡在視覺、語音、語言理解、醫學、機器人和游戲等領域取得了驚人的成果。人們原本以為,這種成功需要克服理論上存在的重大障礙。畢竟,深度學習優化是非凸的、高度非線性的、高維的,那么我們為什么能夠訓練這些網絡呢?在許多情況下,它們擁有的參數遠遠多于記憶數據所需的參數,那么為什么它們能夠很好地推廣呢?盡管這些主題已經占據了機器學習研究領域的大部分注意力,但當涉及到更簡單的模型時,神經網絡領域的原則是先數據訓練再說。顯然,這招奏效了。
//www.cs.toronto.edu/~rgrosse/courses/csc2541_2021/
結果,神經網絡的實際成功已經超過了我們理解它們如何工作的能力。這門課是關于開發概念工具來理解當神經網絡訓練時會發生什么。其中一些思想早在幾十年前就已經形成了(可能已經被社區的大部分人遺忘了),而另一些思想今天才剛剛開始被理解。我將試圖傳達我們最好的現代理解,盡管它可能不完整。
這門課從優化中汲取靈感,它不是一門優化課。一方面,優化的研究通常是指令性的,從優化問題的信息和明確定義的目標(如在特定規范下快速收斂)開始,并找出保證實現該目標的計劃。對于現代神經網絡來說,分析通常是描述性的: 采用在使用的程序,并找出它們(似乎)有效的原因。希望這種理解能讓我們改進算法。
與優化研究的另一個區別是,目標不是簡單地擬合一個有限的訓練集,而是一般化。盡管神經網絡有巨大的能力,但為什么它能泛化與訓練的動態密切相關。因此,如果我們從優化中引入一個想法,我們不僅需要考慮它是否會更快地最小化成本函數,還需要考慮它是否以一種有利于泛化的方式實現。
這類應用不會為您提供在ImageNet上實現最先進性能的方法。它也不是那種為了證明定理而去證明定理的理論課。相反,我們的目的是為您提供概念性工具,以便您在任何特定情況下推斷出影響訓練的因素。
除了讓你的網絡更好地訓練之外,學習神經網絡訓練動力學的另一個重要原因是,許多現代架構本身就足夠強大,可以進行優化。這可能是因為我們在體系結構中明確地構建了優化,就像在MAML或深度均衡模型中那樣。或者,我們可能只是在大量數據上訓練一個靈活的架構,然后發現它具有驚人的推理能力,就像GPT3一樣。不管怎樣,如果網絡架構本身在優化某些東西,那么外部訓練過程就會與本課程中討論的問題糾纏在一起,不管我們喜歡與否。為了有希望理解它提出的解決方案,我們需要理解問題。因此,本課程將以雙層優化結束,利用課程中涵蓋的所有內容。
目錄內容:
我們將通過分析一個簡單的模型開始這門課,梯度下降動力學可以被精確地確定:線性回歸。盡管線性回歸很簡單,但它提供了對神經網絡訓練驚人的洞察力。我們將使用線性回歸來理解兩種神經網絡訓練現象: 為什么對輸入進行歸一化是一個好策略,以及增加維度可以減少過擬合。
線性化是我們理解非線性系統最重要的工具之一。我們將涵蓋神經網絡的一階泰勒近似(梯度,方向導數)和二階近似(Hessian)。我們將看到如何用雅可比向量乘積有效地計算它們。我們將使用Hessian診斷緩慢收斂和解釋網絡預測。
度量給出了流形上距離的一個局部概念。在許多情況下,兩個神經網絡之間的距離可以更有效地定義為它們所代表的函數之間的距離,而不是權重向量之間的距離。這就引出了一個重要的優化工具,叫做自然梯度。
我們從幾個角度來激勵神經網絡的二階優化:最小化二階泰勒近似、預處理、不變性和近端優化。我們將看到如何使用共軛梯度或克羅內克因子近似來近似二階更新。
我們看看已經成為神經網絡訓練的主要內容的三個算法特征。我們試圖理解它們對動力學的影響,并找出構建深度學習系統的一些陷阱。