本文描述了ACE0,這是一個輕量級平臺,用于評估人工智能方法在多Agent仿真中的行為發現的適用性和可行性。具體來說,ACE0被設計用來探索與自主飛機等新技術相關的運籌學研究中使用的多Agent仿真的人工智能方法。生產中使用的仿真環境通常是高保真、復雜的,需要大量的領域知識,因此研發成本很高。最小和輕量級的模擬環境可以幫助研究人員和工程師以更敏捷和潛在的成本效益方式評估新的人工智能技術行為發現的可行性。在本文中,我們描述了開發ACE0的動機。我們提供了系統架構的技術概述,描述了一個關于航空航天領域行為發現的案例研究,并對系統進行了定性評估。該評價包括對與學術伙伴的合作研究項目的簡要描述,探索不同的人工智能行為發現方法。
由HAVELSAN公司開發的虛擬環境中的部隊(FIVE)模擬器軟件,利用各種虛擬戰爭設備(如武器、傳感器和通信工具等),以安全和具有成本效益的方式提供全面的戰術和行動訓練環境。目前,管理FIVE實體的行為模型高度依賴于由現場專家和系統工程師開發的基于規則的行為。然而,FIVE軟件的基于規則的操作需要密集的編程和現場專家的指導,因此是高度勞動密集型。此外,這項任務的復雜性和負擔隨著場景的復雜性而大大增加。此外,具有基于規則的行為的虛擬實體對其環境有標準和可預測的反應。因此,在這項研究中,我們通過強化學習技術和其他機器學習技術,即FIVE-ML項目,提出了從基于規則的行為到基于學習的自適應行為的過渡研究。為此,我們主要對空對空和空對地兩種情況下的六個虛擬實體進行了基于強化學習的行為模型訓練。據觀察,用強化學習訓練的虛擬實體主導了現有的基于規則的行為模型。在這些實驗中,我們還發現,在強化學習之前,利用監督學習作為起點,可以大大減少訓練時間,并創造出更真實的行為模型。
今天,培訓將使用飛機的飛行員是最重要的。用真實的飛機訓練飛行員是相當困難的,原因包括空域法規、過高的成本和訓練中可能出現的風險,以及創造真實世界場景的復雜性,包括對手或盟友使用的真實防御和戰爭平臺。飛行員訓練中使用的飛行模擬經常與戰術環境模擬結合在一起工作。通過這些戰術環境模擬,飛行員通過控制高保真飛機模型在許多低保真實體的存在下完成場景的訓練。這些低保真資產由計算機創建和控制,通常被命名為計算機生成的部隊(CGF)[1],它們是代表空中、陸地或海上防御或攻擊系統的自主單位。
CGFs被用于人員部署的準備過程、戰術訓練或新戰略的開發。CGFs需要為每個應用(或每個場景)進行不同的編程。這些由傳統方法創造的力量會導致非適應性和不靈活的行為模式。這導致學生在靜態編程的資產面前接受模擬訓練,降低了訓練的質量。當需要新的場景時,需要專家來創建新的場景。此外,由于情景創建將使用經典的控制分支進行,在創建新情景的過程中,考慮所有的可能性往往是不可行的,即使是可能的,也是一項相當有挑戰性的任務。由于這些原因,人們越來越需要更真實的虛擬環境和新的場景來適應不斷變化的世界,以模擬飛行員候選人自己的任務和敵對部隊的當前能力和戰術。
在這項研究中,提出了向以人工智能為導向的行為建模過渡,而不是傳統的特定場景建模,以此來解決前面描述的問題。換句話說,虛擬實體將被轉化為能夠學習的動態虛擬實體。但這些虛擬實體在訓練過程中需要考慮許多情況。首先,他們必須學會對他們用傳感器感知到的環境因素作出適當的反應。然后,它必須識別他的隊友和敵人,并根據他們的等級信息和附加在他們身上的彈藥類型采取行動。它應該能夠與他的隊友合作,采取團隊行動。
為虛擬資產添加智能的機器學習的首選方法是強化學習(RL)[2],其根本原因是:實體將采取的行動有延遲的后果。近年來,與傳統的控制方法相比,RL被認為是解決復雜和不可預測的控制問題的新方法,并在許多領域得到利用,如機器人、計算機視覺、自動駕駛、廣告、醫學和保健、化學、游戲和自然語言處理[3]-[9]。自從將深度學習引入RL概念(即深度RL[10])后,文獻中的研究得到了提升,如許多具有挑戰性的計算機視覺和自然語言處理任務[11]-[15]。
為了這個目的,在這項研究中(即FIVE-ML),已經實現了從HAVELSAN FIVE軟件的基于規則的行為模型向基于RL的行為模型過渡的第一階段實驗。從這些實驗中可以看出,用RL算法訓練的智能虛擬實體在空對空和空對地的情況下都優于HAVELSAN現有的基于規則的實體。此外,模仿學習[16]、[17]和RL的聯合實施也取得了成功,這加快了FIVE軟件的完整過渡過程。
可以預見,通過學習飛行員候選人的選擇來開發新策略的模擬將把飛行員培訓帶到一個非常不同的點。當項目完成后,將設計一個新的系統,允許在其領域內培訓更多裝備和專業的戰斗機飛行員。一個現有的基于規則的場景系統將演變成一個可以自我更新的系統。因此,飛行員候選人將有機會針對智能實體發現的新策略來發展思路,而不是滿足于該領域的專家的知識和經驗。此外,從一個經過大量努力準備的場景機制,計算場景自動化機制將使整個過程自動化。
本文是《第 14 屆北約運籌與分析 (OR&A) 會議:新興和顛覆性技術》上的重要文章,介紹了從手工兵棋推演到桌面兵棋推演,再到數字兵棋推演,到智能兵棋推演的整個開發過程,值得一讀。
作者描述了他們在瑞士國防裝備采購局科學和技術部(armasuisse Science + Technology)的技術前瞻研究計劃,也稱為 DEFTECH(DEfence Future TECHnologies,國防未來技術),應用各種兵棋推演相關方法的經驗,以識別破壞性技術趨勢,評估其在軍事背景下的影響并向瑞士武裝部隊通報可能的機會和威脅。
這包括一個從 2017 年開始并仍在進行的迭代過程,其中不僅創建了一個開放平臺,而且還舉辦了幾次國際研討會。應用的方法包括更高聚合級別的矩陣式兵棋推演、受北約破壞性技術評估游戲 (DTAG) “系統卡理念(Idea of System Cards)”啟發的紅隊成就,以及講故事的方法。
對技術的特別關注最終促進了一種名為“新技術戰爭”的戰術桌面兵棋推演平臺開發,該游戲可商用。作為一個平臺構建的互聯網組件允許感興趣的利益相關者之間進行交互,這些利益相關者希望模擬其他技術或場景并將其提供給社區。集成多智能體模擬、決策支持、人工智能和視頻游戲的數字化游戲正在開發中。
作者介紹了過去研究的結論,包括不同的設計理念、確定的優缺點、最佳實踐、當前的發展和愿景。
你通常期望從一個關于技術預見的研究項目中得到的肯定是關于在給定的時間范圍內可能出現的技術分析報告。根據你的考慮,那個時間范圍可以是近的,也可以是遠的。這似乎是一個合乎邏輯且直截了當的答案,而且確實如此。但是,請稍等片刻,問問自己:你是對技術本身感興趣還是對它們將提供什么感興趣?它們將如何影響你的作業方式以及它們可能代表哪些機會和威脅?在這個階段,甚至更進一步,問問自己,你真正感興趣的是機會、威脅,以及它們所代表的東西,還是它們代表你?這種差異并不是軼事,因為它意味著從更具描述性的可交付成果轉變為與你個人產生共鳴的事物。實現這一目標的最佳方式是產生獨特的體驗,與你的感官互動,以便你可以在需要時參考它。
我們處于國防環境中,正常的預期交付成果將是一份專門針對技術領域的報告。因此,包括一些故事講述在內的敘事工作可能是向讀者傳遞經驗的一種方式。不幸的是,這種體驗可能只停留在情感層面。讓人們玩弄技術可以實現的東西,并在給定的場景中體驗他們決定的后果肯定會帶來更多的見解。
然而,在之前還有一個額外的挑戰:我們想要試驗的要素還不存在。因此,我們必須模擬它們,而不是簡單地測試它們。帶著想法和感受而不是價值觀,為了提供必要的數學模型來轉向模擬世界。正是在這一刻,我想到了“游戲”。但是怎么做?用什么做?和誰一起?在哪個級別?多久?在不知情的情況下,我們打開了潘多拉魔盒,其中包含我們必須考慮構建游戲環境的可能性和替代方案。
這里報告的是一個原始的嘗試,不僅展示了已完成的工作,還展示了在此過程中以一種或另一種方式參與的不同利益相關者的動機。過去,現在,將來;每個人都在我們今天的位置和明天的位置中發揮了重要作用。現在看起來很明顯的要素在開始時并不是這樣的;未來可以實現的目標肯定需要今天的奮斗。
該項目是 armasuisse Science + Technology 技術前瞻研究計劃的一部分,也稱為 Deftech - 國防未來技術。該計劃的任務是識別顛覆性技術趨勢,評估其在軍事背景下的影響,并向瑞士武裝部隊通報其可能的機遇和威脅。
該計劃于 2013 年開始,由中央協調并由年度預算支持,以執行不同的項目。鑒于其特殊性,Deftech 的愿景是通過協同效應進行預測。多年來,在前瞻性方法、信息的表示和可視化、開源情報 (OSINT) 的利用、科幻小說的使用、最近側重于使用技術的兵棋推演以及對社會接受(或不接受)雙重用途技術應用的理解。
鑒于該計劃的協作性質,大部分活動及其成果可在專用互聯網平臺 (//deftech.ch) 上獲得。
新技術的主要挑戰之一在于評估其未來影響并創造洞察力,這對軍事作戰員和指揮官來說都是切實可行的,對軍事規劃人員和系統開發人員來說也是可行的。由于兵棋推演是基于人類互動的演習,因此當應用于技術環境時,它有助于在潛在軍事用戶定義的動態和有爭議的作戰環境中實現新興技術。這允許探索潛在的技術實施及其影響。因此,技術分析是兵棋推演在國防環境中的主要應用之一。
這形成了認知興趣以及我們選擇的方法論方式的起點,這將在以下部分中進行描述。
2017 年,我們首先為 2035 年的瑞士進行了一場技術兵棋推演。在這個框架中,我們專注于三個不同的子場景,它們描述了潛在但最典型的安全挑戰。根據 armasuisse 的“DEFTECH 雷達”() 描述的預選未來技術,在兵棋推演中提供給玩家,以便他們可以在行動過程中根據需要靈活使用。
游戲設計的靈感來自于 Engle 的矩陣游戲理念,因為它具有探索性的方法以及在設計和執行過程中的靈活性。在我們的案例中,我們開發了一個雙邊桌面研討會游戲,每個回合都有計劃周期,之后雙方交替執行他們的行動。在每一個回合中,雙方各有四名參與者,討論了他們行動的預期效果,并描述了為此問題應用的技術,由主持人主持。基于該討論,主持人為行動分配了成功概率。隨后通過擲骰子來確定實際結果,以將隨機效應整合到交互中并保持游戲繼續進行。
根據我們的設計,游戲依據玩家的決定、技術應用、討論的論點和確定的結果創建了一個連續的敘事。分析的洞見來自于敘事本身、分析者的觀察和玩家在對方不斷的對抗和反制下討論并努力創造效果的投入。此外,記錄在案的敘述、分析師的筆記和最具爭議的話題為后續研究提供了各種小插曲和假設。
除了這些結果之外,我們還發現了我們設計的一些挑戰和缺點:首先,一般來說,兵棋推演提供了探索性見解,但由于開放的人機交互,以逃避可復制性為代價。更重要的是,應用技術的物化和與系統的集成構成了主要挑戰,尤其是高水平的集成。為了減輕赤字,我們改編了北約顛覆性技術評估游戲 (DTAG) 中的元素,即所謂的“系統理念”(IoS)。
要創建IoS,首先要確定相關的未來技術。在第二步中,IoS卡牌是在一個研討會上以給定的卡牌格式制作的,即將一種或多種選定技術與特定設備相結合,以運行新的潛在系統。此類 IoS 卡牌可以單獨使用(即記錄如何將相關技術應用于未來軍事系統的見解和想法)或作為上述進一步技術兵棋推演的輸入。我們于 2018 年在 armasuisse 的一個研討會上執行了這一步驟,其中有幾個工作組,最多 8 人,他們首先必須針對特定場景和要實現的目標提出一兩張 IoS 卡牌。之后,兩個小組配對并通過順序結構化的討論在紅隊努力中相互挑戰他們的 IoS 卡牌。第三步,包括使用 IoS 卡牌進行的以技術為中心的兵棋推演及其相關分析,可以按照上述兵棋推演的描述執行。作為經典兵棋推演的替代方案,IoS 卡牌還可以用作游戲和計算機模擬的建模輸入,以分析假設的未來操作環境中的基礎技術,如下所述。
圖 3-1:初始兵棋推演的游戲輸入和執行
分析情況后,我們得出了一個顯而易見的想法,即為了了解通過新技術集成實現的新產品影響,我們需要在它使用的級別上對其進行模擬。在我們的案例中,這意味著從戰略層面轉移到戰術層面,其中必須為每個系統定義保護、殺傷力、機動性等參數的值。由于重點是理解這些系統提供的潛在破壞,我們必須具有輕松更改這些值的靈活性,以查看哪種組合將允許戰術破壞或簡單優勢。
讓我們考慮一下外骨骼的例子。愿景是裝備一些步兵,使他們能夠更快地移動,攜帶更多的重量(保護?彈藥?),減少身體疲勞和受傷等。每個參數的大問題是“多少?”。使士兵能夠攜帶 80 公斤而不是 50 公斤可能會提供優勢,因為這可能意味著在特定情況下提供更多的保護或更多的彈藥,但是專注于開發這樣的系統是否足夠重要?如果你可以攜帶 800 公斤而不是 80 公斤呢?
因此,為了激發交流和討論,游戲必須能夠輕松模擬這些變化并激發圍繞它們的討論。目標不是取勝,而是了解這些未來系統在給定戰術場景中的優勢和劣勢。考慮到所有這些,桌面游戲的選擇作為一種解決方案。
然而,為了在半天的過程中整合“游戲”部分,以便在模擬之前展示新系統,我們提出了以下先決條件:
(1) 游戲將圍繞“藍對紅”場景。
(2) 用戶手冊應該足夠簡單,以便初學者能在 15 分鐘內開始玩起。
(3) 一場比賽的持續時間必須最長為 60 分鐘,以便在半天的時間內測試不同的選項。
(4) 游戲必須足夠模塊化,以允許引入新的未來技術/系統以及新場景,以適應不同利益相關者的興趣和關注點。
在開發過程中,我們直接讓瑞士武裝部隊,即軍事理論和未來規劃團隊參與場景的定義以及未來技術的選擇。我們一起確保我們從藍方模擬的一切都尊重日內瓦戰爭公約。我們與專家驗證了各種技術參數,以確保至少在第一次迭代中,我們將使用可以在未來幾年內實現的價值。
考慮到這些要求,我們開始了將成為“新技術戰爭”(NTW)兵棋推演平臺的旅程。
大多數桌面兵棋推演,其中最成功的商業游戲,都針對最廣泛的現實主義。由于精確的游戲機制和夸張的細節,您通常會以犧牲簡單性為代價來實現這一點。很少看到最少少于 30 或 40 頁的規則手冊。對于我們的開發,我們必須顛倒范式,拿出一個 4 頁的手冊來盡可能準確地模擬,要盡可能簡單。
因此,我們從需要開發一款能夠以簡單且非常靈活的方式采用當前瑞士學說的游戲原則開始。靈活,因為我們必須能夠細化游戲的參數,才能清楚地看到對這些參數有影響的新技術效果,而且僅限于那些參數。
圖 4-1:以新技術和系統為重點的桌游“新技術戰爭”的表示(標題“用明天的系統挑戰今天的戰術”總結了我們通過玩這個嚴肅的游戲試圖強調的內容)
在這個階段,桌子周圍的所有玩家都應該開始更好地理解新系統可以在特定的戰術情況下帶來什么。比僅僅閱讀有關它的報告要好得多。然而,還有一個懸而未決的問題我們還沒有真正解決:作為防御者或攻擊者,有沒有一種特定的方法可以使用這個新系統來完成分配的任務?
要回答這個問題,您需要考慮在給定場景中使用新系統的所有可能方式。為此,您需要探索數字世界。
我們決定將兵棋推演轉移到數字世界,而不是讓它在屏幕上播放,而是為了獲得關于如何以最佳方式使用新系統并挑戰當前戰術程序的更多見解。為了實現這一愿景,我們開始研究以下三個主題:
(1) 我們可以從生成藍色與紅色場景的所有可能結果中學到什么?
(2) 人類可以從與人工智能 (AI) 的兵棋推演中學到什么?我們該怎么做?
(3) 我們可以向人類玩家呈現什么類型的信息,以使人類加 AI 比單獨的 AI 更好?你如何將信息呈現給玩家?
在任何重要的兵棋推演中,可能的結果數量都非常龐大,以至于人類無法靠想象探索和分析它們。在專注于創造學習效果的訓練兵棋推演中,無法探索整個結果空間可能無關緊要,但如果你將其用于開發新條令、測試作戰概念和評估戰術決策,則具有至關重要的意義。在這些情況下,你需要區分什么是可能的、合理的或可能的。
如何克服這一挑戰?多虧了所謂的多智能體模擬。由于計算機比人類玩得更快,多智能體模擬可以系統地探索游戲結果的整個空間并確定最佳行動方案,從而產生合理的游戲結果。
桌面游戲等基于規則的系統可以直接轉化為模擬:游戲規則和游戲環境(如地形和時間)被編碼為計算機模型,逐漸向前成型,同時玩家互動的結果被記錄為模擬世界的新狀態。
多智能體模擬是城市、金融交易或軍事行動等現實世界系統的數字雙胞胎。為了構建多智能體模擬,首先生成合成種群。這是感興趣系統的靜態快照,包括個人的社會人口特征和行為以及社會技術環境。然后使用模擬技術根據行為規則和環境約束對合成種群進行動畫處理。然后對模擬進行校準,以產生盡可能與感興趣的真實世界變量在統計上無法區分的輸出。這種經過驗證的模擬不僅有助于探索游戲結果的范圍,而且有助于診斷、預測和預見。
構建和運行我們的“新技術戰爭”(NTW)的多智能體模擬涉及以下步驟:
(1) 熟悉NTW:玩幾輪NTW,學習游戲,了解規則。
(2) 構建NTW模型:根據規則手冊、其他資料和對NTW的主觀理解,包括選手、裝備、規則、地形等。
(3) 將模型編碼為多智能體模擬:編寫軟件來近似游戲“物理”,例如游戲板的數字化版本;描述由每個場景的系統、效應器和平臺組成的軟件包;為智能體定義任務目標,并為智能體配備強化學習行為。
(4) 模擬的驗證:手動回合的游戲結果是手繪草圖的(見圖 5-1,左)。藍色和紅色虛線表示人類玩家在游戲中如何移動藍色和紅色軍事單位。藍色和紅色的點表示射擊位置。藍色和紅色實線表示火力線。然后將手繪草圖數字化(圖 5-1,右);運行了 1,000 次 NTW 模擬,結果以類似于手繪草圖的格式自動繪制出來(圖 5-2)。最后,通過為圖像識別開發的機器學習算法將手動游戲結果與模擬游戲結果進行比較。
(5) 創建一個基礎設施來運行實驗:以探索游戲結果的空間并確定最佳行動方案。這包括產生 10,000 次模擬運行。
圖 5-1:兩個人玩游戲的手繪草圖結果與數字化版本
圖 5-2:模擬游戲結果的可視化表示
正如一開始所假設的那樣,模擬可以探索合理的游戲結果的整個空間。我們并不打算重現特定的游戲結果,而是想知道為多智能體模擬提供動力的人工智能是否具有產生超越人類想象和游戲的合理結果所需的屬性。首先,我們發現模擬確實產生了人類玩游戲的結果。這些在圖 5-3 中的棕色簇中顯示為紅色十字。點云代表 1,000 個模擬游戲。其次,通過機器學習對游戲結果進行聚類,出現了三個不同的群體。這張圖的意義就很明顯了:模擬玩游戲并產生人類玩家沒有想到的合理結果。這些都是藍色和綠色集群中代表的所有游戲。
圖 5-3:以點云表示的 1,000 個模擬游戲結果(游戲分為三個不同的組。現實世界的游戲,在點云左側被描繪為紅色十字,僅類似于棕色的游戲集群。游戲以藍色和綠色的簇是模擬玩的游戲,但不是人類玩家想象的。點之間的距離代表游戲的兩個數字表示之間的差異,如圖 5-2 所示)
人類玩的游戲表明 BLUE 可以贏得大約 40% 的 NTW。相反,模擬表明,考慮到完整的結果集,而不僅僅是人類迄今為止所玩的結果,BLUE 獲勝的機會要低得多,約為 3%。微調BLUE的強化學習參數后,BLUE的勝率沒有超過10%。因此,模擬表明人類可能對獲勝過于自信。這可以通過最初不知道玩游戲的其他可能性來解釋。人類鎖定在狹窄、熟悉的模式中;而模擬沒有。模擬有助于確定最佳行動方案,而不會成為我們自己認知缺陷的犧牲品。
通過與數字冠軍比賽來消除認知偏見是為 NTW 開發兩種人工智能(一個玩 RED,另一個玩 BLUE)追求的目標。
現代基于人工智能的智能體不僅在提供信息的能力上優于人類,而且在受控情況下做出決策的能力也優于人類。這意味著:在一個具有給定規則和行動的微型世界中,IT 系統不僅為決策提供背景,而且能夠自行決定。如果可以將決策任務放入這樣一個簡化的世界(通常以游戲的形式),那么量身定制的 AI 通常可以幫助選擇正確的動作。所描述的設置幾乎包括所有戰略游戲,例如國際象棋、圍棋、將棋、Hex 等,AI 玩家可以毫不費力地擊敗人類世界冠軍。
這項技術突破的核心在于通過數十億次模擬訓練人工智能的想法。每一次輸贏都會被記錄下來,每一步都會改進人工智能。不僅向決策者提供了一個模擬,而且一個 AI 會運行盡可能多的合理案例,并選擇最有可能產生最佳結果的行動。經過足夠多的迭代后,這個過程產生了在幾乎所有戰略游戲中超過人類大師能力的奇妙動作。
NTW 游戲是與軍事專家密切合作設計的。它是一個簡化但現實的模型,用于在各種現實世界的戰爭場景中進行決策。玩家面臨典型的軍事沖突情況,必須決定戰略和戰術以達到他的軍事目標。當然,玩家可以在他的想象中運行有限數量的場景(模擬),并根據經驗、可用數據和模擬采取最佳行動。然而,已經為許多其他游戲建立了訓練 AI 智能體的方法,以達到超人的表現。 NTW 采用基于人工智能的方法,旨在學習軍事戰術和戰略。一旦在游戲規則范圍內達到令人滿意的表現,游戲的結構可能會被擴展,以更準確地捕捉現實戰爭。示例包括添加未來的武器、詳細說明其屬性、合并具有不同目標的其他智能體等。
就策略游戲 AI 玩家的開發而言,兩種尋找最佳策略的方法可以被視為標準。我們將在下面詳細描述這些方法。
首先是經典搜索,其中 AI 玩家嘗試模擬盡可能多的游戲狀態,然后選擇最好的模擬。這種方法可以被描述為蠻力,因為它的最終目標是嘗試所有可能的游戲狀態并遵循導致勝利的決定。在實踐中,窮舉搜索通常是不可能的,因為即使是簡單的游戲也會很快破壞最強計算機的能力。國際象棋中合理的游戲狀態數量估計在 1040 左右,這個數字遠遠超出了計算機模擬的范圍。因此,并非所有狀態都被分析,但人工智能限制了足夠數量的合理結果。搜索由兩個關鍵參數量化。分支因子衡量對手玩家在當前決定下可以采取的合理行動的數量。搜索深度定義了模擬了多少后續動作。對于國際象棋,典型的分支因子約為 3,即對于每一步,通常考慮三個回復,并且深度最多為 80 步。一旦達到最大搜索寬度(由分支因子給出)和深度,定制的評估就會測量結果的質量。實現這種方法的常見 AI 算法是所謂的 AlphaBeta 搜索。值得一提的是,在商用智能手機上運行的實現 AlphaBeta 的公開國際象棋程序(例如 StockFish)比人類世界國際象棋冠軍要強得多。
雖然 AlphaBeta 在分支因子和搜索深度不太大的情況下非常成功,但當這些指標增加時它很快就會失敗。由于搜索練習的指數性質,即使增加一個單位的深度也會將計算機所需的容量乘以分支因子。因此,不能通過簡單地選擇更好的計算基礎設施來解決這個問題。
在游戲中做出決策的第二種也是更現代的方法,明確地解決了 AlphaBeta 搜索的弱點,可以被描述為定向搜索。已經提出了各種架構,但基本設置如下。兩個深度神經網絡 (DNN) 用于決策。第一個是評估性的,因為它衡量質量。第二個 DNN 通過估計合理行為的概率來指導搜索。與 AlphaBeta 相比,此方法更關注決策的可能和相關后果,而不是盡可能多地檢查。這種類型的搜索算法總結在首字母縮略詞 MCTS(蒙特卡洛樹搜索)下。近年來,MCTS 搜索算法在包括國際象棋、圍棋、Chogi、Hex 在內的許多游戲中都優于 AlphaBeta 搜索,并構成了當前最先進的技術。
與國際象棋相比,NTW 的特點是分支因子明顯更大,但同時搜索深度更小。分支因子大致反映了合理動作的數量。在 NTW 的情況下,可能有多種類型的動作,包括移動、攻擊和響應動作。此外,在 NTW 的每一輪中,玩家的所有人物都可以行動,而國際象棋則只有一個人物移動。這個結果是一個通常從 50 到 100 的分支因子。另一方面,NTW 對每個場景都有一個有限的深度,標準深度是 12,這比國際象棋要小得多。
由于 AlphaBeta 或 MCTS 框架中的大型分支因子,現成的 AI 無法訪問 NTW,但必須開發定制方法。該游戲的一個特殊之處在于響應動作的可能性,它打破了上述策略游戲的標準移動順序。總而言之,NTW 需要一個 AI,它是為游戲的特定結構量身定制的,并且必須在定制的工作中進行開發。我們的團隊目前在 PyTorch 開源 AI 框架(由 Facebook)中實現了一個實驗性 AI。這些實驗是用多個智能體進行的,以測量它們在 NTW 上的性能。智能體可以通過 Web 界面與人類對戰(見圖 5-4)。
圖 5-4:數字化NTW游戲的Web界面,允許人類玩家挑戰為該游戲訓練的人工智能。
此時,擁有有關游戲所有可能結果的數據以及能夠玩游戲的人工智能,我們應該能夠幫助玩家獨立于情況做出最佳決策。我們知道在現實生活中會有所不同,但我們仍然有興趣模擬的“數字同伴”可能是什么,并更好地了解玩家在玩游戲時的認知偏差是如何出現的。為此,我們開發了一個簡單的 NTW 視頻游戲。
玩家將在戰場上化身為一名士兵。挑戰在于處理為棋盤游戲創建的一些初始情況,并將其解決方案轉化為教學敘述。我們的目標是為使用新技術提出的問題提供額外的視角。
這些敘述將始終要求玩家找到 NTW 中現有新系統的最佳用途,即無人機系統、外骨骼、武裝運送機器人和醫療后送機器人。呈現士兵的同伴的游戲交互將支持和評估玩家的表現。
由于智能手機已經可以被視為我們的日常伴侶,因此該游戲是為 Android 和 Apple 設備開發的。
雖然棋盤游戲任務定義了初始情況,但我們將使用多智能體模擬提供的數據來定義有限數量的游戲進程(例如完全成功路徑、混合成功路徑、失敗路徑)。這些數據將形成由不同分支組成的敘事樹。這些分支點將構成在任務期間呈現給玩家的行動選擇。
選擇任務后,會描述其情況,并附有敘事說明。然后向玩家提供一個選擇(例如前進/激活外骨骼/等待)。根據所選擇的選項,將呈現下一個情況,然后再次出現另一個選項。重復此序列幾次(參見分支點)后,將顯示任務結果。首先將要求玩家選擇(從有限的選擇中)其決策背后的原因。這些數據將被發送到分析服務,以便之后進行解釋。
最后,玩家的選擇將以圖形方式呈現,并附有基于理想路徑的批判性評論。目標是讓玩家了解自己的錯誤。一旦任務成功完成,一個新的任務將解鎖并變得可玩。
在第一個任務中,玩家/士兵將不得不僅根據他們的判斷做出決定。同伴只會在場評論游戲中描述的情況,提供正在進行事件的全局信息并提供行動后評論。
只有在完成幾次任務后,同伴才會開始建議最佳路徑。這種游戲機制的目的是讓玩家慢慢習慣于在決策過程中獲得幫助。
但是,對于最后的任務,同伴會開始提出錯誤的選擇,如果被玩家跟隨,則會導致任務失敗。敘事方法將通過敵人對同伴的攻擊來證明這一點。
借助通過數據分析服務檢索到的游戲數據,該游戲機制將衡量一旦習慣了相關建議,即使該信息明顯錯誤,也傾向于盲目遵循同伴指示。這說明即使是你忠實的數字同伴也可能受到網絡威脅!
圖 5-5: The Soldier’s Digital Companion 截圖
最初選擇的方法,IoS 卡牌研討會以及兵棋推演本身,因其互動性和參與者的參與度而脫穎而出。造成這種情況的一個主要原因可能是他們的探索性特征與敵對元素相結合,以挑戰對方的意見、決定和解決方案。除了研究本身,這些活動還為社區內的社交和傳授新技術知識提供了一個平臺。
? 兵棋推演可以幫助展示基于情景作為操作框架的技術影響。它可以展示人類,無論是友好的還是敵對的,在未來如何應用技術。
? 兵棋推演技術支持探索。盡管幾乎不可能重現已執行的兵棋推演過程,但它可以幫助確定進一步分析的起點,并打破主流或過早的觀點,因為它具有對抗性。
? 然而,兵棋推演需要時間來執行,并且不是適合所有目的的正確方法。這尤其適用于不包括人類決策和選擇但側重于物理效應和可能性的技術研究主題,技術實驗、計算機模擬等可能更適合這些主題。
在這一點上,我們結合桌面游戲和基于計算機的分析(如上所示)的方法完成了未來分析的工作。基于游戲的分析有助于深入了解人類行為,無論是作為未來技術的潛在用戶還是個人,都受到對手對技術的創新使用的挑戰。
具有數千次運行的多智能體模擬通過底層游戲機制優化行動過程,來縮小由人類交互和人類偏見造成的時間限制差距。誠然,這強調了整個建模和仿真過程中有效性和驗證的緊迫性。
總而言之,似乎方法和工具的組合將產生最可靠和最有用的結果。結構良好的程序化方法與混合工具包相結合,可確保利用不同方法的優勢并減輕甚至消除弱點。此外,方法學的混合和迭代過程為軍事能力管理領域的深遠決策提供了必要的三角測量。
我們仍處于冒險的開始階段,在我們能夠概括結論并驗證某些直覺之前,仍需要在許多方向上進行努力。這將是一個激動人心的旅程,似乎是構建混合的物理和數字生態系統。它的相互作用將使我們能夠更好地理解和預測新技術在未來或其他方面可能發揮的作用。
本文總結了自 2017 年以來發生(現在仍然如此)的眾多活動和思考。本文的匯編得益于以下人員的工作和貢獻:Helvetia Games SA 的“新技術戰爭”(Pierre-伊夫·弗蘭澤蒂); Scensei GmbH(Armando Geller 和 Maciej M. Latek)的多智能體模擬; Istituto Dalle Molle di Studi sull’Intelligenza Artificiale(Oleg Szehr、Claudio Bonesana 和 Alessandro Antonucci)的人工智能; Oni3 SNC(Matthieu Pellet、Seiko Annie Rubattel 和 Nicolas Schluchter)制作的“士兵同伴”視頻游戲; Longviews (Gabriele Rizzo) 的遠見和方法論討論; IABG mbH(Matthias Lochbichler、Sibylle Lang 和 Philipp Klüfers)的初始技術兵棋推演和 IoS 研討會。
在當前復雜的多域作戰中,白圖是指揮官了解威脅及其對任務的影響的關鍵因素。建模和仿真(M&S)與數據科學(DS)可以支持 a)最新的白圖開發 b)SME的分析工作,估計任何指揮級別的軍事行動的相關風險。本文討論了北約實施的M&S和數據科學用例,以支持SACEUR的責任區(AOR)彈性風險表述。開源數據經過分析、結構化和操作,以自動方式和按需生成與彈性7基線要求(7BLR)相關的地理參考數據/信息,涵蓋政府的連續性、能源供應、人員流動、食品和水、大規模傷亡、通信系統和運輸系統在JFC的AOR。它作為預測 SACEUR運營風險的北約彈性模型的輸入。系統動力學范式被用來開發北約彈性模型,作為在戰略層面處理定性和定量輸入數據和抽象彈性語言的混合的理想方法。戰略沖擊會影響白圖狀態的當前和未來。實施機器學習技術來估計戰略沖擊參數。該原型已在最終用戶的實驗中使用,并且已確定驗證步驟。
當前軍事推演中合成角色的行為能力是有限的,因為它們通常是由基于規則和反應性計算模型生成的,具有最低限度的智能。這種計算模型不能適應反映角色的經驗,導致即使是通過昂貴和勞動密集型過程設計的最有效的行為模型也很脆弱。利用機器學習和合成實體的經驗并結合適當的先驗知識的、具備自適應能力的、基于觀察的行為模型,可以解決現有計算行為模型中的問題,從而在軍事訓練模擬中創造更好的訓練體驗。
南加州大學創新技術研究所介紹了一個框架,旨在創建自主的合成角色,這些角色能夠執行可信行為的連貫序列,同時在訓練模擬中了解人類受訓者及其需求。該框架匯集了三個相互補充的組成部分。第一個組件是基于Unity的仿真環境——快速集成和開發環境(RIDE)——支持One World Terraing(OWT)模型,能夠運行和支持機器學習實驗。第二個是Shiva,這是一個新穎的多智能體強化和模仿學習框架,可以與各種模擬環境接口,并且可以額外利用各種學習算法。最后一個組件是Sigma認知架構,它將通過符號和概率推理能力來增強行為模型。已經成功地創建了概念驗證行為模型,在現實中利用這一框架,作為將機器學習引入軍事模擬的重要一步。
論文全文:
人工智能的未來在于使人類能夠與機器合作解決復雜問題。像任何有效的合作一樣,這需要良好的溝通、信任、清晰和理解。XAI(可解釋人工智能)旨在通過結合符號人工智能和傳統機器學習的最佳效果來應對這些挑戰。這一主題已經被各種不同的AI社區研究了多年,它們有著不同的定義、評估指標、動機和結果。
本教程簡要介紹了XAI迄今為止的工作,并以機器學習和符號AI相關方法為重點,調查了人工智能社區所完成的工作。我們將在現實世界和大規模應用中激發XAI的需求,同時提供最先進的技術和最佳的XAI編碼實踐。在本教程的第一部分,我們將介紹AI的不同解釋方面。然后,我們將重點介紹兩種具體的方法:(i) XAI使用機器學習和(ii) XAI使用基于圖的知識表示和機器學習的結合。對于這兩種情況,我們都將深入研究方法的細節、技術現狀和下一步的研究挑戰。本教程的最后一部分概述了XAI的實際應用程序以及最佳的XAI編碼實踐。
人工智能(AI)在決定我們日常體驗方面扮演著越來越重要的角色。人工智能的應用越來越多地不再局限于搜索和推薦系統,如網絡搜索、電影和產品推薦,但人工智能也被用于對個人、企業和社會至關重要的決策和流程。在招聘、借貸、刑事司法、醫療保健和教育等領域,基于web的人工智能解決方案對個人和專業的影響是深遠的。
在人工智能系統的開發和部署中,有許多因素發揮著作用,它們可能會表現出不同的、有時是有害的行為。例如,訓練數據往往來自社會和現實世界,因此它可能反映了社會對少數民族和弱勢群體的偏見和歧視。例如,少數族裔與多數族裔在類似行為上面臨更高的逮捕率,所以在沒有補償的情況下構建一個人工智能系統可能只會加劇這種偏見。
上述問題凸顯出需要監管、最佳實踐和實用工具,以幫助數據科學家和ML開發人員構建安全、隱私保護、透明、可解釋、公平和負責的人工智能系統,以避免可能對個人、企業和社會有害的意外后果和合規挑戰。
在這些原則中,模型的透明度和可解釋性是在需要可靠性和安全性的高風險領域(如醫療保健和自動化運輸)建立信任和采用人工智能系統的先決條件,以及具有重大經濟影響的關鍵工業應用(如預測性維護、自然資源勘探和氣候變化建模)。除了可解釋性,越來越多的利益相關者質疑他們的人工智能系統的公平性,因為有很多例子可以說明不考慮公平性的后果,從人臉識別對白人男性的效果明顯優于有色女性,到歧視特定群體的自動招聘系統。通過整合工具來確保模型的透明度和公平性,可以讓數據科學家、工程師和模型用戶更容易調試模型,并實現確保AI系統的公平性、可靠性和安全性等重要目標。
最后,人工智能產品通常由ML模型驅動,這些模型根據敏感用戶數據進行訓練。給定足夠的復雜性——無論是從參數的數量[例如。或者用戶級個性化——,該模型可以對用戶的私人信息進行編碼。此外,通常需要在ML生命周期的不同階段確保用戶隱私,并保護不同類型的不良行為者和威脅場景,需要隱私保護AI方法。
在本教程中,我們將概述負責任的人工智能,強調人工智能中模型的可解釋性、公平性和隱私性,關鍵的法規/法律,以及提供關于基于web的人工智能/ML系統的理解的技術/工具。然后,我們將關注可解釋性、公平評估/不公平緩解和隱私技術在行業中的應用,其中我們提出了有效使用這些技術的實際挑戰/指導方針,以及從部署幾個web規模的機器學習和數據挖掘應用模型中獲得的經驗教訓。我們將介紹不同公司的案例研究,包括搜索和推薦系統、招聘、銷售、借貸和欺詐檢測等應用領域。我們將強調,與負責任的人工智能相關的主題是社會技術的,也就是說,它們是社會和技術交叉的主題。潛在的挑戰不能由技術人員單獨解決;我們需要與所有關鍵的利益相關者一起工作——比如技術的客戶、受技術影響的人,以及具有道德和相關學科背景的人——并在設計這些系統時考慮他們的輸入。最后,基于我們在行業中的經驗,我們將為數據挖掘/機器學習社區確定開放的問題和研究方向。
//sites.google.com/view/ResponsibleAITutorial