亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

現代安全威脅的特點是隨機的、動態的、部分可觀察的和模糊的作戰環境。這項研究解決了在這種復雜安全威脅的作戰規劃、分析和評估中的不確定性決策問題。首先,對不確定性建模、決策和不確定性下的優化的文獻進行了回顧,重點是模糊性建模和優化實踐方面的最新進展。這一回顧為后續的方法論和應用研究提供了一個框架,并對文獻中不確定性下的決策和優化的當代應用進行了全面回顧。接下來,對軍事評估的不確定性模型的調查涉及定性和混合方法,以補充文獻回顧中討論的定量模型。這項調查為實踐者提供了一個基于研究的指南,以便將定性但嚴格的不確定性模型應用于實際評估問題。

在對現有文獻和實踐的回顧之后,本研究開發了一種在推理環境下的不確定性決策的新方法。穩健的序貫推理方法解決了一類普遍的隊列問題,其中內部排隊系統是不可觀察的,出發和到達時間是隨機的和部分可觀察的。這項工作提高了決策者在不確定環境中分析隊列的能力,使用的原則性方法可證明收斂于真實參數值,并具有強大的經驗性能。

接下來,這項研究從推理過渡到序貫決策,采用了一種原始的表述和解決方法,用于在動態、部分可觀察和模糊的環境中進行穩健的信息收集。該解決方法具有理想的理論凸性和收斂特性。一個計算實驗表明,與現有方法相比,文獻中的一組經典問題的性能得到了改善。此外,對一個網絡安全檢測問題的詳細應用說明了新的表述和解決方法的功效。

最后,針對動態的、隨機的和部分可觀察的多Agent環境,提出了解決大規模的、具有不完美信息的廣義形式游戲的最佳和近似技術的新應用。這項工作為多領域網絡和防空問題的最優和近似公式提供了明確的細節,產生了接近最優的策略,描述了近似解決方案的最優性差距,并分析了結果對關鍵問題參數的敏感性。此外,對穩健對手利用的擴展包含了有界理性和模型模糊性。穩健的表述同時解決了問題的網絡物理性質和對手的不確定性。經驗證據表明,當對手以有界理性進行游戲時,穩健方法是有效的。

總的來說,這些當代調查、方法上的進步和新的應用提供了一套數學工具和計算算法,用于解決挑戰性環境下不確定性的復雜決策問題。這項研究通過把握技術和實踐的現狀,以及將現有的算法擴展到模糊和部分可觀察的環境,提高了決策和優化的能力。

引言

美國空軍未來作戰概念(2015a)設想了2035年的挑戰性安全環境。敵方可能有能力以達到不成比例的破壞性效果的方式進行完全一體化的多領域行動。考慮到不僅要威懾和應對彈道導彈攻擊,而且要威懾和應對綜合信息活動和網絡滲透的難度增加。這種聯合作戰的演變所產生的協同效應使得作戰藝術和作戰科學都必須得到改進。

正如2018年國防戰略(Mattis,2018年)所強調的那樣,多領域攻擊小品中引入的關切延伸到更廣泛的安全界。安全環境正經歷著快速的技術革新,并變得越來越復雜和不確定。復雜的環境和適應性強的對手對預測未來結果的能力造成了根本的限制,尤其是在戰略層面。然而,在許多規劃和評估問題中,行動環境是復雜的,但還沒有復雜到完全缺乏決策信息的程度。環境也很少被清楚地定義和理解,以至于不確定性可以忽略不計。決策者面對的是一個動態的環境,其特點是有思想的對手和不同程度的不確定性、模糊性和部分可觀察性。決策者應該如何應對這樣一個具有挑戰性的環境?

在快速的技術變革帶來安全挑戰的同時,它也帶來了新的機遇。不斷提高的計算能力補充了統計、模擬和優化算法的基礎性改進,提高了決策問題的定量方法的能力。運籌學方法和來自應用數學、統計學、計算機科學、機器學習和人工智能的密切相關技術現在可以在實際規模上解決不確定性下的復雜決策問題。雖然一些最重要和最困難的安全問題仍然不在定量算法的范圍內,但利用新興的解決技術來擴大現代運籌學方法可解決的問題類別,是一種戰略上的需要。

這些方法的最新進展集中在利用各種復雜環境中的部分知識。很少有操作環境是完全已知或完全未知的情況。相反,由于部分可觀察的狀態和獎勵、模糊的過渡動態和智能對手,決策者會遇到不確定性。利用有關作戰環境的部分信息使決策者能夠通過接受不確定性和開發對快速發展的環境和對手具有魯棒性的解決方案來改進決策。這篇論文的重點是解決以靜態、動態和多Agent環境中的隨機、部分可觀察和模糊環境為特征的決策問題。

本學位論文的結構是一系列獨立的學術文章,討論作戰規劃、分析和評估中不確定性下的決策這一主題。

  • 第二章回顧了不確定性下的決策和優化的文獻,重點是模糊性模型和優化實踐的最新進展。

  • 第三章對第二章中定量文獻的理論回顧進行了補充,對定性的不確定性和軍事評估實踐的應用進行了調查。第四章、第五章和第六章在第二章和第三章的基礎文獻的基礎上,分別探討了靜態、動態和多Agent環境下的不確定性決策。

  • 第四章開發了一種新的方法,用于對部分可觀察的、隨機的到達和離開時間進行穩健的隊列推理。這個一般的方法適用于任意的隊列,但具體的動機是網絡安全和恐怖主義的應用。

  • 第五章開發了一種在動態的、部分可觀察的和模糊的環境中進行穩健信息收集的新方法,并擴展應用于網絡安全檢測問題。

  • 第六章介紹了一個新的應用,即利用最優和近似技術解決具有不完善信息的廣義形式游戲的多域網絡和防空問題。

1.1 總結

特別是第二章,為后面幾章的方法論和應用研究提供了理論基礎的回顧。決策方面的最新進展是將風險和模糊性納入決策模型和優化方法中。這些方法實現了各種來自概率論和非概率論基礎的不確定性表示,包括傳統的概率論、不確定性集、模糊性集、可能性理論、證據理論、模糊度量和不精確概率。不確定性表示法的選擇影響了決策模型的可表達性和可操作性。本章調查了最近在決策和優化中表示不確定性的方法,以澄清替代表示法之間的權衡。對穩健和分布穩健的優化進行了調查,并特別關注標準形式的模糊性集合。不確定性和決策模型的應用也被回顧,重點是最近的優化應用。

第三章補充了第二章的定量工作,重點調查了軍事評估中的不確定性模型。評估理論為軍事行動評估的實踐提供了一個嚴格的基礎。政府和工業界的評估人員已經利用評估理論在廣泛的領域內提高了評估的有效性。本章重點討論評價理論與軍事評估之間的關系。本章簡要地調查了主要的評估方法,重點是將理論模型與實際的、與安全有關的應用聯系起來。這些評估方法包括專家導向、方案導向、決策導向和參與導向模式。在這些方法的總體框架內,詳細考慮了替代的監測和評估設計,包括描述性設計(如案例研究、橫斷面、時間序列)、準實驗性設計(如中斷的時間序列、比較組、案例研究)和實驗性設計(如僅后測、前測)。然后,本章討論了用于分析和報告每種設計方案的不確定性的定量和定性方法,重點是混合方法。在整個章節中,應用實例明確了評價理論和運行評估實踐之間的關系。

第四章開發了一種新的穩健隊列推斷方法。在一些軍事和競爭性商業應用中,隊列的內部結構和參數是完全不可觀察的。此外,到達和離開的時間可能是可觀察的,但由于在對抗環境中的測量誤差,會有很大的不確定性。本分析使用基于訂單的方法估計內部不可觀察的、先到先得的G/G/c隊列中的服務器數量。這種新方法提供了一個下限,并在概率上收斂到了正確的值。與標準的方差最小化方法相比,基于秩序的方法對小樣本的性能有所提高。基于訂單的算法對到達和離開時間測量中的噪聲具有魯棒性,而方差最小化方法在有噪聲的數據中表現出較差的性能。我們還考慮了對 "后到先得 "的G/G/C隊列的擴展。基于順序的后到先得的方法也提供了一個下限,該下限在概率上收斂到正確的服務器數量。

第五章為部分可觀察的馬爾科夫決策過程(POMDPs)的穩健解決方案開發了一種新的表述和方法,該過程具有模糊的過渡和信仰獎勵。本章介紹了穩健的信念獎勵部分可觀察馬爾可夫決策過程,作為馬爾可夫決策過程的一個概括,它允許狀態的不確定性、模型的不確定性和依賴信念的獎勵。在許多實際應用中,POMDP的過渡和觀測參數很難估計。這項研究表明,傳統的POMDP求解技術對模型的錯誤指定非常敏感,特別是在信仰-獎勵的設置中。為了應對這一挑戰,我們開發了一種穩健的信念獎勵算法,它擴展了基于點的價值迭代,同時保留了理想的靈活性和收斂特性。除了基礎理論屬性外,一項實證調查顯示,穩健的求解技術在幾個不同的問題類別中提供了對模型錯誤指定的保護。為了說明解決模型錯誤指定對信息獲取問題的重要性,本章還介紹了穩健的信念-回報POMDP公式在網絡安全問題上的應用,它顯示了在最壞情況下的性能改進。

第六章介紹了最優和近似廣義形式求解技術在信息不完善的綜合網絡和防空問題上的新應用。新興的多領域威脅需要一個綜合防御戰略。本章開發了多領域安全游戲,以解決對國家人口中心的網絡-物理綜合威脅。這項研究使用零和、廣義形式的博弈來模擬物理和網絡空間中的攻擊者和防御者,借鑒網絡安全和彈道導彈防御的文獻來告知博弈結構。為了確定最佳的防御者策略,我們開發了一個多領域的安全博弈,并對問題進行了重新表述,以使用一個有效的序列形式的線性程序找到納什均衡。本章還開發了一個近似的反事實遺憾最小化算法在這個問題上的應用,并描述了最優性差距。此外,這項研究還量化了網絡領域中改進的態勢感知的價值,并提出了對強大的對手利用的擴展。

1.2 貢獻

這部著作中的文獻綜述、方法論進展和應用,對整個運籌學領域,特別是對軍事和安全運籌學實踐做出了貢獻。關于不確定性下的決策和優化的文獻綜述(第二章)將關于理論不確定性模型、決策模型和優化模型的不同文獻組織成一個連貫的結構,并確定了這三個研究領域之間的關系。此外,對軍事評估中的不確定性模型的調查(第三章)為實踐者提供了一個基于研究的指南,以便將定性但嚴格的不確定性模型應用于評估問題,從而對軍事行動研究實踐做出了貢獻。

在這些現有文獻的基礎上,一種新的穩健隊列推斷方法通過提高決策者在不確定環境中分析隊列的能力,對該領域做出了貢獻(第四章)。這種服務器估計方法對一大類一般隊列有效,對隊列結構的了解有限,到達和離開的樣本小而嘈雜。這項研究證明,該方法產生的估計值具有理論上的收斂性和下限保證。它還提出了在廣泛的參數設置中與現有方法相比性能提高的經驗證據。

延伸序貫決策,一個原始的穩健的信念-回報POMDP公式和一個新開發的解決算法為該領域提供了工具,以解決模型模糊下的一類新的信息收集問題(第五章)。這項研究證明了該求解技術具有理論上的凸性和收斂性,使其與成熟的近似技術系列兼容。它還提出了經驗證據,證明與現有方法相比,文獻中的一組經典問題和模糊環境下的實際網絡安全檢測問題的性能有所提高。

最后,在一個多領域的網絡和防空問題上,反事實遺憾最小化的應用通過用快速、接近最優的技術解決一個當代的操作問題,為文獻做出了貢獻(第六章)。這個新的應用提供了該問題的最優和近似公式的明確細節,并描述了多域安全環境下的最優性差距和對關鍵問題參數的敏感性,這與最近的其他應用有很大不同。它還提出了一個原創的穩健公式,解決了問題的網絡物理性質和對抗性的不確定性。經驗證據表明,當對手以有界理性進行游戲時,穩健方法是有效的。

除了通過發表調查、方法、應用和結果對文獻做出貢獻外,本論文還為所有方法提供了開源軟件實現,并公布了所有結果的原始數據。這些代碼和數據產品都可以在//github.com/ajkeith,并提供測試、基準測試和文檔。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

鑒于對手軍事能力的威脅和擴散的增加,這項研究試圖開發合理準確和可計算的模型,以最佳方式操縱航空器攔截巡航導彈攻擊。該研究利用數學編程對問題進行建模,并以代表(時間)差分方程系統的約束條件為依據。研究首先比較了六個模型,這些模型對速度和加速度約束有不同的表述,同時分析了靜止目標的情況。多航空器、多固定目標交戰問題與箱體約束條件(MAMSTEP-BC)模型產生了卓越的整體性能,并通過替代數學編程模型的增強進行了進一步分析,以便在利用有效的機動序列方面創建可行的飛行輪廓。最后,對MAMSTEP-BC模型進行了修改,以操縱飛機來對付移動目標。

在優化交戰所需時間時,該模型被證明對多架航空器和多個目標有效。MAMSTEP-BC通過考慮航空器和飛行員的局限性,能夠保持高水平的顆粒度,同時設法為靜止和移動的目標快速生成最佳解決方案。

本論文的其余部分組織如下。第二章討論了與國防、飛行器路由問題和涉及差分方程的數學編程公式有關的文獻,以操縱或路由實體。下面的研究分三個不同階段進行。第三章介紹了第一階段所研究的工作,該階段開發并測試了操縱多架航空器來對付靜止目標的替代模型。在第四章中提出,第二階段的研究探討了替代的數學編程模型的增強,以創建研究第一階段的可行的飛行輪廓。在第五章中,介紹了第三階段研究的工作,其中開發和測試了一個最終模型,以操縱多架航空器來對付移動目標。第六章以工作的主要成果對論文進行了總結,并介紹了未來關于時空網絡路由模型主題的可能研究途徑。

付費5元查看完整內容

多智能體系統在解決復雜和動態領域的問題方面顯示出巨大的潛力。這種系統由多個單獨的實體組成,稱為智能體。系統的整體行為是由其組成的智能體的許多相互作用產生的。大多數研究的系統由同質的智能體組成,它們擁有相同的行為或物理形式。然而,最近的工作表明,擁有不同行為或形式的異質智能體可以提高系統性能。這項研究考察了異質性對多智能體系統有效性的影響,并研究了多智能體系統在聯合武器戰中的應用,聯合武器戰同時應用異質單位類型來完成軍事目標。數百個形態上同質和異質的多Agent團隊被演化出來,并對其完成某些目標的能力進行評估。結果表明,沒有一個團隊配置在所有情況下都表現出色,在異質和同質配置之間轉換的能力對團隊的成功比任何配置的異質性更重要。結果進一步表明,美國海軍陸戰隊理論中描述的聯合武器戰術可以從簡單的、分散的智能體的互動中產生,表明該領域的未來研究可能被證明對聯合武器戰爭的軍事藝術有價值

引言

1.1 問題背景

現代聯合武器理論要求同時應用多種武器類型,以達到大于其各部分之和的效果[1, 2]。復雜適應性系統(CASs)的研究人員對這句話很熟悉,它是一種涌現的語言,通過這種現象,一個相對簡單的智能體系統表現出復雜的總體行為,從而創造出 "小中見大 "的效果--大于其部分之和[3, 4, 5]。約翰-博伊德(John Boyd)的工作是基于當前的聯合軍備理論,他將武裝部隊視為由處于不同角色的自主單位組成的復雜網絡,并借鑒了CAS文獻來發展其戰爭理論[6]。對博伊德來說,每個軍事單位都填補了一個專門的利基,有助于整體的運作,因此,發展一支有效的聯合武器部隊是一個多智能體系統工程問題。在這樣的問題中,每個智能體必須被設計成通過與同伴的互動,在系統層面上幫助產生一些理想的特征。例如,戰斗的勝利是軍隊的一個理想特征,每個士兵的訓練和裝備都是針對贏得戰斗的整體任務。

聯合武器部隊具體來說是一個異質的多智能體系統。異質性一詞表示智能體之間在形態上、行為上或兩者上的差異。形態上的異質性指的是物理特性上的差異,而行為上的異質性指的是智能體對感知數據的行為方式上的差異。因此,形態上的異質性智能體就像坦克與飛機或警犬與警察一樣不同。行為上的異質性智能體不同,就像兩架相同的飛機在執行任務時可能扮演不同的角色,或者一個士兵可能在另一個士兵前進時提供火力掩護[3, 7]。

聯合武器戰爭的歷史提供了許多異質系統的例子,從古代的小兵、步兵和騎兵的聯合編隊到現代空軍的復合翼概念[8, 9]。現代計算機模擬和人工智能(AI)的研究提供了新的機會,通過建模和評估部隊的組成和戰術來推進聯合武器理論。最近的研究表明,智能體能夠在戰略游戲中產生新的戰術[10],協調多個物理和行為上不同的單位,在物理世界中執行協作任務[11],并在智能體的合作團隊中產生新的和多樣化的行為[12]。所有這些結果都與聯合武器理論有直接關系。這樣的研究既促進了軍事藝術的發展,也促進了人工智能和多智能體系統的研究。

1.2 研究問題

假設異質智能體系統將比同質系統更有效地完成分配的任務,其中有效性是由衡量成功完成任務的健身分數來衡量。更具體地說,這項研究將回答以下問題。

1.行為的異質性是否會改善或損害多Agent系統在聯合武器場景下的性能?

2.形態上的異質性是否會改善或損害多Agent系統在聯合軍備情況下的性能?

假設異質智能體系統將比同質系統更有效地完成分配的任務,其中有效性是由衡量成功完成任務的健身分數來衡量。更具體地說,這項研究將回答以下問題。

1.行為的異質性是否會改善或損害多Agent系統在聯合武器場景下的性能?

2.形態上的異質性是否會改善或損害多Agent系統在聯合軍備情況下的性能?

3.給定一組形態不同的單元,多Agent系統能否在沒有明確的中央指令的情況下表現出協同的聯合武器行為?

問題一和問題二涉及到可以將多樣性引入到智能體群體中的方式。采用具有物理或形態差異的智能體是否有益?為了回答這些問題,本研究在各種不同的任務中測試并比較了行為上和形態上的異質團隊。第三個問題是評估多智能體系統參與聯合武器戰爭中的合作行為類型的潛力。

這項研究提出了幾個戰斗單位的異質團隊的模擬,并評估了形態和行為異質性對團隊有效性的影響。多個異質和同質團隊被生成并在四個場景中測試,每個場景都有不同的目標。隊伍根據其勝利率進行分級,并與所受傷害成反比。測試結果被用來確定最有效和最高效的團隊配置和行為。

最合適的團隊表現出合作戰術,包括側翼機動、偵察、多管齊下的攻擊和其他行為。這些戰術產生于每個團隊成員智能體的互動,并且經常結合不同的智能體形態或行為。這項研究表明,異質性對團隊適應性的影響因情況而異,最有效的團隊傾向于演化出異質性行為和形態來克服戰術挑戰,而且聯合武器戰術可以從簡單智能體的相互作用中出現。

1.3 貢獻

這項研究提供了一個動態領域中同質和異質多智能體系統的比較。它支持國防部(DoD)發展自主武器系統的優先事項[13],并通過展示從簡單的智能體互動中出現的可識別的戰術行為,將多智能體系統理論應用于聯合武器的軍事藝術。提供了一個新的和可擴展的模擬器,用于未來對單體和多體系統的研究。

1.4 概要

第二章提供了多智能體系統的相關背景和研究,并概述了該領域與聯合武器理論的關系。還提供了RoboCodePlus模擬器的描述。第三章描述了用于執行實驗的方法,概述了智能體架構、測試場景以及用于生成和進化單個團隊的遺傳算法。第四章分析了每個實驗的結果并得出結論,而第五章總結了所做的工作并為未來的工作提供了建議。

付費5元查看完整內容

我們研究了不確定環境中的穩健和適應性的最大網絡流量問題,其中網絡參數(如容量)是已知和確定的,但網絡結構(如邊)容易受到對手的攻擊或失敗。我們提出了一個穩健和可持續的網絡流模型,以有效和主動地對抗在預算約束下運作的對手的合理攻擊行為。具體來說,我們引入了一種新的場景生成方法,該方法基于防御者和對手之間的迭代式雙人博弈。我們假設對手總是采取最佳的近視反應(在一些可行的攻擊中)來對付防御者準備的當前流量場景。另一方面,我們假設防御者考慮到對手在之前的博弈迭代中所揭示的所有攻擊行為,以產生一個新的保守的流量策略,該策略對所有這些攻擊是穩健的(最大化)。這種迭代博弈一直持續到對手和管理員的目標都趨于一致。我們表明,防御者要解決的穩健網絡流量問題是NP-hard,而對手的決策問題的復雜性隨著網絡規模和對手的預算值呈指數級增長。我們提出了兩種原則性的啟發式方法來解決大型城市網絡規模下的對抗者問題。在多個合成和真實世界數據集上的廣泛計算結果表明,與四種最先進的基準方法相比,防御者問題提供的解決方案大大增加了通過網絡推送的流量,并減少了預期的流量損失量。

本文的主要貢獻有以下幾點。

1.我們正式定義了計算關鍵基礎設施網絡的穩健和自適應的最大流量策略的問題,即利用一個被破壞的邊緣的流量可能通過有剩余容量的相鄰的邊緣改道的事實。為了解決這個問題,我們提出了一個網絡管理員和對手之間的迭代式雙人博弈,這被稱為網絡流量博弈(NFG)。

2.我們開發了新的優化模型來解決雙方在博弈的每個迭代中的決策問題。管理者的優化模型考慮到對手在以前的迭代中產生的所有攻擊策略,并計算出一個穩健的流量策略,在所有以前的攻擊中,在最壞的情況下使通過網絡推動的流量最大化。對手的決策問題檢查管理員在當前迭代中產生的流量策略,并產生一個攻擊(在給定預算約束下的可行攻擊中),以最佳方式破壞當前流量策略。

3.我們提出了兩種新的啟發式方法,用于解決大型城市網絡規模下的對手的復雜決策問題。第一種啟發式方法是一種加速的貪婪方法,它可以逐步確定要攻擊的最佳邊緣。第二種啟發式方法是一種基于網絡分區的方法,它迭代地確定網絡中要攻擊的一組最佳候選邊,然后在這些候選邊上解決對手的決策問題。

4.我們在多個合成和真實世界的基準數據集上提供了大量的計算結果,以證明我們提出的解決方法可以優雅地擴展到大規模的問題,并且比四個最先進的基準方法顯著增加了通過網絡推送的流量。

付費5元查看完整內容

Derringer和Suich(1980)可取性函數的一個不足之處是缺乏量化不確定性的推理方法。大多數解決不確定性的文章通常涉及穩健的方法,提供一個受變異影響較小的點估計。很少有文章涉及置信區間,但不是專門針對Derringer和Suich方法。這項研究為響應面方法學領域提供了兩個寶貴的貢獻。第一個貢獻是評估了相關性和平面角對Derringer和Suich最優解的影響。第二個貢獻是提出并比較了8種推理方法--包括單變量和多變量--用于為一階和二階模型的每個可取性函數解創建置信區間。通過模擬研究了Derringer和Suich方法參數、目標面角度和響應面之間不同的相關性的影響。提出的8種方法包括一種簡單的最佳/最壞情況方法、2種通用方法、4種模擬表面方法和一種非參數引導法。其中一種廣義方法、兩種模擬面方法和非參數方法考慮了響應面之間的協方差。雙變量的例子展示了這些方法在一階和二階模型中的應用。還研究了一個具有3個目標的多變量實際案例。雖然所有7種新方法和最佳/最差方法在二階模型中的表現都很好。利用底層多變量t分布的方法,即多變量廣義(MG)和多變量t模擬面(MVtSSig),是本研究推薦的方法,因為它們在一階和二階模型的小樣本中表現良好,只有在非最優解時覆蓋率才變得不可靠。MG和MVtSSig推斷應與帕累托前沿優化等穩健方法結合使用,以幫助在構建置信區間之前確定哪些解決方案更可能是最優的。

統計分析的一個重要因素是為決策者提供做出明智決策的能力。這些決策發生在不確定的情況下,由于測量誤差、采樣技術和其他潛在的未知誤差源,與給定問題有關的信息不能保證完全準確。響應面方法(RSM)是通過產品或過程優化進行決策。它建立在實驗設計(DOE)、線性模型和優化技術之上,以建立近似于現實世界目標函數的模型。當兩個或更多的目標出現時,很少有機會能同時完全優化它們。為了確定最優值,必須進行權衡,其中可以納入一些主觀因素,以找到一個對所有目標都有利的解決方案。多目標RSM(MORSM)擴展到當兩個或更多競爭的,或相關的目標存在時的優化。MORSM包括一些解決競爭目標的技術,如疊加等高線圖、限制性優化、帕累托前沿和可取性函數。

可取性函數(DF)是本研究的核心重點。具體來說,探索了Derringer和Suich方法來計算可取性最優值,因為比例函數的形狀很靈活,在文獻中經常使用[1]。目前在不確定情況下的決策解決方案,因為它與可取性函數和RSM有關,主要集中在穩健的解決方案而不是推理。有一些關于推斷可取性函數的文獻;然而,他們使用的可取性函數與Derringer和Suich方法的比例不同,并且/或者需要大樣本[2, 3]。由于Derringer和Suich方法缺乏適當的推理方法,可取性函數的最優解通常被報告為一個點估計值。報告一個點估計值限制了決策者可用的信息量,不確定性最好能以某種方式進行量化。對文獻的回顧表明,目前還沒有嚴格適合Derringer和Suich方法的推斷方法。現在偶爾使用的推斷方法提供了一個保守的區間,因為它使用了基于置信區間或預測區間的最佳和最壞情況區間,但它也假設了目標的獨立性。這種假設可能是有問題的,因為它沒有適當地考慮到反應之間的不確定性。雖然最佳和最壞情況區間在經驗上似乎是保守的,但由于它們受到反應之間相關性的影響,其覆蓋范圍并不總是有保證,它可能無法提供100-(1-α)%的置信區間。決策者將受益于可取性函數的適當推斷方法,以確保解決方案和備用行動方案對潛在的錯誤是穩健的。

本論文對響應面方法學領域有兩個主要貢獻。第一個貢獻是評估相關性和平面角度對Derringer和Suich可取性函數最佳解決方案推斷的影響,以表明獨立性假設是不正確的。第二個貢獻是提出了8種圍繞一階和二階模型的最優可取性指數構建置信區間(CI)的方法。所用的第一種方法已經在文獻中使用,根據線性回歸置信區間的最佳和最壞情況值構建初級的置信區間。其中有七種方法對于這個應用來說是新穎的,是基于第2.6節中討論的廣義方法和自舉技術。所關注的指標是覆蓋概率(CP),平均寬度(AW),以及每種方法的區間對稱性。本研究考慮了單變量(忽略相關性)和多變量(表征相關性結構)方法,以實現使用Derringer和Suich可取性最優解的最佳點上的CIs的100-(1-α)%覆蓋率。一階和二階模型都得到了利用。一階模型用于確定平面之間的角度是否對所關注的指標有影響。二階模型用于確定Derringer和Suich方法的參數設置是否對感興趣的度量有影響,并捕捉到用于真實世界的數據集。

下面幾章的組織結構如下。第2章對文獻進行了回顧,以解決使用哪些線性模型、研究的設計實驗、可取性函數結構、提出的推理方法的一些理論以及考慮的多變量分布。第3章推導出本研究的整體方法,包括推理方法的推導、考慮的問題集和模擬研究。第四章回顧了第3章中討論的所有情景和推理方法的結果。第5章是論文的結尾,簡明扼要地解釋了哪些推理方法是值得推薦的,以及未來研究的步驟。

付費5元查看完整內容

本報告描述了2021財年美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)未來風險項目 "決策動力學、欺騙和博弈論"的研究工作。為了提高指揮和控制多域作戰的決策輔助工具的有效性,有必要開發能夠協助復雜決策的人工智能(AI)工具。該項目開發了一個人工智能測試平臺--ARL戰斗空間(ARL Battlespace),用于創建和研究復雜推理的人工智能決策輔助工具。ARL Battlespace是一個由友好和敵對的人類和人工智能Agent組成的多人網絡兵棋推演工具。分層貝葉斯模型的初步結果說明,在具有不確定性、欺騙和博弈論的情況下,具有復雜推理功能的人工智能多學科發展框架具有潛力。該項目還開始開發一個基于與戰場可視化和交互平臺以及高性能計算持久服務框架的潛在集成的人機協作決策框架。這些成果為改善人-人工智能團隊的復雜決策和協作能力開啟了研究的大門

1. 簡介

作為美國防部人工智能(AI)戰略的一部分,美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)正在開發基于人類系統適應戰略的研究項目和技術,包括開發基于人-AI團隊決策和相互適應的超人能力的目標。這些新能力對于解決陸軍的多域作戰(MDO)戰略是必要的,特別是其滲透和分解階段,在此期間,人工智能輔助決策可以增強指揮官處理高速和大量信息以及地面、海上、空中、太空和網絡領域的復雜動態的能力。一個關鍵的挑戰是,現有的人工智能算法,對于復雜的決策來說是遠遠不夠的,而且對MDO相關場景的概括能力有限。另一個挑戰是,現有的陸軍理論和決策支持程序沒有將人工智能納入軍事決策過程(MDMP),而陸軍的自動規劃框架(APF)剛剛開始解決這一差距。此外,現有的人-人工智能編隊決策理論和技術僅限于簡單的決策,為復雜的深度決策在提供人工智能透明度方面非常有限,在這種情況下,多種依賴性、不確定性以及信息領域和行為者與復雜的人類、物資和環境動態相交。它們與人類專家的隱性推理協同工作的能力也很有限。發展這些能力需要一個綜合的、多學科的研究方法,包括為新的人工智能研究和人類與人工智能的編隊協作開發人工智能試驗基地。

對于兵棋推演,有必要開發能夠模擬包括戰術和戰略層面在內的多個梯隊的決策測試平臺。現有的兵棋推演決策工具,如Opsim、AFSIM和OneSAF,可以在多個規模上對許多因素進行建模和模擬,以預測基于戰略、物資能力和資源的結果,但它們受到老化系統的限制,有經驗的士兵可能難以學習,也不太適合開發人工智能和人類+人工智能編隊協作的能力。最近,人工智能能力的快速上升為開發和納入新型人工智能作為兵棋推演的決策輔助工具打開了研究的大門。最近人工智能推理的改進(例如,基于深度強化學習)是基于環境狀態完全已知的“開放”游戲(例如,跳棋、國際象棋和圍棋),它們是基于有限的合作性或欺騙性。即使在有額外復雜性的情況下,如環境的不確定性(憤怒的小鳥、雅達利),決策的復雜性、靈活性和對多人兵棋推演的可轉移性也是有限的(如撲克、Minecraft、星際爭霸[圖1])。盡管這些模型可以深入探索決策,但它們只限于選擇結果的潛在價值可以很容易測量和量化的條件。兵棋推演環境給人工智能學習帶來了困難和未解決的挑戰,因為有許多信息不確定性的來源,不僅來自環境,也來自人類和人工智能Agent。人工智能需要適應不斷變化的規則和戰略,迅速減輕出乎意料的敵方能力,并利用新的機會和友好的能力。人工智能還需要與他們的人類隊友相互適應,他們需要有默契的推理能力來與人類專家協同工作,并補償個人的偏見和啟發式方法以及變化的認知狀態。與博弈論等經典方法不同的是,未來狀態的預期效用可以根據合作或不合作的選擇對有限的行動集進行明確的量化,兵棋推演提出了跨環境和社會動態(包括合作性和欺騙性)以及跨多個時空尺度和領域的相互作用的可能性,這使人工智能學習決策如何與未來狀態價值相聯系的能力受到影響。

圖1 ARL在更廣泛的人工智能研究戰略中的Battlespace平臺

解決這一差距需要持續的基礎研究工作,實驗的重點是為決策中的具體問題發現原則和開發新的算法,并有能力將這些原則和算法與MDO的兵棋推演聯系起來。例如,在具有不完善的知識和不確定性的復雜情況下,提供接近最佳解決方案的人工智能可能比提供單一的"最佳"解決方案更有幫助。這種解決問題的方式與人工智能的透明度也需要探討。對近乎最優和不確定性等條件進行實驗,并采用新的作戰人員機器界面(WMIs),可以產生新的算法、通用工具和原則,更好地協同人類和人工智能對復雜決策的探索。

1.1 軍隊的相關性和問題領域

陸軍戰略科技(S&T)計劃的一部分是為 "超人類"的決策和行動開發能力。對于科技計劃中的"人-系統適應"部分,預期的結果是將人類特有的能力和機器的新興能力結合起來,最大限度地提高速度和選擇,以有效應對2035年及以后的社會技術環境的復雜性、智能化和動態性。預計這些研究工作將為人類引導的機器適應、訓練精通技術的士兵、混合人機思維、以及下一代人類系統集成和系統級分析創造新的能力。由于戰爭正在快速變化,包括不斷的技術變化,實現這樣的能力需要制定一個研究計劃,以推進人工智能、人類與人工智能的合作,專門用于復雜的決策。

作為DEVCOM陸軍研究實驗室未來風險投資(DFV)計劃的一部分,這個項目的目標是開發一個跨學科的計劃,以解決人工智能決策的復雜性和人類-人工智能團隊決策中的差距。這包括開發一個人工智能研究測試平臺--ARL戰斗空間,將復雜的兵棋推演決策抽象為關鍵要素,以便人工智能和人類-人工智能團隊的發展可以專門關注復雜的決策過程本身,同時避免物理現實主義和當今材料和理論的計算和概念限制。這也包括為如何發展人類-人工智能協作決策創造新的概念,了解如何塑造信息流以實現人類-人工智能決策的相互透明,以及在人類和人工智能都難以篩選出不確定性和欺騙的條件下實現相互適應性學習。顯性和隱性的決策框架都需要通過這個抽象的兵棋推演測試平臺來實現,以便人工智能可以在多個推理層次上學習和接受挑戰。還需要一個適當的抽象水平,以使多種類型的研究,包括神經科學、人工智能和決策理論交叉的學術研究,以提高人工智能決策的能力和復雜性,并改善其在軍事方面的轉化。

1.2 長期目標

根據設想,在2035年及以后的陸軍中,指揮與控制(C2)決策將由決策輔助系統來激活,該系統利用分布在多個梯隊的人工智能能力,并以復雜和快速的方式攝取所有領域的數據,這將使沒有輔助的士兵感到不知所措。啟用人工智能的決策輔助工具將能夠對戰斗空間進行前沿模擬和分布式訓練;在MDO的滲透和解除整合階段,能夠對條件、友軍和敵軍戰略以及能力變化的可能影響進行調整和前瞻預測;并能夠對關鍵決策進行事后審查。人工智能將為其決策提供透明度,使真實和抽象的決策空間互動可視化,并根據陸軍理論和未來理論的要求,對士兵的個體化和情境進行優化。相反,人工智能將與士兵共同適應,學習如何在信息不足、沖突或欺騙的情況下做出復雜的決定,并為有效的團隊決策重新塑造、完善和展示信息。有了人工智能Agent作為數據有效轉化和行動化以及利用顯性和隱性知識的合作伙伴,預計分布式C2指揮官將能夠在MDO的許多時空尺度和維度上共同制定和協調行動方案,并且戰術和戰略的跨領域互動將被向前模擬,對環境、人和戰略的動態有更強的彈性。除了增加復雜決策的能力外,預計決策過程本身將通過消除繁瑣的計算和其他延遲而加速,從而使計劃和戰略能夠比實時更快適應不斷變化的戰場和外部(如外交、經濟)因素。

為了實現這一未來,為復雜決策開發新型人工智能的計劃的長期目標是利用多個學科的持續進步。用于推理的"核心人工智能"的發展,在為簡單決策迅速取得進展的同時,需要持續的協同創新,以及來自神經科學和心理學等領域的研究,以便在獎勵難以分配給具體事件或行動的條件下(例如,因為不清楚以何種程度的確定性將獎勵的原因歸于誰、什么、何時、何地或為何),為強化學習開發新型理論。需要機械層面的理論(例如,神經膠質網絡如何支持將不同的事件與獎勵聯系起來)和更高層次的理論(例如,社會規則如何塑造學習)來彌補目前核心人工智能的有限能力和C2決策的需求之間的差距。還需要協同創新和研究,將人工智能的發展與士兵的隱性推理過程相結合,以實現元學習和元推理的決策互動。

1.3 DFV項目的目標

ARL DFV項目是一種機制,旨在促進跨學科基礎和應用研究的新方向,解決研究差距,并為軍隊的任務創造新的能力。DEVCOM ARL研究員認為分析科學是一個需要能力的領域,具有高回報的潛力,需要對現有項目進行重新規劃和擴展,并需要新的項目來建立新的核心能力和建立內部的專業知識。

為了創造這些能力,這個DFV項目的主要目標是建立一個新的研究項目,為C2決策輔助工具的復雜推理開發新型人工智能。這包括開發一個人工智能測試平臺:ARL Battlespace,以便靈活地開發專門用于MDO C2決策的復雜推理的新型人工智能。現有的兵棋推演人工智能測試平臺往往局限于較簡單的決策,更注重于戰術性的地面行動。例如,正在進行的人工智能測試平臺開發工作,如ARL Simple Yeho人工智能測試平臺,側重于環境的真實性,有多個地圖層,包括道路、樹葉和海拔高度,向排長推薦決策,如路線規劃和士兵重新分配任務。由于對當地地形環境的關注,在該環境中開發的人工智能推理將集中在精細的社會和生態動態上,對協作和敵對決策動態進行深入訓練的機會比較稀少。這些稀少和復雜的問題("微小的、骯臟的、動態的和欺騙性的數據")迷惑了發展人工智能的經典方法,尤其是復雜推理。相反,這個DFV項目的ARL戰斗空間人工智能測試平臺抽象了當地地形的元素,將人工智能的學習和推理更具體地集中在復雜的MDO相關的C2深度推理上(多個決策步驟,包括更頻繁的合作和欺騙的機會)。這使得在C2兵棋推演的背景下,更有針對性地發展人工智能對復雜的多Agent(人、人工智能和人+人工智能團隊)的決策能力。

第二個目標是通過開發一個有效的WMI來研究和開發如何呈現人工智能的理解和預測以及如何利用人類的理解和預測,為復雜決策的有效人類-人工智能團隊合作創造條件。這項工作包括利用和開發高性能計算(HPC)資源進行計算支持,同時開發用于決策的商業二維交互和混合現實交互的定制軟件(例如,基于增強現實沙盤[ARES]平臺的戰斗空間可視化和互動(BVI)平臺)。通過開發多種WMI方法,我們期望這些平臺能夠實現復雜決策的快速原型研究,并能夠將我們的新型AI與更成熟的兵棋推演訓練和模擬框架與團隊進行整合。

我們預計,在新型人工智能開發、HPC計算支持和用于決策空間現實表現的WMI開發方面的這些努力將為人類-人工智能團隊的發展創造一個新的范例,為未來多個陸軍理論(MDMP、DOTMLPF、27 METT-TC28)的進步和現代化鋪平道路(圖2)。

圖2 在更廣泛的人類-Agent團隊決策研究戰略中的新型人工智能開發

這個項目開發了兩個研究框架 。首先,它開發了一個人工智能測試平臺,被稱為ARL戰斗空間,用于創建和調查人工智能的復雜協作和敵對決策。其次,它認識到目前軍事決策過程中的局限性,構思了一個用于人與人工智能協作的復雜決策的WMI,利用軍隊和商業開發的戰斗空間可視化平臺,與非傳統的HPC資源進行潛在的連接,實現人工智能增強的兵棋推演平臺。

2. ARL戰斗空間人工智能測試平臺

這里,我們描述了我們開發ARL Battlespace的方法,這是一個開源的靈活的兵棋推演平臺,將促進開發基于強化學習算法的新決策輔助工具。特別是,我們關注的是有三個或更多合作和敵對玩家的博弈論的理論和算法能力的差距。雖然博弈論的概念,如囚徒困境和Brinksmanship("吃雞"),對于兩個玩家已經發展得很好,但它們還沒有擴展到三個或更多的玩家,由于鞍點和局部最小值的存在,決策環境可能很復雜,這可能混淆了強化學習的作用。在戰爭中可能出現的情況下,理解和預測三個或更多的合作和敵對玩家的納什均衡,需要一個靈活的兵棋推演平臺,允許跨學科地探索這種決策空間。該兵棋推演平臺還需要能夠開發、理解和發現玩家和人工智能之間的新型互動和協同作用,使人類能夠利用人工智能快速找到最佳和接近最佳的解決方案。這些解決方案將使人工智能能夠從人類的決策模式中學習,以及如何優化其對決策空間的搜索。

2.1 框架

為了實現這些解決方案,我們開發了一個類似于國際象棋的棋盤游戲,由兩支隊伍組成,一支紅色部隊和一支藍色部隊,每支隊伍可以有多個聯盟(玩家)。游戲是在一個共同的戰斗空間上進行的,這個戰斗空間目前被設計為MDO每個領域的一套棋盤。圖3顯示了一組游戲棋盤的例子,我們考慮了一個"空中"和一個"陸地"棋盤。每個棋盤都被劃分為一組單元格,"空中"棋盤被放在"陸地"棋盤上,形成一個共同的戰斗空間。在這個例子中,我們選擇了創建方形網格,并且只考慮兩個領域。然而,在一般情況下,棋盤格可以采取任何形狀,并且可以任意縮小,而棋盤的數量可以靈活處理MDO中的每一個域。例如,"空中"盤可以由多個代表不同海拔高度的板組成。這種提法提供了一個通用的應用編程接口(API),允許在兵棋推演中取得基本的研究進展,因為它可以被定制以適應任何兵棋推演的場景。

圖3 用于復雜決策的ARL戰斗空間AI測試平臺

每個聯盟都被假定有一組部件,我們稱之為單位。目前,我們假設有四個地面單位和一個空中單位。地面單位由士兵、坦克、卡車和旗幟組成,而空中單位是飛機。每個地面單位目前都有相同的能力(即,相同的行動和視圖集)。然而,API的設計是為了使聯盟的每個單位都有定制的能力,從而使設計特定場景變得容易。

目前各單位的規則和行動如下。士兵、坦克和卡車都有一個目標,描述他們的導向。他們的行動包括 "什么都不做(doNothing)"、"轉向(turnH)"、"前進1(advance1)"、"射擊(shoot)"和"沖撞(ram)"。"doNothing"意味著該單位停留在他們的位置,不改變他們的狀態。"turnH"將單位的方向旋轉H度,其中H∈{-135,-90,- 45,45,90,135,180}。"advance1 "使其方向上向前移動一個單元。"shoot"向單位的方向射出一個彈丸,彈丸繼續向前推進一個單元,直到它與另一個單位相撞或在游戲盤外飛行。最后,"ram"行動使單位在其方向上向前推進一格,同時進行攻擊。與 "advance1"行動相比,"ram"行動總是有利的,因為攻擊可以消滅敵方單位。

飛機單位的規則和行動與士兵、坦克和卡車相似。這些行動是"什么都不做(doNothing)"、"轉向(turnH)"、"前進X、Y(advanceX,Y)"、"射擊(shoot)"和 "轟炸(ram)"。“doNothing”、“turnH”和“shoot”的動作與地面單位相同。行動“advanceX,Y”允許該單位沿東西軸線移動X單元,沿南北軸線移動Y單元。飛機也可以 "上升(ascend)"和 "下降(descend)"來起飛和降落。最后,"炸彈(bomb)"行動在飛機的正下方射出一個彈丸到陸地游戲盤上。旗幟單位無法移動,如果被俘,則被清除。

目前游戲玩法的實施很簡單。最初,每個聯盟(玩家)將其單位放在游戲盤的各自區域。當每隊有多個聯盟時,各隊的游戲板部分被平均分配給各聯盟。請注意,每個單位的位置對所有其他聯盟都是未知的。然后,每個單位觀察其可見范圍內是否有其他單位,提供一個戰爭迷霧的場景。我們將每個單位的觀察范圍定義為從該單位的當前位置開始的一個方塊;然而,可視范圍可以根據場景和單位的情況進行定制。一旦每個單位觀察到了,同一團隊的聯盟就會合作確定他們想為每個單位采取的行動集。這允許每個聯盟觀察其隊友的單位位置,并進行溝通以協調他們的計劃。接下來,每個聯盟為每個單位選擇一個行動。請注意,所選擇的行動只有屬于同一團隊的聯盟才知道。在選擇了行動后,游戲決議被應用,根據他們選擇的行動移動單位,并解決是否有任何單位被攻擊或與另一個單位相撞。如果一個單位被攻擊或與另一個單位相撞,它將被從棋盤上移走。這個過程不斷重復,直到游戲結束。

完成游戲取決于游戲的基本規則,這些規則可以根據具體場景進行定制。在這里,我們研究了兩種類型的游戲:(1)奪旗和(2)殲滅。奪旗游戲的目標是操縱地面部隊進入敵方領土以奪取對方的旗幟,旗幟的位置是未知的,必須通過探索才能發現。一旦所有的敵方旗幟被占領,游戲就會終止。殲滅戰的目標是發現并攻擊所有敵人的地面單位。在這里,一旦發現并消滅了所有敵人的地面單位,游戲就終止了。每種游戲的基本規則都是相同的,但實現每個目標的最佳策略是不同的。在這兩種類型的游戲中,由于敵方單位和旗幟的能見度有限,存在著高度的不確定性。

2.2 分層貝葉斯模型的試點實驗

接下來,我們報告了我們在開發基于模仿學習思想的人工智能Agent方面的初步結果,模仿學習使用的是由人類演示構建的分層貝葉斯模型。我們從討論數據收集過程開始,對數據進行分析,最后用啟發式方法使一個簡單的人工智能Agent勝過一個隨機Agent。

2.2.1 實驗設計

為了學習人類的策略,我們讓五個人類受試者組合在一起,針對第2.1節中討論的兩類游戲(即奪旗和殲滅),與兩個隨機Agent進行ARL戰斗空間游戲。在每個回合中,每個隨機Agent根據一個固定的分類分布為每個單位??選擇一個行動,其中采取一個行動的概率 取決于單位??可以采取的行動數。回顧一下,每個單位的行動在第2.1節中有描述。

每個游戲由一對人類受試者對兩個隨機Agent組成,在每個游戲開始時,人類受試者合作討論他們對該游戲類型的整體策略。這導致了20場游戲的收集,其中奪旗和殲滅戰各10場。一旦所有的游戲都進行了,就對游戲數據進行分析以確定人類的策略。

2.2.2 游戲數據結果和分析

分析游戲數據的第一個方法是研究人類玩家的行動頻率。行動頻率被定義為 ,其中D代表奪旗或殲滅的游戲數據。 是指在所有游戲中,單位??采取的行動次數,而??(??)是所有游戲中的總回合數。

圖4顯示了地面單位(即士兵、坦克和卡車)的行動頻率,圖5顯示了空中單位(即飛機)的行動概率。游戲的總體目標決定了所選擇的行動,使我們能夠確定所玩游戲的類型。如圖4所示,奪旗游戲的地面單位更有可能選擇前進和攻擊的方式,用 "沖撞"的動作來尋找旗子。此外,"什么也不做"的行動也被更頻繁地選擇。這是因為一旦團隊找到旗子,離旗子最近的單位就會采取行動去搶奪旗子,而其余單位則什么都不做。對于空中單位,人類受試者更傾向于選擇 "advance0,-2 "的行動,即把單位推進到敵人的領土上尋找國旗。

圖4 從人類游戲中產生的所有地面單位,以游戲類型為條件的行動概率

圖5 從人類游戲中產生的空中單位,以游戲類型為條件的行動概率

在 "殲滅"游戲中,人類Agent更傾向于選擇攻擊行動來消滅敵人的目標(即對地面單位采取 "射擊",對空中單位采取 "射擊"和 "轟炸")。為了進一步驗證這一策略,圖6顯示了每回合平均射彈數量的累積總和。顯然,"殲滅"游戲的射彈數量比"奪旗"游戲要多。

圖6 每一回合中射彈總數的平均累積總和

兩種游戲的另一個區別是,奪旗游戲的總回合數要比殲滅游戲少得多。這是因為人類Agent找到旗子的速度比他們找到敵方單位并消滅它們的速度要快。

基于對人類Agent如何與隨機Agent玩游戲的簡單理解,我們可以按照類似的方法來學習策略,為簡單的人工智能Agent開發啟發式方法。

2.2.3 從人類演示中學習的簡單人工智能Agent的性能

一個簡單的人工智能Agent的算法如下。最初,Agent隨機地將他們的單位放置在棋盤的指定區域。然后,每個Agent確定每個單位的狀態。考慮到狀態和游戲的目標,Agent從預定的概率分布中為每個單位抽取一個行動。

這個過程在每個回合中都會重復,直到游戲結束。預定的概率分布遵循一個分層貝葉斯模型。為了便于表述,我們在附錄中提供了相關理論。對于最簡單的情況,我們認為單位在每個回合中可能處于兩種狀態,。然后,概率分布根據附錄中的公式A-1定義,與圖4和圖5中的行動頻率類似。然后我們將這個分布實現在兩個簡單的人工智能Agent中,并與兩個隨機Agent進行比賽。作為一個基線性能,我們與兩個隨機Agent進行了比較。在這兩種情況下,都進行了1000場比賽,并計算了獲勝百分比。通過使用雙狀態概率分布,簡單的人工智能Agent能夠在奪旗游戲中贏得84.5%的時間,在殲滅游戲中贏得76.9%的時間。

接下來,我們為每個單位i考慮了一個更大的九態狀態空間,定義為,其中??r0和??r1分別表示一個友好單位是否被i單位觀察。??0和??1分別表示i單位是否觀察到敵方單位;以及??l0和??l1分別為團隊是否看到敵方旗幟。同樣,概率分布然后根據附錄中的公式A-1定義,并落實到兩個簡單的人工智能Agent。在奪旗游戲中,簡單人工智能Agent對兩個隨機Agent的獲勝比例為89.4%,在殲滅游戲中為82.3%。

結果摘要見圖7。有趣的是,在兩種形式的概率分布(即雙狀態分布和九狀態分布)中,奪旗策略都優于殲滅策略。這是因為 "消滅 "游戲中的Agent更有可能選擇 "射擊 "行動,由于隨機的初始位置,這將導致更多的友好射擊。因此,作為一個簡單的人工智能Agent,采取先攻后守的方法更有利。此外,當我們考慮到單位的額外狀態時,獲勝的百分比會增加。未來工作的一個可能方向是開發深度強化學習策略,以學習最大化獲勝比例所需的狀態定義和數量,即使是面對人類Agent,也要為MDO中的C2提供建議。

圖7 簡單AI Agent的獲勝比例

3. 復雜決策的實例場景

ARL戰斗空間測試平臺的關鍵優勢在于其靈活性和適應MDO任務規劃的變化需求。它的抽象性使關鍵的決策過程及其互動和動態被壓縮到一個較小的游戲盤中,并有更多可量化的人與人工智能的互動,用于開發人與人工智能的團隊合作。這使得人工智能的開發能夠集中于復雜決策的獎勵塑造,同時減少由于滋擾因素(如時空縮放)造成的學習障礙,這些因素使決策在時間和空間上變得稀疏,因此,更多的努力(人工智能以及人工智能開發者的部分)可以被用于在各種時空尺度的不確定性和欺騙下的學習。它還將兵棋推演互動中可能不容易被整合到人與人工智能團隊中的特質(例如,人類心理學的某些方面,如個人關系)放在一邊,以利于在人工智能推理發展方面取得更切實的進展。在下面一節中,我們介紹了幾個挑戰和發展人工智能進行復雜推理的例子。這些例子包括博弈論、元推理和網絡欺騙,涉及到現有人工智能算法尚未處理或解決的各種復雜決策。由于人工智能的C2決策輔助工具將有望超過人類水平的決策,不僅在速度上,而且在復雜性上,我們設想這樣的C2決策輔助工具需要能夠解決大多數(如果不是所有)的情景。

3.1 突破情景和重新想象博弈論

我們首先關注博弈論和兵棋推演之間的差距,在一個簡單的突破場景中,這是兵棋推演中經常遇到的一個經典問題(例如,在橋梁交叉口、地雷區和山口[圖8])。在經典的博弈論概念Brinksmanship("吃雞")中,友好的藍色和綠色坦克被激勵著越過缺口到達另一邊。通常情況下,這些坦克會協調他們的行動,但如果藍、綠坦克之間的通信被破壞,一個單位(如藍坦克)的行動可能會因為與另一個單位(綠坦克)的碰撞或友好射擊而導致低回報。如果還包括囚徒困境的元素,那么這個場景就迅速超越了經典的博弈論,因為可能需要綠色和藍色坦克一起穿越,共同攻擊更強大的紅色坦克,這需要仔細協調。額外單位的存在(例如,綠色飛機對敵對單位提供觀察、轟炸或干擾,如黃色士兵提供可能的增援)能夠進一步操縱動態和環境對決策的限制或機會。飛機也可能發現第二個缺口,或者 "墻"可以滲透,以創造缺口(例如,清除地雷或建立額外的橋梁交叉點)。

在粗略尺度(如10×10板)和背景下學到的行為可以通過獎勵塑造逐步推廣到更細的尺度和其他背景下。額外的地圖層也可以被添加到諸如快速地下運輸等領域,以繞過地面層中的墻壁。環境因素,如天氣,也可以包括在內,以改變機動性。因此,即使是一個看似簡單的場景,也可以提供豐富的機會來操縱影響決策動態和結果的因素,并探索不同類型的不確定性之間的相互作用如何改變決策景觀,以創建鞍點和局部最小值,從而混淆強化學習的作用。在戰爭中可能出現的情況下,理解和預測三個或更多的合作和敵對玩家的納什均衡,需要一個靈活的兵棋推演平臺,允許跨學科地探索這種決策空間。兵棋推演平臺還需要能夠開發、理解和發現玩家和人工智能之間的新型互動和協同作用,使人類能夠利用人工智能快速找到最佳和接近最佳的解決方案。這些解決方案將使人工智能能夠從人類的決策模式中學習,以及如何優化其對決策空間的搜索。

圖8 帶有豐富博弈論條件的場景

3.2 元推理場景、任務背景和戰略

在ARL戰斗空間游戲中,每個玩家都有一面彩色的旗幟,游戲可以通過殲滅所有對方的地面單位或奪取對方的所有旗幟來獲得勝利(現實生活中的一個等價物是奪取所有關鍵的橋梁或指揮中心)。根據游戲的狀態,指揮官可以決定改變整體策略(殲滅戰與奪旗戰),以更快地取得勝利。例如,如果一輛坦克已經接近一面旗幟,那么將剩余的單位轉到其他地方尋找剩余的旗幟可能是有利的(圖9)。相反,如果一支敵對部隊守衛著第一面旗幟,那么優先奪取這面旗幟可能會更好,這樣搜索第二面旗幟的效率會更高。這種未闡明的推理,或稱 "默契推理",往往在自然的人類決策中根深蒂固,這是一種需要開發的人工智能能力,以便人工智能能夠有效地參與人類-人工智能團隊的決策,使人工智能的發展能夠開始有工具來獲得人類決策的創造性。

圖9 帶有隱性推理和任務重新分配的元推理標志方案

對于人工智能的發展,這就需要一個額外的更高級別的推理Agent不斷地監測游戲的狀態,以做出切換策略的選擇,并將此傳達給控制各個單位的Agent。元推理包括監測推理所涉及的步驟,以及平衡影響活動結果的標準。此外,元推理結合了不同信息的不確定性,以產生更有意義的、符合背景的決策建議。納入元推理可以使約束條件和各種決策方法得到權衡,為行動方案提供不同的選擇。例如,基于元推理的替代選擇可以決定是否優先考慮探索與攻擊已知敵方單位與防御,部署哪種機動戰略,或者考慮到敵方部隊的可觀察位置如何重新分配任務。由于ARL戰斗空間環境的網格大小較小,游戲可以快速進行,導致經常有機會使用元推理,并使人工智能有機會學習結合和預測多種類型的元推理方法的相互作用。由于抽象環境增加了人工智能學習戰略如何交互的頻率,這將使人工智能學習更高級的戰略,例如需要平衡不同戰略、能力和任務要求之間的交互,保持選擇的自由,并產生戰略模糊性以迷惑對手。總的來說,這種方法的好處是通過增加控制和監測機制來改善決策,這些機制包括一個平衡行動和環境約束的元推理Agent。

3.3 簡單的欺騙和人工智能的心智理論

對抗性決策的一個關鍵方面,特別是在戰爭中,就是欺騙。欺騙可以發生在多個層面,包括戰略、可觀察的信息、單位能力和位置。在ARL戰斗空間中,單位的可觀察性有限,這自然為欺騙創造了機會,而飛機在敵方空間深處的探索能力也為揭開單位位置的欺騙提供了機會。圖10展示了一個簡單的欺騙場景的例子,在這個場景中,友軍的藍色和綠色部隊試圖穿越到另一邊。左下方的友軍士兵開始通過左邊的缺口發射導彈,因為他們的Agent推斷(通過對方Agent的人工智能心智理論),看到導彈后,敵方Agent會推斷出友軍正準備通過該缺口進行攻擊。這種欺騙,通過將敵方Agent的注意力和計劃集中到左邊的缺口,使他們偏離右邊的缺口,為藍綠坦克從右邊進入創造機會。通過設計有兩個缺口的情景,該情景建立在經典心理學的兩個替代性強迫選擇任務的基礎上,能夠應用敏感的心理學工具進行決策分析,并開發動物模型,從神經生理學和行為學上剖析支配欺騙的情境依賴性學習和決策的基本細胞和分子機制。例如,人們可以引入一些因素,使友好或敵對的決策出現偏差(例如,通過操縱傳感器的噪音或操縱總部的命令),或應用光遺傳學和化學遺傳學工具等方法,了解他人的認知、信念或策略的神經表征(例如,在前扣帶回和眶額皮層中)對決策計算的貢獻(在前額皮層中)。這種調查還可以發現決定一意孤行、啟發式方法和隱性偏見與對其他假設的開放性的因素,這可以幫助確定在特定條件下如何最好地重新分配任務(例如,當一個人對等級指揮結構有偏見時,他可能不太愿意追求與總部的命令相矛盾的傳感器信息)。這種固有的偏見、啟發式方法和默契的推理是人類推理的自然組成部分,在我們與他人的互動中會被預期到;人工智能的心智理論包括這種偏見補償,對優化人類+人工智能的團隊合作可能是有益的。

圖 10 需要人工智能心智理論的簡單欺騙場景

3.4 網絡欺騙、多領域整合和可信度

在人類的決策中,來自不同領域的信息可以結合起來,產生意想不到的效果。心理上的McGurk效應是指口型"ga"和聽覺上的音節"ba"在時間上有很強的同步性,從而產生幻覺"da"。雖然多感官整合似乎沒有在C2決策中得到探索,但MDO中多個領域的匯合,特別是其在穿透和分解整合階段的高容量和高速度,可能會產生意想不到的非線性跨領域的相互作用(這可能有助于"戰爭迷霧")。圖11說明了一個例子,在這個例子中,實際跡象(導彈)和坦克誘餌(由中間人[MITM]網絡攻擊產生)的組合可以協同作用,迫使敵方單位向左側缺口移動。為網絡欺騙創造趨同的跡象線是一種普遍的策略,然而特定的欺騙模式可能比其他模式更有效。例如,人們認為大腦會將相似或相關的跡象分組,以進行有效的處理(如格式塔分組),這樣就可以克服信息瓶頸(如處理七個以上的名義項目,從而減少單個項目的影響)。如果進行每一次網絡攻擊都會產生一定的成本或風險,那么了解如何將這些成本分配到不同的線索特征中,以便以最小的風險提供最有效的影響可能是有益的(例如,如果MITM攻擊產生導彈誘餌,那么它的效果可能會降低,甚至是反作用)。了解不同的線索組合如何被不同的士兵所感知,也可能是有意義的。具有不同偏見或處于不同角色或梯隊的指揮官可能對相同的跡象組合有不同的感知、解釋或行動(例如,一個誘餌的有效性可能取決于它與目標指揮官的距離以及與他的決策過程的相關性)。更高級的策略可能包括主動防御(例如,通過 "蜜罐 "策略[圖12]),以提高網絡欺騙的有效性。為了給MDO提供超人的能力,人工智能決策輔助工具可能需要根據即時可用的跡象在多個領域協助生成可信的誘餌,以網絡的速度迅速調整這些展示,并保持虛擬和現實世界之間的一致性,以保持幻覺的有效性。

圖11 帶有中間人攻擊的網絡場景

圖12 帶有蜜罐的網絡場景

4. 人與人工智能編隊協作的復雜決策

上一節所述的ARL戰斗空間人工智能測試平臺通過將戰斗空間地形抽象為一個沒有現實表現的網格狀環境,提供了人工智能開發和測試所需的靈活性。例如,圖8顯示了一個類似于墻的障礙物,它被表示為幾個網格塊,與單位互動時應用的環境約束條件有關。人類團隊和AI都在共同的雙級網格化戰斗空間內進行游戲。人類玩家通過在控制臺窗口中輸入基于文本的編碼命令與ARL戰斗空間互動。這種命令行的交互和顯示加速了人工智能算法的開發過程,并為人工智能兵棋推演所需的大規模實時計算建立了與計算資源的潛在聯系。為人工智能兵棋推演測試平臺(如ARL Battlespace)構思一個用戶界面,并建立通往外部計算服務的管道,構成了DFV第二個目標的基本組成部分--開發一個用于復雜決策的WMI。

一個跨梯隊和作戰級別的軍事決策過程模型構成了為人類和人工智能兵棋推演開發一個有效的WMI的基礎。在傳統的兵棋推演中,指揮官利用一個共同的基于地圖的作戰地形,并模擬MDMP中各種因素的組合如何產生行動方案(COAs)、可能的反擊行動、資源使用估計和預測結果。在幾天或幾周內,MDMP過程形成一套精煉的COAs,對作戰環境做出某些假設,包括地形、天氣和設置戰場的單位的可用性和能力(即為支持主要作戰行動而塑造活動)。

盡管MDMP幫助指揮人員了解作戰環境和考慮作戰方法,但這個過程有許多局限性,如時間密集性、假設的僵硬性、跨場景變化的訓練機會有限,以及很少有機會將人工智能指導納入決策過程。傳統上,一項任務的成功與指揮部執行MDMP的能力直接相關。然而,鑒于MDO的復雜性增加,有大量的任務指揮系統和流程,與行動相關的所有活動的整合和同步變得越來越困難,甚至到了人力無法完成的地步。缺少MDMP所導致的規劃專業知識的缺乏會導致行動的不同步和不協調,并最終導致士兵的生命損失。

MDMP中沒有具體描述戰斗空間的可視化能力,但它顯然在決策過程中發揮著重要作用。最近,整合了先進可視化能力的新系統和技術已經被開發出來,這些系統和技術可以提高對局勢的認識,從而加強決策過程。陸軍的例子包括Nett Warrior,它使下馬的戰士能夠直觀地看到附近的友軍和敵軍,同時根據當地的地形協作規劃戰術任務。盡管這項技術將無線電和數字地圖擴展到了下馬戰士,但它缺乏一個提供決策幫助的基礎人工智能引擎。BVI是陸軍技術的另一個例子,它能夠為任務規劃提供分布式協作,具有從任意視角和廣泛選擇的設備對共同作戰圖進行2D和3D可視化的能力。BVI架構可以被制定,以拉入外部計算服務,如分析管道、模型和AI引擎。

目前,MDMP并沒有將人工智能指導納入整體任務規劃方法中。陸軍的APF開始通過將自主技術插入MDMP工作流程來解決人工智能輔助決策的問題。指揮人員可以通過APF的數字規劃顯示、規劃創建者和規劃監控工具,在任務規劃和COA開發過程中獲得背景援助。任務執行和估計能力通過監測任務的規劃和實際進展,為改進決策跟蹤和支持活動提供自動協助。盡管APF在MDMP中引入了基本的自動化水平,但它缺乏Nett Warrior和BVI所提供的高級可視化和用戶交互能力。

除了MDMP之外,最近將人工智能納入決策過程的努力包括了一些方法,在模擬人類決策過程方面取得了一些成功。一般來說,對于決策變量有限的問題,如資源分配、飛行模擬器和較簡單的場景,人工智能取得了一些成功。目前面臨的挑戰包括:需要提高人工智能的能力,以解決有多個行動者、不完整和可能相互沖突或欺騙的信息、不斷變化的單位行動和環境屬性的復雜決策,以及需要將這些決策的后果在許多空間和時間尺度上可視化。

4.1 未來MDMP需要的進步

MDMP在支持MDO復雜決策方面的局限性,突出表明需要在三個方面進行改進。首先,有必要將人工智能生成的指導和輔助決策支持納入MDMP。這包括進一步發展和整合人工智能到戰斗空間決策規劃,以及進一步改善人工智能決策過程的可解釋性和透明度。第二,有必要在可能的情況下,將決策分析與戰略層面以及戰術邊緣的HPC的力量結合起來。這將能夠利用HPC系統的力量來改善建模、分析和計算時間,同時整合和同步來自所有戰區領域的信息。最后,有必要利用先進的可視化技術,如混合現實技術,對決策空間進行更準確和互動的展現。不是簡單地在一個固定的時間尺度上顯示地形的二維渲染,而是需要可視化不同領域的決策是如何互動的,并利用混合現實技術來提高理解的吞吐量和深度,并實現平面顯示不可能的洞察力。

MDMP是陸軍設計方法的核心,用于應用批判性和創造性思維來理解、可視化和描述問題以及解決這些問題的方法。作為解決問題的行之有效的分析過程,必須克服前面描述的MDMP的局限性,以便快速制定一個靈活的、戰術上合理的、完全整合的、同步的規劃,以最小的傷亡增加任務成功的可能性。下面的小節描述了對MDMP的潛在改進,以支持人類與人工智能的合作決策。

4.1.1 人工智能引導的決策指導

需要新的人工智能支持的WMI,以利用人工智能決策的持續進步,并為復雜的適應性決策的人工智能學習做出貢獻。通過匯集所有領域的信息,計算人類和人工智能Agent的風險和預期回報,人工智能決策輔助工具的發展將提供能力越來越強的COA建議。現有的人工智能有幾個局限性,特別是對于有不確定性的復雜和適應性決策,以及人類和人工智能Agent的協作和對抗。對多Agent的協作和對抗性決策進行建模可能特別復雜,因為它的遞歸性質,其他Agent是模型的一部分,需要對決策特征、個性化的價值、風險規避、記憶和注意力進行動態和不斷發展的估計。這些具有高度不確定性、復雜性和動態性的情況是人類擅長的領域,適當設計的人機協作交互可以提供加速和更有效的決策。為了實現有效的團隊合作,新穎的WMI應該幫助作戰人員篩選復雜的信息,幫助人工智能發現決策的隱含規則。在此,我們提供了關于人機協作如何有效的案例。

多域兵棋推演中需要的復雜決策是開發有效的人工智能決策輔助工具的直接挑戰。最近人工智能在圍棋和國際象棋等游戲中的成功是基于對世界現有狀態的完全了解(即 "開放"游戲),而兵棋推演通常包括關于作戰環境的不完整(如星際爭霸)、不確定和/或欺騙性的信息。由于世界狀態、不同行動者的狀態以及所采取的行動影響的不確定性,知識的缺乏使得人工智能Agent難以計算未來行動的風險回報情況。不確定性也限制了人工智能估計其他行為者的風險回報概況的能力,而這是計算有效博弈論策略所需要的。人工智能被可能的最優和近似最優選擇的廣度所淹沒(即由于信息有限而選擇錯誤)的情況并不少見,因為人類在制定有效探索隱藏信息的策略時,會采用啟發式方法來進行有效的選擇和預測。為了幫助發展人工智能的隱性知識和探索能力,新型的WMI需要有效地解釋和展示決策圖,以使作戰人員能夠快速和自然地瀏覽可能的選擇,同時使人工智能能夠適時地從人類的決策中學習,而不施加認知負荷。

開發人工智能的WMI的另一個基本挑戰是如何有效地整合和顯示MDO中所有五個領域的信息,特別是空間和網絡,因為這些領域的信息具有不同的時空尺度。對于網絡,決策的規模和速度可能比人類處理和理解的能力更快,需要人類的輸入來指導半自動的決策,以及一個實施進攻和防御欺騙策略的人工智能。WMI需要能夠以這樣的方式顯示決策圖,即一小部分最優和接近最優的決策策略清單是可以解釋的(例如,通過決策樹)。這應該包括對關鍵Agent在不確定情況下的未來狀態和風險回報情況的估計,以使有效的博弈論決策能夠被共同開發和相互理解。

這些挑戰為有效的WMIs的可能設計提供了參考。也就是說,我們需要有能力從不同的來源(包括從其他國家的決策輔助工具)攝取信息,以及一個能夠承載整合這些信息的計算能力架構,同時還要處理基礎的人工智能計算(包括學習和部署)。我們還需要共同開發一個交互和算法設計,以適時地利用人類和人工智能Agent的優勢并減少其局限性。

4.1.2 高計算能力下的決策過程

在MDO兵棋推演的復雜決策過程中,需要大量的計算能力來處理和記錄所有組件、實體和狀態空間。從動態狀態空間的累積數據集中建立過去、現在和預測模型,需要利用HPC資源來產生分析見解,并創建在復雜決策背景下有用的表示。

實施HPC分析工作流程的一種方法是使用持久性服務框架(PSF)。PSF是一個最近可用的分布式虛擬化解決方案,它可以通過一個基于網絡的前端實現對高性能計算服務的非傳統訪問,而不像傳統的HPC環境那樣,計算節點在特定時期內以批處理模式分配給用戶。此外,PSF可以提供對數據、數據庫、容器化工具集和其他托管平臺的分布式持續訪問。

在一個PSF方法的例子中,一個模擬引擎連接到PSF,用于記錄人類和人工智能做出的所有決策。這允許分析在任務規劃和COA開發過程中發生的決策行為,以及識別決策模式和戰略,以開發競爭和現實的兵棋推演場景。一個戰斗空間可視化平臺可以托管在PSF上,并使用信息傳遞協議來更新所有連接的設備接口。來自模擬引擎的狀態信息可用于生成戰斗空間和參與作戰單位的圖形表示。

使用PSF方法并利用HPC資源,可以實現利用大數據攝取和分析的人工智能輔助決策機制,同時可供地理分布的用戶用于協作決策工作。連接到PSF托管服務器的各種混合現實顯示模式可以支持從戰略層面的C2到作戰邊緣的更多移動戰術使用等一系列作戰場景。

4.1.3 決策空間的逼真呈現

用圖形表示各級行動的軍事決策戰略需要新的可視化方法,這些方法可以應用于以規則變化、認知狀態、不確定性以及個人偏見和啟發式方法為特征的動態環境。

戰斗空間的視覺表現應該在技術上盡可能準確和逼真,但又保持在人類可以理解和解釋的認知水平。融合了混合現實技術的先進可視化方法有可能更好地表現多領域戰爭的變化特征及其不斷變化的威脅和動態環境。隨著最近混合現實可視化設備的技術進步,成本降低,硬件的可靠性和實用性顯著提高,混合二維和三維可視化方法現在已經成為可能。

由多個二維顯示器組成的混合現實方法增強了更先進的三維可視化能力,可以為指揮人員提供了解復雜的戰爭游戲狀態空間所需的洞察力。例如,BVI平臺可以使用多種可視化模式的組合,真實地呈現地理空間的地形。作為一個數據服務器,BVI向支持多種可視化模式的客戶端應用程序分發地形、作戰和Agent行為數據,包括頭戴式顯示器設備、基于網絡的界面、移動安卓平板設備和混合現實設備(例如,HoloLens 2、Oculus Quest)。

圖13(頂部)顯示了位于加利福尼亞州圣貝納迪諾縣歐文堡國家訓練中心的高分辨率地形上的友軍與敵軍的兵棋推演場景。與MDMP期間經常使用的傳統2D地圖顯示相比,戰斗空間的3D視圖可以從多個觀察角度提供更豐富的用戶體驗。三維視圖,在BVI的網絡戰術計劃器(WTP)中,將地形和人工特征的空間信息以及由MIL-STD 2525C符號描繪的單位位置可視化。

可以想象,地理空間視角,如BVI提供的視角,支持決策者對動態戰斗空間環境的理解。與可導航的人工智能增強的決策空間(圖13,底部)搭配,組合的視角可以使人們更好地理解視覺空間依賴性、影響和因果關系、估計的風險和價值、不確定性以及復雜決策的欺騙性。將這種以地理空間和決策為中心的視角與人工智能相結合,可以提供必要的廣度,以協調物理行動與網絡和其他非空間領域的行動,跨越多個時間尺度,并具有快速適應變化的任務目標的靈活性

圖13 BVI網絡戰術規劃器中的兵棋推演場景的三維視圖(上)與人工智能決策樹的概念(下)。

5. 討論

人工智能對人類自然決策行為的機會性學習,以及學習環境的適當結構和順序,使人工智能被訓練過程有效地塑造,是已經建立起來的提高人工智能快速學習困難挑戰能力的框架。要進一步提高人工智能在兵棋推演中的復雜決策能力,需要提高人工智能在具有高度不確定性的MDO背景下處理決策的能力、欺騙性和博弈論,這些都是人工智能發展過程中獎勵分配的挑戰。克服這些挑戰需要利用多學科的進展,從了解大腦的決策、獎勵和計算的神經生物學進展到專業知識、隱性知識、心智理論、博弈論和元推理在復雜決策過程中如何應用的心理學進展。

人工智能如何能夠最好地學習人類的復雜決策仍然是一個開放的問題。盡管對復雜決策進行獎勵塑造的確切機制還沒有被發現,但這個項目已經產生了如何通過一個新的人工智能測試平臺和WMIs來發現這種機制的設想。ARL戰斗空間人工智能測試平臺和場景將人類和人工智能置于與MDO相關的決策環境中,使人工智能能夠學習不同的決策和因素如何相互作用,以及人類如何通過這種復雜的決策樹進行合作和對抗。一個關鍵的進展是,測試平臺和場景提供了一個豐富的環境,通過抽象化那些會使決策要領稀疏化和阻礙學習的因素,有效地開發人工智能心智理論和與MDO相關的元推理,以進行復雜的決策。

另一個進展是開發高性能計算框架,以實現人工智能決策支持的連續分布式訓練。這將使人工智能決策輔助系統能夠托管在ARL的持久性服務框架上,因此,將來士兵可以隨時隨地以人類和人工智能混合團隊的形式,針對人工智能兵棋推演Agent進行單獨或協作訓練。

這個項目的第三個進展是開發了一種可視化人工智能決策過程的方法,以實現人工智能的透明度和信任,以及人類與人工智能團隊的合作決策。人工智能的推理必須既抽象又與兵棋推演環境相關,這樣人類就可以理解人工智能對不同決策結果的評價,并有效地瀏覽人工智能的決策樹,而不會造成過度的認知負擔。我們已經向人工智能增強的WMI邁出了第一步,它基于三維混合現實,利用和增強人類固有的三維認知和預測的能力。隨著進一步的設計,我們設想它的界面將給人以自然的感覺,同時擴大顯示多個領域的信息,并使人工智能能夠適時地從用戶的決策中學習。這種自然的、直觀的人工智能輔助決策系統,是為了支持MDO C2決策而開發的,包括隱性推理,以及協作和對抗推理,對于人類在復雜決策中信任人工智能對COA結果的估計至關重要。

5.1 進一步發展人工智能測試平臺和人工智能Agent的潛力

雖然最近在游戲中對深度強化學習算法的利用顯示出巨大的前景,但這種成功的前提是與一個相對簡單、結構良好的游戲合作。真正的挑戰出現了,因為環境越來越依賴于稀疏的觀察數據、復雜和動態的Agent策略。完全在內部開發平臺與在現有的開放源碼庫上建立平臺相比,有幾個權衡因素--主要是限制因素的最小化和環境開發的純粹工作量。創建一個全新的定制平臺可以完全定制與游戲相關的錯綜復雜的問題,盡管變得非常耗時。相反,在使用現有的庫,如StarCraft2LearningEnvironment(SC2LE)時,會出現各種不可逾越的限制,但投入游戲開發的工作量會減少十倍。我們正在進行的ARL戰斗空間人工智能測試平臺的第二代開發,名為Simple Yeho(圖14),是建立在天平兩端的平衡上的,OpenAI Gym是一個用于開發強化學習算法的工具包,對輸入的Agent和環境結構不做任何假設。顯然必須遵循一個基本的框架,但OpenAI Gym除了提供大量的文件和例子供客戶參考外,還提供了完全的設計自由。從游戲開發的角度來看,并沒有立即需要解決的問題,但它確實需要成為未來一個更優先的事項。

圖14 簡單的Yeho人工智能測試平臺

未來的問題并不局限于游戲環境,因為它們將不可避免地延伸到理論上的強化學習挑戰,如無縫的多Agent通信、任務協調和固定的策略。更多需要關注的實際問題包括算法效率(限制計算密集型任務以及內存分配的心態),一種新穎的去中心化強化學習算法,以及跨多個領域的數據泛化。過度消耗硬件資源是人工智能所有分支中的一個共同瓶頸。從軟件的角度來看,ARL Battlespace AI測試平臺對資源消耗很少,該環境仍然專注于AI發展的研究問題,而不是全面的MDO實施,這就是為什么計算效率還不是一個緊迫的問題。歸納游戲狀態信息的潛在解決方案,特別是在動態環境中,包括時差變異自動編碼器和分布式時差強化學習,因為它們除了在數據點之間提供一個平滑的潛在空間外,還允許對未來的幾個狀態有明確的信念(這在元推理方面起作用)。我們的新型強化學習算法應該解決的其他主要問題是安全/認證、Agent決策透明度和Agent間的實時通信。將區塊鏈整合到DEVCOM ARL框架中,將確保節點之間的安全通信線路,提供一個不可改變的分布式賬本,以揭示Agent的低級決策,并向Agent引入民主投票系統,以促進團體合作,同時仍然保持個人的自私性。

5.2 進一步發展人類-人工智能協作交互的潛力

目前軍事決策過程中的局限性確定了一個多學科的研究方法,用于開發復雜決策的人類和人工智能WMI。作為基礎層的決策空間的現實表示,包括具有地理空間精確性的自然和人工制作的戰斗空間地形。一個先進而直觀的用戶交互允許混合現實視角的戰斗空間,使決策者能夠根據作戰因素探索COA的替代方案。這兩個要求指導了對陸軍和商業開發的戰斗空間交互系統BVI的選擇,作為ARL戰斗空間人工智能測試平臺中實現的人工智能和人類-人工智能團隊發展的潛在過渡媒介。

過渡的第一步是將ARL戰斗空間的網格狀環境疊加到BVI真實世界的作戰地形上,并將現有的BVI多模態用戶交互調整為兵棋推演。圖15顯示了使用BVI的網絡戰術規劃器3D視角在歐文堡地形上疊加的擴展網格的一個部分,其中友軍和敵軍單位位于兵棋推演會話的開始。在瀏覽器窗口中,可以使用戰術規劃工具欄的鼠標、觸控板或觸摸屏互動來放置和操作單位。BVI提供了添加單位的功能;路線點、戰術符號和圖形;以及繪制線條、多邊形和文本框等特征。

圖15 BVI網絡戰術規劃器中帶有網格覆蓋的兵棋推演場景的三維視圖

一個尚未解決的問題是,如何最好地利用BVI的混合現實(XR)可視化功能來進行協作決策(例如,在兵棋推演期間,通過加強決策者對地形的地理空間因素的理解)。加載不同的地形和創建定制的訓練場景可能來自于多維數據,并以各種身臨其境的形式觀看,這超過了陸軍其他系統的可視化能力。根據這些三維地形的廣度和細節,當決策者使用一系列強大的交互方式在大面積的地形上進行操作時,界面如何顯示這些信息可能會造成大量的信息過載或混亂。一個有效的界面需要被設計成不僅要選擇傳達哪些環境和決策空間信息,而且要選擇如何從用戶的有利位置呈現這些信息。

如果不可能有開發時間和精力,BVI的API提供了機會,以標記、標簽和定位在地形之上的場景適應性網格的形式嵌入視覺輔助,作為決策者的空間管理干預措施。例如,圖15中描述的網格的行和列可以被標記或編碼,以快速定位實時事件和人工智能產生的活動。多維網格結構和編碼方案可以將兵棋推演提升到以MDO為特征的復雜水平,同時減輕一些基于地形的空間管理問題。

在空間和時間領域的數據分析中協調戰斗空間的多個視圖,可視化提供了額外的方法,促進兵棋推演期間的復雜決策。當需要一個共享的MDO戰斗空間呈現時,可以通過在不同的可視化模式上實施多個協調視圖來實現協作戰略規劃模式,根據分布式指揮人員的輸入進行互動更新。指揮人員的輸入也可以指導視覺過濾器對協調視圖的應用,從而減少不必要的復雜性,突出場景或任務關鍵的戰斗空間信息。

圖16顯示了SyncVis視覺分析系統,該系統旨在顯示多個協調的數據分析視圖,支持數據探索和理解。SyncVis通過用戶互動將每個視圖中顯示的信息與其他視圖聯系起來,從而產生多種數據可視化。這個例子顯示了SyncVis在四個協調視圖中對COVID分類人群數據分析的二維界面。變量選擇器(選擇六個屬性)、地圖/地形、相互信息圖和每個選定變量的疊加區域圖。

圖16 SyncVis二維界面顯示COVID數據分析的多種協調的可視化效果

SyncVis的可視化功能可以與使用PSF的HPC分析工作流程后端集成。PSF服務器可以向BVI和SyncVis流傳作戰和Agent行為數據,創造一個統一的戰斗空間探索體驗。基于用戶按需輸入和過濾的協調戰斗空間視圖的好處有待研究。

一個靈活的兵棋推演環境似乎是關鍵,因為每個訓練場景、COA和任務計劃都是在MDMP和相關軍事理論的約束下制定的,但又是獨一無二的,并取決于戰斗空間及其操作變量。一個HPC PSF數據分析處理管道為WMI提供動力,士兵或指揮官按需協調戰斗空間的BVI和SyncVis可視化,將徹底改變現有的兵棋推演范式,并觸及MDO固有的復雜程度,以及贏得勝利所需的人類和AI指導的決策水平。

6.結論

我們強調了三個關鍵的發展領域,即人工智能引導的決策指導,支持這種指導的計算基礎設施,以及決策透明度的混合現實表現的發展。這些領域的進步需要跨越許多不同學科的專業知識。新的人工智能發展需要融合神經科學、心理學和數學的思想,以克服復雜決策中長期存在的問題的瓶頸。這包括跨時間尺度的學習和變化環境下的災難性遺忘,以及更具體的兵棋推演問題,如具有不確定性、欺騙和博弈論的多Agent決策。計算基礎設施也需要發展,因為計算能力和數據框架對于在戰術邊緣產生人-人工智能團隊的共同操作圖來說都是必不可少的。為了有效地開發,應該通過一個共同的框架來抽象出專有的限制和軟件的依賴性,并為使用和故障排除提供清晰的文檔,以使學術界、政府和工業界更好地專注于解決人與人工智能的合作問題。這個通用框架應該包括有效的信息傳遞,同時提供靈活性和適應性,以滿足人工智能開發和人類用戶在訓練和實際使用環境中的需求。最后,交互技術的開發本身需要跨學科的協同專業技術。一個基礎性的問題是如何壓縮信息使之被用戶有效地理解,以及如何最好地利用用戶的互動來進行機會主義學習。人類的大腦并不處理所有的感官信息,而是對世界進行預測和假設,以便在信息不完整的環境下節約計算。一個有效的WMI應該同時預測潛在的決策結果以及個人用戶的期望和假設。此外,人工智能決策輔助工具必須估計用戶的默契,使其能夠提供最相關的信息和最有希望的選擇,這些信息來自整個作戰領域。

付費5元查看完整內容

這本書的重點是面向深度不確定性下關于決策的理論和實踐的相關工具和方法。它探討了在深度不確定性下支持戰略計劃設計的方法和工具,以及它們在現實世界中的測試,包括在實踐中使用它們的障礙和促成因素。這本書擴展了傳統的方法和工具,包括與手頭的問題相關的行為和網絡的分析。它還展示了如何利用應用過程中獲得的經驗教訓來改進設計過程中使用的方法和工具。這本書提供了識別和運用適當的方法和工具來設計計劃的指導,以及在現實世界中實施這些計劃的建議。對于決策者和實踐者,這本書包括現實的例子和實用的指導方針,應該幫助他們理解在深度不確定性下的決策是什么,以及它可能如何幫助他們。

深度不確定性下的決策: 從理論到實踐分為四個部分。第一部分介紹了在深度不確定性下設計策略計劃的五種方法: 穩健決策、動態適應規劃、動態適應策略路徑、信息缺口決策理論和工程選項分析。每種方法都是根據其理論基礎、使用方法時要遵循的方法學步驟、最新的方法學見解和改進的挑戰來制定的。在第二部分中,將介紹每一種方法的應用。基于最近的案例研究,運用每種方法的實際意義被深入討論。第三部分基于對真實世界案例的理解,重點關注在真實世界的環境中使用這些方法和工具。第四部分包含結論和綜合可以為設計、應用和執行深度不確定性下的策略計劃而得出的教訓,以及對未來工作的建議。

付費5元查看完整內容
北京阿比特科技有限公司