將不同的、異質的、時間變化的部件整合到復雜的自主系統中,同時保證系統級屬性,這就能滿足達到可靠自主性科學的要求。在安全機器學習或強化學習等課題上已經做了很多工作,以獲得對學習型自主系統的性能和安全的保證(包括通過這個項目),這項探索性的研究工作側重于具有挑戰性的步驟:如何在一個有多個學習組件相互作用的多智能體系統中提供可靠自主性。該項目成功地完成了對競爭和合作環境中分布式學習新算法的設計和分析。
許多系統是由一系列相互作用的子系統組成,它們相互作用,或者明確地作為一個團隊進行合作,或者以非零和博弈的方式進行競爭。無人駕駛系統是具有這種結構的典型案例。這種系統已被設想用于許多不同的領域,從偵察、搜索和救援、地雷探測和清掃到戰術任務。賦予這些系統自主性,不僅可以減少人員傷亡,而且還可以使其成為一支靈活的、具有多種能力的部隊,從而取得主導地位。
盡管取得了重大進展,但要實現可靠長期自主性,即允許系統在不確定的操作條件下,在相當長的時間間隔內做出反應,它們必須對環境、子系統動態或配置、甚至目標和操作約束的意外變化做出自主反應,這仍然具有挑戰性。傳統的基于模型的技術很可能在這一探索中失敗,因為在復雜的、不確定的和時間變化的環境中獲得良好的模型要求太高了。然而,在智能體團隊的分布式控制方面,新的基于學習的策略目前還沒有得到充分的發展,其方式可以保證高置信度操作所需的整體安全和性能。
這項探索性的研究工作集中在這方面的兩個問題上。第一個問題集中在設計一個低級別的控制器,它能以一種組合的方式保證安全和穩定。考慮一個大規模的系統,其中子系統的動力學是未知的,因此需要用數據驅動的方法來識別子系統,并在局部設計(和更新)控制器,以確保滿足穩定性約束。雖然有很多理論可用于模型識別,但如果將使用模型設計的控制器應用于原始系統,幾乎沒有任何保證。把這個問題看作是純粹的基于強化學習的控制設計問題,用目前的集中式或分布式強化學習方法是無法擴展的。這里采取的方法是確定面向控制的學習和組合式控制器設計的方法,這樣就可以測試和保證全局屬性,如穩定性和安全性。在第二個問題中,重點是設計一個更高級別的控制器,以確定探索該地區的最佳軌跡。由于沒有環境模型,強化學習是少數可用的方法之一。大多數多智能體和分布式強化學習算法假設所有智能體在每個時間步驟與所有其他智能體分享其當前狀態、行動,甚至可能是獎勵。然而,考慮到惡劣的通信環境和可能存在的對手,需要分布式強化學習算法,其中智能體只與鄰居分享有限的信息,并且任何通信可能被惡意改變。這項研究工作開發了這種新的分布式強化學習算法。
在上述總體范圍內,這項研究工作考慮了各種問題背景,如下所述。
對于使用學習算法的分布式系統的底層控制,該研究工作考慮了幾個方向。主要的想法是將系統理論概念,如耗散性(已被用于大規模系統基于模型的組合控制)與強化學習算法相結合。該研究在不同的方向上發展了這一想法。
其中一個方向是研究如何驗證在不確定對抗性環境中運行的大規模網絡物理系統的預期屬性,如耗散性。這項工作提出了基于學習的方法,以最小的系統動態知識實現驗證。為了在大規模模型中實現組合性,該研究將驗證過程分布在各個子系統中,這些子系統利用從其近鄰獲得的有限局部信息。通過一種新的強化學習啟發的方法避免了對子系統參數知識的需求,該方法能夠分散地評估可用于驗證耗散性的適當存儲函數。所提出的方法允許在確保耗散性的同時,將學習功能的子系統添加到物理網絡中。研究顯示了如何使用不同的學習規則來保證不同的屬性,如L2-增益穩定性或無損性。最后,這項工作解決了對復雜屬性的驗證需求。
在子系統開發基于強化學習的控制器,確保整個網絡系統的穩定性和魯棒性,特別是當不同的智能體可能不使用相同的強化學習算法時,這是一個具有多個基于學習組件的可靠自主性的核心問題,但在很大程度上仍然是開放的。這項工作考慮了當強化學習被用于網絡動態系統的分布式控制時保證穩定性的問題。具體來說,考慮一個由許多子系統組成的大規模系統,這些子系統通過它們的輸入和輸出耦合在一起,例如一個微電網網絡。每個子系統根據子系統的狀態、輸入和輸出信息設計一個本地控制器。特別是,研究假設控制器是使用強化學習算法實現的,因為子系統的動態可能是未知的。然而,值得注意的是,不同的控制器有可能使用不同的強化學習算法。這就留下了一個開放性的研究問題,即如何設計能保證整個系統仍然穩定的控制器?
研究工作通過設計分布式控制器來解決這個問題,以穩定一類網絡系統,其中每個子系統都是耗散的,并設計一個基于強化學習的局部控制器,以最大化單個累積獎勵函數。所開發的解決方案對每個子系統的局部控制器執行耗散性條件,以保證整個網絡系統的穩定性。所提出的方法在一個直流微電網的例子中得到了說明;其目的是利用每個發電單元的本地分布式控制器來維持網絡的電壓穩定性。
這項工作的主要貢獻是,當各個子系統利用強化學習來設計自己的控制器時,采用分布式方法來確保具有耗散性子系統的網絡系統的穩定性。除了研究重點關注的特定穩定問題外,將耗散性(和其他輸入輸出)規范整合到基于強化學習的控制中是非常有用的,因為它允許將經典的耗散性理論中的各種工具整合到基于強化學習的控制設計中。所提出的算法保證了穩定性,而不考慮在每個子系統中使用的強化學習算法的選擇。特別是,這些結果對每個子系統使用的異質強化學習算法也是成立的。應該指出的是,與大多數現有的多智能體強化學習文獻相比,所提出的方法只需要來自相鄰子系統的輸出來學習每個子系統的控制策略。換句話說,為了保證穩定性,不需要關于其他子系統的狀態、獎勵或政策的信息。
雖然上述設置是無模型學習,但研究小組也考慮了基于模型的學習設置,其方向是用基于學習的控制器設計保證系統的穩定性。在基于模型的學習中,所學的模型最好能保留系統的結構特性,以方便控制設計或提供性能、穩定性或安全保證。該方法考慮了一個未知的非線性系統擁有這樣的結構屬性--被動性,它可以被用來確保學習到的控制器的穩健性。該研究開發了一種算法,從時域輸入-輸出數據中學習該非線性系統的無源線性模型。該算法首先使用任何標準的系統識別技術學習該系統的近似線性模型。然后,該算法通過擾動線性模型的系統矩陣來強制執行被動性,同時確保擾動的模型緊密接近非線性系統的輸入-輸出行為。最后,該算法得出了擾動大小和區域半徑之間的權衡,其中線性模型的被動性保證了未知非線性系統的局部被動性。當使用通過學習算法學習的模型設計控制器時,這一結果可用于確保閉環系統的穩定性。
一旦穩定性得到保證,性能就可以被優化。針對系統模型未知的情況,研究了具有部分嵌套信息結構的分散狀態反饋線性二次方控制的控制策略設計問題。提出了一個基于模型的學習解決方案,它包括兩個步驟。首先,利用最小二乘法估計,從有限長度的單一系統軌跡中估計未知系統模型。接下來,基于估計的系統模型,設計了一個滿足所需信息結構的控制策略。結果表明,控制策略與最佳分散控制策略(利用系統模型的準確知識設計)之間的次優差距與系統模型的估計誤差成線性比例。利用這一結果,為學習具有部分嵌套信息結構的線性二次控制問題的分散控制器提供了一個端到端的樣本復雜性結果。
基于學習的可靠自主性的一個重要組成部分是開發一種廉價的、自動化的方法,可以回答 "如何保證安全關鍵系統在故障或對抗性攻擊下的彈性運行?" 確保安全關鍵型網絡物理系統即使在故障或對抗性攻擊下也能繼續滿足正確性和安全規范是非常具有挑戰性的,特別是在存在設計者不知道其準確模型的遺留組件的情況下。研究的一個主要方向是考慮這種設置中存在的對抗性智能體。
多智能體強化學習是基于各智能體之間的合作。智能體尋求使效用之和最大化的政策,所有智能體都要遵循規定的算法。研究的第一個方向是表明經典的多智能體強化學習算法對行為不端的智能體是脆弱的。最近,文獻中提出了許多合作的分布式多智能體強化學習算法。研究了對抗性攻擊對一個采用基于共識的多智能體強化學習算法的網絡的影響。研究表明,一個對抗性智能體可以說服網絡中的所有其他智能體執行優化它所希望的目標策略。在這個意義上,標準的基于共識的多智能體強化學習算法對攻擊是脆弱的。這揭示了設計新的有彈性的多智能體強化學習算法以可靠自主性的關鍵需求。
鑒于目前多智能體強化學習算法的這種脆弱性,我們設計了一種穩健的多智能體強化學習算法。我們考慮了一個完全分散的網絡,其中每個智能體收到一個本地獎勵并觀察全局狀態和行動。提出了一種彈性的基于共識的行為者批評算法,每個行為者估計團隊平均獎勵和價值函數,并將相關的參數向量傳達給其近鄰。研究表明,在存在拜占庭智能體(其估計和通信策略完全是任意的)的情況下,合作智能體的估計值以1的概率收斂到一個有界的共識值,條件是每個合作智能體的鄰域中最多有H個拜占庭智能體,并且網絡是(2H+1)健壯的。此外,已經證明,在假設對抗性智能體的政策漸進地成為靜止的情況下,合作智能體的政策以1的概率收斂到其團隊平均目標函數的局部最大化附近。
目前的安全設計系統工程技術并沒有為設計者提供一種端到端的方法,以通過識別系統動態和更新控制策略來應對新發現的故障、攻擊或其他變化(如系統升級),為安全關鍵系統提供實時保證。我們提出了一種新的方法,以及一個集成的軟件框架,以保證具有未知動態的安全關鍵系統的彈性運行。建議的框架由三個主要部分組成。運行時監控器根據以信號時態邏輯公式表示的正確性規范,對系統行為進行即時評估。模型合成器包含一個稀疏識別方法,用于持續更新工廠模型和控制策略以適應系統或環境的任何變化。決策和控制模塊設計一個控制器,以確保在運行時滿足正確性規范。為了評估,建議的框架被應用于確保兩個案例研究的彈性操作。
如果智能體不合作,它們之間的互動可以考慮以游戲的形式進行。智能體應該遵循的策略(例如,在納什均衡背景中)現在可以通過合適的學習算法來學習。這項工作廣泛地考慮了這樣一種背景。
一個研究方向是以元學習框架的形式來研究適應性玩家之間的游戲。一個認知能力增強的智能體被賦予了一種結構,使他們能夠識別對手在游戲中的學習方式。這是通過在線調整的近似器實現的,這些近似器只利用從環境中觀察到的行動。研究表明,對對手效用的了解使近似權重漸進收斂。然后,該框架通過時間的反向傳播進行了擴展,這樣就不需要對效用的了解,并顯示了誤差向殘差集的收斂。最后,玩家在一分錢匹配游戲中的模擬學習證明了這種方法的有效性。
一旦確定了對手的學習算法,就可以利用這些信息來進一步獲得游戲中的效用。虛構游戲是一種流行的學習算法,其中玩家利用玩家的行動歷史和對自己報酬矩陣的了解,可以在游戲的某些條件下收斂到納什均衡。我們考慮了一個能夠獲得整個游戲報酬矩陣的智能玩家的存在。結果表明,通過不遵守虛構的游戲,這樣的玩家可以獲得比納什均衡更好的報酬。這一結果既可以看作是虛構博弈算法對戰略智能型棋手的脆弱性,也表明棋手不應拋棄他們可能擁有的額外信息,正如經典的虛構博弈所建議的。這一研究路徑的主要結果是,戰略智能體在競爭環境中使用的學習算法本身可以被對手利用來降低性能。
另一個研究方向是考慮串通和激勵的可能性。分布式系統中的許多場景需要系統主管或操作員激勵自利的智能體,使其付出昂貴的努力,做出與操作員的目標一致的決定。例如,在參與式傳感中,一個系統操作者需要許多自主傳感器進行測量,以便對一個全球數量進行估計。操作員不能直接觀察每個傳感智能體的努力(可能是出于隱私原因),而且智能體可能不會直接從操作員的目標中受益,因此需要根據噪聲輸出進行補償。這項研究考慮了需要通過學習算法來設計補償或激勵的情況。具體來說,這項工作研究了這樣一種設置,即委托人激勵多個不同類型的智能體,這些智能體可以相互勾結以獲取租金。委托人不能直接觀察所付出的努力,而只能觀察任務的結果,而任務的結果是努力的噪聲函數。每個智能體的類型影響著努力成本和任務產出。對于智能體在其支付中是耦合的雙頭壟斷,研究表明,如果委托人和智能體的互動次數有限,即使委托人知道智能體的類型,智能體也可以通過串通獲得租金。然而,如果委托人和智能體的互動次數是無限的,委托人可以通過一個合適的基于學習的合同來抑制智能體的串通。
這項研究的技術成果在季度報告和出版物[SAG20, KFVG20, FKG21, KVGA21, NG21, FLLG21, KSS+21, YZG21, VKGV21, AVG22]中進行了總結。下面將討論所獲得的結果及其對第3節中提到的問題設置的意義。
對于由多個相互作用的子系統組成的系統,即使在模型已知的情況下,保證穩定性、性能或安全性的控制設計也是一個困難的問題。一些系統理論屬性,如耗散性,已被證明對這個問題很有用;然而,傳統上保證這些屬性的驗證和控制器設計都是假設對模型有準確的了解。這項研究的首要貢獻是設計基于學習的分布式控制器算法,該算法可以與耗散性和類似屬性相結合,以保證穩定性。
在[KVGA21]中,大型系統被建模為線性時間不變的子系統的級聯互連。首先,得出了一些可能具有獨立意義的系統理論結果。在L2-增益穩定性定理的基礎上,得出了保證系統穩定性的條件,然后對這些條件進行處理,通過分散的對應物來表達集中的條件,其中子系統的屬性可以單獨考慮。所考慮的強化學習算法是Q-learning。利用Q-learning和耗散性條件之間的聯系,以無模型的方式重述了L2增益所需的屬性。這是一個非常有趣的結果,因為基于學習的函數近似現在可以用來驗證各個子系統的屬性以及它們與鄰居的耦合,以保證原始系統的穩定性。在進行集中分析時,L2增益條件可以放寬到更普遍的被動性條件,以擴大可以考慮的系統范圍。這項工作強調了如何利用動態系統的耗散性特性來驗證穩定性,即使是用無模型的強化學習算法也能做到。
在[KSS+21]中,研究從驗證耗散性(以及穩定性)到設計保證子系統耗散性的控制器,這反過來又導致了整個系統的穩定性。具體來說,當強化學習被用于網絡動態系統的分布式控制時,保證穩定性的問題得到了考慮。考慮一個由許多子系統組成的大規模系統,這些子系統通過它們的輸入和輸出耦合在一起,例如一個微電網網絡。每個子系統根據子系統狀態、輸入和輸出的信息,使用強化算法設計一個本地控制器,因為子系統的動態可能是未知的。然而,值得注意的是,不同的控制器可能會使用不同的強化算法。如何設計能保證整個系統仍然穩定的控制器?這里至少有兩個挑戰。首先,控制策略應該是分布式的。雖然存在大量關于多智能體系統的強化學習技術的文獻,但使用這種技術的分布式控制策略提供穩定性、安全性和穩健性等保證的文獻仍然很少。考慮到用強化控制器保證穩定性和魯棒性問題的作品主要局限于基于模型的強化學習和單智能體系統的線性二次調節器設計等情況。其次,大多數關于多智能體強化學習的現有文獻考慮的是所有子系統執行相同算法的情況,并進一步分享信息,如全局狀態或與其他子系統的獎勵。在子系統中開發基于學習的控制器,以確保整個網絡系統的穩定性和穩健性,特別是當不同的智能體可能不使用相同的強化學習算法時,這在很大程度上仍然是一個開放的問題。
這項研究開發了一種基于強化學習的分布式控制設計方法,利用單個子系統的耗散性特性來保證整個網絡系統的穩定性。所提出的方法是使用控制障礙函數來描述在每個子系統上執行耗散性條件的控制器集合。這種方法對強化學習算法學到的控制輸入施加最小的能量擾動,將其投射到這個集合中的一個輸入。這些結果共同保證了整個網絡系統的穩定性,即使子系統利用潛在的異質強化學習算法來設計其本地控制器。
據研究小組所知,這是第一個在各個子系統利用強化學習來設計自己的控制器時,確保具有耗散子系統的網絡系統穩定性的分布式方法。除了研究重點關注的特定穩定問題外,將耗散性(和其他輸入輸出)規范整合到基于學習的控制中是非常有用的,因為它允許將經典耗散性理論中的廣泛工具整合到基于學習的控制設計中。所提出的算法保證了穩定性,而不考慮在每個子系統中使用的學習算法的選擇。此外,建議的方法只需要來自相鄰子系統的輸出來學習每個子系統的控制策略。換句話說,為了保證穩定性,不需要關于其他子系統的狀態、獎勵或策略的信息。
在[SAG20]中,該項目考慮了強化學習算法首先學習系統模型時的補充問題。如上所示,系統模型中的耗散性可以用來保證穩定性。因此,該問題簡化為以下內容。能否識別出一個耗散性的系統模型,并進一步使所學模型的耗散性水平為真實未知系統的耗散性水平提供一些最壞情況的保證?
使用給定的時域輸入-輸出數據,解決了識別未知耗散非線性動力系統的耗散線性模型的問題。首先,該方法使用標準的系統識別技術學習了系統的近似線性模型,被稱為基線模型。接下來,這個基線線性模型的系統矩陣被擾動,以強制執行二次耗散性。研究表明,只要基線線性模型在輸入輸出意義上接近非線性系統的動態,就可以選擇這種擾動來確保耗散性線性近似的輸入輸出行為接近原始非線性系統的行為。此外,還提供了一個分析條件,將擾動的大小與非線性系統的局部二次耗散特性的半徑聯系起來,在這個半徑內,耗散線性模型可以保證非線性系統的局部二次耗散性。這種關系正式確定了較大的擾動會導致較差的近似的直覺;換句話說,非線性系統的局部耗散性半徑隨著擾動大小的增加而減少。因此,上面提出的問題就完全解決了。雖然所提出的方法是離線的,但在在線環境下,通常已經有了一個基線模型,擴展擾動方法來快速識別耗散模型是很有希望的。
在[YZG21]中,研究人員邁出了向性能保證邁進的第一步。眾所周知,分布式控制器的優化設計是一個不同的問題,即使模型是完全已知的。對于基于學習的控制器設計,該項目因此必須將方法限制在特定的信息結構和動力學上。
因此,該研究項目考慮了一個具有部分嵌套信息結構的分散的無限期狀態反饋線性二次調節器控制問題,并假設控制器無法獲得系統模型。采用了基于模型的學習方法,首先確定系統模型,然后用來設計滿足規定信息約束的控制策略。使用這種方法,提供了一個端到端的樣本復雜性結果,它將用于估計系統模型的數據樣本數量與控制策略的性能聯系起來。控制策略的性能由控制策略的無限期成本和部分嵌套信息結構的最優控制策略之間的差距來表征,當系統模型是先驗的。令人驚訝的是,盡管存在信息約束,而且最優控制器是一個線性動態控制器,但樣本復雜度結果與沒有任何信息約束的學習集中控制設計相匹配。
研究的第二個大方向是在使用基于學習的控制器時考慮對手和故障的存在。這是一個重要的方向,因為在多智能體系統中,不存在戰略智能體是一個非常有力的假設,同時也因為這種控制器可能被用于安全關鍵系統,在那里,故障的存在可能是災難性的。
研究從[FKG21]開始,表明文獻中提出的標準多智能體強化學習算法對于哪怕是一個戰略智能體的存在都是脆弱的。具體來說,該研究考慮了一種基于共識的多智能體強化學習算法,其目標函數中的獎勵被折現。所考慮的攻擊與強化學習中通常研究的數據中毒攻擊不同,后者試圖了解外部智能體改變數據或獎勵是否會降低學習算法的性能。相反,該項目考慮的是一個參與智能體本身是惡意的環境。具體來說,所問的問題是一個單一的對抗性智能體是否可以阻止算法的收斂,或者更糟糕的是,導致其他智能體優化它所選擇的效用函數。通過設計一個合適的攻擊并分析算法在該攻擊下的收斂性,已經證明這個問題的答案是肯定的。
這項工作很重要,因為它考慮了有對手的網絡,這些對手可以破壞共識和批評者的更新,并將損壞的信號值傳送給其鄰居。研究表明,當惡意智能體貪婪地試圖最大化它自己定義好的目標函數時,網絡中所有其他智能體最終也會最大化對手的目標函數。這項研究促使了彈性多智能體強化學習算法的發展。
在[FLLG21]中,提出了這種有彈性的多智能體強化學習算法。考慮的問題是,是否有可能設計一種基于共識的、具有參數化函數近似的分散式學習的多智能體強化學習算法,在合作智能體在受對抗智能體影響的環境中學習最優策略的意義上,該算法對對抗性攻擊具有可證明的彈性?重要的是要注意,所考慮的對抗性智能體會影響其他智能體,這是因為他們向他們傳達信息,以及通過實施影響環境狀態演變的控制政策。在指定的環境中,要實現對控制政策的對抗性攻擊的彈性是很困難的,因為它不假設智能體知道彼此的控制政策。目標是設計一種有彈性的算法,引導合作智能體在受對抗性智能體影響的環境中學習接近最優的政策。這仍然是一個獨特的挑戰,因為對抗性智能體可以對試圖降低網絡性能的通信通道進行建模攻擊。
為分散的行動者-批評者多智能體強化學習引入了一種新的基于投影的彈性共識方法,其中合作智能體估計批評者和團隊平均獎勵函數,這對接近真實政策梯度至關重要。該算法包括兩個重要步驟,共同促進批判者和團隊平均獎勵函數的高度彈性。在第一步中,接收到的參數被投射到對所有智能體都相同的特征向量中,因為智能體使用相同的基礎函數訓練線性模型。在第二步中,合作智能體在估計鄰居的估計誤差空間中進行彈性聚合,并在隨機梯度下降更新中應用聚合的估計誤差,這確保了本地數據在整個網絡中的擴散。同時考慮了線性和非線性函數的近似。所提出的算法大大減少了訓練中攻擊通信渠道的影響,因此允許合作智能體學習使其團隊平均目標函數最大化的政策。
研究考慮的第三個主要設置是當智能體不合作時。如果每個智能體都有不同的效用函數,那么他們的互動可以被認為是一種博弈,納什均衡等概念更適合于識別智能體的最優政策。由于這些政策通常很難確定,所以已經提出了收斂到這種政策的學習算法。這是分布式學習問題設置的自然環境,是本提案的重點,盡管它不是最初提議工作的一部分。
智能體使用異質學習算法的問題在游戲設置中甚至更為重要。這使得幾乎所有在游戲環境中學習的結果都假定智能體之間的學習算法是同質的,這更令人驚訝。在[KFVG20]中,研究人員解決了這個問題。具體來說,制定了一種學習算法,使智能體在玩重復游戲時能夠根據其他智能體的游戲內容調整他們的策略。隨后,制定了元學習框架--通過識別對手決策機制的調諧算法來獲得對學習算法的理解--的智能球員。最后,該算法通過時間的反向傳播進行了擴展,從而使決策機制和效用都得到學習。這是一個重要的貢獻,因為這個框架也允許在游戲學習中引入認知能力的異質性--就像有界理性一樣。
如果智能體之間不合作,他們將忠實地傳遞信息(如他們的效用)的假設也變得有問題。在[VKGV21]中,考慮了如何消除這一假設。該研究特別關注了n+1個玩家之間互動的虛構游戲,這些玩家重復地進行矩陣階段游戲。玩家根據他們的信息水平進行分類,其中第一類由一個知道完整游戲的單一智能玩家組成。第二類包含所有剩下的玩家,被稱為對手,他們只知道他們自己對不同策略向量的回報。當所有玩家都采用虛構的游戲時,在適當的條件下,玩家會收斂到納什均衡。然而,聰明的玩家不需要堅持虛構游戲。問題是。聰明的玩家能否通過偏離虛構游戲而獲得高于納什均衡的報酬?此外,如果存在這樣的策略概況,當對手實施虛構游戲時,智能型玩家如何執行它?
在這樣的背景下,我們確定了能夠為智能型玩家提供大于納什和斯塔克爾伯格均衡報酬的預期報酬的策略。對于游戲中存在2個玩家的情況,所確定的策略對智能玩家來說是最優的。對于n+1個玩家的一般情況,我們提供了一類更容易操作的策略,稱為基于收斂的混合策略,這些策略可能是次優的,但可以為智能玩家提供大于納什和斯塔克爾伯格報酬的預期報酬。還提供了一個線性編程公式,該公式決定了上述策略,而不必在每個時間點上探索所有對手的行動。最后,為智能型玩家確定了一個純粹的行動軌跡,該軌跡達到了所需的混合策略概率,同時使對手保持在其虛構的游戲中確定的策略。
這是一個有趣的貢獻,因為它既可以被看作是虛構博弈算法對戰略性智能棋手的脆弱性,也表明棋手不應該拋棄他們可能擁有的額外信息,正如經典的虛構博弈所建議的那樣。
這個項目考慮了在一個有多個學習組件相互作用的多智能體系統中可靠自主性。在三個主要方向上設計和分析了新算法:
驗證和保證合作分布式控制中穩定性等特性的算法。
在多Agent強化控制中面對對手時保證持續運行的算法。
以及在游戲中學習的算法。
在如何將不同的學習組件整合到復雜的自主系統中,同時保證系統級別的屬性方面,獲得了新的見解,該項目成功完成。各種新的研究方向已被注意到,以便進行后續研究。
深度學習技術在計算機視覺領域的快速發展,促進了基于人工智能(AI)應用的廣泛傳播。分析不同種類的圖像和來自異質傳感器數據的能力使這項技術在軍事和國防應用中特別有趣。然而,這些機器學習技術并不是為了與智能對手競爭而設計的;因此,使它們如此有趣的特性也代表了它們在這一類應用中的最大弱點。更確切地說,輸入數據的一個小擾動就足以損害機器學習算法的準確性,并使其容易受到對手的操縱--因此被稱為對抗性機器學習。
對抗性攻擊對人工智能和機器人技術的穩定性和安全性構成了切實的威脅。這種攻擊的確切條件對人類來說通常是相當不直觀的,所以很難預測何時何地可能發生攻擊。此外,即使我們能估計出對手攻擊的可能性,人工智能系統的確切反應也很難預測,從而導致進一步的意外,以及更不穩定、更不安全的軍事交戰和互動。盡管有這個內在的弱點,軍事工業中的對抗性機器學習話題在一段時間內仍然被低估。這里要說明的是,機器學習需要在本質上更加強大,以便在有智能和適應性強的對手的情況下好好利用它。
在很長一段時間里,機器學習研究人員的唯一關注點是提高機器學習系統的性能(真陽性率/敏感度、準確性等)。如今,這些系統缺乏穩健性的問題已不容忽視;許多系統已被證明非常容易受到蓄意的對抗性攻擊和/或操縱。這一事實使它們不適合現實世界的應用,特別是關鍵任務的應用。
一個對抗性的例子是,攻擊者故意設計了一個機器學習模型的輸入,以導致該模型犯錯。一般來說,攻擊者可能無法接觸到被攻擊的機器學習系統的架構,這被稱為黑盒攻擊。攻擊者可以利用 "可轉移性 "的概念近似于白盒攻擊,這意味著旨在迷惑某個機器學習模型的輸入可以在不同的模型中觸發類似的行為。
最近針對這些系統的對抗性攻擊的演示強調了對抗性行為對穩定性影響的普遍關注,無論是孤立的還是互動的。
也許最廣泛討論的攻擊案例涉及圖像分類算法,這些算法被欺騙成 "看到 "噪聲中的圖像,即隨機產生的不對應于任何圖像的白噪聲被檢測為圖像,或者很容易被像素級的變化所欺騙,因此它們將一輛校車分類為鴕鳥,例如。同樣,如果游戲結構或規則稍有改變,而人類不會受到影響,那么表現優于人類的游戲系統(如國際象棋或AlphaGo)就會突然失敗。在普通條件下運行良好的自動駕駛汽車,只要貼上幾張膠帶,就會被誘導轉向錯誤的車道或加速通過停車標志。
許多北約國家利用人工智能和機器學習來改善和簡化軍事行動和其他國家安全舉措。關于情報收集,人工智能技術已經被納入在伊拉克和敘利亞的軍事行動中,其中計算機視覺算法被用來檢測人和感興趣的物體。軍事后勤是這一領域的另一個重點領域。美國空軍使用人工智能來跟蹤其飛機何時需要維護,美國陸軍使用IBM的人工智能軟件 "沃森 "來預測維護和分析運輸請求。人工智能的國防應用還延伸到半自主和自主車輛,包括戰斗機、無人機或無人駕駛飛行器(UAV)、地面車輛和船舶。
人們認為對抗性攻擊在日常生活中相對罕見,因為針對圖像分類算法的 "隨機噪音 "實際上遠非隨機。不幸的是,對于國防或安全技術來說,這幾乎是不可能的。這些系統將不可避免地被部署在對方有時間、精力和能力來開發和構建正是這些類型的對抗性攻擊的環境中。人工智能和機器人技術對于部署在敵人控制或敵人爭奪的地區特別有吸引力,因為這些環境對于我們的人類士兵來說是最危險的環境,在很大程度上是因為對方對環境有最大的控制。
在意識到人工智能發展和應用的技術領先的重要性后,北約于2020年在多國能力發展運動(MCDC)下啟動了人工智能、自動化和機器人技術的軍事用途(MUAAR)項目。該項目的范圍是開發概念和能力,以應對開展聯合聯盟行動的挑戰,并對其進行評估。項目的目標是評估可能受益于人工智能、自動化和機器人技術的當前和未來的軍事任務和功能。它還考慮了效率和成本節約方面的回報。
在國防應用中,對抗性地操縱機器學習分類器所帶來的危險的例子很多,嚴重程度各不相同。例如,致命的自主武器系統(LAWS)可能會將友軍戰車誤認為是敵軍戰車。同樣,一個爆炸裝置或一架敵方戰斗機可能會被錯誤地識別為一塊石頭或一只鳥。另一方面,知道人工智能垃圾郵件過濾器跟蹤某些單詞、短語和字數進行排除,攻擊者可以通過使用可接受的單詞、短語和字數來操縱算法,從而進入收件人的收件箱,進一步增加基于電子郵件的網絡攻擊的可能性。
綜上所述,人工智能支持的系統可能會因為對抗性攻擊而失敗,這些攻擊是故意設計來欺騙或愚弄算法以使其犯錯的。這種攻擊可以針對分類器的算法(白盒攻擊),也可以通過訪問輸入來針對輸出(黑盒攻擊)。這些例子表明,即使是簡單的系統也能以意想不到的方式被愚弄,有時還可能造成嚴重后果。隨著對抗性學習在網絡安全領域的廣泛應用,從惡意軟件檢測到說話人識別到網絡物理系統再到許多其他的如深度造假、生成網絡等,隨著北約增加對自動化、人工智能和自主代理領域的資助和部署,現在是時候讓這個問題占據中心位置了。在將這些系統部署到關鍵任務的情況下之前,需要對這些系統的穩健性有高度的認識。
已經提出了許多建議,以減輕軍事環境中對抗性機器學習的危險影響。在這種情況下,讓人類參與其中或在其中發揮作用是至關重要的。當有人類和人工智能合作時,人們可以識別對抗性攻擊,并引導系統采取適當的行為。另一個技術建議是對抗性訓練,這涉及給機器學習算法提供一組潛在的擾動。在計算機視覺算法的情況下,這將包括顯示那些戰略性放置的貼紙的停車標志的圖像,或包括那些輕微圖像改變的校車的圖像。這樣一來,盡管有攻擊者的操縱,算法仍然可以正確識別其環境中的現象。
鑒于一般的機器學習,特別是對抗性機器學習,仍然是相對較新的現象,對兩者的研究仍在不斷涌現。隨著新的攻擊技術和防御對策的實施,北約軍隊在關鍵任務的行動中采用新的人工智能系統時需要謹慎行事。由于其他國家,特別是中國和俄羅斯,正在為軍事目的對人工智能進行大量投資,包括在引起有關國際規范和人權問題的應用中,北約保持其戰略地位以在未來戰場上獲勝仍然是最重要的。
Elie Alhajjar博士是美國陸軍網絡研究所的高級研究科學家,同時也是紐約州西點軍校數學科學系的副教授,他在那里教授和指導各學科的學員。在來到西點軍校之前,Alhajjar博士曾在馬里蘭州蓋瑟斯堡的國家標準與技術研究所(NIST)從事研究。他的工作得到了美國國家科學基金會、美國國立衛生研究院、美國國家安全局和ARL的資助,最近他被任命為院長的研究人員。他的研究興趣包括數學建模、機器學習和網絡分析。他曾在北美、歐洲和亞洲的國際會議上展示他的研究工作。他是一個狂熱的科學政策倡導者,曾獲得民用服務成就獎章、美國國家科學基金會可信CI開放科學網絡安全獎學金、Day One技術政策獎學金和SIAM科學政策獎學金。他擁有喬治-梅森大學的理學碩士和數學博士學位,以及圣母大學的碩士和學士學位。
這份頂點報告分析了增材制造(AM)技術在美國國防部(DOD)當前和未來的使用情況。該分析為開發增材制造工藝和分析工具(AMPAT)提供了必要的技術背景。AMPAT將幫助利益相關者確定哪些增材制造設備能最好地服務于作戰人員和他們在遠征環境中的任務。此外,該工具可以被利益相關者用來確定AM能力在整個艦隊中最有利的分布,并就這些能力應該如何被整合到更大的海軍任務和更大的國防部企業中做出決定。采用系統工程(SE)方法來收集關于當前和未來的AM方法的信息,以了解和定義AM系統的操作要求。此外,還利用SE過程來分析建立工具的替代軟件選項,實施敏捷軟件開發過程來開發工具,并驗證和確認該工具符合項目要求。研究發現,AMPAT根據用戶定義的輸入參數和加權值,成功地輸出了一個AM系統建議的排名列表。關于選擇AM設備和為艦隊制定分散計劃的建議包括使用AMPAT的可交付成果,利用用戶定義的輸入值進行定制的、迭代的分析,以適應特定的遠征環境。
美國海軍和海軍陸戰隊一直在各種作戰環境和任務場景中增加使用增材制造(AM)能力,以快速交付作戰設備,降低成本,更換和維修部件。美國海軍研究生院(NPS)海軍遠征增材制造(NEAM)團隊的成立是為了解決海軍遠征作戰司令部(NECC)提出的幾個研究問題。該團隊開發了一個名為增材制造過程和分析工具(AMPAT)的工具,該工具將:1)確定具體的增材制造設備,以便在遠征環境中為部隊提供最佳服務,包括分布式海上行動(DMO)、有爭議環境中的沿岸行動(LOCE)和遠征先進基地行動(EABO);2)輸出建議,可用于幫助通知整個艦隊的增材制造設備分散計劃;以及3)幫助NECC更好地將其能力融入更大的海軍任務。
NEAM團隊使用修改過的瀑布過程模型系統工程方法來開發一個工具來回答這些問題。NEAM團隊進行了詳細的文獻審查,以收集有關各種AM技術、AM零件的設計考慮因素、材料處理以及AM在國防部的使用的信息。此外,該團隊還會見了許多從事AM技術工作的組織的主題專家(SMEs),包括海軍設施(NAVFAC)工程和遠征作戰中心、海軍海上系統司令部技術辦公室、海軍陸戰隊系統司令部、海軍水面作戰中心Indian Head分部、海軍水面作戰中心Pt. Hueneme分部、海軍陸戰隊第一后勤集團、海軍供應系統司令部(NAVSUP)、太平洋海軍信息戰中心和海軍研究辦公室。
AMPAT是一個基于Excel的工具,用Visual Basic for Applications(VBA)編程語言編寫。AMPAT包括一個數據庫,供用戶輸入各種AM系統的信息和數據,以及一個工具儀表板,使用戶能夠在進行分析所需的輸入和分析的輸出之間輕松瀏覽。儀表板允許用戶行使工具功能,包括調整分析標準和用戶選擇,向AM數據庫添加打印機,檢查AM數據庫的錯誤,運行分析,以及清除結果。用戶可以定制AMPAT分析,對一組具有不同規格和特性的AM打印機進行排名,以確定在特定環境下滿足作戰人員需求的最佳AM系統設計。關于如何使用AMPAT的每個功能,可以在《用戶指南》中找到全面的、分步驟的說明。
本報告為用戶提供了一個執行AMPAT以獲得分析結果的方法。首先,用戶通過確定感興趣的具體屬性(如故障率、運行可用性、環境條件)來設置分析參數。接下來,用戶為每個選定的屬性設置加權值,以排列每個屬性相對于另一個屬性的重要性。用戶必須設置權重值,以便AMPAT進行必要的數學分析,提供具體的AM系統建議。數學分析將根據用戶對每個屬性的權重輸入,計算出每個AM系統的加權分數,并將其標準化。AMPAT將生成一個過濾的數據庫表,其中包括滿足用戶在運行分析之前確定的輸入參數的AM系統。此外,根據分配給每個參數的權重值,將提供這些AM系統的排名列表。最后,AMPAT將繪制分析結果;用戶可以選擇特定的參數,以包括在繪圖中,并決定是按系統繪圖還是按屬性繪圖。
NEAM團隊建議NECC使用AMPAT進行迭代分析,并繼續向數據庫添加新的AM系統和系統屬性。隨著新的信息被輸入該工具,用戶將收到更詳細的結果,這可能會影響最終的AM排名。AMPAT提供的排名將為決策者提供建議,說明哪種AM設備在執行DMO、LOCE和EABO環境中最能為部隊服務。此外,NEAM團隊建議NECC將AMPAT升級到具有適當安全分類的環境中,以定制該工具的分析,為艦隊的特定地點提供AM系統的建議。如果有適當的輸入,該分析的結果可用于確定在整個艦隊中預置AM技術的最佳策略。
為了統一國防部和國防部,AM領域的專家必須共同制定一份戰略文件,確定批準AM系統用于國防部的必要標準。AMPAT應被串聯使用,以協助社區評估不同的AM技術,以確定是否適合于國防部的任務和作戰方案。隨著用戶繼續用更多的AM系統填充AMPAT,并反復進行不同參數的分析,該工具的結果和輸出可用于證明國防部的批準決定。
NEAM團隊還建議,AMPAT應擴大到包括一個零件和零件規格的圖書館或資料庫。這將擴大AMPAT的效用,使其能夠為AM系統提供建議,這些系統應被用來打印特定的零件,以支持船舶、潛艇、飛機和其他車輛或設備。最終,這將減少成本并縮短艦隊的時間表,以快速生產量身定做的部件,提高作戰人員的準備程度。
AMPAT提供了一個決策分析過程,以確定最理想的AM設備來支持特定任務,并提高整個國防部對AM能力的認識。AM技術在確保迅速和有條不紊地維持作戰設備和加強艦隊準備方面發揮了關鍵作用。AMPAT的使用將有助于使國防部和國防部統一努力推進AM技術,以支持更大的海軍任務的需要。
本章定義了本研究項目的問題陳述、目標、范圍和操作方案。此外,本章還解釋了用于開發工具的方法,以及該工具將如何被主要利益相關者--海軍遠征作戰司令部(NECC)和其他利益相關者使用,以滿足研究目標。
幾年來,美國海軍和海軍陸戰隊一直在作戰環境中采用增材制造(AM)能力來快速交付作戰裝備。必須進行研究,以確定如何整合未來的AM能力,同時最大限度地提高投資回報,并盡量減少重復工作。首要的目標是將這項研究應用于部署在各種環境中的能力,如:分布式海上行動(DMO)、有爭議環境中的沿岸行動(LOCE)和遠征先進基地行動(EABO)。就本報告而言,重點是開發一個工具和數據庫,以協助決策者確定在這些環境中使用適當的增材制造。
增材制造已經被證明是非常有益的,它提供了降低成本和快速的部件更換和維修;本報告的以下部分將更詳細地討論AM的具體優勢和劣勢。由于AM是一個快速發展的技術領域,很難持續比較和權衡技術能力和屬性以滿足不斷變化的需求。需要一個工具,讓領導層充分了解當前和新的AM技術提供了哪些能力,這樣他們就可以做出明智的決定,使國防部(DOD)的投資回報最大化,以支持作戰人員和他們的任務。決策者需要考慮的一些特性包括:移動性、易用性、培訓、打印材料和打印機床尺寸。
本項目的目的是提供一個總體決策分析方法和工具,其中包括一個易于修改的NECC當前3D打印機和部件的數據庫,以有效地將當前和未來的AM能力整合到更廣泛的海軍遠征任務中。海軍遠征增材制造(NEAM)團隊廣泛研究了當前的AM能力及其在遠征部隊中的應用,以幫助開發分析方法、工具和數據庫,NECC可以采用并用于確定如何在整個美國海軍艦隊中最佳地分散AM能力并實現利益最大化。雖然在海軍遠征軍內,以及在海軍和國防部內廣泛存在著對AM集成的廣泛需求和巨大潛力,但NEAM項目側重于將AM作為部署系統、平臺和車輛的支持能力。最終,該計劃將作為NECC的參考和指南,以便在海軍和海軍陸戰隊的AM設備部署戰略和采購方面做出明智的決定。
本項目的重點是NECC在部署AM設備供遠征軍使用時,如何使投資回報最大化,并盡量減少重復工作。這項研究有助于實現在DMO、LOCE、EABO和其他情況下部署AM能力的總體目標,同時確保與現有工作的互操作性,盡量減少重復的工作,并使投資回報最大化。為了不重復工作,該團隊利用以前為類似工作完成的工作,并與海軍內部正在進行的AM工作協調。這項研究的目的是為NECC提供一個決策分析過程,以指導決策者選擇最有效的AM技術來滿足遠征環境中的具體使用情況。
上述三種遠征環境(即DMO、LOCE和EABO)對AM技術都有自己獨特的需求。DMO環境將海軍的注意力集中在同行和近鄰的競爭者身上,這需要艦隊級別的參與主要作戰行動。為了做到這一點,它在各司令部之間建立了更加一體化的關系,并促進了對風險的計算接受。同樣,EABO手冊指出,"EABO是一個未來的海軍作戰概念,滿足美國聯合遠征作戰的下一個范式的彈性和前沿存在要求"(海軍陸戰隊協會2018,5)。這一戰略提供了進行遠征作戰的機會,在不摧毀所有敵軍的情況下擊敗對手的戰略。此外,EABO手冊 "鼓勵海軍陸戰隊和海軍發展優化的內部力量能力,以服務于整個DMO結構"(海軍陸戰隊協會2018,22)。LOCE概念描述了沿海環境中的海軍行動,考慮到新出現的威脅,為海軍和海軍陸戰隊提供了一個創新的、聯合的框架(有爭議環境中的沿海行動,2020)。AM在確保作戰人員在這些環境中得到適當裝備方面發揮著關鍵作用。
考慮到這些環境,NEAM項目重點關注以下問題,以利用AM技術解決作戰人員能力方面的關鍵差距。
1.什么樣的AM設備能夠最好地服務于執行DMO/LOCE/EABO的部隊,包括考慮與其他美國海軍陸戰隊和海軍部隊的互操作性?
2.在整個艦隊中,什么是最有利的AM能力的分散,以使利益最大化,包括潛在的設備預置?
3.NECC如何將其能力更好地整合到更大的海軍任務中?
這個項目并不打算分析AM實施的每一部分;因此,未來的工作將建立在這個項目的基礎上。未來的工作也被認為是減少范圍蠕變風險的一個緩解因素。NEAM團隊對未來工作的建議可以在第七章A節中找到。
為了實現協助NECC最大限度地提高投資回報和減少重復的項目目標,這項研究的重點是開發一個數據庫和工具,以協助決策和增加對特定任務和目標的可用AM能力的接觸。該工具和數據庫是使用微軟Office產品開發的,因為它在整個聯邦政府的計算機系統中通常是可用的。這將有助于確保它能在整個海軍中被廣泛傳播并被大量受眾使用。
該工具是使用系統工程過程中選擇的軟件開發的。它側重于由利益相關者和NECC定義的AM系統的各種能力。用戶可以使用內置的圖形用戶界面(GUI)加載AM系統的各種特性并分配權重。該工具根據所期望的遠征環境的特征分配權重,輸出AM系統建議。
為了確保交付物滿足利益相關者的需求,NEAM團隊采用了一種系統工程方法,包括利益相關者的持續反饋,這在第四章有詳細描述。這使得利益相關者能夠在項目進展過程中對研究的具體方向提供意見,并使NEAM團隊能夠在獲得信息和分析結果時提供。
本報告第一章解釋了問題陳述、研究的目標和范圍,以及用于開發本項目中可交付成果的方法。
第二章包括對NEAM團隊為收集不同類型的AM技術、如何設計AM零件、材料處理方面的考慮以及AM在國防部的具體使用情況而進行的文獻審查的廣泛和詳細描述。此外,第二章描述了NEAM團隊用來完成項目的系統工程方法,以及考慮過的其他方法。
第三章著重于利益相關者的識別和分析,并描述了主要利益相關者的需求,用于將其轉化為具體要求的過程,以及當前AM能力中存在的差距。
第四章概述了增材制造工藝和分析工具(AMPAT)的代碼開發過程和所遵循的軟件流程,以及該工具的能力和限制。
第五章提供了AMPAT的幾個使用案例,并描述了該工具所要使用的操作環境。
第六章全面解釋了AMPAT如何用于檢索特定任務的分析結果,并解釋了用于確保該工具滿足項目要求和利益相關者需求的驗證和確認(V&V)方法。
第七章記錄了開發團隊得出的結論,總結了研究和分析對利益相關者和國防部的益處,并對未來工作提出了建議。
私營部門不斷收集和整理關鍵數據及其來源,以通過利用數據密集型的人工智能機器學習(AI/ML)技術來確保支持和發展新的業務。大部分行業數據都是有價值的共享資源,而海軍到目前為止還沒有實現這種做法。本頂點研究通過研究、訪談和個人專業知識,探討了海軍在創造數據可用性和質量方面的挑戰性任務。研究側重于過程、技術和管理,采用了詳細需求評估、利益相關者分析、功能設計。其研究結果是一個集中式人工智能庫(CAIL)的概念框架,旨在匹配行業對數據作為關鍵商品的堅定關注。美國海軍需要持久和動態的數字化準備,因此這個擁有70多年美國海軍數據專業知識的頂點團隊建議 OVERMATCH 考慮這些發現并生成一個確保海軍數據可用性和質量的系統。
美國海軍部(DON)對研究和開發人工智能和機器學習(AI/ML)系統的興趣源于這些創新能力對海軍任務和對作戰人員的直接支持所帶來的深遠和改變游戲規則的影響。人工智能/機器學習系統可以被用來改善任務規劃,減少人員配置,改善戰術決策,簡化系統維護和支持,提高安全性,在某些情況下,還可以將作戰人員從危險中移除。戰士日常活動的許多方面將發生變化,從常規和勞動密集型工作的自動化到支持復雜和時間緊迫的戰斗空間決策。
只有當美國國防部首先釋放數據的力量,才能實現AI/ML系統的這些進步。目前,在獲取或"釋放"DON的數據以開發未來的AI/ML系統方面存在許多障礙。整個海軍的數據主要停留在"筒倉"或難以訪問的數據庫中,每個"筒倉"都在其領域內受到保護。在DON的數據領域內,定位、請求、獲取和策劃數據的過程并不正式。米勒(2021)說:"數據的所有者是美國人民。海軍只是管理人和監護人"。這句話包含了將數據從孤島中 "解放"出來的需要,以使海軍真正成為一個以數據為中心的企業,并實現海軍的數字化準備。
這個頂點項目開始了一項研究,以了解美國防部內AI/ML開發人員的數據需求,并制定一個概念性的解決方案來解決數據需求。其他目標是:
研究AI/ML方法如何在DON任務中應用。
了解數據需求是否在DON任務中普遍是標準的,或者數據需求是否在DON任務中有所不同。
制定一套 DON AI/ML利益相關者的要求。
為一個支持DON AI/ML數據需求的系統制定一個概念性設計。
研究實施概念性解決方案系統的潛在成本和進度效益。
時區團隊(Team Time Zone)應用系統工程分析方法研究DON AI/ML開發人員的數據需求,并開發和評估一個概念性的系統解決方案,以解決這一數據挑戰,并最終支持DON未來的數字準備,以解決復雜的任務。該團隊通過采訪三個不同的海軍任務領域的主題專家(SME)來進行利益相關者的需求分析:系統維護、物理安全和戰備。這三個任務被認為是 "數據提供者"的代表。此外,該團隊還采訪了數據研究人員和AI/ML科學家,以了解他們的數據需求。訪談為團隊提供了基于獨特和不同領域和經驗的關注、挫折、經驗教訓和挑戰的洞察力。從數據提供者的角度來看,反復出現的主題包括所有權的劃分、信息保障的需要、數據未被收集或存儲的情況以及對可訪問性的擔憂。從數據用戶的角度來看,明顯的軼事包括尋找數據的耗時,承諾的數據并不總是能夠實現,以及即使在獲得數據后,理解數據的背景也是至關重要的。該小組根據利益相關者的訪談和信息收集工作,為DON AI/ML制定了一套數據要求。DON AI/ML的數據需求是:
數據必須能夠被外部組織訪問。
數據必須被翻譯成與其領域應用兼容的標準格式。
數據必須有確定的所有者。
數據必須伴隨著描述性的元數據。
數據必須有標準化的管理。
數據必須以其 "最低標準"的形式被訪問。
數據必須具有保護和適當共享的安全性。
數據必須具有混淆性,以保護個人身份信息(PII)。
數據必須伴有背景信息。
為了解決DON數據研究人員和AI/ML科學家確定的數據需求,Team Time Zone開發了一個中央AI庫(CAIL)系統的概念設計,作為解決方案。CAIL系統的目的是簡化 DON內部的數據訪問和管理,以支持AI/ML系統的開發。CAIL系統旨在減少訪問數據的時間(和相關費用),騰出更多時間用于AI/ML系統的實際開發、培訓和評估。該團隊提出,為了滿足未來計劃的訪問和整合要求,CAIL需要成為一個 "數據云"。圖1是CAIL的OV-1;它描述了為AI/ML開發簡化DON數據訪問和管理的擬議過程。
圖1. CAIL OV-1
該團隊根據六個主要類別制定了CAIL系統要求:數據準備、數據偏差、數據整理、數據分類、數據治理和數據安全。每一個類別都是針對利益相關者分析過程中發現的需求。CAIL系統將主要與外部聯合數據、數據庫、文件和權威數據生產商/供應商的內容對接。它將像 "谷歌 "一樣為DON用戶尋找數據。數據將是結構化的,并將伴隨著元數據(關于數據的描述性信息),使數據可以被搜索。一個管理數據的社區將提供規則來管理對數據的安全訪問和授權。
在利益相關者的分析中,很明顯,在訪問數據之前需要進行一些重要的活動。AI/ML開發人員解釋了了解數據收集方式、數據來源以及其他有關數據的特定領域的背景方面的重要性。Team Time Zone將這些過程指定為 "預CAIL活動",并將其作為整個CAIL過程的一部分。
Team Time Zone進行了成本分析,以估計為DON實施CAIL系統的成本。該團隊使用了兩種方法來估計成本:傳統的成本估計和基于模型的系統工程(MBSE)方法。該小組估計CAIL系統的成本(基于傳統的成本估算)為3380萬美元,持續時間為5年,每年的重復維持成本為400萬美元。團隊估算的CAIL系統成本(基于MBSE方法),在運行了一萬次蒙特卡洛模擬后,平均為3290萬美元,持續時間為5年。運營和維護模型的平均成本為每年440萬美元。表1顯示了CAIL開發和維護成本的摘要。
表1. CAIL系統成本匯總
為了使DON的AI/ML項目蓬勃發展,并在未來幾十年內實現AI/ML的進步,DON必須確保數據的管理,并使AI/ML的發展能夠被訪問。Team Time Zone提出的CAIL系統解決方案將為AI/ML項目提供一個單一來源的綜合數據環境,以訪問存儲在整個DON各種數據庫中的數據庫目錄。Team Time Zone建議海軍實施CAIL系統,通過確保AI/ML開發者訪問持久和動態的數字數據來支持數字準備。CAIL系統支持DON項目和開發人員的協調方法,以安全訪問數據。該小組建議超配項目(Project Overmatch)考慮這些發現并實施CAIL系統和流程,以確保海軍的數據可用性和質量。該小組開發了一個CAIL標志(見圖2),表明CAIL系統是海軍的一個重要基礎。
圖2:CAIL標志。改編自美國海軍標志。
技術的進步給軍事領域帶來了新的威脅類型和現有威脅的改進版本。對抗性威脅的進步要求海軍改進現有的能力并開發新的能力,以提高防御能力并應對這些威脅。能力的增強需要提高速度、隱身性、機動性、反措施、擴大范圍、更早發現和更大的殺傷力。這些增強的能力使我們能夠在不確定的、復雜的和時間緊迫的條件下做出關鍵決定。現代戰術作戰人員面臨著越來越復雜的決策空間。他們需要獲得對動態戰斗空間的態勢感知,并確定有效的行動方案(COA)以滿足任務需求。圖1強調了造成這種戰術復雜決策空間的因素。決策的復雜性來自于威脅環境,來自于知識的不確定性,來自于戰爭和信息系統本身,來自于作戰人員與自動化系統和信息系統的互動和使用所產生的挑戰,以及任務決策的重要性或后果的嚴重性。
圖1:戰士的復雜決策空間。資料來源:Johnson (2021).
美國國防部(DOD)和海軍部(DON)正在研究使用人工智能(AI)來解決復雜的戰術決策空間,通過改善態勢感知和提供自動決策輔助來支持戰術作戰人員。利用人工智能方法的先進算法可以通過減少信息過載、改善態勢感知、提高決策速度和加強一般的戰術決策來減輕作戰人員的認知負荷。預測分析(PA)可以支持對系統可靠性和故障概率的預測,這為物流提供了廣泛的改進(Zhao和Mata 2020)。諸如PA等技術可以通過開發 "what-if "和 "if-then "情景來加強戰術決策,通過預測決策選擇的長期影響來改善戰士的COA決策(Johnson 2020)。人工智能方法可以通過檢測異常情況和從大量的安全攝像機數據中識別可能的威脅來改善海軍基地的物理安全。
米切爾(2019)將人工智能定義為一個包括許多不同方法的領域,以創造具有智能的機器。圖2顯示,人工智能存在于一套廣泛的自動化方法中,使機器能夠根據命令和規則執行任務。人工智能是使系統能夠執行模仿人類智能的功能的一套方法。機器學習(ML)方法是人工智能方法的一個子集。ML方法允許系統從被訓練的大型數據集上學習。ML系統從訓練的數據集中學習。然后,這些 "訓練有素 "的ML系統在操作上被用來識別模式,并在新的操作數據下產生預測的結果(Johnson 2021)。
圖2:什么是人工智能?資料來源:Johnson (2021)。
人工智能算法是編碼的計算機程序,用于對數據進行分類、分析和得出預測。監控、交通預測和虛擬個人助理是實施ML算法的應用實例。
開發人工智能系統,特別是ML系統,是一項具有挑戰性的工作。ML算法的初始訓練是一個數據密集型的演變。人工智能/ML系統對數據要求很高,其準確性在很大程度上取決于數據訓練集的質量和數量(Godbole 2020)。作為一個參考點,訓練DeepMind的AlphaGo Zero系統學習下圍棋花了大約40天,包括2900萬場比賽(Feldman, Dant, and Massey 2019)。想象一下人工智能/ML武器系統算法所涉及的額外復雜性,它需要考慮戰爭背景(戰爭游戲、冷戰、和平時期)、朋友或敵人、道德和合法性等概念(Feldman, Dant, and Massey 2019)。
隨著美國防部開始開發人工智能和ML方法,出現了獨特的數據挑戰。開發人員需要大量的驗證數據來訓練他們的算法;這些數據需要準確、安全和完整,以確保算法不會被破壞或有偏見。這些數據集必須代表適當的操作環境。對于海軍的應用,訓練數據必須代表眾多的任務,包括海上、空中、太空、水下、沿岸、網絡和陸基領域的任務。盡管許多海軍司令部和實驗室正在研究和開發基于人工智能/ML系統的未來能力,但沒有協調的程序來獲取他們所需的海軍數據。在許多情況下,數據是存在的,但要確定國防部的數據來源并獲得數據是一項耗時和昂貴的工作。
這個頂點項目采用了系統工程分析方法來研究DON AI/ML開發者的數據需求,并確定和評估一個概念性的系統解決方案來解決這個數據挑戰,并最終支持未來DON的數字準備來解決復雜的任務。
DON對研究和開發AI/ML系統的興趣為各種應用帶來了數據挑戰。盡管DON的許多指揮部和實驗室正在研究和開發基于AI/ML系統的未來能力,但沒有一個協調的程序來訪問他們所需的DON數據。AI/ML系統需要大量的驗證數據來支持他們的發展和訓練算法。在許多情況下,數據是存在的,但要確定美國防部的數據來源并獲得數據是一項耗時和昂貴的工作。這個頂點研究了這個問題,并進行了需求分析,以確定DON AI/ML開發人員的數據需求,并開發和評估了解決DON數字準備這方面的解決方案概念。
這個頂點項目的主要目標是分析 DON AI/ML 開發的數據需求,并開發一個概念性的解決方案來解決數據需求。其他目標是
研究AI/ML方法如何在DON任務中應用。
了解數據需求在DON任務中是否有普遍的標準,或者數據需求在DON任務中是否有差異。
制定一套 DON AI/ML利益相關者的要求。
為一個支持DON AI/ML數據需求的系統制定一個概念性設計。
研究實施概念解決方案系統的潛在成本和進度效益。
時區團隊由五個具有不同學術和專業經驗的NPS系統工程學生組成。該團隊由以下人員組成。
Robert French于2016年畢業于Old Dominion大學,獲得了計算機工程和電子工程的學士學位。他目前是位于弗吉尼亞州弗吉尼亞海灘的海軍水面作戰中心Dahlgren分部-Dam Neck附件的特殊傳感器技術部門的R.F.工程師。羅伯特也是美國艦隊司令部海上作戰中心N6(信息系統)的高級入伍領導(USNR)。他曾在現役中擔任電子技術員超過14年,并成為現役預備役軍人達9年之久。
Wallace Fukumae前擁有夏威夷大學的電子工程學位。他目前居住在夏威夷,為海軍太平洋信息戰中心工作,擔任印度-太平洋部門主管。他的經驗包括指揮和控制(C2)系統的開發和交付以及操作。
Kheng Hun目前居住在日本,擁有華盛頓大學的電子工程學位。他目前在海軍信息戰中心(NIWC)太平洋分部工作,擔任位于日本橫須賀的夏威夷西太平洋(HWP)分部的項目工程師。他的專業背景包括設計和安裝各種C4I系統,如電子安全系統(ESS)和網絡系統以及MILCON項目的C4I系統規劃。
Obed Matuga擁有馬里蘭州巴爾的摩市摩根州立大學的工業工程學位,在華盛頓特區的海軍海洋系統司令部工作。與宙斯盾和艦船自衛系統一起工作,目前居住在馬里蘭州。
Caitlyn O’Shaughnessy于2015年畢業于馬薩諸塞大學達特茅斯分校,獲得計算機科學學士學位。她目前是羅德島紐波特的海軍海底作戰中心的CANES(S.S.)項目的首席工程師。
圖3描述了時區團隊(Team Time Zone)的組織結構和每個團隊成員的主要職責。圖中還顯示了NPS的項目顧問,Bonnie Johnson博士(系統工程系)和美國海軍上尉Scot Miller(退役)(信息科學系)。
圖3:團隊時區組織圖
時區團隊采用了系統工程的方法來進行這個項目。圖4說明了該團隊的過程。團隊從需求分析開始,以了解問題并為DON AI/ML開發者定義數據要求。在這個階段,團隊確定了三個DON任務領域作為AI/ML應用的代表性領域。接下來,團隊在功能分析和系統綜合的基礎上,制定了一個名為中央人工智能庫(CAIL)系統的解決方案戰略的概念設計。該小組對CAIL系統進行了建模,并利用DON的三個任務領域來分析實施CAIL系統的效用和潛在的成本/進度效益。該團隊的分析過程涉及幾種分析方法,包括定性調查、定量調查、建模和模擬、數據結構和格式分析、需求分析和操作概念評估。
圖4:頂點項目的方法
首先,該團隊通過進行需求分析和為海軍AI/ML開發人員制定一套數據要求來確定需求的定義。該團隊確定了利益相關者,并與來自不同海軍任務領域的AI/ML開發者會面,以了解他們的數據需求。該小組進行了文獻回顧,以收集背景信息并了解當前的人工智能/ML方法。團隊對來自利益相關者會議和文獻審查的信息進行了匯編,以了解與支持海軍AI/ML應用有關的要求和限制、數據所有者、數據源、數據系統、數據元素和數據屬性。
該小組研究并確定了利益相關者和三個海軍任務主線的獨特數據要求:系統維護、實體安全和戰斗群準備。該小組確定并采訪了任務領域的主題專家(SMEs),以了解獲得AI/ML實施數據的過程,并關注需要從DON系統和組織中收集和存儲哪些數據。圖5說明了海軍的三個任務主線,以及數據、架構、基礎設施和互操作性能力在支持這些作戰人員任務領域方面的直接潛在重要性。
圖5:美國防部任務領域
接下來,團隊根據需求分析結果,制定了一個概念設計方案,以解決海軍對人工智能/ML發展的數據需求。該團隊綜合了CAIL系統,并生成了CAIL操作概念(CONOPS)和CAIL功能模型。基于國防部建筑框架(DODAF)和系統建模語言(SysML),該團隊開發了概念模型,詳細說明了CAIL的系統特征、功能和操作概念。
頂點項目的最后階段是團隊對CAIL解決方案方法的評估和分析。該團隊使用Innoslate(一種基于模型的系統工程工具)開發了一個模型,以表示CAIL系統在三個海軍任務主線中的使用情況。該小組評估了CAIL系統的能力,以簡化和改善收集、格式化、策劃、驗證和確保安全訪問海軍任務數據集的過程,以支持在三個海上任務線領域工作的AI/ML開發人員。對該模型進行了評估,以估計海軍實施CAIL系統的潛在成本和調度效益。CAIL系統模型被用來驗證和確認需求。
第一章提供了項目的介紹和動機,描述了問題陳述、項目目標,以及團隊的組織和完成項目的方法。
第二章總結了團隊的文獻回顧,為需求分析提供了基礎,強調了訓練AI和ML算法所需的數據。文獻回顧包括對數據科學、統計學習、深度學習、分類學以及支持AI和ML系統的企業信息技術解決方案的信息探索。
第三章包含了團隊的需求分析結果。
第四章包含了對團隊的概念性解決方案--CAIL系統的描述。
第五章介紹了團隊對CAIL系統的分析和評估結果,該系統是解決海軍在支持AI/ML發展方面的數據挑戰的解決方案。
最后,第六章討論了擁有CAIL系統的影響和結論以及對后續研究和工作的建議。
在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。
美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。
美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。
集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。
在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。
為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。
在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。
簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。
在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。
圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。
圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。
圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。
MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。
如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。
在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。
敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。
在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。
聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。
本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。
在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。
RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。
在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。
在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。
隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。
在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。
總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。
在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。
學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。
環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。
通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。
有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。
與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。
在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。
由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。
無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。
深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。
DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。
然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。
鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。
Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。
盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。
在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。
另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。
從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。
RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。
MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。
為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?
雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。
與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。
在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。
最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。
對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。
與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。
在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。
由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。
DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。
此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。
記錄一個系統或集成系統內所有信息變化的出處,這提供了關于正在做出的決定和促使這些決定的重要信息。從取證的角度來看,這可以用來重新創建決策環境。然而,出處也可以為其他兩個重要功能服務。收集的數據可以支持組件的整合,而生成的圖形數據結構可以通過解釋、總結和告警來支持操作員進行態勢感知。混合戰爭將必然匯集不同決策支持能力,因為決策者必須在多個戰爭領域運作。自主代理將可能在計劃和執行過程中發揮作用,有時能夠在沒有人類干預的情況下做出決定,但人類決策者必須意識到這一點。事實證明,證據圖可以轉化為修辭結構圖(RSG),使代理能夠用自然語言甚至多模態交流,向人類解釋他們的行動。證據還被證明可以加強對計劃執行監控,并可用于向人類或自主代理提供通知,當計劃中使用的信息發生變化時,可能需要重新考慮計劃。隨著我們朝著智能機器在復雜環境中支持人類決策者團隊的方向發展,跟蹤決策及其輸入的需要變得至關重要。
出處是關于實體、活動、代理以及這些概念之間關系的信息[1]。這些信息不僅僅解釋了發生了什么,它還回答了關于實體如何被操縱、何時發生以及誰參與了這個過程的問題。我們很可能熟悉關于追蹤藝術作品出處的新聞和虛構的故事。任何實體的創造、破壞或修改的出處都可以被追蹤。在本文中,我們將重點討論軍事系統內的信息。在指揮與控制(C2)內,信息出處對于記錄行動背后的決策過程是必要的,特別是當自主和人工智能(AI)代理深入參與時。參與某一過程的 "誰 "可能是人類或人工智能代理。
信息出處有幾個目的。在取證方面,出處追蹤提供了參與決策的人和代理,以及數據是如何演化為該決策的。美國公共政策委員會指出,數據出處是算法透明度和問責制的一個明確原則[2]。完整記錄的出處可以闡明數據的依賴性、責任流,并幫助解釋為什么采取某些行動。隨著人工智能和自主代理繼續自動化進程,它們在做出關鍵決策時已變得更加不可或缺[3]。
美國的空中優勢是美國威懾力的基石,正受到競爭對手的挑戰。機器學習 (ML) 的普及只會加劇這種威脅。應對這一挑戰的一種潛在方法是更有效地使用自動化來實現任務規劃的新方法。
本報告展示了概念驗證人工智能 (AI) 系統的原型,以幫助開發和評估空中領域的新作戰概念。該原型平臺集成了開源深度學習框架、當代算法以及用于模擬、集成和建模的高級框架——美國國防部標準的戰斗模擬工具。目標是利用人工智能系統通過大規模回放學習、從經驗中概括和改進重復的能力,以加速和豐富作戰概念的發展。
在本報告中,作者討論了人工智能智能體在高度簡化的壓制敵方防空任務版本中精心策劃的協作行為。初步研究結果突出了強化學習 (RL) 解決復雜、協作的空中任務規劃問題的潛力,以及這種方法面臨的一些重大挑戰。
RL 可以解決復雜的規劃問題,但仍有局限性,而且這種方法仍然存在挑戰