亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

1. 簡介

心智理論(ToM)和元推理,正如下文所討論的,已經成為人工智能(AI)和人-Agent團隊的關注領域。兩者都有希望通過從人類身上獲取靈感,開發出更強大、更有協作性、甚至更像人類的系統。ToM,通過關注他人的心理狀態(或其計算機類似物),以及元推理,作為對這些心理狀態的一種推理形式。以下兩節概述了心智理論(ToM)和元推理,包括在復雜環境中執行多域作戰的多人/Agent系統的過去和潛在應用。

2. 心智理論

2.1 人類的心智理論

心智理論(ToM)在心理學中描述了人類描繪和推理他人心理狀態的能力(Premack and Woodruff 1978)。這方面的一個標志是識別他人錯誤信念的能力,即一個人使用心智理論來識別世界的狀態與另一個人的信念不一致。Sally-Anne測試(Wimmer和Perner,1983年)是評估這種識別錯誤信念能力的經典任務。在這項任務中,如圖1所示,研究對象觀看了Sally和Anne的一個場景,Sally把一個物品放在一個地方,然后離開。當Sally離開時,Anne將物品移到一個新的地方。當Sally回來時,被問及她將在何處尋找該物品。如果受試者行使了ToM,他們應該認識到Sally的錯誤信念,即物品仍然在原來的位置。否則,他們很可能會表明Sally會在物品的實際移動位置上尋找。

圖1 通過錯誤信念任務評估ToM的Sally-Anne任務描述。(Baron-Cohen et al. 1985)。

像Sally-Anne任務這樣的任務已經被用來表明,在年幼的兒童(Wellman等人,2001年)、自閉癥患者(Baron-Cohen等人,1985年)和非人類動物中,ToM是不準確的或不可用的。然而,非陳述性任務(如Sally-Anne任務中不需要明確的答案,但可以測量,例如,看時間或第一次看場景中的位置)表明,這種類型的推理在較小的年齡,甚至在非人靈長類動物和鳥類中都是可用的(Baillargeon等人,2010;Horschler等人,2020;Hampton 2021)。研究人員還強調了測試中不確定性和互動性的重要性,在研究參與者和推理對象之間有更大的不確定性和知識不對稱的環境中,以及在參與者和推理對象之間有更多互動的測試中,ToM更可能得到鍛煉(Rusch等人,2020)。相反,如果ToM測試不包含足夠的不確定性或知識不對稱,則可能無法在其他環境中確實表現出ToM的參與者身上找到證據,大概是因為它們沒有充分促使參與者考慮另一個人的觀點。

最后,正如Blaha等人(2022)所強調的,那些能夠在測試中表現出ToM證據的人,在現實世界的互動中往往不會有同樣的表現。在一個交流游戲中,Keysar等人(2003)發現,神經正常的成年參與者在得到指導者的指示時,會表現得好像指導者擁有準確的知識,而他們(指導者)卻已知缺乏甚至持有錯誤的信念。同樣,Bryant等人(2013年)在一天中隨機抽樣評估了參與者在什么情況下考慮他人的心理狀態的頻率,他們發現參與者很少考慮心理狀態,在社會交往中比獨處時更少考慮心理狀態,此外,比起其他人,他們更可能考慮自己的心理狀態。這些結果表明,成年人可能會發現社會交往對認知的負擔太重,而無法在即時考慮他人的心理狀態時采用ToM。

2.2 人類心智理論的建模

對ToM進行計算建模通常是為了開發和測試ToM的認知理論,同時也是為了讓我們建立能夠與人類用戶進行更自然和有效的互動的技術。這一領域的許多研究表明,貝葉斯模型可以提供令人印象深刻的ToM近似值(Baker等人,2017年;Csibra,2017年;關于應用貝葉斯推理的博弈論和K級思維方法,也請參見Yoshida等人,2008年和Robalino和Robson,2012年)。

這種貝葉斯推斷通常是通過反強化學習(IRL)進行的。正如Jara-Ettinger(2019)所描述的,"預測其他人的行為是通過模擬具有假設的信念和欲望的RL模型來實現的,而心理狀態推斷則是通過反轉這個模型來實現的"(p. 105),研究發現,"在簡單的二維顯示中,通過貝葉斯推理的IRL在推斷人們的目標[Baker等人,2009]、信念[Baker等人,2017]、欲望[Jern等人,2017]和幫助性[Ullman等人,2009]時產生類似人類的判斷"(p.105)。然而,反向貝葉斯推理需要強大的先驗因素才能成功(Baker等人,2009)。雖然人類似乎也采用了強大的先驗,雖然這些先驗在新情況下可能并不總是很合理的,但它們至少在模型中是相當透明的。

作為IRL的一部分,部分可觀察的馬爾科夫決策過程(POMDPs)已被有效地用于模擬人類的ToM,其中Agent的行動在環境中是可觀察的,但他們的信念和目標必須通過近似理性假設的逆向規劃來推斷。如圖2所示,這種模型已被證明可以提供與人類相媲美的判斷(Baker,2012)。例如,在Baker(2012)的研究中,人類參與者+POMDP模型觀察了一個模擬的Agent在一個簡單的有遮擋的地形上導航,以選擇購買午餐的餐車,然后他們被要求對Agent的目標(即首選餐車)提供判斷。在這種情況下,允許改變目標的模型的判斷結果與人類的判斷密切相關,而且比不允許改變目標或允許目標包括子目標的類似模型更好。這些結果表明,這樣的模型可以人為地接近人類的判斷,甚至可以被人類推理者使用。

圖2 Baker(2012)假設的ToM因果圖,其中觀察到的(灰色)信息影響Agent的(未觀察到的)信念、欲望和最終的行動,并以理性為中介。(圖片經許可改編自Baker [2012]。)

類似的工作已經探索了更復雜的推理環境,例如使用元貝葉斯框架來模擬不同信任度條件下的人類ToM(Diaconescu等人,2014)。參與者玩了一個經濟游戲,他們得到了(真實的、非社會的)概率信息,以幫助他們在二元彩票中做出選擇,他們還得到了一個顧問的(社會的)信息,這個顧問幫助玩家的激勵是不同的。人類的結果最好由一個層次模型來模擬,該模型可以為社會和非社會信息分配不同的權重,并允許根據過去表現的動態估計來推斷顧問不斷變化的目標。雖然這項工作和其他(例如Meinhardt-Injac等人,2018年)工作已經探討了人類使用社會與非社會來源的線索進行推斷,但研究似乎沒有對涉及更多不確定信息來源的ToM以及人類如何優先考慮和納入決策過程進行建模。

這些類型的ToM模型表明,消減模型的部分內容是可能的,而且結果是可以預測的。例如,如果人類在推理他人時使用貝葉斯先驗,并且我們根據經驗更新這些先驗,可能有一些人無法有效地更新先驗。事實上,這可能是精神分裂癥的情況,人們對他人持有特別消極和懷疑的看法,而這些看法并沒有通過積極的互動得到改善。另一方面,自閉癥可能代表了整個ToM機制更普遍的消融(訪問),因為自閉癥患者在ToM的測試中往往表現不佳(TEDx Talks 2014;Prevost等人2015)。

2.3 機器的心智理論

計算性ToM也不是用來直接模擬人類的推理,而是作為一個框架,讓Agent對其他Agent進行推理。此外,這樣的Agent可能更容易解釋,并促使更好的人與Agent的互動。ToM可以讓Agent甚至在遇到其他Agent之前就持有關于他們適當的先驗,更新關于他們的信念,并識別他們的錯誤信念。

這在Rabinowitz等人(2018)中得到了說明,在那里,模型學會了通過根據它們過去的行為預測它們的未來行為來識別不同種類的Agent(例如,一個物種傾向于追求附近的物體而不是遙遠的物體)。值得注意的是,這項工作包括一項假想任務,即一個視力有限的Agent觀察其最終目標物體,當它首先追求一個子目標物體時,該物體在Agent的視線內或視線外概率性地改變位置。觀察到Agent在未觀察到移動時比在觀察到移動時更頻繁地在其原始位置追蹤最終目標對象。這表明,該模型學會了將其對環境的全部知識與Agent的有限知識分開,使其能夠識別Agent的錯誤信念。

2.4 人類和機器之間的心智理論

當人類能夠對機器的 "思想狀態 "做出準確推斷時,很可能會提高信任度和性能。這已經成為可解釋人工智能領域內提高信任和性能的動力(Akula等人,2019)。同樣,隨著機器能夠更準確地推斷出人類的意圖,它們的效用會增加,并進一步獲得信任(Winfield 2018)。

3. 元推理(Metareasoning)

元推理是一個通用的人工智能術語,指的是在計算系統中 "思考問題 "。推理算法被用來做決策,而元推理算法被用來控制推理算法或在一組推理算法中進行選擇,決定在不同情況下應該使用哪種決策方法(Cox and Raja 2011)。元推理的一個經典例子是確定推理算法在特定情況下應該停止還是繼續(例如,Carlin 2012)。

元推理可以被描述為圖3,其中推理發生在目標層,基于應用層的觀察,在目標層做出的決策在應用層被制定。例如,當目標層的算法從傳感器輸入中確定有入侵者存在時,感應式警報可能會在應用層響起(例如,當在10秒內檢測到兩個或多個運動事件時,該算法可能會響起警報)。當來自目標層的信息在元層被觀察和改變時,元推理就發生了。在前面的例子中,如果警報被頻繁觸發,元層的算法可能會調整警報的靈敏度,導致系列問題(例如,這個元層的算法可能會在目標層施加一個新的算法,只有在10秒內檢測到三個或更多的運動事件時才會發出警報)。

圖3 元推理的經典決策-行動循環圖,推理發生在目標層面,以選擇將發生在應用層的行動,而元推理發生在元層面,以控制發生在目標層面的行動。

元推理可以發生在一個單一的Agent中,如圖3所示,也可以發生在一個多Agent系統(MAS)中(圖4)。元推理經常被用于多Agent的環境中,以優化整個系統的性能,而且有許多選項可以選擇如何實現它,對時間和計算能力等資源產生不同的影響。例如,MAS中的Agent可以獨立地執行它們的元推理,并在目標層進行通信,當通信成本高且協調是低優先級時,這可能是一個好的解決方案。當協調更為重要時,獨立進行元推理的Agent可以在元層進行通信,以共同確定它們將如何獨立進行元推理(Langlois等人,2020)。

圖4(上圖)一個MAS系統,每個Agent的元推理都是獨立發生的。(下圖)一個MAS系統,每個Agent的元推理與其他Agent的元推理進行交流和協調。(圖示來自Langlois等人[2020],經許可。)

元推理也可以由獨立的元推理Agent以更集中的方式進行(圖5,頂部)。在通信資源允許的情況下,最好的協調和元推理預計將來自一個集中的元推理Agent(圖5,下)(Langlois等人,2020)。

圖5(上圖)一個有多個獨立的元推理Agent的MAS。(下圖)一個擁有單一集中式元推理Agent的MAS。(圖示來自Langlois等人[2020],經許可。)

系統在其元推理的目標上也有所不同。如本節開篇所述,單Agent元推理通常用于控制算法的停止或切換,并應用于各種領域,包括調度和規劃(如Lin等人,2015)、啟發式搜索(Gu 2021)和目標檢測(如Parashar和Goel 2021)。在MAS中,元推理經常被用來控制系統內的通信和資源,包括控制通信頻率或內容,或分配任務(Herrmann 2020)。

在元推理中的另一個問題是,有多少學習或元推理應該在線上與線下發生。因為在線元推理在時間和計算上可能是昂貴的,所以離線策略通常在不過度損害系統準確性的范圍內被最大化(例如,Carrillo等人,2020)。

廣義上講,ToM是一種元推理的形式,或者說是 "關于思考的思考"。然而,如圖3所述,元推理是通過監測和控制目標層來進行的,而ToM涉及從應用層發生的事情進行推理,而不直接進入目標層(例如,Agent的信念)。

4. 結論

雖然元推理已經被廣泛用于單實體和多實體系統以提高性能,但ToM方法可以說還沒有被作為一種提高人工智能Agent性能的方法進行深入探討。這幾乎可以肯定的是,部分原因是ToM與人類的認知有更緊密的聯系,這對合理的ToM模型有很強的限制,并使研究偏向于人類的應用。此外,ToM本身仍有一些爭議(例如,誰擁有它?它是什么時候獲得的?在什么條件下行使?)但它為創建更透明(如果不是真實的人類)的系統帶來了希望,特別是用多個信息源和不同的出處和確定性進行推理的系統。特別是最近的計算性ToM方法,它使用更簡單的、啟發式的ToM定義(例如,Rabinowitz等人,2018),可能是這個領域創新的最佳來源。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

摘要

本報告涵蓋了與設計評估人類和智能軟件Agent之間通信有關的問題,這些通信是實現協作關系所必需的。為了使人與Agent之間的互動在動態的現實世界中保持穩定,軟件Agent和人類都必須能夠在任務目標方面溝通他們的整體意圖。由于推理過程、能力和知識庫的不同,人類和Agent并不是人類團隊的模擬。我們討論了有效通信所涉及的技術問題,包括相互透明的模型、自然語言處理(NLP)、人工智能(AI)和可解釋的AI。由于缺乏使人類能夠洞察其隊友心理過程的心智理論,Agent很難預測人類的信息需求和未來行動。涉及多個Agent的協作計劃研究和合成共享心智模型的研究被作為嘗試將人類和Agent整合成一個協同單位典范。然而,我們的結論是,在人類和Agent在復雜的、不確定的任務中像人類團隊一樣通信之前,NLP、可解釋人工智能和人類科學的進展將是必要的。

1. 引言

自主系統的前景和問題都將改變未來系統的動態,這不僅體現在自主系統對社會的影響上,也體現在它們與人類的互動上(《經濟學人》2016;Schaefer等人,2017)。人類和自主系統之間的伙伴關系涉及到將人工和人類融合成一個有凝聚力的系統,這種結合意味著所有的優勢和限制(Bradshaw等人,2009;Chen和Barnes,2014)。自主系統的范圍可以從那些獨立的、只由人類偶爾監控的系統到由人類指導的、受到密切監督的系統(Barnes等人,2017)。能夠自主行動并根據新信息更新行動以實現其目標的軟件系統被確定為智能Agent(IA);Russell和Norvig 2009)。在人類與IA的合作關系中,人類和IA共享決策空間的混合倡議能力,但人類擁有最終的權力,在危險的時間有限的情況下,允許靈活性,同時保持人類的責任(Chen和Barnes 2015;Barnes等人2017)。在大多數情況下,不可能先驗地將每個人分配到動態環境中的特定角色,因為他們的角色可以隨著情況的變化而改變。例如,自適應Agent可以在高工作負荷的任務段中掌握決策主動權,而不需要等待操作者的許可,但在正常的操作中會將決策主動權還給操作者(Chen和Barnes 2014)。一些與任務分配有關的規定性規則可以根據任務的優先級預先設定。其他規則可能會根據情況的緊急程度而改變(例如,在時間期限過后自主擊落來襲導彈[Barnes等人,2017;Parasuraman等人,2007])。然而,在動態環境中,溝通、對意圖的理解和共同的態勢感知(SA)是有效協作的必要條件(Barnes等人,2017;Evans等人,2017;Holder,2018;Chen等人,2018)。

隨著IA復雜性的增加,有效通信的必要性也隨之增加。Cooke(2015)認為,高效的團隊合作關系更多的是取決于有效的互動,而不是擁有廣泛的共享知識庫。除了有一個共同的語言框架,每個團隊成員都必須知道什么時候向他們的伙伴推送信息,什么時候要求提供信息。因此,人類和IA不僅要有任務環境的SA,而且要有彼此角色的SA,以便在沒有公開交流的情況下回應伙伴的要求(Scherri等人,2003;Chen等人,2018)。我們討論三個主要的主題。第一個主題是對人-Agent架構的描述,以及為什么它與人-人團隊不同,強調相互透明度的重要性。接下來,我們討論了人類與人工智能(AI)系統通信所涉及的技術問題,包括多模態交互、語言限制、AI的類型以及可解釋AI(XAI)的重要性,以確保相互理解。最后,我們討論了共享意圖的重要性,以促進操作者和人工智能之間信息交互的自然節奏

付費5元查看完整內容

本報告描述了2020財年在美國陸軍作戰能力發展司令部陸軍研究實驗室的主任戰略倡議(DSI)項目《人工智能(AI)用于多域作戰(MDO)的指揮和控制(C2)》下進行的工作。多域作戰的速度和復雜性要求在高度活躍的環境中對近似對手進行高速決策和執行,這往往可能超出人類的認知能力。最近,新興的人工智能技術,如深度強化學習(DRL),在復雜的、相對非結構化的、部分信息的戰略游戲(如Dota 2和StarCraft II)中的表現超過了人類世界冠軍。這表明這種人工智能有可能對MDO的C2做出貢獻。然而,關于這種新的人工智能技術的行為和限制的許多問題仍未得到解答。作為DSI的一部分,我們正在研究DRL是否可以支持未來多域部隊的敏捷和適應性C2,這將使指揮官和工作人員能夠迅速有效地利用轉瞬即逝的優勢窗口。在第一年,我們開發了兩個新的C2測試平臺,并在這些測試平臺上進行了基于DRL的學習。本報告包括項目的概述,并展示了初步的研究成果,其中一個“人造指揮官”在模擬的旅級戰斗中執行了一個綜合規劃-執行過程。

1. 引言

同行對手多域作戰(MDO)的速度和復雜性可能會超過人類指揮員在傳統的、主要是人工指揮和控制(C2)過程中的認知能力。同時,人工智能(AI)技術的新成果,如深度強化學習(DRL),開始顯示出有可能支持多域作戰的指揮與控制。過去兩年的發現表明,基于DRL的算法可以在復雜的、相對非結構化的、部分信息的戰略游戲(如Dota 2和StarCraft II)中勝過人類世界冠軍。通過這些突破,強化學習(RL)已經證明了人工智能在復雜游戲中開發和實施多層策略后控制多個智能體的潛力。未來MDO作戰指揮的特點是在非結構化的任務領域內具有高度的復雜性,這與復雜的游戲模擬環境有一些相似之處。因此,將基于人工智能的方法擴展到軍事領域,可能為提高戰斗指揮能力提供了重要的可能性。

本報告中描述項目的長期意圖并不新鮮。在過去的幾十年里,有許多想法和相應的研究,旨在開發自動化或半自動化的工具,以支持規劃和執行軍事行動的決策。以下是過去在這一領域的一些工作,本報告的一些作者親自參與了這些工作。

美國國防部高級研究計劃局(DARPA)的聯合部隊空中部分指揮官(JFACC)項目在20世紀90年代末進行,為聯合空戰的敏捷管理開發了一些概念和原型。當時考慮的大多數方法涉及各種航空資產的路線和活動的持續實時優化和再優化(隨著情況的不斷變化)。同樣在20世紀90年代中后期,陸軍資助了行動方案開發和評估工具(CADET)項目,該項目探討了經典的分層規劃的潛在效用,該計劃適用于對抗性環境,可以將高水平的戰斗草圖轉化為詳細的同步矩陣--這是理論上的軍事決策過程(MDMP)的關鍵產品。在21世紀初,DARPA啟動了實時對抗性情報和決策(RAID)項目,該項目探索了一些預測敵方作戰規劃的技術,以及動態地提出友好的戰術行動。在所探索的技術方法中,博弈求解算法是最成功的。

2000年代末,DARPA的沖突建模、規劃和結果實驗(COMPOEX)計劃探討了多個領域的作用及其非常復雜的相互作用--除了傳統的動能戰斗,還有政治、經濟和社會影響。該計劃研究了相互關聯的模擬子模型的使用,主要是系統動力學模型,以協助高級軍事和文職領導人在復雜的作戰環境中規劃和執行大規模戰役。非傳統作戰領域如網絡領域的重要性已經得到認可,2010年,北約的一個研究小組研究了評估網絡攻擊任務影響的模擬方法,并強調了網絡、人類和傳統物理領域之間相互作用的強大非線性效應。

在前面提到的研究工作中所采取的所有方法,以及許多其他類似的方法,都有主要的和一些共同的弱點。它們往往需要對問題領域進行嚴格、精確的表述。一旦這樣的表述被構建出來,它們往往能產生有效的結果。然而,一旦有新的元素需要被納入到表述中(例如,一種新的軍事資產類型或一種新的戰術),就需要進行困難的、昂貴的、手工的和長期的努力來“重新連接”問題的表述和微調解決方案的機制。而現實世界呈現出無窮無盡的新元素,必須加以考慮。

在20世紀80年代的基于規則的系統中,隨著越來越多的規則(它們之間的相互作用往往是不可預測的)必須被添加以代表現實世界中錯綜復雜的領域,一個系統將變得不可維護。在基于優化的方法中,同樣地,重要變量和各種約束條件之間無窮無盡的關系必須不斷地手動添加(維護的噩夢),以代表現實世界中復雜的領域。在基于游戲的方法中,由于越來越多的領域的現實情況不得不被手動設計并添加到游戲的表述中,管理每個棋子的合法移動和移動效果的規則將逐漸變得無可救藥地復雜。

簡而言之,這種方法在建立和維護表征方面是高成本的。理想情況下,我們希望看到一個系統能夠直接從真實或模擬世界的經驗中 "學習"(即自我規劃)其問題的制定和解決算法,而不需要任何(或很少)人工規劃。機器學習,特別是RL,正是提供了這樣的希望。這是我們項目背后的一個主要動機。

1.1 軍隊的相關性和問題領域

美國陸軍目前還沒有一個基于人工智能的、部分自主的任務指揮工具,在戰術或作戰層面上以高作戰節奏(OPTEMPO)運作。通常情況下,生死攸關的決定是由少數人在時間限制下利用不完善的信息作出的。目前可供規劃者使用的工具(如高級野戰炮兵戰術數據系統[AFATDS]、藍色部隊追蹤器等)通常僅限于分析戰場地形的基本決策輔助工具和記錄決策的自動化工具。指揮官在向下級提供快速OPTEMPO指導時,會遇到信息過載。戰斗損傷評估(BDA)很慢,而且不能與單位運動/傳感器與射手的聯系同步,也不允許利用優勢窗口。行動方案(CoA)分析主要集中在對友軍計劃的評估上,很少強調對手的目標和能力的復雜性。

隨著空間、網絡電磁活動(CEMA)和機器人資產的加入,MDO成倍地增加了C2的復雜性,這可能會使OPTEMPO比過去更高。此外,人類指揮官使用目前可用的決策輔助工具來提供高度詳細的指令將是難以解決的。有可靠的報告稱,美國的同行和近鄰競爭對手,特別是中國,正在大力追求人工智能在軍事上的應用,包括指揮決策和軍事推演(即兵棋推演)。因此,在追求人工智能C2系統的過程中,存在著很大的失敗風險,只有不斷地朝著這個目標前進,不斷地努力實現一個能夠在MDO中執行C2的人工智能系統,才能克服這個風險。

1.2 長期目標

到2035年,我們設想需要開發敏捷和適應性強的人工智能C2系統,用于復雜、高OPTEMPO、超活躍的MDO中的作戰規劃和決策支持。這些系統將不斷整合未來戰爭的幾個領域。設想中的系統將能夠分析敵人的活動;不斷地規劃、準備、執行和評估戰役,通過不斷地感知、識別和快速利用新出現的優勢窗口,使軍隊的能力得到快速反應。這些優勢窗口將在不同梯隊的MDO框架內的行動中出現,但識別和利用它們需要較少地依賴刻意的規劃周期,而更多地依賴持續、綜合的規劃能力。啟用人工智能的C2系統有可能在不同的梯隊、領域和多個同時運作的資產之間快速同步采取多種行動,以利用優勢窗口。部隊將主要由機器人資產(地面、空中)組成,人工智能C2系統將收集和處理來自智能傳感器和平臺的數據,評估作戰環境中的新趨勢,并建議采取減少認知負擔的行動,使人類指揮官能夠快速有效地采取行動。啟用人工智能的流程還將提供定量分析、預測分析和其他可供人類有效使用的突出數據。這最終將使美國陸軍有能力在武裝沖突期間,根據對敵人弱點的理解和詳細的友軍估計,重新分配、重組和使用能力,并將產生具體、詳細的指令來控制自主資產。

DEVCOM陸軍研究實驗室在機器人學、自主性、人工智能和機器學習方面有積極的研究計劃。本報告的作者領導了政府、學術界和工業界合作伙伴之間的大型合作機器人研究工作的研究和整合活動,在場景理解、人類與人工智能的合作、RL、多智能體強化學習和多智能體協作系統方面進行了開拓性的研究。此外,ARL還擁有廣泛的基礎設施來進行上述領域的研究。這包括用于機器人研究的地面和空中平臺;用于場景驅動研究的機器人研究合作園區(R2C2),能夠承載實時的、可擴展的、多領域的實驗;旨在支持人工智能和機器學習應用的新興要求的集裝箱式超級計算機;這只是其中的幾個例子。我們相信,這些專業知識和資源可以被用來建立一個成功的計劃,將人工智能納入C2應用。

1.3 DSI的目標

ARL主任戰略倡議(DSI)計劃是一個跨學科基礎和應用研究的機制,成功的提案可以跨越科學和技術學科的界限。該計劃確定了代表戰略研究機會的主題領域,對陸軍任務具有非常高的潛在回報,以擴大現有的計劃或建立新的核心能力,并在這些領域建立內部的專業知識。

作為20財政年度授予的 "用于MDO C2的人工智能 "DSI項目的一部分,我們探索基于DRL的算法在多大程度上可用于估計紅方部隊的狀態,評估紅方和藍方的戰斗損失(損耗),預測紅方的戰略和即將展開的行動,并根據所有這些信息制定藍方計劃。這種方法有可能為藍方部隊產生新的計劃,利用潛在的機會窗口,其速度比專家規劃者快得多。最近,DRL在非結構化戰略游戲中的成功提供了重要的暗示性證據,表明人工智能方法可能能夠基本上 "從零開始 "發現適當的戰術概念,并以高于人類的速度選擇、應用和執行戰略。

在這個DSI中,我們探索使用DRL在戰斗行動前制定詳細的計劃,并在執行正在進行的行動中生成實時計劃和建議。我們計劃在兩個關鍵領域推動技術水平的發展:1)構思、設計和實施基于DRL的智能體,以生成與專家計劃員生成的計劃一樣好或更好的計劃;2)將人類納入指揮和學習回路,并評估這些人工智能-人類(人在回路中)的解決方案。在為這種人工智能支持的C2開發途徑的同時,需要回答幾個研究問題。在這個DSI中,我們試圖回答三個具體問題:

  • DRL C2智能體的訓練和數據要求是什么,以便準確和足夠快地學習?

  • 我們如何才能使DRL智能體具有通用性,以便根據人類專家的判斷,特別是在以前未曾見過的細節被引入到一個情況中時,它們能夠合理地執行?

  • 在人工智能支持的C2系統中,人類的干預有什么影響?

該項目第一年的重點是開發研究的基本構件,包括:1)通過調整和使用基于《星際爭霸II》和OpSim的環境來開發模擬能力和高級界面;2)開發執行C2功能的初始端到端人工智能;3)通過與高性能計算(HPC)環境整合來開發計算能力;4)初步確定數據量和訓練要求。本報告提供了這些任務中每個任務的細節。

2. 實驗能力

作為該項目的一部分,我們開發了C2模擬和實驗能力,包括與基于DRL的人工智能算法和國防部高性能計算系統上的可擴展RL的接口的模擬戰斗空間(圖1)。我們使用兩種模擬環境來生成C2場景:星際爭霸II學習環境(SC2LE)29和OpSim。虎爪,一個由卓越機動中心(Fort Benning,Georgia)開發的場景,在模擬環境中生成了真實的戰斗環境。最后,我們使用RLlib31,一個為RL提供可擴展軟件基元的庫,在HPC系統上擴展學習。

圖1 C2基礎設施概述

2.1 虎爪行動

虎爪行動(Tiger Claw)是一個預定義的戰斗場景,由紅軍和藍軍組成,由喬治亞州本寧堡的上尉職業課程的軍事主題專家(SME)開發。這個假想場景顯示特遣部隊(1-12 CAV)在區域內進攻,以奪取OBJ Lion,以便將師的決定性行動(DO)向東傳遞。特遣部隊的目標是穿越Thar Thar Wadi,摧毀紅色部隊,并奪取OBJ Lion(圖2)。特遣部隊包括使用M1A2艾布拉姆斯的戰斗裝甲,使用布拉德利的步兵戰車,野戰炮和迫擊炮,使用布拉德利的裝甲偵察騎兵,戰斗航空兵,防空兵和無人駕駛飛機。紅軍由裝備BMP-2M的機械化步兵、裝備T-90坦克的戰斗裝甲、野戰榴彈炮、裝備BMP-2M的裝甲偵察騎兵、戰斗航空兵、反裝甲兵和戰斗步兵組成。虎爪方案還包括由中小型軍事專家制定的藍軍和紅軍的可能計劃。這些計劃是根據作戰命令(OPORD)和相應的威脅戰術,使用理論上的力量部署產生的。虎爪方案已被納入OpSim和《星際爭霸II》,并作為一個基準基線,用于比較不同的神經網絡架構和獎勵驅動屬性。

圖2 TF 1-12 CAV在《虎爪》中的作戰區域(AO)。

2.2 《星際爭霸II》模擬環境

星際爭霸II》是一個復雜的實時戰略游戲,玩家要在高水平的經濟決策和低水平的個人控制可能的數百個單位之間取得平衡,以壓倒和擊敗對手的部隊。星際爭霸II》對人工智能有許多困難的挑戰,使它成為MDO中C2的一個合適的模擬環境。例如,游戲有復雜的狀態和行動空間,可以持續數萬個時間步驟,實時選擇數千個行動,并由于游戲的部分可觀察性或 "戰爭迷霧 "而捕捉到不確定性。此外,該游戲具有可用于MDO模擬的異質資產、固有的C2架構、嵌入式軍事(動能)目標,以及與更強大的模擬(例如,One Semi-Automated Force [OneSAF])相比,實施/修改的學習曲線較淺。DeepMind的SC2LE框架將暴雪娛樂公司的《星際爭霸II》機器學習應用編程接口暴露為RL環境。這個工具提供了對《星際爭霸II》和相關地圖編輯器的訪問,以及RL智能體與《星際爭霸II》互動的接口,獲得觀察和發送行動。

作為DSI的一部分,一個SC2LE地圖是根據Tiger Claw OPORD和支持文件開發的(圖3)。通過重新繪制圖標以納入2525B軍事符號和與虎爪計劃相關的單位參數(武器、范圍、比例),游戲被軍事化。內部評分系統被重新使用,以計算RL的獎勵函數,其中包括任務目標的收斂(穿越瓦迪),藍色損耗的最小化,以及紅色損耗的最大化。

圖3 《星際爭霸II》中的虎爪地圖

2.2.1 《星際爭霸II》編輯器

虎爪劇情是在《星際爭霸II》中使用其編輯器重新創建的。這個編輯器包含在暴雪娛樂公司免費下載的《星際爭霸II》中,它有許多創建自定義內容的功能。掌握這些功能的一個很好的資源是專門用于編輯器的在線社區論壇。在下面的章節中,將詳細討論使用編輯器開發地圖、單位和獎勵的問題。

2.2.1.1 《星際爭霸II》地圖開發

我們使用《星際爭霸II》編輯器為《虎爪》場景創建了一個新的近戰地圖。地圖的大小是編輯器中最大的(256乘256),使用《星際爭霸II》的坐標系統。荒地瓷磚組被用作地圖的默認表面,因為它在視覺上類似于《虎爪》中AO的沙漠地區(圖4)。

圖4 《星際爭霸II》編輯器中的初始虎爪地圖

在最初的設置之后,我們使用地形工具修改地圖,使其大致接近AO的情況。關鍵的地形特征是無法通行的瓦迪,其交叉點有限。

距離縮放是創建場景的一個重要因素。在最初的地圖中,我們使用已知的地標之間的距離,將《星際爭霸II》的距離,使用其內部坐標系統,轉換為公里數。這種轉換對于在單位修改期間調整武器射程非常重要(圖5)。

圖5 修改后的《星際爭霸II》編輯地圖

最初的實驗使用《星際爭霸II》來可視化模擬復制品。這些回放的游戲感成為一個明顯的干擾因素。為了補救這個問題,我們希望采用其他的可視化方法,特別是ARL開發的混合現實環境Aurora。新的可視化方法使用AO的地理地圖。因此,有必要修改《星際爭霸II》的地圖,以便與AO的經緯度相一致。在修改后的地圖中,距離比例是通過將《星際爭霸II》的坐標轉換為經緯度來確定的。

2.2.1.2 《星際爭霸II》單位修改

為了模擬 "虎爪 "場景,我們選擇了與軍事單位能力相近的《星際爭霸II》單位。我們復制了《星際爭霸II》中的單位,并在編輯器中修改了它們的屬性以支持該場景。

首先,我們修改了這些單位的外觀,并用適當的MIL-STD-2525符號代替(表1)。在《星際爭霸II》中,每個單位都與多個角色相關聯,這些角色控制著該單位在游戲中的外觀。我們能夠將演員與他們的默認效果圖解開,有效地使這些單位不可見。接下來,我們將所需的軍事符號的圖像導入編輯器。最后,我們使用了SCMapster.com上發布的 "rr Sprite Engine"(LGPL 2.1許可)庫,將這些單位與它們的軍事符號聯系起來。

表1 虎爪部隊與《星際爭霸II》部隊的映射關系

為該場景修改的其他屬性包括武器射程、武器傷害、單位速度和單位壽命(它能承受多少傷害)。武器射程是從公開資料中發現的,并根據地圖的尺寸進行縮放。單位速度在《虎爪行動指令》中確定,并固定在該值上。傷害和生命的屬性是估算出來的,其指導原則是保持平衡的沖突。每個《星際爭霸II》單位通常只有一種武器,這使得模擬一個連級單位可用的各種武器具有挑戰性。額外的努力來提高單位修改的準確性,需要戰爭游戲的主題專家。

修改后的部隊被放置在地圖上,以接近虎爪的場景(圖6)。在實驗過程中,藍色部隊將由一個使用PySC2(DeepMind的SC2LE的Python組件)開發的智能學習智能體控制。此外,藍軍部隊被修改為沒有天生的攻擊性。換句話說,他們不會參與進攻或防守,除非有智能體的特別命令。為了控制紅色部隊,我們使用了兩種不同的策略。第一種策略是為紅色部隊的行動加入一個腳本化的CoA,在每次模擬中都會執行。該部隊默認的攻擊性屬性控制它如何與藍方交戰。第二種策略是讓《星際爭霸II》的機器人AI控制紅方部隊執行全面攻擊,或在編輯器中稱為自殺。內置的《星際爭霸II》機器人有幾個難度級別(1-10),這決定了機器人的熟練程度,其中1級是一個相當初級的機器人,可以很容易地被擊敗,10級是一個非常復雜的機器人,使用玩家無法獲得的信息(即一個作弊的機器人)。最后,環境因素,如戰爭迷霧,在不同的實驗中被切換,以調查其影響。

圖6 使用MILSTD2525符號的星際爭霸II

2.2.1.3 星際爭霸II的獎勵實現

獎勵功能是RL的一個重要組成部分,它通過對每種情況給予積極或消極的獎勵來控制智能體人對環境變化的反應。我們在SC2LE中加入了虎爪場景的獎勵功能,我們的實現超越了SC2LE內部的評分系統。原來的計分系統根據玩家的單位和結構的資源價值進行獎勵。我們的新計分系統只關注游戲的軍事方面,即獲得和占領新的領土,以及摧毀敵人。

我們的獎勵功能為藍軍越過瓦迪(河流)提供+10分,為撤退提供-10分。此外,我們還對摧毀紅軍部隊給予+10分,如果藍軍部隊被摧毀則給予-10分。

為了實現獎勵功能,首先需要使用SC2LE編輯器來定義地圖的各個區域和目標。區域是由用戶定義的區域,它被觸發器所利用(圖7)。

圖7 《星際爭霸II》中的區域和目標

觸發器是創建一套指令的模板,允許用戶將與特定事件相關的效果編入模擬中(圖8)。一般來說,一個觸發器由以下部分組成。

  • 事件。啟動觸發器(例如,一個單位進入一個區域)。

  • 變量。存儲信息。(例如,BlueForceScore,藍軍的得分)。

  • 條件。對行動的限制,需要在行動發生時為真。(例如,單位是藍色部隊的成員)。

  • 行動。事件的結果或成果(例如,單位獲得積分)。

圖8 《星際爭霸II》中虎爪場景的觸發實例

作為未來工作的一部分,我們計劃根據指揮官在虎爪警告令(WARNORD)中的意圖所定義的具體團隊目標來納入額外的獎勵。獎勵功能將試圖訓練智能體維持單位作為團隊,作為團隊一起參與預定目標,并創造對軍事主題專家來說合理的最佳行為。

2.3 OpSim模擬環境

OpSim是由科爾工程服務公司(CESI)開發的決策支持工具,提供計劃支持、任務執行監控、任務演練、嵌入式訓練以及任務執行監控和重新計劃。OpSim與SitaWare指揮、控制、通信、計算機和情報(C4I)集成,后者是由項目執行辦公室指揮控制通信-戰術(PEOC3T)投入使用的指揮所計算環境(CPCE)的重要組成部分,使各級指揮部門能夠共享態勢感知并協調作戰行動,從而使其成為直接與作戰任務指揮相連的嵌入式模擬。它從根本上被構造成一個基于可擴展的面向服務架構(SOA)的模擬,能夠比目前最先進的模擬環境如OneSAF和MAGTF戰術戰爭模擬器(MTWS)運行得更快。傳統的建設性模擬最多運行1-20次墻鐘時間,而OpSim可以運行30次虎爪的復制--如果實時連續運行,需要240小時。OpSim中模擬計劃的輸出包括根據彈藥支出、傷亡、設備損失、燃料使用等標準對藍軍計劃進行綜合排名。然而,OpSim工具并不是為人工智能應用而設計的,必須通過整合接口來運行基于DRL的算法。開發了一個OpenAI Gym接口,以暴露模擬狀態,并向外部智能體提供模擬控制,能夠為模擬中的選定實體提供改變的行動,以及在回應接口之前的模擬時間。

2.4 使用OpenAI Gym和RLlib接口的深度強化學習

強化學習可以被形式化為一個馬爾科夫決策過程,由一組行動、一個過渡概率函數、一個獎勵信號和一個環境狀態組成。32 在RL中,目標是找到一個最佳行動,使預期的、累積的折現獎勵之和最大化。將深度神經網絡與RL結合起來,DRL將深度神經網絡架構與RL框架結合起來,以接近環境中各狀態的最佳行動。DRL的設計包括以下部分:狀態空間(環境狀態表示)、行動空間(行動集)、獎勵信號和一個深度神經網絡。

對于環境狀態的訪問,RL框架使用類似OpenAI Gym的接口與OpSim和StarCraft II模擬器,為RL提供環境的抽象(圖9)。OpenAI Gym是一個開源的軟件包,為RL的開發和測試提供了一個具有通用接口的環境集合。OpenAI Gym專注于RL環境的抽象化,從而保持智能體開發的靈活性。兩種模擬環境中使用的具體行動、狀態空間和獎勵信號將在后續章節中詳細討論。

圖9 使用OpenAI Gym與OpSim和StarCraft II模擬器的RL框架

DRL需要智能體與環境互動的許多情節來收集經驗,一個標準的方法是通過平行數據收集來擴展。在這個項目中,HPC被用來擴展DRL算法,以支持智能體群體從成千上萬的平行實例中學習,以解決C2的行動空間復雜性。ARL的FOB系統最初用于分布式訓練,然后被移植到國防部超級計算資源中心(DSRC)的最新SCOUT系統。FOB系統是一個由64個節點組成的實驗性異構集群,每個節點有一個英特爾8核至強CPU和64GB的內存。SCOUT是位于ARL DSRC的一個非保密的HPC-in-a-container系統,有22個訓練節點和128個推理節點。SCOUT的每個計算節點都配備了IBM Power9 40核處理器,推理節點有256GB內存,訓練節點有700GB內存。

同時,RLlib,一個由加州大學伯克利分校RISELab開發的可擴展RL框架的開源庫,被用于執行分布式學習。RLlib提供了一個與框架無關的機制,以便在OpSim和StarCraft II上有效地擴展DRL神經網絡架構的訓練。該框架部署在HPC系統上,以展示RLlib算法在系統的多個節點上的擴展性,并提供可定制的神經網絡模型和模擬環境的靈活性。

3. 結果和討論

利用第2節所述的基礎設施,我們為《星際爭霸II》和OpSim環境開發了一個端到端的DRL框架,并進行了初步實驗。在這一節中,我們將描述網絡架構、實現和一些初步的實驗結果。

3.1 使用《星際爭霸》的深度強化學習

我們使用第2.2節中描述的戰術版《星際爭霸II》訓練了一個多輸入和多輸出的深度強化神經網絡。我們使用了異步優勢演員批判(A3C)算法,這是一種由多層卷積網組成的狀態輸入處理方法,長短期記憶(LSTM)遞歸層給網絡增加了記憶。

3.1.1 異步優勢演員批判結構

在《星際爭霸II》中,狀態空間由7個大小為64x64的迷你地圖特征層和13個大小為64x64的屏幕特征層地圖組成,總共有20個64x64的二維圖像(圖9的左側面板)。此外,它還包括13個非空間特征,包含玩家資源和建造隊列等信息。這些游戲特征是用輸入處理管道來處理的,如圖10所示。星際爭霸II》中的動作是函數形式的復合動作,需要參數和關于該動作要在屏幕上發生的位置的說明。例如,像 "攻擊 "這樣的動作被表示為一個函數,需要屏幕上的X-Y攻擊位置。行動空間由行動標識符(即運行哪個行動)和兩個空間行動(x和y)組成,這兩個空間行動被表示為兩個長度為64個實值項的向量,在0和1之間。 表2劃分了觀察空間、行動空間和《星際爭霸II》模擬的獎勵。

圖10提供了星際爭霸II任務中相互嵌入模型和A3C智能體的狀態輸入處理管道的概述。星際爭霸II提供了三個主要的狀態信息流:小地圖層、屏幕層和非空間特征(如資源、可用行動和建造隊列)。小地圖和屏幕特征由相同的兩層卷積神經網絡(CNN)處理(頂部兩行),以便分別提取地圖的全局和局部狀態的視覺特征表示。非空間特征通過一個具有非線性激活的全連接層進行處理。然后,這三個輸出被連接起來,形成智能體的完整狀態空間表示,以及基于狀態的相互嵌入模型的部分。

圖10 《星際爭霸II》的狀態輸入處理

表2 《星際爭霸II》模擬的觀察空間、行動空間和獎勵

A3C是優勢行動者-批評算法的分布式版本,其中創建了行動者的多個平行副本,以同時執行行動和收集經驗。讓多個行為體收集經驗可以提高探索效率,從而改善學習。我們使用的A3C智能體的結構類似于Mnih等人的Atari-net智能體,它是一個從Atari改編的A3C智能體,在SC2LE狀態和行動空間上運行。我們對這個智能體做了一點修改,增加了一個LSTM層,因為Mnih等人的研究表明,增加模型的內存可以提高性能。我們的A3C智能體的結構如圖11所示。

圖11 A3C智能體的結構。這里顯示的是一個完整的RL智能體及其與《星際爭霸II》的連接示意圖。作為典型的政策性智能體,這里的A3C智能體(綠色)從任務環境中獲取狀態和獎勵信息,并使用這些信息來計算下一個時間步驟的行動,以及計算梯度來增加獎勵最大化。

3.1.2 實驗和結果

我們用20個并行的演員學習者來訓練A3C模型,使用了8000個模擬的《星際爭霸II》機器人的戰斗,操作由DeepMind開發的手工制作的規則。如果BLUEFOR穿過瓦迪或OPFOR排被摧毀,則提供+10的正強化,如果BLUEFOR被摧毀則提供-10的負強化。

我們在《星際爭霸II》的 "虎爪 "場景中對訓練好的A3C模型進行了100次的測試。這些模型與具有隨機行動的隨機基線以及人類玩家與《星際爭霸II》機器人進行的10場模擬戰斗進行了比較。圖12中提供了收集到的指標的匯總圖,包括總的情節獎勵和藍軍的傷亡人數。我們看到,與人類玩家相比,人工智能指揮官不僅取得了相當的表現,而且在任務中表現得稍好,同時還減少了藍軍的傷亡。

圖12 與人類和隨機智能體基線相比,訓練有素的人工智能指揮官(A3C智能體)的總獎勵和BLUEFOR傷亡情況。人工智能指揮官能夠實現與人類基線相當(略好)的獎勵,同時減少藍軍的傷亡。

3.2 使用OpSim的深度強化學習

為OpSim模擬環境開發了兩種類型的指揮官。第一種是基于專家設計的規則引擎,由喬治亞州本寧堡的軍事主題專家使用理論規則開發。第二種是DRL訓練的神經網絡,采用A2C算法訓練的多輸入多輸出的LSTM神經網絡。A2C與A3C類似,但沒有異步部分。OpSim的RL界面支持多智能體訓練,每個部隊可以是基于規則的,也可以是人工智能指揮官。

政策網絡首先在FOB的15個節點上進行訓練,75個平行工作者收集了482k次模擬戰斗,耗時36小時。此外,在SCOUT系統上應用和訓練了局部切面位置和無目標獎勵更新。有了更新的觀察和獎勵,39個平行工作者收集了175k次戰斗經驗,花了37小時。

觀察空間由17個特征向量組成,其中觀察空間是基于每個實體的設備傳感器的部分觀察。與S2CLE不同,OpSim目前不使用圖像輸入或屏幕圖像的空間特征。行動空間主要包括簡單的運動和交戰攻擊(表3)。

表3 OpSim模擬的觀察空間、行動空間和獎賞

3.2.1 實驗和結果

訓練好的模型用100個推出的模擬結果進行評估,在檢查站使用凍結政策,BLUFOR的平均獎勵最高。在SCOUT上,4510號檢查站的BLUFOR政策平均獎勵達到了200,OPFOR政策平均獎勵達到了-322的滾動平均值。對100次滾動的分析表明,經過DRL訓練的BLUFOR智能體將損失從4左右降至0.5,而增加了OPFOR的損失(圖13)。這一結果是通過采用僅使用戰斗裝甲連和戰斗步兵連進行交戰的策略達到的。它學會了利用BLUFOR最致命的部隊與Abrams和Bradleys的策略,同時保護脆弱的資產不與OPFOR交戰(圖14)。

圖13 主題專家和人工智能指揮員之間的實體損失比較

圖14 一次推廣的開始和結束的快照

4. 結論

作為DSI的一部分,為C2的DRL開發了兩個新型測試平臺。基于StarCraft II和OpSim。使用這些最先進的測試平臺開發了端到端的DRL方法。該基礎設施被移植到國防部的HPC系統中,以擴大訓練的規模,進行平行數據收集。

初步實驗結果顯示,初步觀察到DRL在沒有預編碼知識的情況下實現了有效和合理的C2,基于DRL的 "人工指揮官 "可以在模擬的旅級戰斗中執行綜合規劃-執行過程。一些結果,特別是在《星際爭霸II》的環境中,表明人工智能采取的策略與有能力的人類玩家的策略相當。它還表明,計算資源并不是人工智能在C2中的障礙;我們看到使用HPC系統學習的速度足夠快,在37小時內就能收斂。總之,DSI的第一年提供了充分的證據,表明基于學習的人工智能有可能被用作未來軍事行動C2的關鍵技術。

付費5元查看完整內容

本報告介紹了人工智能(AI)算法及其在人機交互(HRI)背景下的聽覺應用。為聽覺感知選擇的人工智能算法最終會對計算的透明度、系統行為的可解釋性以及最終的HRI的質量產生影響。應用于聽覺感知的人工智能算法包括由軟件系統感知和處理的聲音,以及由軟件系統發出的、旨在被人類聽眾識別的語音。一些主要的人工智能算法類別,特別是神經網絡、深度學習、隱馬爾科夫模型和混合模型,將在機器的語音處理方面進行審查。此外,每一類算法對透明度和HRI的影響也將被討論。最近在人工智能算法開發方面的工作表明,混合模型可能是語音處理的最佳方法,因為它們被推薦用于復雜的數據處理和決策。混合模型融合了各種方法,以最大限度地提高效益,同時盡量減少多種技術的局限性。報告的最后一節中包括了一系列的一般性建議。

付費5元查看完整內容

這篇評論針對人工智能系統提出了 "什么是好的解釋 "的問題。報告概括了計算機科學努力創建解釋和指導系統的歷史,現代人工智能中的可解釋問題和挑戰,以及主要的解釋心理學理論。對XAI系統進行評估的方法指導強調了全局和局部解釋之間的差異,需要評估人機工作系統的性能,以及需要認識到實驗程序默示地將自我解釋的負擔強加給用戶。涉及人與人工智能互動和共同適應的任務,如錯誤或oddball檢測,為XAI評估帶來希望,因為它們也符合 "解釋即探索"和解釋即共同適應的對話過程的概念。涉及預測人工智能的決定的任務,結合實驗后的訪談,為研究XAI背景下的心理模型帶來了希望。

總結

這是一篇綜合評論,討論了 "什么才是好的解釋?"這個問題,并提到了人工智能系統。相關的文獻資料非常多。因此,這篇評論必然是有選擇性的。盡管如此,大部分的關鍵概念和問題都在本報告中有所闡述。該報告概括了計算機科學努力創建解釋和指導系統(智能輔導系統和專家系統)的歷史。報告表達了現代人工智能中的可解釋性問題和挑戰,并提出了解釋的主要心理學理論的囊括觀點。某些文章由于與XAI特別相關而脫穎而出,它們的方法、結果和關鍵點被強調。

建議鼓勵AI/XAI研究人員在他們的研究報告中,以實驗心理學研究報告的方式,更全面地介紹他們的經驗或實驗方法:關于參與者、指示、程序、任務、自變量(措施和度量的操作定義)、獨立變量(條件)和控制條件的細節。

在本報告審查的論文中,人們可以找到評估XAI系統的方法論指導。但報告強調了一些值得注意的考慮。全局解釋和局部解釋之間的差異,需要評估人機工作系統的表現(而不僅僅是人工智能的表現或用戶的表現),需要認識到實驗程序默許了用戶自我解釋的負擔。

糾正性/對比性用戶任務支持自我解釋或解釋即探索。涉及人類與人工智能互動和共同適應的任務,如錯誤或oddball檢測,為XAI評估帶來了希望,因為它們也符合 "解釋-探索 "和解釋是共同適應的對話過程的概念。涉及預測人工智能的決定的任務,結合實驗后的訪談,為研究XAI背景下的心理模型帶來了希望。

序言

本報告是對之前關于DARPA XAI項目的報告的擴展,該報告的標題是 "可解釋人工智能關鍵思想的文獻回顧和整合",日期是2018年2月。這個新版本整合了已經發現的近200個額外的參考文獻。本報告包括一個新的部分,題為 "對XAI系統的人類評價的審查"。這一節重點介紹了人機人工智能或XAI系統經歷了某種實證評估的項目報告--其中許多是最近的。這個新部分與DARPA XAI項目的經驗和實驗活動特別相關。

本材料基于空軍研究實驗室(AFRL)根據協議號FA8650- 17-2-7711贊助的研究。美國政府被授權為政府目的復制和分發重印本,盡管上面有任何版權說明。

付費5元查看完整內容

在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。

1 引言

美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。

美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。

集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。

在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。

為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。

在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。

2. 多域作戰中多智能體系統的戰略機動

簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。

在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。

圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。

圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。

圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。

MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。

如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。

在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。

敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。

在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。

聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。

本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。

3 挑戰

在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。

RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。

在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。

在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。

隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。

在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。

總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。

在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。

4. RL技術和方法

學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。

環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。

通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。

有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。

與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。

在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。

由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。

無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。

4.1 深度Q網絡(DQN)

深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。

DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。

然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。

鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。

Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。

盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。

4.2 深度確定性策略梯度(DDPG)

在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。

另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。

從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。

4.3 多智能體深度確定性策略梯度(MADDPG)

RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。

MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。

為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?

雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。

與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。

在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。

4.4 價值為本

最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。

對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。

與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。

在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。

5. 洞察力和結論

由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。

DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。

此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。

付費5元查看完整內容

本報告由來自美國陸軍研究實驗室、美國國防情報局、美國國家地理空間情報局(NGA)、英國國防部國防科學技術實驗室(Dstl)、加拿大國防研究與發展部、德國弗勞恩霍夫FKIE研究所等多個單位聯合撰寫。介紹了北約信息系統技術(IST)探索小組111(ET-111)的調查結果。成立ET-111是為了在北約各國之間分享對知識表示和推理(KRR)現狀的理解,以了解技術現狀并考慮未來的合作活動是否有益。

為了支持高水平的數據融合,當下有一個基礎性的需求,即信息和知識要能被人類和機器理解。知識表示是將知識以計算機可操作的形式表達出來,以便對其進行利用。這樣做的一個關鍵原因是,知識可以被推理。基于知識的系統也可能被稱為符號人工智能和基于規則的人工智能,并且在過去50多年里一直是一個活躍的研究領域。因此,它可能被一些人認為是 "老派 "的人工智能,與近年來日益突出的基于算法和機器學習的人工智能方法不同(眾所周知,后者存在可解釋性和概括性問題)。在 "大數據 "時代,知識表示和推理為利用靈活、可解釋和基于人類知識的數據提供了一個途徑。

這篇綜述的第一個目的是為知識表示和推理領域提供一個技術介紹。為讀者提供關鍵概念的知識--以培養理解力--將使人們能夠欣賞到知識系統的能力。第二個目的是通過實例,提供對創建知識系統過程的掌握,以及如何在軍事背景下使用這種系統來解決現實世界問題。對知識系統最適用的現實世界問題的理解,有助于成功實施KRR并將其與北約系統和理論相結合

在這份報告中,我們首先討論了北約成員國面臨的一些挑戰,以及北約的知識表示和推理可能會對這些領域產生的影響。然后,我們對知識表示、知識工程和推理方法的技術方面做了一個總結。我們討論了知識表示的具體例子,如MIP信息模型(MIM)、富事件本體(REO)、OPIS和國防情報核心本體(DICO)。我們還描述了WISDOM研發平臺和智能態勢感知(INSANE)框架,作為使用知識表示來支持感知的例子

隨后,我們回顧了更廣泛的研究,包括文本分析如何支持從報告和其他來源的文本中提取知識,關于因果關系的工作以及推理系統中的可解釋性和信任問題。

最后,我們總結了報告的結論和對北約聯盟的影響,提出了進一步工作的主要建議:

  • 建議1--北約科技組織應贊助一項技術活動,以展示符號和亞符號方法的互補使用及其對改善決策的益處。

  • 建議2--北約科技組織應贊助一個虛擬系列講座/研討會,以提高北約科學和業務部門對KRR技術的認識,從而為該領域的進一步技能發展提供催化作用。

  • 建議3--北約科技組織應贊助一個專門的探索小組,考慮因果模型的具體興趣,以及它在基于知識的系統中的應用,作為未來在諸如建議1活動下進行實際演示的先導。

報告目錄

  • 第1章 - 導言
    • 1.1 "戰爭"中的信息
    • 1.2 理解和信息融合
    • 1.3 知識表示和推理的作用
    • 1.4 IST-ET-111的宗旨和目標
    • 1.5 本報告的方法和結構
    • 1.6 參考文獻
  • 第2章 - 知識表示和推理的核心概念
    • 2.1 引言
    • 2.2 知識、知識系統的定義
    • 2.3 專業知識和知識工程
    • 2.4 推測和推理
    • 2.5 知識圖譜
    • 2.6 語義啟用和互操作性
    • 2.7 不確定性管理
    • 2.8 符號化與亞符號化的方法
    • 2.9 總結
    • 2.10 參考文獻
  • 第3章 - 實現知識表示和推理
    • 3.1 集成、互操作性和信息共享的本體論
    • 3.2 W3C語義網棧
    • 3.3 案例研究
      • 3.3.1 構建領域本體--DICO開發過程、設計原則和最佳實踐
      • 3.3.2 實踐中的知識表示和推理WISDOM研發平臺
      • 3.3.3 相關性過濾、信息聚合和充實 智能態勢感知框架
      • 3.3.4 在英國、"五眼"防務和安全社區內交換信息--英國國際信息交流中心的信息交流標準
    • 3.4 實施基于知識的系統的機遇和挑戰
      • 3.4.1 討論共同關心的問題
        • 3.4.1.1 我是否真的應該關心,ML方法是否能提供這一切?
        • 3.4.1.2 有了新的技術,這不就導致了新的復雜性嗎?
        • 3.4.1.3 KR方法是穩健的嗎?
        • 3.4.1.4 是否需要專家技能和專業知識?
      • 3.4.2 知識表示和推理方法的優勢和劣勢
    • 3.5 總結
    • 3.6 參考文獻
  • 第4章 - 當前知識表示和推理的研究主題
    • 4.1 多模態知識表示--處理文本、圖像和其他問題
      • 4.1.1 文本分析的符號化方法
      • 4.1.2 文本的矢量空間模型
      • 4.1.3 文本分析的向量空間和知識基礎相結合的方法
      • 4.1.4 文本和圖像的聯合建模
    • 4.2 人類交互的考慮因素--自然語言交互
      • 4.2.1 對話系統
      • 4.2.2 自然語言的語義表述
      • 4.2.3 言語行為和對話
    • 4.3 因果關系和因果模型
      • 4.3.1 自然語言處理中的因果關系
    • 4.4 推斷中的可解釋性和信任
    • 4.5 總結、展望和開放的挑戰
    • 4.6 參考文獻
  • 第5章 - 結論和對未來技術提案的建議
    • 5.1 結論 - KRR方法的機會
    • 5.2 結論--對基礎技能和專業知識的需求
    • 5.3 結論--當前的研究主題
    • 5.4 建議
  • 附件A--相關的NATO STO活動
  • 附件B - MIP信息模型和富事件本體論
    • B.1.1 MIP信息模型(MIM)
    • B.2.1 富事件本體論(REO)--事件表示的本體論樞紐
    • B.3.1 參考文獻
  • 附件C - 國防情報核心本體(DICO)
    • C.1.1 DICO開發過程、設計原則和最佳實踐
      • C.1.1.1 獨特的識別實體
      • C.1.1.2 本體實體和DICO實體類別
    • C.2.1 參考文獻
  • 附件D--實踐中的知識表示和推理--WISDOM研發平臺
    • D.1.1 WISDOM研發平臺
    • D.2.1 WISDOM數據策略
      • D.2.1.1 WISDOM研發平臺的自動推理能力
    • D.3.1 參考文獻
  • 附件E - 不確定性管理
    • E.1.1 不確定性類型學/分類法
    • E.2.1 什么是不確定性?
    • E.3.1 不確定性管理的形式主義
    • E.4.1 參考文獻
  • 附件F - 作者簡歷

報告導言

1.1 "戰爭"中的信息

隨著傳感器、性能、反饋和其他數據數量的不斷增加,國防面臨的最緊迫的挑戰之一是可靠地、快速地篩選、融合最相關的觀察和信息并采取作戰行動的能力。信息的重要性體現在北約的所有戰略重點中[2]。俄羅斯對歐洲-大西洋安全的威脅是基于旨在破壞戰略關系(如歐盟、北約等)的虛假信息;打擊一切形式和表現的恐怖主義,現在的前提是能夠將機密和公開來源的材料聯系起來,以確定可以采取行動的聯系和行為;網絡威脅主要是在信息空間進行的。

北約對聯盟地面監視(AGS)系統的收購代表了北約在支持其未來行動中提供豐富數據饋送的能力的重大提升[3]。但是,在英國的 "信息優勢 "等概念中,人們認識到,現在只有通過及時和有效地融合這些數據饋送,才能實現真正的優勢。

當然,處理信息過載的挑戰并不限于國防領域。金融、廣告和工程等領域,都在抓住機遇,改善決策,瞄準服務,提高新解決方案的交付速度。近年來,應用機器學習(ML)方法應對這些挑戰的潛力已經引起了公眾、投資者和世界各地高層領導人的注意。因此,這樣的ML方法正在展示其應對防御挑戰的潛力,包括圖像和視頻資料中的物體檢測和標記、提取實體和關系的文本分析以及語音檢測和翻譯。在計算能力、數據可用性和計算框架的重大突破基礎上,對數據和人工智能的興趣將大大增加。

因此,防御能力將越來越能夠處理最關鍵的信息流,節省分析員的時間,提高他們快速發展和保持態勢感知的能力。然而,由于人類分析員的注意力也被持續競爭時期的操作和作戰活動所牽制[5],仍然需要不斷提高他們在多個領域連接細微但重要的觀察的能力。例如,隨著作戰尋求常規的全頻譜效應,物理、社會和網絡領域之間觀察的相互聯系將越來越重要,但如果沒有其他能力支持,這種聯系可能不容易被發現。重要的是,將這些觀察結果與過去的知識、相關人員的固有專長以及之前的經驗聯系起來是至關重要的。

1.2 理解和信息融合

復雜性一直存在于自然和生物領域中。然而,隨著科學和技術的進步,人類現在有能力制造出其復雜性接近生命本身的人工制品。有必要使用先進的方法來處理這種復雜性。

這種復雜性源于數據的速度、密度和空間范圍的巨大增長,以及不斷增加的各種元素之間的耦合,其中一些是自然的,而許多是合成的。防御的一個核心挑戰是應對復雜情況的方法。我們面臨著技術的快速發展,提供了更多的數據、信息和能力,同時也面臨著具有挑戰性的地形,如城市環境和涉及叛亂分子、混合人口、非政府組織的 "人類地形"。這些復雜的情況實際上比以往任何時候都更需要及時的決策來戰勝威脅,而決策的質量將始終與對情況的理解程度密切相關。這種理解力受到如此快速的行動和技術變化的挑戰,需要新的方法來更好、更快地分解復雜的情況。雖然人類的思維方式仍然深深扎根于經典的還原論概念,即通過將問題分解為子問題來解決,但現在人們認識到,以有效的方式接近復雜性不能脫離還原論方法。

諸如英國的 "信息優勢"[6]等國家概念試圖催化信息在國防行動中的作用,強調必須進行創新,否則就有可能 "枯萎"并跟不上對手的步伐。美國的 "用機器增強情報"(AIM)倡議[7]也提供了一個戰略觀點,強調了AI和ML在未來情報能力中的作用。對于IST-ET-111來說,AIM倡議特別強調了代表知識方面的基礎研究進展。

多年來,JDL融合模型[8]對實現低層和高層數據融合的技術挑戰進行了很好的定義。然而,全面的解決方案,特別是高層的數據融合,仍然缺乏,而且是不斷研究和開發的主題。

信息融合的挑戰幾乎延伸到國防的所有方面,從后勤到人員管理、平臺維護和醫療。然而,在北約背景下,重點是聯盟行動,如在阿富汗的行動,考慮實現態勢感知以支持指揮與控制(C2)和情報功能的挑戰也許是最貼切的。這些活動的特點是需要:

  • 將主要觀察結果和不太明顯的信息和知識結合起來(硬/軟融合)。
  • 匯集來自多個領域的信息,而且往往是多種分類的信息。
  • 在有限的信息基礎上快速做出決定;
  • 處理不確定性、模糊性和不斷變化的信息。

C2和情報活動產出的主要作者和消費者是人類分析員和作戰人員,但隨著北約部隊更多地使用自動化和自主系統,機器在支持、增強和利用基礎態勢感知和高層融合活動中的作用將越來越重要,需要考慮。

1.3 知識表示和推理的作用

為了支持這種高層的融合,現在有一個基本的需求,即信息和知識要能被人類和機器理解。通過這樣做,就有可能應用機器推理(推測)方法,將規則和形式邏輯應用于現有數據,以提供更高層次的推理。知識表示是將知識以計算機可操作的形式表達出來,以便對其進行利用。這樣做的一個關鍵但不是唯一的原因是,知識可以被推理。基于知識的系統也被稱為符號人工智能和基于規則的人工智能,并且在過去五十多年里一直是一個活躍的研究領域。

知識表示和對這些知識進行推理的愿望是北約七個新興和顛覆性技術(EDTs)中三個的核心:數據、人工智能和自主性,其中每一個都重疊并支持另一個[9]。

當然,正是最近對 "機器學習"(也被稱為亞符號)方法的興趣,專注于神經網絡等計算方法,一直處于公眾對人工智能敘述的最前沿,經常看到ML和AI這兩個術語被交替使用。這類系統已經在多種應用中證明了其價值,如產品推薦系統、交通模式的預測和貸款審批。使用ML來支持基于內容的多種數據類型(圖像、視頻、文本和社交媒體)的分析是現已完成的IST-RTG-144(多內容分析)的核心興趣。該小組清楚地展示了對單模態進行分析的潛力,以及在更廣泛的情報周期內結合這些分析的機會,但它沒有考慮自動/半自動融合或針對觀察結果進行推理,以支持高水平融合的目標。

ML方法通常利用大量的數據來開發模型,將輸出與輸入聯系起來。對于某些類別的任務,如圖像標記,ML是一種行之有效的應用,但即使是人工智能系統的領導者也很謹慎,甚至對它的成功持批評態度[10]。用ML方法表示和包含知識(所謂的神經符號方法)可能是提高未來解決方案的穩健性和性能的一個潛在步驟。

因此,實現這一目標的基本步驟是建立有效的知識表示(符號表示),可以被未來的混合系統所使用。符號方法可能更善于處理稀疏的數據,支持增強的可解釋性并納入過去的人類知識,并使用擅長模式識別和數據聚類/分類問題的計算方法。然而,如果這些方法/技術要支持未來的聯盟行動,就需要聯合起來努力。這包括

  • 開發特定領域的本體論(為特定領域定義的詞匯表)。

  • 部署和評估推理能力。

  • 為事件驅動的處理建立有效的架構。

  • 處理觀測中的不確定性和模糊性。

  • 信息共享和觀測數據來源。

  • 聯合部署和應對規模問題的方法。

1.4 IST-ET-111的宗旨和目標

正是在這種情況下,北約IST-ET-111 "知識表示和推理 "被提出來,目的是匯集北約伙伴對KRR現狀的理解,以了解技術現狀并考慮未來是否需要開展活動。

通過建立技術現狀和北約國家的技術能力,IST-ET-111團隊希望這份報告能夠支持圍繞實現有效的人機團隊的最有效方法進行對話。探索小組的建立也是確定如何利用其他北約國家的科學和技術活動來獲得近期和長期的業務利益的一個步驟。

最終,我們預計KRR的有效使用會帶來以下結果:

  • 更快的決策,以保持在潛在對手的OODA循環中。
  • 更強大的人工智能系統能夠處理新的信息和處理不確定性。
  • 透明的系統,提供充分理解和可評估的輸出。
  • 隨著工作人員在行動中的輪換或行動的結束,保留專題知識,但隨后允許更迅速地建立先驗能力。
  • 大幅提高利用和辨別現有數據知識的能力。

1.5 本報告的方法和結構

本報告針對的是更廣泛的北約STO社區和國家代表,他們

  • 可能需要領導技術變革舉措,并可能從在軍事背景下使用KRR方法和手段中受益。

  • 需要實施新的解決方案以更好地利用信息和知識;

  • 可能擁有ML方面的專業知識,并正在尋求其他方法來提高結果的穩健性和可解釋性。

首先,本報告關注知識表示的核心概念(第2章),認識到利用基于知識的方法的第一步是擁有表示知識的手段,然后才是對知識進行推理的方法,或者換句話說,從我們已經知道的知識中推導出新知識的方法。然后,報告轉向實施KRR方法的問題(第3章),用具體的例子來說明其中的問題。最后,對活躍的研究主題進行了簡短的討論(第4章),并提出結論和建議(第5章)

付費5元查看完整內容
北京阿比特科技有限公司