先進智能技術將不斷改變戰場性質和士兵需要執行的任務本質。因此,已經有許多關于人工智能(AI)在戰場上的作用討論,特別是集中在AI最有利的任務方面,士兵-AI編隊必須提供有效執行任務的能力,以及在這個任務演變過程中人和機器的必要適應。在這里,系統必須解決試圖利用復雜環境適應性強的智能敵手。在這種情況下,理解信任和信任測量的概念是至關重要的。然而,理解信任的動態性質以及如何準確測量和評估它是復雜的。
隨著越來越多地強調在未來的作戰行動中整合人類和自主系統,美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)建立了人類自主團隊基本研究計劃(HAT ERP)。HAT ERP的目標是解決在復雜的戰術環境中人類和自主系統的合作所面臨的挑戰,以創建有效運作的協同團隊,并適應戰斗的動態性質。在HAT ERP的項目5中,正在解決的一個具體領域是如何有效地衡量關鍵的團隊過程,如信任和凝聚力。因此,HAT項目5的總體目標是開發新的、多模態的團隊信任和凝聚力指標,以有效地校準信任并提高支持下一代戰斗車輛(NGCV)的人類自主團隊的性能。HAT項目5更具體的目標包括:1)確定非侵入性的、實時/近實時的信任度量,以捕捉團隊信任的動態性質;以及2)為適當的信任干預提供信息,以便對個人和團隊信任進行適當校準。
盡管已知測量和評估信任在團結互助互動中的重要性,但仍有一些評估的復雜性和考慮。第一個問題集中在信任測量上。信任是一個復雜的結構,傳統上有點難以定義,因此也難以測量。例如,仍然需要努力了解信任測量的類型和應該利用的適當指標,因為并非所有的信任測量都是平等的。雖然有一些現有的信任測量方法,但它們大多使用自我報告的問卷;這些問卷提供了有價值的信息,但只是在離散的時間點上。我們需要與信任的動態性質相一致的測量方法,并允許在特定時間段內進行更連續的測量;從而提供有關信任變化以及它如何影響團隊互動和績效的更有力信息。此外,正如項目5(Krausman等人,2022年)下進行的研究所證明的那樣,對人類自主性團隊信任的評估必須考慮團隊發展和/或團隊工作的前、中、后階段,必須包括超越績效的多模式指標(Schaefer等人,2019年;Brewer等人,2022年)。見圖 1。
圖1 包括壓力、信任和凝聚力在內的事前事后主觀狀態的多模態數據表示,數據流來自通信指標和生理數據
鑒于這一要求,并基于文獻、實驗室和實地研究,Krausman等人(2022年)開發了一個概念性的工具包,由新的信任措施組成,包括以下內容: 1)主觀(即人際信任、技術信任);2)通信(即通信流、網絡動態、語義內容分析);3)生理(即心率、心率變異性和呼吸率);4)行為(眼球追蹤、界面互動等);以及5)情感(即面部表情追蹤)。認識到對信任評估平臺的需求,一個多模態的信任測量軟件工具箱逐漸形成--人類-自主性團隊信任工具箱(HAT3)。
第二部分將概述HAT3軟件的開發和其中包含的旨在測量信任的具體技術。此外,所討論的每個模塊將在隨后的章節中進一步詳細說明,并將包括信任測量類型的概要,以及有利于HAT ERP和NGCV項目的具體指標。
自2003年8月以來,任務指揮一直是美國陸軍部隊指揮與控制(C2)的一個關鍵組成部分。此后,它又經歷了兩次理論上的迭代。
首先,2019年7月的陸軍條令出版物(ADP)6-0《任務指揮》: 陸軍部隊的指揮和控制,對這個術語有最新的定義: "任務指揮是陸軍的指揮和控制方法,它賦予下級決策權和適合情況的分散執行權。" 它只適用于人與人之間的C2;任務指揮,就像戰爭本身一樣,本質上是 "人類的努力......不是一個可以通過機器[或]計算精確控制的機械過程"。
第二次迭代是五角大樓的第三次抵消戰略。正如2016年4月所描述的,"它是技術、作戰概念和組織結構的組合--組織部隊的不同方式,以保持選擇的時間和地點向任何地區投射戰斗力的能力。" 根據當時的國防部副部長鮑勃-沃克的說法,"第三次抵消的技術醬將是人工智能(AI)和自主性的進步"。然而,使用機器算法進行決策過程的系統與人類認知中的情感和道德追求部分有直接的差異。人類體驗到愛、恐懼、友情和仇恨,而機器則沒有。它們也不理解榮譽、誠信或自我犧牲。
美國陸軍和整個國防部的作戰能力有兩個根本性的重要屬性:一個側重于分布式人類-士兵的C2,另一個側重于在21世紀中期部署武裝自主機器。這些屬性似乎是相互矛盾的。美國陸軍戰爭學院的《2018-2020年關鍵戰略問題清單》確定了這種人與機器并列的戰略意義,特別是在主題2的一個問題中,該問題指示如下: 評估陸軍在多領域戰場上執行任務指揮和控制的能力,其中包括:友軍和敵軍的無人系統、半自主(人在回路中)的機器人系統和自主(沒有人在回路中)的機器人系統。
雖然 "人在回路 "代表了半自主機器人系統的C2(等待人類輸入),但它也描述了非自主機器人系統的C2(人類直接控制)。鑒于關鍵戰略問題清單中的要求具有高度的動態性和未來性,本文應被視為探索性的,而不是權威性的,因為它著眼于以下問題:
具備人工智能能力的自主武裝機器人系統(以及增強的人類士兵)的未來出動將極大地影響21世紀中期人類的戰爭行為。現在是美國陸軍為這種可能性做準備的時候。作為與建議的2050年士兵計劃有關這種準備的一個組成部分,將不會使陸軍像對待20世紀衍生的主戰坦克或裝甲戰車那樣被束縛在目前的任務指揮結構中。這種軍事文物和結構只應該因為其目前的制度化作戰效用而被接受,而不是作為過去軍事力量的儀式化元素。如果不能隨著軍事技術的進步和支持這些技術的CONOPS--最重要的是C2--而改變,將產生與騎士精神在火槍射擊下死亡、前進中的步兵被機槍火力擊倒以及當代裝甲和機械化部隊被精確制導彈藥日益消滅的同樣結果。這將是一種災難性的命運。
美國陸軍旋轉翼飛機的下一個機群除了擁有一套先進的技術和武器裝備外,還將允許在戰斗中使用更長的時間。這些飛機將可能是陸軍武庫中最先進和最復雜的系統。這意味著這些飛機可能需要飛行員在遠高于目前直升機的水平上進行多重任務。由于在駕駛這些飛行器時對飛行員的要求越來越高,實時監測飛行員的認知負荷、健康和福祉的需要已經成為完成任務的組成部分。有了實時的生理監測,就有可能跟蹤和了解任務認知需求的程度,以及在多域作戰(MDO)任務集的各個階段對飛行員的相關認知負荷(CWL)。然后,這些數據可以為領導層和團隊成員提供信息,并為操作人員提供關鍵的反饋。這些數據還將為駕駛艙布局的關鍵決策點提供信息,具體到人機互動。然而,仍有許多工作要做,因為在哪些措施能最有效地捕獲和量化CWL、如何最好地在駕駛艙內部署這些傳感器、以及如何量化數據以便于實時解釋結果以幫助決策方面還存在未知數。
為了支持擴大的未來垂直升降(FVL)任務,美國陸軍航空醫學研究實驗室(USAARL)正在進行研究。最終的目標是實施生理測量,作為在操作員狀態監測(OSM)驅動的適應性自動化環境中,評估CWL的一種手段。本報告對最近的CWL文獻進行了系統回顧,以確定哪些CWL評估技術在航空領域得到了最多的使用和成功,特別是在旋轉翼航空領域。首先,提供了CWL的正式定義,以及對CWL結構越來越感興趣的證據。隨后,對不同的CWL指標進行了簡要總結,并對使用多種指標,即綜合指標來評估CWL進行了考慮。
統一使用的CWL正式定義還沒有被整個研究界普遍接受。因此,人們經常發現,不同的研究人員使用不同的定義(Cain,2007)。為了保持一致性,我們采用了Van Acker等人(2018)的概念分析所提出的資源需求框架的定義: "心理負荷是一種主觀體驗的生理處理狀態,揭示了一個人有限的、多維的認知資源與所接觸的認知工作需求之間的相互作用。"
為了消除任何混淆點,請注意Van Acker等人(2018)使用了 "心理負荷"(MWL)一詞,而我們在本評論中使用的是 "認知負荷"。有關評估認知工作需求導致的認知資源支出的文獻,已經交替使用了這兩個術語(即心理和認知)(甚至有時在同一篇論文中交替使用)。圖1詳細說明了幾十年來每個術語的使用情況;"心理負荷 "一詞在文獻中出現的時間較早(Westbrook等人,1966年),比 "認知負荷 "使用的頻率更高。在USAARL進行的工作中,已經采用了 "認知負荷 "這一術語。
Van Acker等人(2018)的定義包括三個關鍵部分(關于這些要點的更廣泛討論,請參考Vogl等人,2020)。首先,CWL的發生是由于特定的人和特定的任務/環境(或任務+環境組合)的互動。這種應用認知資源來滿足任務需求的互動導致了對CWL的感知。這為資源需求框架奠定了基礎,該框架自卡尼曼(1973年)在其《注意力與努力》一書中首次提出以來,一直在不斷發展。第二,當認知資源被用于一項任務時,對于努力工作的人來說,他們的資源是有限的,如果一項任務對資源的需求超過了可用的限度,人的表現就會減弱。對內省的人來說,還可以觀察到,在某些情況下,可以比其他情況下更有效地滿足多種任務需求。Wickens(2008)通過多重資源理論澄清了這一看法,該理論指出,與其說有一個有限的資源庫可用于解決任務需求,不如用多重資源庫的模式來解釋多任務經驗。第三,Van Acker等人(2018)指出,CWL是一種主觀體驗的生理處理狀態;也就是說,人類理解并能夠溝通他們正在經歷CWL,他們的生理變化是CWL的一個功能。因此,評估CWL不僅可以通過任務本身的表現措施,還可以通過自我報告措施(即主觀措施)和監測生理信號的變化(即生理措施)。最后要說明的是,Van Acker等人(2018)的定義很適合于對這個概念的簡要介紹,但我們希望有一個更全面的定義,明確強調人類經驗的其他方面(如個體差異、情景因素、注意力等)以及CWL和績效的動態關系。關于CWL概念的更深入的定義和重新分析,見Longo等人(2022)。
自20世紀60年代首次正式提及CWL以來,它已成為一個越來越受歡迎的研究領域。在過去的十年里,根據谷歌學術搜索引擎的索引,CWL研究的出版物數量激增(圖1)。在過去的十年里,整個文章和標題中的精確短語匹配都遵循同樣的加速增長模式。這種加速增長的興趣說明了對更先進、更有效的生理指標、建模技術的調查,以及對改善航空和駕駛等安全關鍵領域性能的普遍重視。2015年,Young等人(2015)研究了CWL文獻,并確定了幾十年來的主要研究領域。在20世紀80年代,在CWL主要理論進展的持續發展中,軟件工程/計算機輔助設計(CAD)和自適應界面(即響應操作者CWL的自動化)等領域成為主要興趣。20世紀90年代,對CWL的研究在航空和駕駛領域繼續進行得最為頻繁。最終,在2000年代的前十年,駕駛領域將遠遠領先于其他領域,而鐵路領域的研究變得越來越有意義,航空和空中交通管制(ATC)保持穩定(圖5)。考慮到幾十年來的關注領域,很明顯,CWL評估是安全關鍵領域的一個重要組成部分,特別是在交通領域。
圖 1. 60 年來腦力負荷和認知負荷出版物的頻率。從谷歌學術搜索引擎獲得的頻率數據。
正如所提出的CWL定義中所概述的那樣,CWL的概念在操作上是可以使用性能、生理學和主觀評價的措施進行量化的。這些測量類別在整個CWL文獻中被持續使用,每個類別都提供了一些不同評價標準的權衡(O'Donnell & Eggemeier, 1986)。快速的文獻搜索顯示,對這些測量技術已經進行了超過20,000次檢查(評論見Cain, 2007; Heard等人, 2018; Tao等人, 2019; Charles & Nixon, 2019; Vogl等人, 2020)。
表現和CWL是以一種反向的方式聯系在一起的,特別是在最佳的任務需求水平下,但這種關系并不簡單地歸結為一個上升,另一個下降。相反,通過自愿招募認知資源(即導致CWL增加的努力),性能可以保持在高水平而負荷增加。也就是說,人類可以付出更多的努力,調動更多的資源,或者隨著需求的增加而 "更努力地 "完成一項任務,以保持他們的表現。只有到了一定程度,也就是傳統上所說的 "紅線",績效才會開始動搖,從而與高水平的CWL形成反向關系。圖2詳細說明了作為任務需求增加的函數的績效-負荷關系(改編自De Waard, 1996和Young等人, 2015)。這個修改后的區域模型說明了績效和負荷在D、A2和C區域有一致的反向關系,而在A1、A2和B區域則有更多的動態變化。以這個模型為框架,我們很容易看到,除非在D或B區域內觀察,否則主要的任務績效測量可能缺乏敏感性。由于績效指標通常是對任務效率的全面調查,它們很少對不同資源的認知負荷進行診斷性描述。雖然這些類型的性能指標可能在一個相對粗略的尺度上發揮作用,但它們對整個任務性能的干擾是最小的,因為數據往往是現成的。在航空領域,標準偏差、輸入活動和教員飛行員評級的措施已被廣泛用于區分高和低水平的CWL。
圖 2. 績效-認知負荷關系的描述(改編自 De Waard,1997 年和 Young 等人,2015 年)。
已經觀察到可識別的生理信號在不同程度的有經驗的CWL下發生變化,一些生理指標已經發現成功地作為CWL的操作措施。心率、心率變異性、瞳孔直徑、腦電圖(EEG)信號帶、通過功能性近紅外光譜(fNIRS)測量的腦氧飽和度以及許多其他指標,都有大量文獻支持它們作為CWL的代理測量。與性能指標不同,生理學指標允許研究人員挖掘發生在性能保持穩定(即A1和A2區域)而CWL正在積極變化的區域的CWL變化。在某種程度上,生理指標允許研究人員看到隨著任務需求的增加,"引擎蓋 "下發生了什么。這種在接近紅線時觀察CWL變化的能力說明了測量類別的普遍高靈敏度。此外,它為應用領域的研究人員提供了一種手段,以預測性能故障的發生,并在性能開始受到影響之前補救任務要求。然而,其他生理現象,如疲勞、焦慮或身體運動,可以高度干擾這些指標的整體敏感性。生理指標在其診斷性方面可以有很大的不同。一些生理指標提供了一個更全面的有經驗的CWL尺度,如瞳孔直徑或心率變異性。其他指標通過確定大腦內的激活區域,如EEG或fNIRS指標,或由特定的任務要求(即眨眼動態)驅動,顯示出更高的CWL資源診斷能力。目前正在進行的工作是限制生理傳感器的整體侵入性,以便向現實世界的應用邁進。一些傳感器的侵入性很小(如心電圖[ECG]、遠程眼球追蹤器等),而另一些則會造成較高的侵入性(如頭戴式眼球追蹤器、fNIRS、皮膚電活動等)。在航空領域,心率和心率變異性指標是使用最廣泛的生理學指標之一,因為它在敏感性、診斷性和對操作環境的干擾性之間有一個公平的平衡(Backs,1995)。然而,最近的研究已經接近于優化瞳孔直徑、fNIRS和EEG等指標,作為額外的生理測量指標在航空領域使用。
CWL是一種獨特的體驗,人類可以通過自省來識別和描述。因此,可以通過使用結構化的、經過驗證的、采取主觀測量形式的問題來捕捉這種自我報告的體驗。多年來,許多不同的CWL主觀量表已經在各研究領域進行了測試,并表明人類可以可靠地指出他們在特定任務中體驗到的CWL水平。總的來說,主觀衡量標準對CWL的變化顯示出很大的敏感性。主觀評分允許研究人員對圖2中描述的所有區域的CWL進行采樣。主觀指標也可以通過使用單維和多維措施,分別從低到高的診斷性范圍。單維主觀指標要求操作者評估他們所經歷的CWL的單一方面,例如通過評價努力支出、資源能力或一般CWL本身。多維度的主觀衡量標準更具有診斷性,因為多個問題或子量表涉及到CWL體驗的許多相似但不同的元素。不幸的是,如果在任務執行過程中完成主觀測量,其干擾性通常很高。因此,大多數主觀測量是在任務執行后完成的,要求操作者在回答問題時反思他們之前的CWL體驗。當然,一些單維的主觀衡量標準試圖規避這一限制,提示受試者在任務執行期間表明他們的主觀CWL,從而與診斷性進行權衡。總的來說,主觀指標被用作驗證系統和其他CWL指標的手段。這個研究領域中最普遍的衡量標準是美國國家航空航天局的任務負荷指數(NASATLX),它至今仍被廣泛使用。 NASA-TLX經常被用作航空領域的多維CWL主觀衡量標準,但有些衡量標準,如貝德福德負荷表和修正的Cooper Harper處理質量評分表,是專門為航空領域設計的,如今也被普遍用作單維衡量標準。
由于每種類型的認知負荷評估技術都有其自身的優勢和缺點,因此,將表現、生理和主觀測量結合起來,形成認知負荷的綜合測量似乎是很自然的。其邏輯是,由于這些認知負荷的每個反應都是從同一個人身上測量出來的,因此這些反應會相互關聯,如果一個反應失敗,其他的反應可以作為一個冗余的備份。當綜合測量顯示每個單項測量中的認知負荷都在增加時,我們可以確信所研究的操作者正經歷著更高水平的認知負荷,反之亦然,認知負荷的反應也在不斷減少。如果每個認知負荷評估指標出現不同的反應,考慮到這些反應是從一個人身上收集的,被研究的操作者的經驗就變得不那么清晰了,而且更令人費解。例如,操作員可以在主觀測量中報告低水平的認知負荷,但他們的生理測量表明負荷水平在增加,而他們的性能指標卻保持穩定。同樣,同樣的不一致性可以在不同的認知負荷測量中建模,每個人的反應都表示高、低或穩定的認知負荷。Hancock和Matthews(2019)探討了認知負荷評估的關聯、不敏感和不一致(AID)的概念,以創建一個框架,用它來理解綜合負荷評估指標的可能狀態。定義這些可能的復合認知工作負荷評估狀態的三維矩陣可以在圖3中看到。
圖3. Hancock和Matthews(2019)的認知負荷評估技術的關聯、不敏感和分離(AID)框架矩陣。每項措施都可以表明認知負荷反應的增加(+)、減少(-)或穩定(O)。由于每個狀態都由矩陣中的一個立方體表示,跨越性能(主要任務)、生理學和主觀測量的27種結果組合是可能的。當測量結果相互一致時(即所有測量結果都顯示認知負荷減少或增加),就會出現雙重關聯(用A-表示減少,用A+表示增加)。
Hancock和Matthews(2019)的AIDs分類法為復合認知負荷評估狀態,沿立方體矩陣的軸線呈現了認知負荷評估的三種主要方法。每種方法允許三種反應中的一種: 增加的認知負荷反應(+),減少的認知負荷反應(-),以及穩定的(即不敏感的)認知負荷反應(o)。結合每個單獨的測量的反應結果,產生一個三維矩陣,定義復合認知負荷測量的27個獨特狀態。當不同類型的負荷測量的反應相互匹配時(例如,生理和主觀測量所顯示的負荷增加),兩個測量之間就會發生關聯。如果兩種測量方法的反應彼此不一致,就會發生分離。雙重關聯(如圖1中A+和A-狀態所表示的)發生在所有三種測量方法都報告了相同的反應的情況下(即所有測量方法都顯示了認知負荷增加、穩定或減少的匹配反應)。同樣,當這時所有的測量方法都彼此不一致時,就會發生雙重離析。雖然雙重關聯簡化了認知負荷數據的解釋問題,但認識到影響測量結果趨同的因素可以幫助理解為什么會發生離散。Hancock和Mathews(2019)詳細闡述了這些措施之間的銜接問題,并確定了可能影響措施之間反應不匹配的常見問題。諸如測量方法之間的顆粒度、不同測量方法之間的認知負荷反應的時間、自我調節策略和負荷歷史等因素都會導致不同測量技術之間的不一致。歸根結底,這些問題仍未解決,但認識到它們的存在可以幫助解釋即使是最不相關的數據集。
本報告研究了過去十年(2010年代)的CWL文獻,以擴展Young等人(2015)報告的趨勢。為了指導USAARL正在進行的CWL研究的發展,對航空領域的復合CWL評估文獻進行了重點搜索。旋轉翼和固定翼航空平臺都包括在搜索范圍內。從這些航空文章中,報告了不同CWL指標的使用頻率和成功率。同時還研究了作為個體差異(即飛行經驗)和研究平臺(即模擬器或飛機)功能的CWL評估的差異數據。最后,通過CWL評估的AIDs模型對綜合CWL指標的結果進行了研究。
新興技術與安全中心(CETaS)是一個政策研究中心,位于英國國家數據科學和人工智能研究所--艾倫圖靈研究所。該中心的使命是通過對新興技術問題進行基于證據的跨學科研究,為英國安全政策提供信息。
本報告介紹了CETaS研究項目的結果,該項目研究了在英國國家安全背景下使用機器學習(ML)進行情報分析。研究結果是基于對國家安全從業人員、政策制定者、學者和法律專家的深入訪談和焦點小組。
該研究的目的是了解在情報分析背景下使用ML所產生的技術和政策考慮。具體而言,該研究探討了如何校準用戶對機器生成的見解的適當信任程度,以及將ML能力納入分析員決策過程的最佳做法。
從事國家安全工作的情報分析員在處理大量數據方面面臨著重大挑戰,這些數據可能會對當前和未來的事件產生關鍵的見解。數據的持續全球擴張既帶來了風險(錯過了關鍵信息),也帶來了機會(獲得更深入的洞察力)。ML的使用提供了真正的潛力,可以同時減少這種風險和追求這種機會。
在部署ML以支持人類決策過程時,有一些重要的考慮,包括(i)解釋和理解模型為何以及如何運作的挑戰,以及(ii)如果ML能力被不適當地使用,對社會和公民造成傷害的風險。人們認識到,在國家安全等高風險背景下廣泛采用ML之前,需要對其安全和有效使用進行明確的指導。
ML的可解釋性是多方面的,既可以指模型性能的技術屬性,如不同閾值的預期精度和召回率(有時被描述為 "全局解釋");也可以指模型在得出特定預測時考慮到的具體因素(有時被描述為 "局部解釋")。本研究試圖研究情報分析員對全局和局部模型解釋的要求和優先權。
該研究涉及檢查情報分析員的決策過程和分析工作流程,以了解在將ML能力納入這一過程時必須考慮到的技術、行為和政策因素。該報告的主要結論和建議如下:
1.ML在從大量不同的數據中定性、發現和分流信息方面最有價值。這在短期內為情報分析中的ML提供了最好的投資回報,因為它解決了情報界的一些最迫切的需求。這些應用也為使用ML提供了更可控的風險,因為關鍵的決定(如那些直接與個人有關的決定)仍然由分析員做出。
2.分析員如何對待ML模型的輸出是高度特定的背景。分析師對機器生成的信息所賦予的意義和信心是由當前的環境(決策的緊迫性、行動的優先性、以及后續決策對資源和結果的感知影響)決定的。因此,識別和理解分析員可能使用ML模型的不同背景,應該是開發、測試和驗證ML模型過程的核心。
3.許多ML系統在技術上缺乏可解釋性,這一點已得到廣泛認可。可解釋人工智能 "是數據科學研究中一個不斷增長的子學科,技術方法正在獲得牽引力,以幫助解釋復雜的ML模型的行為。雖然這些技術的使用可能仍然是數據科學家和ML工程師感興趣的,但數學可解釋性方法在改善分析師對模型的行為和性能的現實世界的理解方面可能作用有限。
4.增加分析師對ML能力的信任涉及到對ML輸出的信任和對整個系統的信任,而ML只是其中的一部分。分析師不會僅僅為了理解一個ML模型的輸出而做出反應和努力,還要考慮其他因素,如他們對模型先前性能的經驗,模型是否已被正式批準用于操作,以及分析師正在執行的任務的性質。
5.ML應該從一開始就被設計成與情報分析員的工具集和工作流程相結合。對ML的最有效應用應來自于對分析員當前工作環境的理解。這需要更深入地了解人類因素、可用性要求和決策心理,并將其納入開發模型(數據科學)和與模型互動的工具(軟件工程)的過程。
6.ML模型的技術信息類型和數量應該是針對具體環境的,是針對用戶的和可交互的。提供給分析員的信息應提高模型的透明度和可解釋性,并應包括兩部分:強制性信息(特定背景)和由分析者選擇的自定義信息(特定用戶)。這兩類信息的表述應該是明確的,并使分析者容易穿越不同層次的解釋(例如通過使用點擊式界面)。
7.解釋的復雜性應該由問題的復雜性決定。如果一個問題在認知上對人來說是簡單的,那么對該問題的ML解決方案的解釋就是不必要的,也無助于決策。然而,對于人類不能輕易完成的更復雜的任務來說,模型提供一些推理,說明它是如何得出某個輸出的,這一點更為重要。也會有這樣的情況:局部解釋既無幫助也不合適。
8.在ML模型和相關的圖形用戶界面(GUI)的原型設計和測試中應包括分析師。這應該引起適當的解釋水平,以支持分析員的決定。調整模型的性能(例如,設定可接受的假陽性/假陰性閾值的限制)應該由分析員群體的不同代表來完成。分析師必須參與ML模型的測試,這將增加他們的整體信心和采用。這些測試的結果應該與部署類似ML系統的伙伴組織進行常規分享。
9.同一模型的不同用途可能需要不同的閾值,這是分析員信心的關鍵,需要不斷審查。在某些情況下,分析員可以容忍較高的假陽性率(例如,在高優先級的行動中,錯過重要的東西可能是災難性的),而在其他情況下,則不能接受。由于潛在的重要信息有可能 "漏網",假陰性一般在情報分析中更成問題。
10.討論和解釋ML模型的語言應該在整個國家安全界實現標準化。諸如分類器的置信度等數值應按照公認的標準,如PHIA(情報評估專業負責人)的概率標尺來表述。在可能的情況下,這種信息應以語言和數字的形式呈現。
11.數據科學應作為一種支持服務提供給分析員。例如,一個由數據科學家組成的小團隊,專門幫助正在使用ML模型的分析員解釋結果和調查關注的問題。對分析師的密切支持應提高他們對ML模型的行為和性能的理解水平。這將減少不適當使用ML模型的風險,同時提高分析員群體使用ML模型的整體能力和意識。
12.有效采用ML需要一個系統級的方法。ML模型的設計應考慮其對現有政策和實踐的影響,包括任何必要的法律授權,分析師對模型性能的反饋的重要性,以及考慮部署和維護ML模型的整個生命周期的成本。組織政策和流程可能需要更新以考慮這些額外的要求。
13.應提供額外的培訓和學習材料,使那些使用或監督使用ML系統的人能夠獲得最低水平的數據科學和ML知識。了解精確性、召回率和準確性等技術屬性的能力被認為是分析人員應具備的最低水平的知識,以確保他們充分了解ML模型的性能,并因此了解其效用。
在短期內,ML被認為在情報分析中最具潛力的、最常被引用的階段是信息過濾和優先級,以使分析更有效,或者正如一位受訪者所描述的那樣,“降低信噪比”。一位受訪者所總結的:“我不排除ML情報分析工具作為任何鏈條的一部分,但它更多的是后續步驟,例如動能行動或建議某物在特定位置或警察逮捕和敲門。對于一個ML工具來說,直接采取這種行動是不合適的。你需要類似的證據。我很樂意使用和試用ML輸出作為過濾和收集決策等過程的一部分,但這離實際結果還很遠。”
圖1概述了典型的情報分析管道和相應的系統功能,并說明了受訪者認為ML可以提供最大價值的地方。一般來說,“收集”和“處理”階段被確定為管道中ML將為分析師提供最大效用的階段。當我們沿著決策和報告(最終由分析過程產生)的管道向下移動時,ML所增加的感知價值會減少。
圖1 情報分析管道概述和整合機器學習的優先領域
回到“干草堆中的針”的比喻,受訪者認為ML在幫助生產“干草堆”方面是有用的,因此分析員不需要審查“整個領域”,但分析員不希望ML決定“針”是什么。換句話說,一名受訪者表示,支持復雜機器學習的能力可能還太遙遠,因此重點是采購更快的馬匹,而不是汽車。從這個意義上說,“快馬”指的是能夠處理更多數據并自動識別分析員感興趣的信息的系統,例如關鍵字搜索。理想情況下,模型將生成包含相關數據的輸出,其中包含一些外圍信息或“干草”,以使分析員確信沒有遺漏任何內容。分析人員仍然對基于分析數據而產生的任何決策負責。
此外,受訪者建議區分ML工具和采用“隊友”角色的ML系統是很重要的。例如,如果系統僅限于批量數據的分類或過濾,則該系統僅僅是執行狹窄任務的工具。一個ML“隊友”會做得更多,參與:“……通過幫助恢復記憶和幫助分析員回憶‘大局’來共同解決問題。”一個ML“隊友”也可以通過做筆記、在分析員身邊演進、在分析員疲勞時“支持他們”或幫助他們生成支撐分析的數據。”
這樣的系統還可以學習和適應用戶需要多少信息以及用戶想在什么時候收到警報,或者了解情況的合法性和交戰規則。一位行為科學家引用了之前的研究,該研究發現,在給定的飽和點之前,情報分析員在他們的認知負荷峰值時表現最佳,因此機器“隊友”可能會根據分析員的認知負荷峰值來調整自己。另一位人為因素工程師表示,未來的系統可能能夠傾聽隊友之間的對話,以及分析員建立的鏈接,從而指出人類分析員可能看不到的鏈接。研究團隊沒有發現這種系統目前正在使用或計劃在不久的將來使用的證據,但如果現有的ML工具現在被接受和信任,那么用戶在未來更有可能接受更復雜的系統和“隊友”。
最后,同樣重要的是要注意,“人機合作”和“自動決策”之間的二元區別可能是對ML決策支持工具在實踐中如何部署的過度簡化。在未來,人類分析師和機器學習之間的三種不同類型的交互是可以想象的,并值得進一步考慮,其中包括一個機器學習模型:
對用戶可以手動驗證的結果進行分類;
生成一個結果,用戶自己無法手動驗證結果,但專家可以;
產生的結果無法通過人工審查驗證。
未來開發基于機器學習的國家安全信息系統的努力應該從清楚地了解這些人機交互模型中哪些最能體現系統的預期用途開始,因為這將對系統開發階段的設計決策產生直接影響。
i. 確定在人機協作中更高級地使用ML的技術和政策考慮(如非分類用例)。
ii. 了解完全自動化決策應用中對ML的可解釋性要求。
iii. 開發理解分析員工作流程的方法,以指導ML應用的開發,并將行為和決策科學嵌入軟件工程實踐中。
iv. 系統地評估不同用戶的可解釋性要求在背景、工作環境和人口統計學方面的差異。
v. 在PHIA概率標準的基礎上,開發一個標準化的術語詞匯表,用于交流與ML支持的分析相關的信心。
戰爭的特點正在發生變化,但它仍然是一項以人為中心的緊張工作。武裝部隊繼續調整他們的作戰方法,使用新興的和破壞性技術,擁抱數字時代。在這些技術中,快速發展的RAS有可能為未來的戰斗空間帶來最重要的范式轉變之一。在這種情況下,RAS代表著從一些曾經被認為是完全 "人類 "活動的作戰活動中消除對人類和人類智能的依賴,從根本上重塑了未來戰爭的特征。隨著RAS技術變得更加先進、可用和負擔得起,潛在對手的能力也將繼續擴大,變得更加智能和靈活。這縮小了裝備精良的軍隊和有動機的個人或團體之間的能力差距,在未來的沖突中代表了新的和重大的威脅。
隨著技術先進性的不斷發展,澳大利亞的戰略環境也在不斷變化,進一步影響了未來由RAS帶來的機會和威脅。正如《2020年國防戰略更新》(DSU)所強調的,澳大利亞現在處于一個高度動態的戰略環境中。印度洋-太平洋地區的軍事化進程加快,灰色地帶的活動更加普遍,潛在對手越來越多地利用破壞性和新興技術,這些都促使區域競爭加劇。這促進了對RAS所提供的靈活性、可擴展性和決策優勢機會的關注,以加強聯合部隊。這一重點在澳陸軍的 "加速戰爭 "計劃中得到了延續,強調了RAS和新興技術在實現持續適應性和未來準備的陸軍中的重要性,并在未來的行動中提供了潛在的補償。2020年底發布的ADF RAS概念進一步強調了這一點,該戰略既借鑒了RAS概念,也嵌套了它。
通過澳大利亞皇家海軍的RAS/AI戰略8、澳大利亞皇家空軍的杰里科破壞性創新(JDI)、澳大利亞國防軍RAS概念和國防科技集團(DSTG)STaR Shots計劃所展示的社區。因此,未來陸軍內部由RAS支持的技術變革必須以聯合作戰理念為基礎,以充分應對未來的挑戰。為實現這一技術變革,陸軍提出了修訂后的陸軍RAS戰略,旨在通過RAS為未來的陸軍創造并保持競爭優勢。
未來陸軍的RAS能力實例包括由自主智能體、集群和跨網絡物理的人-機團隊。RAS將通過高速信息分析和分配來提高態勢感知、生存能力和殺傷力。這將創造情報,推薦行動方案以推動優勢。
建立和保持這樣的競爭優勢是一項復雜的工作,需要整個軍隊和更廣泛的國防部門的協調努力。 澳大利亞不再為國防規劃假設10年的戰略預警時間,陸軍必須迅速工作,以應對這些挑戰,實施未來的RAS能力。這包括快速技術發展和插入的內在困難,越來越多的科學、技術、工程和數學(STEM)勞動力的主權,資源限制,以及政策和法律的導航。陸軍RAS戰略V2.0是一個確定和考慮這些挑戰的機會,以指導陸軍的凝聚力,為聯合部隊的未來陸軍利用機器人、人工智能和自主性的真正潛力。
無人機蜂群來了!美國、中國和俄羅斯處于無人機群開發和利用的最前沿。然而,無人機的低成本和易得性使非國家行為者能夠以富有想象力和創造力的方式利用無人機,包括蜂群。本專著的目的是要解決以下問題:無人機群為軍隊提供什么效用?無人機群提供了許多優勢,包括持續的情報、監視、偵察和目標定位;對軍事人員和組織的低風險和低成本,以及癱瘓個體和組織決策的潛力。相比之下,無人機群有其脆弱性和挑戰。脆弱性包括從對手的黑客攻擊到反蜂群武器的存在,而一些挑戰包括組織上的抵制和國際法。無人機群就在這里,而且很快就會出現在戰場上,現在是解決如何最好地運用它們的時候了。在概述了無人機群的潛在好處和局限性之后,該專著最后提出了四項建議:需要敘述、建立無人機群理論、了解人機界面以及為無人機群的使用進行組織過渡。
在軍事上有許多行動領域使用人工智能。除了對正在使用的系統進行持續的進一步開發和人工智能鑒定,特別是具有新特性的未來系統將能夠從人工智能的應用中受益。日常工作中的人員和物資管理,以及培訓,也提供了主要的潛在行動領域。
一個精心定義的政治和法律框架是必不可少的,特別是對于軍事力量的使用。因此,目前和將來使用自動化和自主系統必須符合FMoD的政治和法律要求。除了政治和法律方面,從軍事角度來看,使用致命性自主武器系統也是一種不可取的、非預期的選擇。
人工智能是一種高技術,需要大量的專業知識和開發努力。為了實現這一目標,德國陸軍正在尋求與歐洲工業和研究的密切合作。在德國陸軍發展的背景下已經建立的技術與能力(TmC)模式正被用作進一步活動的起點。
為了能夠充分應對未來所有與人工智能相關的挑戰,德國陸軍必須擁有合格的人工智能人才。在這方面,聯邦國防軍面臨著來自民用部門的強烈競爭。為了滿足短期內的需求,軍隊正在依靠現有的OR/M&S人員。
目前所有的數據表明,利用人工智能的方法和程序可以大幅提高陸軍的效率和效力。為了能夠適當地應對即將到來的挑戰,必須采取與組織程序和結構有關的措施。因此,"陸軍中的人工智能 "立場文件建議為陸軍設立人工智能工作臺,為陸軍設立人工智能開發中心,為陸軍設立人工智能數據中心。只有這樣才能全面覆蓋人工智能領域的創新、人工智能系統的培訓和數據的提供。
下文將在附件中詳細介紹使早期實現成為可能所需的所有措施。
2018/2019年,在德國陸軍概念和能力發展中心開展了關于人工智能(AI)主題的 "技術與能力 "形式。在一系列研討會的過程中,根據北約綜合作戰計劃指令(COPD),確定了人工智能在陸軍所有能力領域以及武器和服務中的應用,并按行動路線進行分類。下面詳細列出了五個應用領域,每個領域都有不同的行動路線。
根據內容和發展的成熟度,這些措施和行動方針的實施是通過CD&E和R&T活動進行的,或者在CPM的范圍內通過適當的舉措進行。與聯邦國防軍的能力概況相匹配是至關重要的。陸軍概念和能力發展中心負責實施。
這個領域匯集了基于人工智能的目標識別和分類系統領域的所有活動。這些項目正在逐步建立起一種功能,以模塊化的方式擴展陸軍的各種保護和效果組件,包括從ISR到基于效果的自動系統。一個重點是將現有的民用方法用于軍事目的。
這一領域匯集了與不同幾何形狀的小型無人機系統有關的所有活動。這些活動包括從偵察到障礙物,再到進攻性武器系統。不管是什么活動,重點都是在防御和部署自己的TaUAS的能力。一個重要的挑戰是,特別是創造出足夠堅硬和強大的TaUAS,使其能夠使用被動傳感器系統,在非常有限的通信和沒有GPS的情況下,在白天和晚上半自主地行動。
這一領域匯集了所有側重于指揮和控制的活動。它既包括實現單一的功能,在適用的情況下,也可以在已經進行的活動中進行改裝,也包括將可能用于超戰爭情況的系統和方法概念化。沒有任何跡象表明有任何明顯的雙重用途。挑戰在于對指揮和控制過程的相關部分進行建模,以創建超戰可行的指揮和控制組件。理想情況下,指揮和控制過程的一部分可以按照博弈論的思路被描述為一個游戲,這樣人工智能就可以在決策支持或指揮和控制的自動手段的意義上使用。MUM-T是這方面的一個關鍵挑戰。
這一領域匯集了后勤、維護和IT管理領域的所有活動。該行動路線包含了各種可以相對快速實施的措施,并有助于更好地應對當前在支持方面的挑戰。許多力爭實現的功能正在民用部門以非常類似的形式使用或開發。
這個領域匯集了各種單獨的解決方案,其中人工智能和大數據可以為有關數據分析和優化的經典問題提供支持。數字化和人工智能提供了一個新的質量機會,因為某些問題(識別,......)可以實時和提前解決(也適用于車輛)或技術設備(如防火墻)。
這篇研究論文的目的是研究什么會影響人類的信任,因為它與人類-自主性協作有關。該研究是通過一個在線調查實驗進行的混合方法研究。該實驗分析了幾個自變量和一個因變量(對人工智能(AI)系統的信任)。自變量是個人的數字素養,人工智能系統的透明度,以及參與者對人工智能系統的能力/性能的經驗水平。用隨機的處理方法來測量自變量,參與者在其中扮演了一個與人工智能系統配對運營團隊中的首席規劃師角色。結果顯示,無論處理條件如何,對人工智能的基本信任水平的重要性。最后,該研究強調,人工智能系統增加信任的透明度可能比以前認為的更有限。
信任是團隊有效性的基礎,它影響著各種團隊過程,包括信息共享、決策和團隊的整體成功。在那些在惡劣的、不確定的、高壓力的環境中工作的高績效團隊中,如軍事、急救、醫療、搜救和救災,在關鍵時刻不適當的信任水平(無論是過高還是過低)會導致隊友之間的次優互動,從而導致不安全的行為(De Jong和Elfring 2010;Costa等人2018)。例如,太過信任,或 "過度信任",會使操作人員陷入自滿狀態,導致代價高昂的錯誤,并有可能失去人命和昂貴的設備;相反,信任太少,或 "信任不足",會使團隊成員感到需要不斷監督對方,造成不平衡和不適當的工作負荷(de Visser等人,2020)。信任是通過作為一個聯系緊密的團體訓練,以及隨著時間推移的共同經驗而建立的(Fulmer和Gelfand 2012;Costa和Anderson 2017)。
隨著自主技術的不斷發展,未來的團隊結構很可能包括自主成員,他們的功能不僅是提供支持的工具,而且是成熟的隊友(Phillips等人,2011)。雖然人類表現文獻中有豐富的方法來評估個體(或對)的信任,但在理解如何衡量大型團隊的信任方面還存在差距(Feitosa等人,2020),以及哪些措施可能最適合由多個人類和多個自主系統組成的團隊的復雜性。使信任度量更加復雜的是,團隊信任是一種動態狀態,在團隊的生命周期中不斷波動,并進一步受到社會、任務和環境背景的影響(Schaefer等人,2018a;Schaefer等人,2019a)。然而,信任在這些更大的、異質的團隊中發展和傳播的過程仍然不清楚。因此,為了使這些技術能夠充分支持團隊運作,關鍵是要了解在人類自主團隊的背景下,信任是如何發展、維持和衡量的。因為信任是復雜的,所以需要一種多模式的測量方法。因此,在本報告中,我們描述了一個概念性的工具包,它的開發是為了更準確、更有力地理解人類自主性團隊中的信任。
鑒于我們的未來社會將看到由多個人類和多個自主系統組成的異質團隊的興起,量化團隊不同成員之間的信任關系,以及了解信任對全球團隊動態的一系列影響非常重要。從這個方法來看,人與人之間的信任與人機合作關系,甚至機器與機器合作關系內部的信任是不一樣的。這些不同類型的互動有不同的優先因素和特點,以及這些互動如何影響整個團隊的信任傳播。考慮到所有這些因素,關鍵是要首先了解現有信任措施的能力和局限性,以便對其進行調整以滿足這些需求,或者在必要時,開發新的措施來支持團隊信任評估。為此,本報告探討了信任評估技術的現狀,包括那些新穎的、超出主觀評估范圍的技術。
第2節我們首先定義了人類自主性團隊,并概述了人類自主性團隊特有的團隊信任。
第3節確定并描述了不同類型的信任,這些信任在其發展過程中是不同的,特別是它們如何影響人類自主性團隊合作。
第4節分解了文獻中已被充分記錄的不同的信任度量方法,其中包括團隊信任的主觀、溝通、行為和生理指標,以及這些如何為在動態環境中運作的人類自主性團隊的有效信任校準提供多模式度量方法。在下文中,我們利用一個說明性的案例研究,詳細介紹了度量團隊信任的多步驟方法,并對模式和后續指標的選擇提出了建議,還指出了團隊信任度量中涉及的一些限制和注意事項。
本報告描述了2021財年美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)未來風險項目 "決策動力學、欺騙和博弈論"的研究工作。為了提高指揮和控制多域作戰的決策輔助工具的有效性,有必要開發能夠協助復雜決策的人工智能(AI)工具。該項目開發了一個人工智能測試平臺--ARL戰斗空間(ARL Battlespace),用于創建和研究復雜推理的人工智能決策輔助工具。ARL Battlespace是一個由友好和敵對的人類和人工智能Agent組成的多人網絡兵棋推演工具。分層貝葉斯模型的初步結果說明,在具有不確定性、欺騙和博弈論的情況下,具有復雜推理功能的人工智能多學科發展框架具有潛力。該項目還開始開發一個基于與戰場可視化和交互平臺以及高性能計算持久服務框架的潛在集成的人機協作決策框架。這些成果為改善人-人工智能團隊的復雜決策和協作能力開啟了研究的大門。
作為美國防部人工智能(AI)戰略的一部分,美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)正在開發基于人類系統適應戰略的研究項目和技術,包括開發基于人-AI團隊決策和相互適應的超人能力的目標。這些新能力對于解決陸軍的多域作戰(MDO)戰略是必要的,特別是其滲透和分解階段,在此期間,人工智能輔助決策可以增強指揮官處理高速和大量信息以及地面、海上、空中、太空和網絡領域的復雜動態的能力。一個關鍵的挑戰是,現有的人工智能算法,對于復雜的決策來說是遠遠不夠的,而且對MDO相關場景的概括能力有限。另一個挑戰是,現有的陸軍理論和決策支持程序沒有將人工智能納入軍事決策過程(MDMP),而陸軍的自動規劃框架(APF)剛剛開始解決這一差距。此外,現有的人-人工智能編隊決策理論和技術僅限于簡單的決策,為復雜的深度決策在提供人工智能透明度方面非常有限,在這種情況下,多種依賴性、不確定性以及信息領域和行為者與復雜的人類、物資和環境動態相交。它們與人類專家的隱性推理協同工作的能力也很有限。發展這些能力需要一個綜合的、多學科的研究方法,包括為新的人工智能研究和人類與人工智能的編隊協作開發人工智能試驗基地。
對于兵棋推演,有必要開發能夠模擬包括戰術和戰略層面在內的多個梯隊的決策測試平臺。現有的兵棋推演決策工具,如Opsim、AFSIM和OneSAF,可以在多個規模上對許多因素進行建模和模擬,以預測基于戰略、物資能力和資源的結果,但它們受到老化系統的限制,有經驗的士兵可能難以學習,也不太適合開發人工智能和人類+人工智能編隊協作的能力。最近,人工智能能力的快速上升為開發和納入新型人工智能作為兵棋推演的決策輔助工具打開了研究的大門。最近人工智能推理的改進(例如,基于深度強化學習)是基于環境狀態完全已知的“開放”游戲(例如,跳棋、國際象棋和圍棋),它們是基于有限的合作性或欺騙性。即使在有額外復雜性的情況下,如環境的不確定性(憤怒的小鳥、雅達利),決策的復雜性、靈活性和對多人兵棋推演的可轉移性也是有限的(如撲克、Minecraft、星際爭霸[圖1])。盡管這些模型可以深入探索決策,但它們只限于選擇結果的潛在價值可以很容易測量和量化的條件。兵棋推演環境給人工智能學習帶來了困難和未解決的挑戰,因為有許多信息不確定性的來源,不僅來自環境,也來自人類和人工智能Agent。人工智能需要適應不斷變化的規則和戰略,迅速減輕出乎意料的敵方能力,并利用新的機會和友好的能力。人工智能還需要與他們的人類隊友相互適應,他們需要有默契的推理能力來與人類專家協同工作,并補償個人的偏見和啟發式方法以及變化的認知狀態。與博弈論等經典方法不同的是,未來狀態的預期效用可以根據合作或不合作的選擇對有限的行動集進行明確的量化,兵棋推演提出了跨環境和社會動態(包括合作性和欺騙性)以及跨多個時空尺度和領域的相互作用的可能性,這使人工智能學習決策如何與未來狀態價值相聯系的能力受到影響。
圖1 ARL在更廣泛的人工智能研究戰略中的Battlespace平臺
解決這一差距需要持續的基礎研究工作,實驗的重點是為決策中的具體問題發現原則和開發新的算法,并有能力將這些原則和算法與MDO的兵棋推演聯系起來。例如,在具有不完善的知識和不確定性的復雜情況下,提供接近最佳解決方案的人工智能可能比提供單一的"最佳"解決方案更有幫助。這種解決問題的方式與人工智能的透明度也需要探討。對近乎最優和不確定性等條件進行實驗,并采用新的作戰人員機器界面(WMIs),可以產生新的算法、通用工具和原則,更好地協同人類和人工智能對復雜決策的探索。
陸軍戰略科技(S&T)計劃的一部分是為 "超人類"的決策和行動開發能力。對于科技計劃中的"人-系統適應"部分,預期的結果是將人類特有的能力和機器的新興能力結合起來,最大限度地提高速度和選擇,以有效應對2035年及以后的社會技術環境的復雜性、智能化和動態性。預計這些研究工作將為人類引導的機器適應、訓練精通技術的士兵、混合人機思維、以及下一代人類系統集成和系統級分析創造新的能力。由于戰爭正在快速變化,包括不斷的技術變化,實現這樣的能力需要制定一個研究計劃,以推進人工智能、人類與人工智能的合作,專門用于復雜的決策。
作為DEVCOM陸軍研究實驗室未來風險投資(DFV)計劃的一部分,這個項目的目標是開發一個跨學科的計劃,以解決人工智能決策的復雜性和人類-人工智能團隊決策中的差距。這包括開發一個人工智能研究測試平臺--ARL戰斗空間,將復雜的兵棋推演決策抽象為關鍵要素,以便人工智能和人類-人工智能團隊的發展可以專門關注復雜的決策過程本身,同時避免物理現實主義和當今材料和理論的計算和概念限制。這也包括為如何發展人類-人工智能協作決策創造新的概念,了解如何塑造信息流以實現人類-人工智能決策的相互透明,以及在人類和人工智能都難以篩選出不確定性和欺騙的條件下實現相互適應性學習。顯性和隱性的決策框架都需要通過這個抽象的兵棋推演測試平臺來實現,以便人工智能可以在多個推理層次上學習和接受挑戰。還需要一個適當的抽象水平,以使多種類型的研究,包括神經科學、人工智能和決策理論交叉的學術研究,以提高人工智能決策的能力和復雜性,并改善其在軍事方面的轉化。
根據設想,在2035年及以后的陸軍中,指揮與控制(C2)決策將由決策輔助系統來激活,該系統利用分布在多個梯隊的人工智能能力,并以復雜和快速的方式攝取所有領域的數據,這將使沒有輔助的士兵感到不知所措。啟用人工智能的決策輔助工具將能夠對戰斗空間進行前沿模擬和分布式訓練;在MDO的滲透和解除整合階段,能夠對條件、友軍和敵軍戰略以及能力變化的可能影響進行調整和前瞻預測;并能夠對關鍵決策進行事后審查。人工智能將為其決策提供透明度,使真實和抽象的決策空間互動可視化,并根據陸軍理論和未來理論的要求,對士兵的個體化和情境進行優化。相反,人工智能將與士兵共同適應,學習如何在信息不足、沖突或欺騙的情況下做出復雜的決定,并為有效的團隊決策重新塑造、完善和展示信息。有了人工智能Agent作為數據有效轉化和行動化以及利用顯性和隱性知識的合作伙伴,預計分布式C2指揮官將能夠在MDO的許多時空尺度和維度上共同制定和協調行動方案,并且戰術和戰略的跨領域互動將被向前模擬,對環境、人和戰略的動態有更強的彈性。除了增加復雜決策的能力外,預計決策過程本身將通過消除繁瑣的計算和其他延遲而加速,從而使計劃和戰略能夠比實時更快適應不斷變化的戰場和外部(如外交、經濟)因素。
為了實現這一未來,為復雜決策開發新型人工智能的計劃的長期目標是利用多個學科的持續進步。用于推理的"核心人工智能"的發展,在為簡單決策迅速取得進展的同時,需要持續的協同創新,以及來自神經科學和心理學等領域的研究,以便在獎勵難以分配給具體事件或行動的條件下(例如,因為不清楚以何種程度的確定性將獎勵的原因歸于誰、什么、何時、何地或為何),為強化學習開發新型理論。需要機械層面的理論(例如,神經膠質網絡如何支持將不同的事件與獎勵聯系起來)和更高層次的理論(例如,社會規則如何塑造學習)來彌補目前核心人工智能的有限能力和C2決策的需求之間的差距。還需要協同創新和研究,將人工智能的發展與士兵的隱性推理過程相結合,以實現元學習和元推理的決策互動。
ARL DFV項目是一種機制,旨在促進跨學科基礎和應用研究的新方向,解決研究差距,并為軍隊的任務創造新的能力。DEVCOM ARL研究員認為分析科學是一個需要能力的領域,具有高回報的潛力,需要對現有項目進行重新規劃和擴展,并需要新的項目來建立新的核心能力和建立內部的專業知識。
為了創造這些能力,這個DFV項目的主要目標是建立一個新的研究項目,為C2決策輔助工具的復雜推理開發新型人工智能。這包括開發一個人工智能測試平臺:ARL Battlespace,以便靈活地開發專門用于MDO C2決策的復雜推理的新型人工智能。現有的兵棋推演人工智能測試平臺往往局限于較簡單的決策,更注重于戰術性的地面行動。例如,正在進行的人工智能測試平臺開發工作,如ARL Simple Yeho人工智能測試平臺,側重于環境的真實性,有多個地圖層,包括道路、樹葉和海拔高度,向排長推薦決策,如路線規劃和士兵重新分配任務。由于對當地地形環境的關注,在該環境中開發的人工智能推理將集中在精細的社會和生態動態上,對協作和敵對決策動態進行深入訓練的機會比較稀少。這些稀少和復雜的問題("微小的、骯臟的、動態的和欺騙性的數據")迷惑了發展人工智能的經典方法,尤其是復雜推理。相反,這個DFV項目的ARL戰斗空間人工智能測試平臺抽象了當地地形的元素,將人工智能的學習和推理更具體地集中在復雜的MDO相關的C2深度推理上(多個決策步驟,包括更頻繁的合作和欺騙的機會)。這使得在C2兵棋推演的背景下,更有針對性地發展人工智能對復雜的多Agent(人、人工智能和人+人工智能團隊)的決策能力。
第二個目標是通過開發一個有效的WMI來研究和開發如何呈現人工智能的理解和預測以及如何利用人類的理解和預測,為復雜決策的有效人類-人工智能團隊合作創造條件。這項工作包括利用和開發高性能計算(HPC)資源進行計算支持,同時開發用于決策的商業二維交互和混合現實交互的定制軟件(例如,基于增強現實沙盤[ARES]平臺的戰斗空間可視化和互動(BVI)平臺)。通過開發多種WMI方法,我們期望這些平臺能夠實現復雜決策的快速原型研究,并能夠將我們的新型AI與更成熟的兵棋推演訓練和模擬框架與團隊進行整合。
我們預計,在新型人工智能開發、HPC計算支持和用于決策空間現實表現的WMI開發方面的這些努力將為人類-人工智能團隊的發展創造一個新的范例,為未來多個陸軍理論(MDMP、DOTMLPF、27 METT-TC28)的進步和現代化鋪平道路(圖2)。
圖2 在更廣泛的人類-Agent團隊決策研究戰略中的新型人工智能開發
這個項目開發了兩個研究框架 。首先,它開發了一個人工智能測試平臺,被稱為ARL戰斗空間,用于創建和調查人工智能的復雜協作和敵對決策。其次,它認識到目前軍事決策過程中的局限性,構思了一個用于人與人工智能協作的復雜決策的WMI,利用軍隊和商業開發的戰斗空間可視化平臺,與非傳統的HPC資源進行潛在的連接,實現人工智能增強的兵棋推演平臺。
這里,我們描述了我們開發ARL Battlespace的方法,這是一個開源的靈活的兵棋推演平臺,將促進開發基于強化學習算法的新決策輔助工具。特別是,我們關注的是有三個或更多合作和敵對玩家的博弈論的理論和算法能力的差距。雖然博弈論的概念,如囚徒困境和Brinksmanship("吃雞"),對于兩個玩家已經發展得很好,但它們還沒有擴展到三個或更多的玩家,由于鞍點和局部最小值的存在,決策環境可能很復雜,這可能混淆了強化學習的作用。在戰爭中可能出現的情況下,理解和預測三個或更多的合作和敵對玩家的納什均衡,需要一個靈活的兵棋推演平臺,允許跨學科地探索這種決策空間。該兵棋推演平臺還需要能夠開發、理解和發現玩家和人工智能之間的新型互動和協同作用,使人類能夠利用人工智能快速找到最佳和接近最佳的解決方案。這些解決方案將使人工智能能夠從人類的決策模式中學習,以及如何優化其對決策空間的搜索。
為了實現這些解決方案,我們開發了一個類似于國際象棋的棋盤游戲,由兩支隊伍組成,一支紅色部隊和一支藍色部隊,每支隊伍可以有多個聯盟(玩家)。游戲是在一個共同的戰斗空間上進行的,這個戰斗空間目前被設計為MDO每個領域的一套棋盤。圖3顯示了一組游戲棋盤的例子,我們考慮了一個"空中"和一個"陸地"棋盤。每個棋盤都被劃分為一組單元格,"空中"棋盤被放在"陸地"棋盤上,形成一個共同的戰斗空間。在這個例子中,我們選擇了創建方形網格,并且只考慮兩個領域。然而,在一般情況下,棋盤格可以采取任何形狀,并且可以任意縮小,而棋盤的數量可以靈活處理MDO中的每一個域。例如,"空中"盤可以由多個代表不同海拔高度的板組成。這種提法提供了一個通用的應用編程接口(API),允許在兵棋推演中取得基本的研究進展,因為它可以被定制以適應任何兵棋推演的場景。
圖3 用于復雜決策的ARL戰斗空間AI測試平臺
每個聯盟都被假定有一組部件,我們稱之為單位。目前,我們假設有四個地面單位和一個空中單位。地面單位由士兵、坦克、卡車和旗幟組成,而空中單位是飛機。每個地面單位目前都有相同的能力(即,相同的行動和視圖集)。然而,API的設計是為了使聯盟的每個單位都有定制的能力,從而使設計特定場景變得容易。
目前各單位的規則和行動如下。士兵、坦克和卡車都有一個目標,描述他們的導向。他們的行動包括 "什么都不做(doNothing)"、"轉向(turnH)"、"前進1(advance1)"、"射擊(shoot)"和"沖撞(ram)"。"doNothing"意味著該單位停留在他們的位置,不改變他們的狀態。"turnH"將單位的方向旋轉H度,其中H∈{-135,-90,- 45,45,90,135,180}。"advance1 "使其方向上向前移動一個單元。"shoot"向單位的方向射出一個彈丸,彈丸繼續向前推進一個單元,直到它與另一個單位相撞或在游戲盤外飛行。最后,"ram"行動使單位在其方向上向前推進一格,同時進行攻擊。與 "advance1"行動相比,"ram"行動總是有利的,因為攻擊可以消滅敵方單位。
飛機單位的規則和行動與士兵、坦克和卡車相似。這些行動是"什么都不做(doNothing)"、"轉向(turnH)"、"前進X、Y(advanceX,Y)"、"射擊(shoot)"和 "轟炸(ram)"。“doNothing”、“turnH”和“shoot”的動作與地面單位相同。行動“advanceX,Y”允許該單位沿東西軸線移動X單元,沿南北軸線移動Y單元。飛機也可以 "上升(ascend)"和 "下降(descend)"來起飛和降落。最后,"炸彈(bomb)"行動在飛機的正下方射出一個彈丸到陸地游戲盤上。旗幟單位無法移動,如果被俘,則被清除。
目前游戲玩法的實施很簡單。最初,每個聯盟(玩家)將其單位放在游戲盤的各自區域。當每隊有多個聯盟時,各隊的游戲板部分被平均分配給各聯盟。請注意,每個單位的位置對所有其他聯盟都是未知的。然后,每個單位觀察其可見范圍內是否有其他單位,提供一個戰爭迷霧的場景。我們將每個單位的觀察范圍定義為從該單位的當前位置開始的一個方塊;然而,可視范圍可以根據場景和單位的情況進行定制。一旦每個單位觀察到了,同一團隊的聯盟就會合作確定他們想為每個單位采取的行動集。這允許每個聯盟觀察其隊友的單位位置,并進行溝通以協調他們的計劃。接下來,每個聯盟為每個單位選擇一個行動。請注意,所選擇的行動只有屬于同一團隊的聯盟才知道。在選擇了行動后,游戲決議被應用,根據他們選擇的行動移動單位,并解決是否有任何單位被攻擊或與另一個單位相撞。如果一個單位被攻擊或與另一個單位相撞,它將被從棋盤上移走。這個過程不斷重復,直到游戲結束。
完成游戲取決于游戲的基本規則,這些規則可以根據具體場景進行定制。在這里,我們研究了兩種類型的游戲:(1)奪旗和(2)殲滅。奪旗游戲的目標是操縱地面部隊進入敵方領土以奪取對方的旗幟,旗幟的位置是未知的,必須通過探索才能發現。一旦所有的敵方旗幟被占領,游戲就會終止。殲滅戰的目標是發現并攻擊所有敵人的地面單位。在這里,一旦發現并消滅了所有敵人的地面單位,游戲就終止了。每種游戲的基本規則都是相同的,但實現每個目標的最佳策略是不同的。在這兩種類型的游戲中,由于敵方單位和旗幟的能見度有限,存在著高度的不確定性。
接下來,我們報告了我們在開發基于模仿學習思想的人工智能Agent方面的初步結果,模仿學習使用的是由人類演示構建的分層貝葉斯模型。我們從討論數據收集過程開始,對數據進行分析,最后用啟發式方法使一個簡單的人工智能Agent勝過一個隨機Agent。
為了學習人類的策略,我們讓五個人類受試者組合在一起,針對第2.1節中討論的兩類游戲(即奪旗和殲滅),與兩個隨機Agent進行ARL戰斗空間游戲。在每個回合中,每個隨機Agent根據一個固定的分類分布為每個單位??選擇一個行動,其中采取一個行動的概率是
,
取決于單位??可以采取的行動數。回顧一下,每個單位的行動在第2.1節中有描述。
每個游戲由一對人類受試者對兩個隨機Agent組成,在每個游戲開始時,人類受試者合作討論他們對該游戲類型的整體策略。這導致了20場游戲的收集,其中奪旗和殲滅戰各10場。一旦所有的游戲都進行了,就對游戲數據進行分析以確定人類的策略。
分析游戲數據的第一個方法是研究人類玩家的行動頻率。行動頻率被定義為 ,其中D代表奪旗或殲滅的游戲數據。
是指在所有游戲中,單位??采取的行動次數,而??(??)是所有游戲中的總回合數。
圖4顯示了地面單位(即士兵、坦克和卡車)的行動頻率,圖5顯示了空中單位(即飛機)的行動概率。游戲的總體目標決定了所選擇的行動,使我們能夠確定所玩游戲的類型。如圖4所示,奪旗游戲的地面單位更有可能選擇前進和攻擊的方式,用 "沖撞"的動作來尋找旗子。此外,"什么也不做"的行動也被更頻繁地選擇。這是因為一旦團隊找到旗子,離旗子最近的單位就會采取行動去搶奪旗子,而其余單位則什么都不做。對于空中單位,人類受試者更傾向于選擇 "advance0,-2 "的行動,即把單位推進到敵人的領土上尋找國旗。
圖4 從人類游戲中產生的所有地面單位,以游戲類型為條件的行動概率
圖5 從人類游戲中產生的空中單位,以游戲類型為條件的行動概率
在 "殲滅"游戲中,人類Agent更傾向于選擇攻擊行動來消滅敵人的目標(即對地面單位采取 "射擊",對空中單位采取 "射擊"和 "轟炸")。為了進一步驗證這一策略,圖6顯示了每回合平均射彈數量的累積總和。顯然,"殲滅"游戲的射彈數量比"奪旗"游戲要多。
圖6 每一回合中射彈總數的平均累積總和
兩種游戲的另一個區別是,奪旗游戲的總回合數要比殲滅游戲少得多。這是因為人類Agent找到旗子的速度比他們找到敵方單位并消滅它們的速度要快。
基于對人類Agent如何與隨機Agent玩游戲的簡單理解,我們可以按照類似的方法來學習策略,為簡單的人工智能Agent開發啟發式方法。
一個簡單的人工智能Agent的算法如下。最初,Agent隨機地將他們的單位放置在棋盤的指定區域。然后,每個Agent確定每個單位的狀態。考慮到狀態和游戲的目標,Agent從預定的概率分布中為每個單位抽取一個行動。
這個過程在每個回合中都會重復,直到游戲結束。預定的概率分布遵循一個分層貝葉斯模型。為了便于表述,我們在附錄中提供了相關理論。對于最簡單的情況,我們認為單位在每個回合中可能處于兩種狀態,或
。然后,概率分布
根據附錄中的公式A-1定義,與圖4和圖5中的行動頻率類似。然后我們將這個分布實現在兩個簡單的人工智能Agent中,并與兩個隨機Agent進行比賽。作為一個基線性能,我們與兩個隨機Agent進行了比較。在這兩種情況下,都進行了1000場比賽,并計算了獲勝百分比。通過使用雙狀態概率分布,簡單的人工智能Agent能夠在奪旗游戲中贏得84.5%的時間,在殲滅游戲中贏得76.9%的時間。
接下來,我們為每個單位i考慮了一個更大的九態狀態空間,定義為,其中??r0和??r1分別表示一個友好單位是否被i單位觀察。??0和??1分別表示i單位是否觀察到敵方單位;以及??l0和??l1分別為團隊是否看到敵方旗幟。同樣,概率分布
然后根據附錄中的公式A-1定義,并落實到兩個簡單的人工智能Agent。在奪旗游戲中,簡單人工智能Agent對兩個隨機Agent的獲勝比例為89.4%,在殲滅游戲中為82.3%。
結果摘要見圖7。有趣的是,在兩種形式的概率分布(即雙狀態分布和九狀態分布)中,奪旗策略都優于殲滅策略。這是因為 "消滅 "游戲中的Agent更有可能選擇 "射擊 "行動,由于隨機的初始位置,這將導致更多的友好射擊。因此,作為一個簡單的人工智能Agent,采取先攻后守的方法更有利。此外,當我們考慮到單位的額外狀態時,獲勝的百分比會增加。未來工作的一個可能方向是開發深度強化學習策略,以學習最大化獲勝比例所需的狀態定義和數量,即使是面對人類Agent,也要為MDO中的C2提供建議。
圖7 簡單AI Agent的獲勝比例
ARL戰斗空間測試平臺的關鍵優勢在于其靈活性和適應MDO任務規劃的變化需求。它的抽象性使關鍵的決策過程及其互動和動態被壓縮到一個較小的游戲盤中,并有更多可量化的人與人工智能的互動,用于開發人與人工智能的團隊合作。這使得人工智能的開發能夠集中于復雜決策的獎勵塑造,同時減少由于滋擾因素(如時空縮放)造成的學習障礙,這些因素使決策在時間和空間上變得稀疏,因此,更多的努力(人工智能以及人工智能開發者的部分)可以被用于在各種時空尺度的不確定性和欺騙下的學習。它還將兵棋推演互動中可能不容易被整合到人與人工智能團隊中的特質(例如,人類心理學的某些方面,如個人關系)放在一邊,以利于在人工智能推理發展方面取得更切實的進展。在下面一節中,我們介紹了幾個挑戰和發展人工智能進行復雜推理的例子。這些例子包括博弈論、元推理和網絡欺騙,涉及到現有人工智能算法尚未處理或解決的各種復雜決策。由于人工智能的C2決策輔助工具將有望超過人類水平的決策,不僅在速度上,而且在復雜性上,我們設想這樣的C2決策輔助工具需要能夠解決大多數(如果不是所有)的情景。
我們首先關注博弈論和兵棋推演之間的差距,在一個簡單的突破場景中,這是兵棋推演中經常遇到的一個經典問題(例如,在橋梁交叉口、地雷區和山口[圖8])。在經典的博弈論概念Brinksmanship("吃雞")中,友好的藍色和綠色坦克被激勵著越過缺口到達另一邊。通常情況下,這些坦克會協調他們的行動,但如果藍、綠坦克之間的通信被破壞,一個單位(如藍坦克)的行動可能會因為與另一個單位(綠坦克)的碰撞或友好射擊而導致低回報。如果還包括囚徒困境的元素,那么這個場景就迅速超越了經典的博弈論,因為可能需要綠色和藍色坦克一起穿越,共同攻擊更強大的紅色坦克,這需要仔細協調。額外單位的存在(例如,綠色飛機對敵對單位提供觀察、轟炸或干擾,如黃色士兵提供可能的增援)能夠進一步操縱動態和環境對決策的限制或機會。飛機也可能發現第二個缺口,或者 "墻"可以滲透,以創造缺口(例如,清除地雷或建立額外的橋梁交叉點)。
在粗略尺度(如10×10板)和背景下學到的行為可以通過獎勵塑造逐步推廣到更細的尺度和其他背景下。額外的地圖層也可以被添加到諸如快速地下運輸等領域,以繞過地面層中的墻壁。環境因素,如天氣,也可以包括在內,以改變機動性。因此,即使是一個看似簡單的場景,也可以提供豐富的機會來操縱影響決策動態和結果的因素,并探索不同類型的不確定性之間的相互作用如何改變決策景觀,以創建鞍點和局部最小值,從而混淆強化學習的作用。在戰爭中可能出現的情況下,理解和預測三個或更多的合作和敵對玩家的納什均衡,需要一個靈活的兵棋推演平臺,允許跨學科地探索這種決策空間。兵棋推演平臺還需要能夠開發、理解和發現玩家和人工智能之間的新型互動和協同作用,使人類能夠利用人工智能快速找到最佳和接近最佳的解決方案。這些解決方案將使人工智能能夠從人類的決策模式中學習,以及如何優化其對決策空間的搜索。
圖8 帶有豐富博弈論條件的場景
在ARL戰斗空間游戲中,每個玩家都有一面彩色的旗幟,游戲可以通過殲滅所有對方的地面單位或奪取對方的所有旗幟來獲得勝利(現實生活中的一個等價物是奪取所有關鍵的橋梁或指揮中心)。根據游戲的狀態,指揮官可以決定改變整體策略(殲滅戰與奪旗戰),以更快地取得勝利。例如,如果一輛坦克已經接近一面旗幟,那么將剩余的單位轉到其他地方尋找剩余的旗幟可能是有利的(圖9)。相反,如果一支敵對部隊守衛著第一面旗幟,那么優先奪取這面旗幟可能會更好,這樣搜索第二面旗幟的效率會更高。這種未闡明的推理,或稱 "默契推理",往往在自然的人類決策中根深蒂固,這是一種需要開發的人工智能能力,以便人工智能能夠有效地參與人類-人工智能團隊的決策,使人工智能的發展能夠開始有工具來獲得人類決策的創造性。
圖9 帶有隱性推理和任務重新分配的元推理標志方案
對于人工智能的發展,這就需要一個額外的更高級別的推理Agent不斷地監測游戲的狀態,以做出切換策略的選擇,并將此傳達給控制各個單位的Agent。元推理包括監測推理所涉及的步驟,以及平衡影響活動結果的標準。此外,元推理結合了不同信息的不確定性,以產生更有意義的、符合背景的決策建議。納入元推理可以使約束條件和各種決策方法得到權衡,為行動方案提供不同的選擇。例如,基于元推理的替代選擇可以決定是否優先考慮探索與攻擊已知敵方單位與防御,部署哪種機動戰略,或者考慮到敵方部隊的可觀察位置如何重新分配任務。由于ARL戰斗空間環境的網格大小較小,游戲可以快速進行,導致經常有機會使用元推理,并使人工智能有機會學習結合和預測多種類型的元推理方法的相互作用。由于抽象環境增加了人工智能學習戰略如何交互的頻率,這將使人工智能學習更高級的戰略,例如需要平衡不同戰略、能力和任務要求之間的交互,保持選擇的自由,并產生戰略模糊性以迷惑對手。總的來說,這種方法的好處是通過增加控制和監測機制來改善決策,這些機制包括一個平衡行動和環境約束的元推理Agent。
對抗性決策的一個關鍵方面,特別是在戰爭中,就是欺騙。欺騙可以發生在多個層面,包括戰略、可觀察的信息、單位能力和位置。在ARL戰斗空間中,單位的可觀察性有限,這自然為欺騙創造了機會,而飛機在敵方空間深處的探索能力也為揭開單位位置的欺騙提供了機會。圖10展示了一個簡單的欺騙場景的例子,在這個場景中,友軍的藍色和綠色部隊試圖穿越到另一邊。左下方的友軍士兵開始通過左邊的缺口發射導彈,因為他們的Agent推斷(通過對方Agent的人工智能心智理論),看到導彈后,敵方Agent會推斷出友軍正準備通過該缺口進行攻擊。這種欺騙,通過將敵方Agent的注意力和計劃集中到左邊的缺口,使他們偏離右邊的缺口,為藍綠坦克從右邊進入創造機會。通過設計有兩個缺口的情景,該情景建立在經典心理學的兩個替代性強迫選擇任務的基礎上,能夠應用敏感的心理學工具進行決策分析,并開發動物模型,從神經生理學和行為學上剖析支配欺騙的情境依賴性學習和決策的基本細胞和分子機制。例如,人們可以引入一些因素,使友好或敵對的決策出現偏差(例如,通過操縱傳感器的噪音或操縱總部的命令),或應用光遺傳學和化學遺傳學工具等方法,了解他人的認知、信念或策略的神經表征(例如,在前扣帶回和眶額皮層中)對決策計算的貢獻(在前額皮層中)。這種調查還可以發現決定一意孤行、啟發式方法和隱性偏見與對其他假設的開放性的因素,這可以幫助確定在特定條件下如何最好地重新分配任務(例如,當一個人對等級指揮結構有偏見時,他可能不太愿意追求與總部的命令相矛盾的傳感器信息)。這種固有的偏見、啟發式方法和默契的推理是人類推理的自然組成部分,在我們與他人的互動中會被預期到;人工智能的心智理論包括這種偏見補償,對優化人類+人工智能的團隊合作可能是有益的。
圖 10 需要人工智能心智理論的簡單欺騙場景
在人類的決策中,來自不同領域的信息可以結合起來,產生意想不到的效果。心理上的McGurk效應是指口型"ga"和聽覺上的音節"ba"在時間上有很強的同步性,從而產生幻覺"da"。雖然多感官整合似乎沒有在C2決策中得到探索,但MDO中多個領域的匯合,特別是其在穿透和分解整合階段的高容量和高速度,可能會產生意想不到的非線性跨領域的相互作用(這可能有助于"戰爭迷霧")。圖11說明了一個例子,在這個例子中,實際跡象(導彈)和坦克誘餌(由中間人[MITM]網絡攻擊產生)的組合可以協同作用,迫使敵方單位向左側缺口移動。為網絡欺騙創造趨同的跡象線是一種普遍的策略,然而特定的欺騙模式可能比其他模式更有效。例如,人們認為大腦會將相似或相關的跡象分組,以進行有效的處理(如格式塔分組),這樣就可以克服信息瓶頸(如處理七個以上的名義項目,從而減少單個項目的影響)。如果進行每一次網絡攻擊都會產生一定的成本或風險,那么了解如何將這些成本分配到不同的線索特征中,以便以最小的風險提供最有效的影響可能是有益的(例如,如果MITM攻擊產生導彈誘餌,那么它的效果可能會降低,甚至是反作用)。了解不同的線索組合如何被不同的士兵所感知,也可能是有意義的。具有不同偏見或處于不同角色或梯隊的指揮官可能對相同的跡象組合有不同的感知、解釋或行動(例如,一個誘餌的有效性可能取決于它與目標指揮官的距離以及與他的決策過程的相關性)。更高級的策略可能包括主動防御(例如,通過 "蜜罐 "策略[圖12]),以提高網絡欺騙的有效性。為了給MDO提供超人的能力,人工智能決策輔助工具可能需要根據即時可用的跡象在多個領域協助生成可信的誘餌,以網絡的速度迅速調整這些展示,并保持虛擬和現實世界之間的一致性,以保持幻覺的有效性。
圖11 帶有中間人攻擊的網絡場景
圖12 帶有蜜罐的網絡場景
上一節所述的ARL戰斗空間人工智能測試平臺通過將戰斗空間地形抽象為一個沒有現實表現的網格狀環境,提供了人工智能開發和測試所需的靈活性。例如,圖8顯示了一個類似于墻的障礙物,它被表示為幾個網格塊,與單位互動時應用的環境約束條件有關。人類團隊和AI都在共同的雙級網格化戰斗空間內進行游戲。人類玩家通過在控制臺窗口中輸入基于文本的編碼命令與ARL戰斗空間互動。這種命令行的交互和顯示加速了人工智能算法的開發過程,并為人工智能兵棋推演所需的大規模實時計算建立了與計算資源的潛在聯系。為人工智能兵棋推演測試平臺(如ARL Battlespace)構思一個用戶界面,并建立通往外部計算服務的管道,構成了DFV第二個目標的基本組成部分--開發一個用于復雜決策的WMI。
一個跨梯隊和作戰級別的軍事決策過程模型構成了為人類和人工智能兵棋推演開發一個有效的WMI的基礎。在傳統的兵棋推演中,指揮官利用一個共同的基于地圖的作戰地形,并模擬MDMP中各種因素的組合如何產生行動方案(COAs)、可能的反擊行動、資源使用估計和預測結果。在幾天或幾周內,MDMP過程形成一套精煉的COAs,對作戰環境做出某些假設,包括地形、天氣和設置戰場的單位的可用性和能力(即為支持主要作戰行動而塑造活動)。
盡管MDMP幫助指揮人員了解作戰環境和考慮作戰方法,但這個過程有許多局限性,如時間密集性、假設的僵硬性、跨場景變化的訓練機會有限,以及很少有機會將人工智能指導納入決策過程。傳統上,一項任務的成功與指揮部執行MDMP的能力直接相關。然而,鑒于MDO的復雜性增加,有大量的任務指揮系統和流程,與行動相關的所有活動的整合和同步變得越來越困難,甚至到了人力無法完成的地步。缺少MDMP所導致的規劃專業知識的缺乏會導致行動的不同步和不協調,并最終導致士兵的生命損失。
MDMP中沒有具體描述戰斗空間的可視化能力,但它顯然在決策過程中發揮著重要作用。最近,整合了先進可視化能力的新系統和技術已經被開發出來,這些系統和技術可以提高對局勢的認識,從而加強決策過程。陸軍的例子包括Nett Warrior,它使下馬的戰士能夠直觀地看到附近的友軍和敵軍,同時根據當地的地形協作規劃戰術任務。盡管這項技術將無線電和數字地圖擴展到了下馬戰士,但它缺乏一個提供決策幫助的基礎人工智能引擎。BVI是陸軍技術的另一個例子,它能夠為任務規劃提供分布式協作,具有從任意視角和廣泛選擇的設備對共同作戰圖進行2D和3D可視化的能力。BVI架構可以被制定,以拉入外部計算服務,如分析管道、模型和AI引擎。
目前,MDMP并沒有將人工智能指導納入整體任務規劃方法中。陸軍的APF開始通過將自主技術插入MDMP工作流程來解決人工智能輔助決策的問題。指揮人員可以通過APF的數字規劃顯示、規劃創建者和規劃監控工具,在任務規劃和COA開發過程中獲得背景援助。任務執行和估計能力通過監測任務的規劃和實際進展,為改進決策跟蹤和支持活動提供自動協助。盡管APF在MDMP中引入了基本的自動化水平,但它缺乏Nett Warrior和BVI所提供的高級可視化和用戶交互能力。
除了MDMP之外,最近將人工智能納入決策過程的努力包括了一些方法,在模擬人類決策過程方面取得了一些成功。一般來說,對于決策變量有限的問題,如資源分配、飛行模擬器和較簡單的場景,人工智能取得了一些成功。目前面臨的挑戰包括:需要提高人工智能的能力,以解決有多個行動者、不完整和可能相互沖突或欺騙的信息、不斷變化的單位行動和環境屬性的復雜決策,以及需要將這些決策的后果在許多空間和時間尺度上可視化。
MDMP在支持MDO復雜決策方面的局限性,突出表明需要在三個方面進行改進。首先,有必要將人工智能生成的指導和輔助決策支持納入MDMP。這包括進一步發展和整合人工智能到戰斗空間決策規劃,以及進一步改善人工智能決策過程的可解釋性和透明度。第二,有必要在可能的情況下,將決策分析與戰略層面以及戰術邊緣的HPC的力量結合起來。這將能夠利用HPC系統的力量來改善建模、分析和計算時間,同時整合和同步來自所有戰區領域的信息。最后,有必要利用先進的可視化技術,如混合現實技術,對決策空間進行更準確和互動的展現。不是簡單地在一個固定的時間尺度上顯示地形的二維渲染,而是需要可視化不同領域的決策是如何互動的,并利用混合現實技術來提高理解的吞吐量和深度,并實現平面顯示不可能的洞察力。
MDMP是陸軍設計方法的核心,用于應用批判性和創造性思維來理解、可視化和描述問題以及解決這些問題的方法。作為解決問題的行之有效的分析過程,必須克服前面描述的MDMP的局限性,以便快速制定一個靈活的、戰術上合理的、完全整合的、同步的規劃,以最小的傷亡增加任務成功的可能性。下面的小節描述了對MDMP的潛在改進,以支持人類與人工智能的合作決策。
需要新的人工智能支持的WMI,以利用人工智能決策的持續進步,并為復雜的適應性決策的人工智能學習做出貢獻。通過匯集所有領域的信息,計算人類和人工智能Agent的風險和預期回報,人工智能決策輔助工具的發展將提供能力越來越強的COA建議。現有的人工智能有幾個局限性,特別是對于有不確定性的復雜和適應性決策,以及人類和人工智能Agent的協作和對抗。對多Agent的協作和對抗性決策進行建模可能特別復雜,因為它的遞歸性質,其他Agent是模型的一部分,需要對決策特征、個性化的價值、風險規避、記憶和注意力進行動態和不斷發展的估計。這些具有高度不確定性、復雜性和動態性的情況是人類擅長的領域,適當設計的人機協作交互可以提供加速和更有效的決策。為了實現有效的團隊合作,新穎的WMI應該幫助作戰人員篩選復雜的信息,幫助人工智能發現決策的隱含規則。在此,我們提供了關于人機協作如何有效的案例。
多域兵棋推演中需要的復雜決策是開發有效的人工智能決策輔助工具的直接挑戰。最近人工智能在圍棋和國際象棋等游戲中的成功是基于對世界現有狀態的完全了解(即 "開放"游戲),而兵棋推演通常包括關于作戰環境的不完整(如星際爭霸)、不確定和/或欺騙性的信息。由于世界狀態、不同行動者的狀態以及所采取的行動影響的不確定性,知識的缺乏使得人工智能Agent難以計算未來行動的風險回報情況。不確定性也限制了人工智能估計其他行為者的風險回報概況的能力,而這是計算有效博弈論策略所需要的。人工智能被可能的最優和近似最優選擇的廣度所淹沒(即由于信息有限而選擇錯誤)的情況并不少見,因為人類在制定有效探索隱藏信息的策略時,會采用啟發式方法來進行有效的選擇和預測。為了幫助發展人工智能的隱性知識和探索能力,新型的WMI需要有效地解釋和展示決策圖,以使作戰人員能夠快速和自然地瀏覽可能的選擇,同時使人工智能能夠適時地從人類的決策中學習,而不施加認知負荷。
開發人工智能的WMI的另一個基本挑戰是如何有效地整合和顯示MDO中所有五個領域的信息,特別是空間和網絡,因為這些領域的信息具有不同的時空尺度。對于網絡,決策的規模和速度可能比人類處理和理解的能力更快,需要人類的輸入來指導半自動的決策,以及一個實施進攻和防御欺騙策略的人工智能。WMI需要能夠以這樣的方式顯示決策圖,即一小部分最優和接近最優的決策策略清單是可以解釋的(例如,通過決策樹)。這應該包括對關鍵Agent在不確定情況下的未來狀態和風險回報情況的估計,以使有效的博弈論決策能夠被共同開發和相互理解。
這些挑戰為有效的WMIs的可能設計提供了參考。也就是說,我們需要有能力從不同的來源(包括從其他國家的決策輔助工具)攝取信息,以及一個能夠承載整合這些信息的計算能力架構,同時還要處理基礎的人工智能計算(包括學習和部署)。我們還需要共同開發一個交互和算法設計,以適時地利用人類和人工智能Agent的優勢并減少其局限性。
在MDO兵棋推演的復雜決策過程中,需要大量的計算能力來處理和記錄所有組件、實體和狀態空間。從動態狀態空間的累積數據集中建立過去、現在和預測模型,需要利用HPC資源來產生分析見解,并創建在復雜決策背景下有用的表示。
實施HPC分析工作流程的一種方法是使用持久性服務框架(PSF)。PSF是一個最近可用的分布式虛擬化解決方案,它可以通過一個基于網絡的前端實現對高性能計算服務的非傳統訪問,而不像傳統的HPC環境那樣,計算節點在特定時期內以批處理模式分配給用戶。此外,PSF可以提供對數據、數據庫、容器化工具集和其他托管平臺的分布式持續訪問。
在一個PSF方法的例子中,一個模擬引擎連接到PSF,用于記錄人類和人工智能做出的所有決策。這允許分析在任務規劃和COA開發過程中發生的決策行為,以及識別決策模式和戰略,以開發競爭和現實的兵棋推演場景。一個戰斗空間可視化平臺可以托管在PSF上,并使用信息傳遞協議來更新所有連接的設備接口。來自模擬引擎的狀態信息可用于生成戰斗空間和參與作戰單位的圖形表示。
使用PSF方法并利用HPC資源,可以實現利用大數據攝取和分析的人工智能輔助決策機制,同時可供地理分布的用戶用于協作決策工作。連接到PSF托管服務器的各種混合現實顯示模式可以支持從戰略層面的C2到作戰邊緣的更多移動戰術使用等一系列作戰場景。
用圖形表示各級行動的軍事決策戰略需要新的可視化方法,這些方法可以應用于以規則變化、認知狀態、不確定性以及個人偏見和啟發式方法為特征的動態環境。
戰斗空間的視覺表現應該在技術上盡可能準確和逼真,但又保持在人類可以理解和解釋的認知水平。融合了混合現實技術的先進可視化方法有可能更好地表現多領域戰爭的變化特征及其不斷變化的威脅和動態環境。隨著最近混合現實可視化設備的技術進步,成本降低,硬件的可靠性和實用性顯著提高,混合二維和三維可視化方法現在已經成為可能。
由多個二維顯示器組成的混合現實方法增強了更先進的三維可視化能力,可以為指揮人員提供了解復雜的戰爭游戲狀態空間所需的洞察力。例如,BVI平臺可以使用多種可視化模式的組合,真實地呈現地理空間的地形。作為一個數據服務器,BVI向支持多種可視化模式的客戶端應用程序分發地形、作戰和Agent行為數據,包括頭戴式顯示器設備、基于網絡的界面、移動安卓平板設備和混合現實設備(例如,HoloLens 2、Oculus Quest)。
圖13(頂部)顯示了位于加利福尼亞州圣貝納迪諾縣歐文堡國家訓練中心的高分辨率地形上的友軍與敵軍的兵棋推演場景。與MDMP期間經常使用的傳統2D地圖顯示相比,戰斗空間的3D視圖可以從多個觀察角度提供更豐富的用戶體驗。三維視圖,在BVI的網絡戰術計劃器(WTP)中,將地形和人工特征的空間信息以及由MIL-STD 2525C符號描繪的單位位置可視化。
可以想象,地理空間視角,如BVI提供的視角,支持決策者對動態戰斗空間環境的理解。與可導航的人工智能增強的決策空間(圖13,底部)搭配,組合的視角可以使人們更好地理解視覺空間依賴性、影響和因果關系、估計的風險和價值、不確定性以及復雜決策的欺騙性。將這種以地理空間和決策為中心的視角與人工智能相結合,可以提供必要的廣度,以協調物理行動與網絡和其他非空間領域的行動,跨越多個時間尺度,并具有快速適應變化的任務目標的靈活性
圖13 BVI網絡戰術規劃器中的兵棋推演場景的三維視圖(上)與人工智能決策樹的概念(下)。
人工智能對人類自然決策行為的機會性學習,以及學習環境的適當結構和順序,使人工智能被訓練過程有效地塑造,是已經建立起來的提高人工智能快速學習困難挑戰能力的框架。要進一步提高人工智能在兵棋推演中的復雜決策能力,需要提高人工智能在具有高度不確定性的MDO背景下處理決策的能力、欺騙性和博弈論,這些都是人工智能發展過程中獎勵分配的挑戰。克服這些挑戰需要利用多學科的進展,從了解大腦的決策、獎勵和計算的神經生物學進展到專業知識、隱性知識、心智理論、博弈論和元推理在復雜決策過程中如何應用的心理學進展。
人工智能如何能夠最好地學習人類的復雜決策仍然是一個開放的問題。盡管對復雜決策進行獎勵塑造的確切機制還沒有被發現,但這個項目已經產生了如何通過一個新的人工智能測試平臺和WMIs來發現這種機制的設想。ARL戰斗空間人工智能測試平臺和場景將人類和人工智能置于與MDO相關的決策環境中,使人工智能能夠學習不同的決策和因素如何相互作用,以及人類如何通過這種復雜的決策樹進行合作和對抗。一個關鍵的進展是,測試平臺和場景提供了一個豐富的環境,通過抽象化那些會使決策要領稀疏化和阻礙學習的因素,有效地開發人工智能心智理論和與MDO相關的元推理,以進行復雜的決策。
另一個進展是開發高性能計算框架,以實現人工智能決策支持的連續分布式訓練。這將使人工智能決策輔助系統能夠托管在ARL的持久性服務框架上,因此,將來士兵可以隨時隨地以人類和人工智能混合團隊的形式,針對人工智能兵棋推演Agent進行單獨或協作訓練。
這個項目的第三個進展是開發了一種可視化人工智能決策過程的方法,以實現人工智能的透明度和信任,以及人類與人工智能團隊的合作決策。人工智能的推理必須既抽象又與兵棋推演環境相關,這樣人類就可以理解人工智能對不同決策結果的評價,并有效地瀏覽人工智能的決策樹,而不會造成過度的認知負擔。我們已經向人工智能增強的WMI邁出了第一步,它基于三維混合現實,利用和增強人類固有的三維認知和預測的能力。隨著進一步的設計,我們設想它的界面將給人以自然的感覺,同時擴大顯示多個領域的信息,并使人工智能能夠適時地從用戶的決策中學習。這種自然的、直觀的人工智能輔助決策系統,是為了支持MDO C2決策而開發的,包括隱性推理,以及協作和對抗推理,對于人類在復雜決策中信任人工智能對COA結果的估計至關重要。
雖然最近在游戲中對深度強化學習算法的利用顯示出巨大的前景,但這種成功的前提是與一個相對簡單、結構良好的游戲合作。真正的挑戰出現了,因為環境越來越依賴于稀疏的觀察數據、復雜和動態的Agent策略。完全在內部開發平臺與在現有的開放源碼庫上建立平臺相比,有幾個權衡因素--主要是限制因素的最小化和環境開發的純粹工作量。創建一個全新的定制平臺可以完全定制與游戲相關的錯綜復雜的問題,盡管變得非常耗時。相反,在使用現有的庫,如StarCraft2LearningEnvironment(SC2LE)時,會出現各種不可逾越的限制,但投入游戲開發的工作量會減少十倍。我們正在進行的ARL戰斗空間人工智能測試平臺的第二代開發,名為Simple Yeho(圖14),是建立在天平兩端的平衡上的,OpenAI Gym是一個用于開發強化學習算法的工具包,對輸入的Agent和環境結構不做任何假設。顯然必須遵循一個基本的框架,但OpenAI Gym除了提供大量的文件和例子供客戶參考外,還提供了完全的設計自由。從游戲開發的角度來看,并沒有立即需要解決的問題,但它確實需要成為未來一個更優先的事項。
圖14 簡單的Yeho人工智能測試平臺
未來的問題并不局限于游戲環境,因為它們將不可避免地延伸到理論上的強化學習挑戰,如無縫的多Agent通信、任務協調和固定的策略。更多需要關注的實際問題包括算法效率(限制計算密集型任務以及內存分配的心態),一種新穎的去中心化強化學習算法,以及跨多個領域的數據泛化。過度消耗硬件資源是人工智能所有分支中的一個共同瓶頸。從軟件的角度來看,ARL Battlespace AI測試平臺對資源消耗很少,該環境仍然專注于AI發展的研究問題,而不是全面的MDO實施,這就是為什么計算效率還不是一個緊迫的問題。歸納游戲狀態信息的潛在解決方案,特別是在動態環境中,包括時差變異自動編碼器和分布式時差強化學習,因為它們除了在數據點之間提供一個平滑的潛在空間外,還允許對未來的幾個狀態有明確的信念(這在元推理方面起作用)。我們的新型強化學習算法應該解決的其他主要問題是安全/認證、Agent決策透明度和Agent間的實時通信。將區塊鏈整合到DEVCOM ARL框架中,將確保節點之間的安全通信線路,提供一個不可改變的分布式賬本,以揭示Agent的低級決策,并向Agent引入民主投票系統,以促進團體合作,同時仍然保持個人的自私性。
目前軍事決策過程中的局限性確定了一個多學科的研究方法,用于開發復雜決策的人類和人工智能WMI。作為基礎層的決策空間的現實表示,包括具有地理空間精確性的自然和人工制作的戰斗空間地形。一個先進而直觀的用戶交互允許混合現實視角的戰斗空間,使決策者能夠根據作戰因素探索COA的替代方案。這兩個要求指導了對陸軍和商業開發的戰斗空間交互系統BVI的選擇,作為ARL戰斗空間人工智能測試平臺中實現的人工智能和人類-人工智能團隊發展的潛在過渡媒介。
過渡的第一步是將ARL戰斗空間的網格狀環境疊加到BVI真實世界的作戰地形上,并將現有的BVI多模態用戶交互調整為兵棋推演。圖15顯示了使用BVI的網絡戰術規劃器3D視角在歐文堡地形上疊加的擴展網格的一個部分,其中友軍和敵軍單位位于兵棋推演會話的開始。在瀏覽器窗口中,可以使用戰術規劃工具欄的鼠標、觸控板或觸摸屏互動來放置和操作單位。BVI提供了添加單位的功能;路線點、戰術符號和圖形;以及繪制線條、多邊形和文本框等特征。
圖15 BVI網絡戰術規劃器中帶有網格覆蓋的兵棋推演場景的三維視圖
一個尚未解決的問題是,如何最好地利用BVI的混合現實(XR)可視化功能來進行協作決策(例如,在兵棋推演期間,通過加強決策者對地形的地理空間因素的理解)。加載不同的地形和創建定制的訓練場景可能來自于多維數據,并以各種身臨其境的形式觀看,這超過了陸軍其他系統的可視化能力。根據這些三維地形的廣度和細節,當決策者使用一系列強大的交互方式在大面積的地形上進行操作時,界面如何顯示這些信息可能會造成大量的信息過載或混亂。一個有效的界面需要被設計成不僅要選擇傳達哪些環境和決策空間信息,而且要選擇如何從用戶的有利位置呈現這些信息。
如果不可能有開發時間和精力,BVI的API提供了機會,以標記、標簽和定位在地形之上的場景適應性網格的形式嵌入視覺輔助,作為決策者的空間管理干預措施。例如,圖15中描述的網格的行和列可以被標記或編碼,以快速定位實時事件和人工智能產生的活動。多維網格結構和編碼方案可以將兵棋推演提升到以MDO為特征的復雜水平,同時減輕一些基于地形的空間管理問題。
在空間和時間領域的數據分析中協調戰斗空間的多個視圖,可視化提供了額外的方法,促進兵棋推演期間的復雜決策。當需要一個共享的MDO戰斗空間呈現時,可以通過在不同的可視化模式上實施多個協調視圖來實現協作戰略規劃模式,根據分布式指揮人員的輸入進行互動更新。指揮人員的輸入也可以指導視覺過濾器對協調視圖的應用,從而減少不必要的復雜性,突出場景或任務關鍵的戰斗空間信息。
圖16顯示了SyncVis視覺分析系統,該系統旨在顯示多個協調的數據分析視圖,支持數據探索和理解。SyncVis通過用戶互動將每個視圖中顯示的信息與其他視圖聯系起來,從而產生多種數據可視化。這個例子顯示了SyncVis在四個協調視圖中對COVID分類人群數據分析的二維界面。變量選擇器(選擇六個屬性)、地圖/地形、相互信息圖和每個選定變量的疊加區域圖。
圖16 SyncVis二維界面顯示COVID數據分析的多種協調的可視化效果
SyncVis的可視化功能可以與使用PSF的HPC分析工作流程后端集成。PSF服務器可以向BVI和SyncVis流傳作戰和Agent行為數據,創造一個統一的戰斗空間探索體驗。基于用戶按需輸入和過濾的協調戰斗空間視圖的好處有待研究。
一個靈活的兵棋推演環境似乎是關鍵,因為每個訓練場景、COA和任務計劃都是在MDMP和相關軍事理論的約束下制定的,但又是獨一無二的,并取決于戰斗空間及其操作變量。一個HPC PSF數據分析處理管道為WMI提供動力,士兵或指揮官按需協調戰斗空間的BVI和SyncVis可視化,將徹底改變現有的兵棋推演范式,并觸及MDO固有的復雜程度,以及贏得勝利所需的人類和AI指導的決策水平。
我們強調了三個關鍵的發展領域,即人工智能引導的決策指導,支持這種指導的計算基礎設施,以及決策透明度的混合現實表現的發展。這些領域的進步需要跨越許多不同學科的專業知識。新的人工智能發展需要融合神經科學、心理學和數學的思想,以克服復雜決策中長期存在的問題的瓶頸。這包括跨時間尺度的學習和變化環境下的災難性遺忘,以及更具體的兵棋推演問題,如具有不確定性、欺騙和博弈論的多Agent決策。計算基礎設施也需要發展,因為計算能力和數據框架對于在戰術邊緣產生人-人工智能團隊的共同操作圖來說都是必不可少的。為了有效地開發,應該通過一個共同的框架來抽象出專有的限制和軟件的依賴性,并為使用和故障排除提供清晰的文檔,以使學術界、政府和工業界更好地專注于解決人與人工智能的合作問題。這個通用框架應該包括有效的信息傳遞,同時提供靈活性和適應性,以滿足人工智能開發和人類用戶在訓練和實際使用環境中的需求。最后,交互技術的開發本身需要跨學科的協同專業技術。一個基礎性的問題是如何壓縮信息使之被用戶有效地理解,以及如何最好地利用用戶的互動來進行機會主義學習。人類的大腦并不處理所有的感官信息,而是對世界進行預測和假設,以便在信息不完整的環境下節約計算。一個有效的WMI應該同時預測潛在的決策結果以及個人用戶的期望和假設。此外,人工智能決策輔助工具必須估計用戶的默契,使其能夠提供最相關的信息和最有希望的選擇,這些信息來自整個作戰領域。
人工智能領域的進展繼續擴大這組技術的潛在軍事應用范圍。本文探討了信任在人機聯合作戰中的關鍵作用,以及依靠人工智能來補充人類認知的潛在影響。如果依靠人工智能來準確處理傳感器數據,操作自主系統和平臺,或通過擬議的作戰概念(如以決策為中心的戰爭)提供有利的決策支持,設想機器智能的中央指揮和控制作用,那么信任機器智能將是未來作戰中的一個關鍵組成部分。鑒于這些技術和理論的發展,信任的概念對于機器智能在戰術和作戰層面的軍事行動中的使用變得高度相關,正確校準的信任水平是安全和有效行動的基礎。在簡要回顧了機器智能的最新進展和對信任概念的探索之后,本文概述了人工智能在戰場上的當前和潛在應用,以及由不充分或不合理的高信任度帶來的挑戰。
縱觀歷史,技術已經擴大了武裝沖突的領域,戰術交戰的節奏,戰場的地理范圍,以及指揮官與部隊溝通的手段。技術創新--包括軍事和民用--改變了軍隊的作戰方式以及國家計劃和進行這些沖突的方式。在21世紀,迄今為止,很少有進步能像統稱為人工智能(AI)的一組技術那樣獲得如此多的關注。人工智能正準備迎來一個新的時代,在這個時代,機器智能和自主性正在為軍事行動的規劃和執行產生明顯的新概念。算法戰爭可能會帶來一些獨特的東西:增強甚至取代人類決策過程的系統,其速度可能超過人類規劃者的認知能力。
新興技術的整合提出了任何數量的基本組織和倫理問題,值得關注。本文將采用定性的社會科學方法,重點討論人類-自治團隊(HAT)的一個重要方面:鼓勵對機器智能的適當信任程度。有大量的學術文獻關注自動化或機器人技術中的信任問題,但有關具體軍事應用的工作較少。當人工智能在聯合作戰中被實際部署時,在信任方面有哪些挑戰和機會?在簡要回顧人工智能和概述機器智能在戰場上的可能應用之后,本文在分析鼓勵適當信任水平的陷阱和潛在解決方案之前,探討了信任和信任校準的概念。
幾十年來,人類一直對賦予機器某種形式的人工智能的可能性著迷,Nils Nilsson將其定義為 "致力于使機器智能化的活動,而智能是使一個實體在其環境中適當運作并具有預見性的品質"。在數字時代的早期,出現了兩種廣泛的人工智能方法。自上而下的專家系統方法使用復雜的預編程規則和邏輯推理來分析一個特定的數據集。對于具有可預測規則的明確定義的環境--諸如分析實驗室結果或下棋等應用--專家系統或 "符號 "人工智能(基于符號邏輯)的性能主要取決于處理速度和算法的質量。另一大類使用自下而上的機器學習方法,模擬人類通過檢測數據中的模式進行學習的方式。神經網絡是一種以人腦為模型的機器學習形式,能夠通過使用多個(因此是 "深")人工神經元層來識別復雜的模式,是被稱為 "深度學習 "的技術的基礎。通過其在數據集中尋找關系的能力,這種技術也被稱為 "連接主義"。
自上而下、基于規則的符號系統和自下而上的機器學習連接主義技術之間的差異是很大的,特別是關于它們的潛在應用范圍和靈活性。深度學習方法的顯著特點是能夠將學習與它所訓練的數據集分開,因此可以應用于其他問題。基于規則的算法可以在狹義的任務中表現得非常好,而深度學習方法能夠迅速找到模式,并在 "蠻力 "專家系統計算方法無效的情況下有效地自學應用。最近的一些人工智能進展顯示了模仿創造力的能力,產生了有效的解決問題的方法,這些方法對人類來說可能是反直覺的。
然而,總的來說,人工智能仍然是狹窄的或 "脆弱的",即它們在特定的應用中功能良好,但在用于其他應用時仍然不靈活。與人類的認知相比,鑒于機器的計算速度遠遠超過人腦,機器智能在將邏輯規則應用于數據集時要優越得多,但在嘗試歸納推理時,它必須對數據集或環境進行一般性的觀察,這就顯得不足。大多數機器學習仍然需要大量的訓練數據集,盡管新的方法(包括生成對抗網絡(GAN)和 "小于一次 "或LO-shot學習)正在出現,需要非常小的數據集。圖像識別算法很容易被混淆,不能像人類那樣立即或直觀地理解情景背景。這種脆性也延伸到了其他問題,比如游戲。雖然人工智能在視頻游戲中經常表現出超人的能力,但他們往往不能將這種專業知識轉移到具有類似規則或玩法的新游戲中。
雖然人工智能技術繼續在變得更加適應方面取得重大進展,但任何接近人類的人工通用智能仍然難以實現。評估人工智能的近期前景因該技術的漸進式進展而變得更加復雜。圍繞著人工智能的炒作--在很大程度上被深度學習方法的成功所推動--既導致了對該技術未來的不切實際的期望,也導致了對其非常大的進展的正常化。正如一份報告所指出的,"人工智能將一項新技術帶入普通人的視野,人們對這項技術習以為常,它不再被認為是人工智能,而出現了更新的技術"。盡管象征性的人工智能和各種形式的機器學習構成了該領域最近的大部分進展,也許除了融合這兩種方法的嘗試之外,未來仍然不確定。一些人猜測,機器學習技術帶來的進展可能會趨于平穩,而另一些人則保持樂觀。相關的技術進步,如短期內的計算機芯片設計和長期內的量子計算,可能會影響進一步進展的速度。