本項目的目標是利用智能體間通信基礎設施提高多智能體任務分布式協調的效率。在這個項目的第一階段,我們探索了基于共識捆綁算法(CBBA)的增強,用于預算約束下的分布式任務分配。CBBA技術的局限性在于,所有智能體必須預先知道環境,并且必須清楚地定義具有已知代價和回報的任務。這種技術顯然不適合在未知環境下的合作任務,因為智能體間必須一起探索和即興發揮他們的行動。在本項目的第二階段,我們研究了在未知環境下,智能體只有部分觀測的任務合作技術。本研究以多智能體捕食博弈為平臺。目標是讓智能體共同定位和捕獲獵物。智能體對環境和獵物的逃跑算法沒有先驗知識。他們相互交流,以獲得超出自己局部觀測的環境信息。基于對環境的局部理解,智能體選擇自己的行動,包括移動到哪里以及是否與其他智能體通信,以最大化團隊獎勵。應用強化學習來優化智能體的策略,使游戲以最少的步驟完成。
我們第二階段研究的主要貢獻是信念圖輔助多智能體系統(BAMS)。信任映射表示智能體在融合傳入消息后維護環境的隱藏狀態。通過將信念圖與強化學習框架集成,并向信念圖提供反饋,我們加速了訓練并提高了系統可以接收的獎勵。在不同復雜程度的環境中,使用捕食者和獵物合作游戲來評估BAMS的性能。與具有消息傳遞功能的現有多智能體模型相比,BAMS提供了以下優點:
1)訓練收斂速度加快68%,使用BAMS模型訓練的智能體完成游戲的步數減少了27.5%。
2)性能穩健:應用模式下,智能體的數量不必與訓練環境相同。
3)對智能體之間的通信信息進行加密。BAMS中的信息是智能體對環境信念的學習表征的向量。它們不僅包含關于智能體和環境的當前和未來狀態的信息。每個數字與智能體或環境的任何物理屬性都不對應。除非有經過訓練的BAMS模型,否則不可能解碼信息。
4)智能體在訓練過程中達成默契。從實驗結果來看,使用BAMS訓練的智能體似乎可以在沒有明確通信的情況下理解彼此的意圖。
5)解碼后的信念圖為智能體的決策提供了一個粗略的解釋。在BAMS中,信念圖解碼器與策略網絡一起訓練。通過將信念圖與實際圖進行比較,系統接收到額外的反饋通道,從而監督訓練過程。在執行過程中,信念圖提供了一種解釋智能體隱藏狀態的方法,可以進一步用于解釋智能體的行為。
本項目的目標是提高具有智能體間通信基礎設施的多智能體分布式任務協調的效率。在這個項目的第一階段,我們探索了基于共識的捆綁算法(CBBA)在預算約束下的分布式任務分配的改進。CBBA技術的局限性在于,環境必須被所有的智能體預先知道,任務必須被明確定義,并有已知的成本和獎勵。這種技術顯然不適合在未知環境中的合作任務,在這種環境中,智能體必須一起探索和即興行動。在這個項目的第二階段,我們研究了在未知環境中執行任務的合作技術,其中智能體只有部分觀察。該研究使用多智能體捕食者和獵物游戲作為平臺。目標是讓智能體聯合定位并捕獲獵物。智能體對環境和獵物的逃逸算法沒有事先了解。他們相互交流,以獲得超出他們自己本地觀察范圍的環境信息。基于他們對環境的局部理解,智能體選擇自己的行動,包括在哪里移動以及是否與其他智能體溝通,以使團隊獎勵最大化。強化學習被應用于優化智能體的政策,以便用最少的步驟完成游戲。
第二階段研究的主要貢獻是信仰圖譜輔助的多智能體系統(BAMS)。信念圖代表了智能體在融合了傳入的信息后所保持的環境的隱藏狀態。通過將信仰圖譜與強化學習框架相結合,并向信仰圖譜提供反饋,我們加速了訓練并提高了系統可以獲得的獎勵。在不同復雜程度的環境中,使用合作的捕食者和獵物游戲對BAMS的性能進行了評估。與現有的具有信息傳遞能力的多智能體模型相比,BAMS具有以下優點。
1)訓練收斂速度快68%,使用BAMS模型訓練的智能體完成游戲的步驟少27.5%。
2)它具有強大的性能。在應用模式中,智能體的數量不必與訓練環境相同。
3)智能體之間的信息是加密的。BAMS中的信息是智能體對環境信念的學習表示的向量。它們不僅包含關于智能體和環境的當前狀態的信息,而且還包含未來的狀態。每個數字都與智能體或環境的任何物理屬性沒有對應關系。除非有經過訓練的BAMS模型,否則不可能解碼這些信息。
4)智能體在訓練中達成默契。從實驗結果來看,使用BAMS訓練的智能體似乎不需要明確的交流就能理解對方的意圖。
(2020年2月5日,美海軍陸戰隊網絡空間司令部的海軍陸戰隊員在馬里蘭州米德堡拉斯韋爾大廳的網絡作戰中心觀察計算機運行情況。海軍陸戰隊開展進攻性和防御性網絡作戰以支持美國網絡司令部,并操作、保護和保衛海軍陸戰隊事務網絡)
沖突的勝負取決于軍事抵消,也就是國防單位可以用不對稱的方式來打擊對手的優勢。隨著大國競爭、對手技術的超常發揮以及不斷擴大的戰場,傳統的抵消手段往往被人工智能(AI)所增強。然而,國防部(DOD)將人工智能投入使用的能力剛剛起步。五角大樓采用的最初的人工智能計劃側重于將商業能力轉移到國防部門,因此強調技術性能,不強調以任務為導向的功能。因此,最初的試點項目未能進入現實世界的作戰環境(OE)。
實用化取決于這樣一種認識,即人工智能不是一種最終狀態,而是實現軍事優勢的一種方式。為此,人工智能相關方法的技術執行必須與作戰環境相結合。這種考慮與傳統思維不同,因為人工智能解決方案的開發通常是為了實現某種統計閾值(例如,召回率、精確度),而不是軍事目標(例如,增加對峙距離)。
這一動態被 "算法戰"一詞所混淆,目前該詞混淆了技術和軍事特征。算法戰旨在減少處于危險境地的作戰人員的數量,在時間緊迫的行動中提高決策速度,并在人類無法操作的時候和地方進行操作。然而,這些目標都不涉及數學或計算機科學;它們完全建立在軍事最終狀態之上。問題是,在五角大樓走上人工智能的道路之前,科學、技術、工程和數學學科與軍事目的之間的橋梁從未建立。
所需的橋梁是一個指導和評估人工智能實用化的框架,一邊是算法性能,另一邊是任務效用。這樣的組合確保了數學方程可以證明或從數字上驗證一個人工智能系統,而定性的基準則保證了實際應用。其結果是算法戰不僅基于統計數據,而且基于更廣泛的作戰相關性架構。這種相關性體現在五個要求上:
為軍事人工智能項目制定有效性措施(MOE)需要將研究和技術方法(例如,基礎理論)與美國防部的條令相結合。如果沒有這種映射,算法戰就會淪為算法開發過程,而不是作戰部署。例如,一個旨在檢測視頻中目標的計算機視覺算法(如地理空間情報分析)被簡化為該模型發現的車輛數量或其發現這些車輛的準確性。那么,成功是指該算法在85%的時間內正確找到車輛。
但在軍事行動中,85%的時間檢測到車輛有什么用?這就是維護理論的完整性所帶來的背景。以上面的例子為例,評估同一算法時不是看它正確探測車輛的頻率,而是看它對任務的影響:由于該模型的存在,分析人員識別感興趣的車輛的速度提高了95%。這樣的方法將算法的設計與任務的部署聯系起來。雖然這似乎是常識,而且這種關系甚至可能在項目文件中被模糊地表示出來,但在國防部的任何地方都沒有一個表示的標準。
評估標準仍然需要保持解決方案的獨立性(即,無論情報類型、使用的算法、部署的作戰環境或任務要求如何,這些標準都適用)。因此,在這項研究中,人工智能原則被編入可量化的屬性和指標中,與系統和程序無關。評估標準也以 "去 "與 "不去 "的方式進行表述,以創建一個符合邏輯的、自上而下的層次結構,與相關的聯合出版物同義。其結果是規范、監測和評估國防部人工智能系統的基線。
如前所述,可實操化的人工智能是由任務效用的五個方面定義的人工智能:最低限度的可行性、適應未知和不可知情況的能力、洞察力優先于信息、應用所需的自主性水平以及戰場準備情況。這些MOE中的每一個都是算法戰的基礎。對這些信息的分析產生了一個全面的框架,其中包括每個MOE的指標和效果。整個框架是以條令定義和程序為基礎的。
(2017 年 11 月 1 日在華盛頓特區舉行的 NVIDIA GPU 技術大會期間,顯示屏展示了用于執法的車輛和人員識別系統。該大會展示了人工智能、深度學習、虛擬現實和自主機器。)
衡量有效性的軍事程序依賴于一個自上而下的架構。這意味著,只有當一項措施的每一個指標也存在時,該措施才會存在。同樣,一個指標只有在該指標的所有影響也存在時才會存在。這是一個二元的、全有或全無的過程,可以像常規軍事活動一樣隨時適用于人工智能。
在傳統的高價值目標(HVT)生命模式分析中,一個MOE定義了軍事行動的一個預期結果(例如,高價值目標移出責任區[AOR])。該MOE的所有定義指標必須得到滿足,因此不能任意或有選擇地稱之為成功。例如,情報應該表明:(a) 在新的責任區發現了HVT,(b) 在新的責任區發現了已知的HVT同伙,以及(c) HVT在新的責任區獲得了基本的生活支持系統(例如,住房,交通)。隨后的效果遵循同樣的過程:支持指標 "a "的效果可能包括識別已知的物理特征和探測通信信號。
因此,盡管常規和人工智能MOE在戰術執行上有所不同,但決策驗證的基本系統是相同的。只有在對人工智能領域有基本了解的情況下,才能驗證人工智能MOE,這與情報部門制定的MOE不能由作戰部門驗證的情況是一樣的。
算法戰是通過人工智能手段進行的戰爭。人工智能手段是指那些不僅是智能的(收集和應用洞察力),而且是人工的(以人類無法做到的方式對智能采取行動)。在沒有人類干預的情況下,系統必須學習如何為自己表示數據。這方面的另一個術語被稱為機器學習。有不同類型的機器學習,但當涉及到戰場時,無監督的機器學習將成為黃金標準,因為它的靈活性和從未知和非結構化信息中獲取輸出的能力。在這個黃金標準中,一種被稱為深度學習的特定方法是獨一無二的,它能夠更精確地表示復雜的問題。鑒于戰場的動態性質,更精確地表示復雜問題的能力是最重要的。
因此,算法戰只能通過以下方式實現:(a) 工作系統(最低限度可行)能夠(b)從未知和不可知的場景(無監督)中自行學習,同時(c)將復雜的戰場環境轉化為有用的洞察力(啟用深度學習)(d)幾乎沒有無指導(自主)和(e)在實時任務環境中(戰場準備)。這些MOE和圖中的架構是人工智能實操化的第一步;它們為如何凝聚技術和操作因素奠定了基礎,同時也使任何人工智能項目的 "成功 "標準化。
(圖 數字算法(人工智能)戰爭的有效性度量)
最低限度的可行性檢驗了算法戰是否積極地改變了作戰環境。"積極改變作戰環境 "意味著存在著競爭優勢和性能改進,證明人工智能的部署是合理的。該理由來自行業指標(技術因素)、針對類似系統的排名以及對人類操作員的效用。
在翻譯的例子中,一個自然語言處理算法在以下情況下是最可行的:(1)行業指標證實它準確地將地面真相數據翻譯成正確的語言;(2)該算法在同一技術類別和OE中優于其他可用算法;(3)機器翻譯優于人類。
與最低生存能力相關的競爭優勢和性能改進因素是必要的,因為如果沒有這些因素,非算法衍生的戰爭將更加有效--因此,否定了對可操作人工智能的需求。
無監督算法是實戰任務的理想選擇,因為它們的靈活性和即使在未知情況下也能得出洞察力的能力。簡而言之,無監督系統可以在沒有預設信息的情況下運行,并在新信息出現時學習。
可以從敵人交戰的例子中得出一個常規的等價物。例如,部署的服務成員在交火結束之前并不知道交火會如何發展。然而,他們被期望在沒有警告的情況下對敵人的火力做出適當的反應,并對新的對手的運動和活動得出相關結論。
成功的算法戰項目將需要在戰術執行和長期學習能力方面表現出與軍人相同的適應性。
回顧一下,深度學習可以降低復雜性。在實際任務中降低復雜性是關于如何表示和理解信息。正如人類一樣,有效的算法戰是以模式檢測、推理和問題解決為前提的。
模式檢測本質上是獲得知識,然后可以概括地預測未來的未知情況。假設一個部署在機場的非航空部門的軍人看到一架直升機從頭頂飛過。這個人注意到該直升機獨特的物理特征,如整體尺寸或串聯旋翼。這些獨特的特征將直升機與其他變化區分開來,隨著時間的推移,服役人員可以利用學到的視覺線索在整個機群中選擇正確的直升機。人工智能以同樣的方式識別視覺模式;在隨后的觀察中反復學習直升機特征。然后,這些特征被概括為區分一架直升機和另一架直升機或一架直升機和非直升機。
推理改進了知識的獲得,以便發現環境中的微妙之處,并將這些微妙之處邏輯地聯系起來。例如,如果在某些天氣模式下從未見過直升機,推理將推斷出天氣(OE的次要元素)影響了飛行能力。有了人工智能,惡劣的天氣會增加二次確認,即沒有旋翼的飛行物不是直升機。
最后,順序問題的解決將一個大問題(即如何駕駛直升機)分解成更小的問題(即飛行路徑是什么,有多少燃料,需要多少飛行員,等等)。因此,如果不降低復雜性,算法戰將缺乏將信息轉化為洞察力的能力。
由于算法戰假定利用了非人類的手段,人工智能必須獨立地制定和裁決行動方案。而人工智能必須根據自己的決策、反應能力和對形勢的認識來完成這一裁決。
決策是一個在環境中發展和解決選擇的問題。在一個慣例的環境中,一個指揮官面對相互沖突的情報、監視和偵察飛行路線,會制定一個資產優先級矩陣,然后根據這些要求進行沖突處理。這不僅僅是一個產生可行方案的問題,而且還要弄清楚這些方案中哪個對整個任務最有利。為了做到這一點,系統必須能夠融合決策標準(例如,資產的數量、收集要求、飛行時間等)。必須有傳感器來定義決策標準(例如,飛機燃油表或人類/口頭提示)。然后,必須對所有可用的選項進行修剪。最后,系統必須認識到當前狀態的變化,并對該變化產生的新信息做出反應(例如,航空資產的駐留時間結束,所以不再需要解消沖突)。
響應性是對決定性的補充。也就是說,系統能否在規定的時間內對它從未見過的情況作出適當的反應?要做到這一點,系統必須具備必要的態勢感知功能:攝入、處理、迭代和行動。所有的指標都能確保可操作的人工智能改善決策時間表,而不是抑制它們。
戰場準備度是衡量系統是否能在實際任務空間中運作的標準。由于任務限制是巨大的,人工智能不能在實驗室里開發,而不預先考慮它將如何在現實世界中運作。明確地說,實驗室人工智能的局限性并沒有被戰場所規避,而是被放大了。開放式架構受到軍事基礎設施的限制。不可知的管道被孤立的、傳統的系統所困。普及的高速網絡一旦部署到前方就會變得零星或斷斷續續。而商業部門普遍存在的未經審核的專家則被訪問受限的用戶社區取代,他們幾乎沒有人工智能的專業知識。
簡而言之,人工智能必須補充,而不是混淆正在進行的行動。從一開始就解決任務限制,然后必須包括與現有系統的整合和溝通。此外,這種整合應該進行測試或鑒定,以便在部署前證明效用,以及這種效用的左右限制。這就像軍事人員被授予可部署性的范圍一樣,或者反過來說,糟糕的體能測試會導致不可部署性的發生。
五個可操作的人工智能MOE共同代表了初始和完全操作能力(IOC/FOC)的標準閾值。使用MOE框架中的決策門做出的IOC/FOC決定將加速人工智能的采用并改善美國在算法戰爭領域的定位。
(圖 軍事人工智能發展的目標之一是在人類智能代理團隊中將戰場上的士兵與無人駕駛車輛直接聯網,這將加速情報收集、目標識別和火力任務執行。)
如果沒有一個支持算法戰的人工智能操作框架,當前的美國防部計劃將會失敗。本文提出的框架是第一個在國防人工智能領域定義成功的框架,并將為政府監督提供必要的問責措施。
雖然本文的意圖是對算法戰爭的不可知的解決方案,但額外的研究是必要的。應指定資金用于將這一框架串聯到具體的系統、學科和項目。為了支持這一努力,獲取機密材料和對機密系統進行定量實驗將是至關重要的。定量實驗不僅可以驗證本文的前提,還可以開始創建一個網絡來比較和改進國防人工智能測試和評估。也就是說,在多種環境、系統和問題集中持續、一致地使用MOE架構將使人工智能項目在一個單一、共同的評估框架下保持一致。為此,本文介紹的MOE架構支持兩種功能:(1)通過迭代改進 "走-不走 "決策門的結果來實現更有效的系統;(2)通過比較各自的MOE來決定各種系統。
從戰略上講,圖中概述的架構應該被整合到國防部的采購、技術和后勤流程中。目前的范式不是為人工智能項目的指數增長和非傳統性質而建立的。圍繞普遍的評估標準校準當前和未來的國防部人工智能解決方案將實現標準化,同時加快耗時的采購流程。此外,負責企業人工智能活動的組織應在其工作中實現框架的標準化,以便更迅速地將應用研究和開發過渡到業務使用。
不過,組織的努力不應停留在政策上。目前,國防部沒有利用軍事人員進行人工智能活動的機制。具體來說,沒有與人工智能相關的軍事職業專業(MOS),也沒有官方系統來識別和分配熟練人員到人工智能項目。其結果是缺乏可用的混合人才;也就是說,既精通人工智能又精通任務的人員。建立一個數據科學或以人工智能為導向的MOS,類似于在網絡領域發生的情況,將使人工智能能力的運作更具可持續性。它還將以越來越多的合格軍事人員來充實小規模的合格人工智能專業人員庫。另外,傳統的MOS可以適應現代戰爭的特點。例如,在一個多情報融合普遍存在的世界中,特定學科的情報分析員可能并不重要。修改或增加人工智能技能標識或專業將遏制MOS相關性的下降。
在戰術上,五角大樓對人工智能的推動需要伴隨著一場自下而上的運動,這樣采用人工智能的組織就不會簡單地被賦予一種沒有背景的能力。相反,他們應該在他們帶來的抵償中擁有積極的發言權。基層的努力可能包括在IOC/FOC設計計劃之前在單位層面進行影響分析和壓力測試,以了解脆弱性和優先需求。
人工智能的操作是一項以任務為中心的努力,必須在戰術上有意義,才能產生任何戰略影響。在為地面部隊帶來切實的投資回報之前,人們對算法戰爭的價值普遍猶豫不決;因此,對抗性的超限戰將成為一個越來越無法獲勝的現實。
國防部不能在沒有操作這些項目的框架下繼續執行人工智能項目。本文介紹的架構正是通過加速和規范政府通過高度創造性的、具有操作性的技術發展人工智能能力的努力來實現的。
不斷變化的戰爭特點使得信息環境中的行動(OIE)必須處于軍事規劃和執行的最前沿。由于無法與美國的物質力量相提并論,美國的對手越來越依賴包括信息戰能力在內的不對稱方法來破壞美國的行動和影響。未來的聯合全域作戰(JADO)將需要一個綜合的、跨學科的作戰方法。本文認為,針對對手的認知和信息過濾器而采取的蓄意行動將阻礙對手的決策過程,使其失去對有效運用軍事力量作出明智決定的能力。通過研究俄羅斯在信息環境中的行動、信息戰活動以及反射性控制理論,作者提出了決策優勢理論。該理論試圖提供一種方法,故意利用信息來針對對手的行為和信息系統。其目的是剝奪對手感知和認識形勢的能力,并阻礙其有效利用呈現在他面前的信息來做出經過計算的決策的能力。
圖1 決策優勢理論。
決策優勢是通過信息力量來實現的,而信息力量是通過控制信息、利用信息和加強信息來保證自己的利益。信息力量可以達到與物質火力相同的效果,甚至更大的效果。它通過預測對手的行動,了解對手的動機,管理和操縱信息,改變決策算法,以及在信息環境中發展機會、活動和投資(OAI)來增強全領域的聯合軍事力量和效力。
決策優勢:一種理想狀態,在這種狀態下,指揮官比其對手更快、更有效地感知、理解、決定和行動。決策優勢在敵人的決策周期內發揮作用,以消除時間上的庇護所,并消除空間上的選擇。
信息力量是利用信息來塑造認知、態度和其他推動預期行為和事件進程的要素的能力。信息力量涉及獲取、處理、分配和運用數據的能力,以最大限度地提高戰斗力。作者進一步斷言,信息力量是通過控制、利用和加強信息來實現的,這使得信息戰的結果能夠持久、靈活和精心計算,以加強戰斗力并拒絕敵人的決策優勢。
信息力量--控制信息、利用信息和增強信息的組合--將使美國能夠把信息環境中的行動納入聯合防衛行動的規劃和執行。這將使規劃者能夠利用信息來實現結果。信息戰能力--信息作戰;電子戰;網絡;以及情報、監視和偵察(ISR)--提供了改變對手的指揮和控制過程,減少決策,并削弱其作戰行動的有效性的手段。信息力量和物質力量相結合,將通過在環境中制造多種困境,造成混亂,延遲或剝奪敵人采取適當行動的能力,從而降低對手的戰斗力。信息力量和物質力量的結合能加強軍事力量。
信息力量的第一個支柱,控制信息,涉及到保護自己的網絡不被敵人破壞或操縱。保持對信息傳輸和信息系統的控制可以確保信息的保密性、信息的完整性以及美國規劃者和作戰單位對信息的可用性。不受限制地進入值得信賴的系統和相關架構,確保最及時和最相關的信息指導決策。剝奪對手對信息的控制權使其無法了解自己的環境,造成不確定性,并使其決策復雜化。
決策也受到信息利用的影響。利用,是指利用資源并從中獲益的行為,包括改變、變更或操縱信息,使之對自己有利。通過了解對手的信息和認知過濾器、信息系統和情報結構,這是最有效的做法。創造信息戰結果的能力取決于精心制作信息并將其置于敵人決策周期中的正確時間和地點的能力。信息可以在四個過濾點被鎖定或武器化--傳感器、分析中心、分發點或個人。利用過濾器,人們可以降低決策者可獲得的信息的收集和質量,導致對情況的不完整或故意的錯誤理解。決策和具體行動是根據對環境的感知理解而做出的。阻斷信息流的能力阻止和延遲了重要數據到達組織,導致感知、理解和發展局勢的能力下降。傳統的信息操作活動與故意和持續地針對對手的過濾器相結合,將有機會同時針對代理人、信息和對所提交信息的解釋。反過來,這可以減緩對手感知、觀察、定位、決定和行動的能力,促進錯誤的結論,并破壞決策能力。
增強信息使人們能夠制定戰略目標和選擇,為對手創造跨越時間和空間的多種困境。 這需要強大的、敏捷的、分層的ISR資源和綜合指揮與控制過程。JADO的規劃和執行需要有能力同時在戰術、作戰和戰略梯隊中,在所有領域和統一的信息空間中進行機動。協調的計劃需要對形勢的理解,觀察模式和行為的能力,以及識別信息和行動環境的變化。支撐一個人加強信息的能力的是信任。信任包含了團體或個人對所收集信息的完整性所賦予的權重。經過處理、過濾和分析的信息能夠回答知識中的一個特定缺口。這種經過處理的信息被稱為情報。有了準確的情報和被充分理解的假設,決策者可以更準確地評估局勢,塑造環境,并削弱對手自己的決策過程。這樣一來--信息,更具體地說是強化的信息(或情報)--是一種武器,可以用來操縱和欺騙對手,剝奪他做出符合自己最佳利益的決定的能力。
控制、利用和增強信息的結合使決策者擁有了信息力量。信息力量使信息優勢得以實現,而信息優勢又能保證決策優勢。增強信息的能力使人能夠觀察敵人的習慣和行為,幫助人了解敵人的動機和意圖,并確定敵人的作戰能力。管理、放大和操縱信息可以使有針對性的、精心設計的信息到達指定的受眾。類似于過去信息傳遞的錯誤信息和虛假信息可以在過濾器上針對敵人。在信息系統的過濾器處進入情報裝置的信息以傳感器、分析中心和向作戰人員分發信息為目標。此外,通過在一個被認為可信的來源處提供虛假或誤導性的信息,可以改變敵人的決策算法。在特定的時間和地點呈現特定的信息可以改變對環境的理解并改變行為。這也會使人改變他的時間范圍。隨著不確定性的增加,一個人可能會根據感知到的情況選擇加快或減慢他的計劃。
雖然這一理論的每一部分,單獨來看,并沒有提出什么新意,但有兩點是明顯不同的。首先,必須把信息放在軍事規劃的最前沿,并與傳統的物質力量相結合。軍事文化認為,物質力量是至高無上的。現代戰爭要求在同等水平上考慮信息和物質力量。第二,控制、利用和加強信息的活動是美國空軍現在所接受的功能;然而,跨領域和跨職能的綜合規劃是有限的。缺少的環節是有意的整合和專門的過程,在一個同步和審慎的過程中納入所有領域的現有能力。為了實現決策主導權并通過信息力量獲得信息優勢,必須將信息環境中的行動納入規劃過程,如聯合規劃過程(JPP)、軍事決策過程(MDMP)、海軍陸戰隊規劃過程(MCPP)和空中聯合行動規劃過程(JOPPA)。指揮和控制必須充分考慮到所有領域--空中、太空、網絡、陸地和海洋--的非動能和動能行動。在信息環境中執行行動的能力要求在行動層面上有一個集中的規劃過程,以同時計劃和執行對信息的控制、利用和加強。這一點目前并不存在。集中化的規劃將使一個綜合的方法能夠與物質火力結合起來。控制可以保護美國的網絡和計劃,同時阻止敵人獲得重要信息。利用允許有機會拒絕、降低、破壞、改變和放大敵方使用的信息。加強為決策、目標定位和環境中的戰術行動提供所需的關鍵ISR收集。信息力量為指揮官提供了有效處理、分析數據和信息并采取行動的機會,同時剝奪了對手的同樣能力。因此,實現決策主導權需要一個協調和同步的計劃,利用控制、利用和加強所有領域和作戰功能的信息,目的是統一信息空間。
本文闡述了統一信息空間的重要性,以通過在信息環境中的精心策劃和綜合行動實現決策優勢。充分執行聯合全域作戰的能力需要在規劃周期中重新強調信息和信息戰活動。這項研究提出了四項建議:
建議1:聯合部隊應考慮實現信息力量的要求。這項研究和相關的決策優勢理論斷言,信息力量是通過控制、利用和加強信息來實現的。信息力實現了信息優勢,從而保證了決策優勢。信息環境中的運作為物質環境創造了條件。信息力量與物質力量相結合,形成了軍事力量。
建議2:美軍需要進行組織、領導和文化變革,以實現信息力量和決策優勢。信息系統和情報架構必須在所有梯隊中得到整合--戰術、作戰和戰略。戰術任務規劃和更廣泛的作戰規劃必須轉變為將信息置于規劃的最前沿。個人和團隊必須理解信息環境中的行動的重要性,以及這些行動塑造物理環境條件的方式。正規化的領導者發展和專業軍事教育必須強調認知上的轉變,不再將沖突理解為物質力量,而是將信息力量和活動納入規劃、命令和執行。應更加強調了解如何使用和信任信息,如何操縱和處理信息,使之成為情報,以及如何利用信息來實現決策主導權。最后,數字素養應成為未來培訓的一項要求。
建議3:JADO要求有能力評估信息環境中的績效措施和有效性措施。必須制定一個有效的評估程序,以了解和衡量信息環境中行動的影響。應更詳細地研究這一點,因為這將建立信任,并更好地了解信息戰和信息相關活動如何產生軍事力量和作戰成功。
建議4:未來的指揮和控制程序應該能夠整合信息環境下的行動規劃和執行。應該制定一個聯合防務辦公室的軍事力量計劃,以協調和指導所有領域的戰略,并在信息環境中執行行動。這個過程應該與物質和動能規劃相結合,而不是分開,因為信息和與信息有關的活動為物質操作環境塑造和設定條件。
由于沒有足夠快地開發和部署人工智能(AI),美國在常規戰斗中面臨被超越的風險。對手,特別是中國,正在擁抱人工智能,并試圖利用所認為的美國弱點。中國計劃到2030年成為人工智能的世界領導者,并繼續在其民用和軍用部門大量投資于人工智能能力。使用致命性自主武器(LAWS)是不可避免的,并正在所有領域發展這種能力。人工智能是一種力量倍增器,但美國對在戰斗中使用致命性自主武器感到不安。中國和美國對未來的人工智能應用有著截然不同的戰略。為了使美國軍隊既能最大限度地發揮人工智能的全部潛力,又能維護國際法治,在未來的大規模沖突中,人-智能體(H-A)編隊合作是必不可少的。
雖然人工智能是一種力量倍增器,但美國的政策制定者和軍事指揮官目前對在未來的戰斗中使用致命性自主武器系統感到憂慮。如果一個或多個對手對美國或其盟國部署致命性自主武器系統,這一政策可能會引起爭論。解決這個問題的一個潛在辦法是將人工智能與人類對應方組合起來。人-智能體(H-A)團隊是一個網絡,其中智能系統(智能體)和人在一個小組內有效合作,通過加強彼此的強項和預測彼此的弱點來創造協同效應。團隊合作的特點和屬性因模型而異,但貫穿始終的一個概念是相互依賴的重要性。H-A團隊合作取決于人與人工智能系統之間的這種相互依存關系,才能取得成功。
DeepMind之前提到的AlphaGo是一個完美的例子,說明如何有效地將人工智能與人類同行配對。2017年,也就是AlphaGo第二次擊敗圍棋世界冠軍的那一年,兩名人類專業人士與人工智能系統結成了伙伴。在 "配對圍棋 "中,人類和AlphaGo交替下棋,每個人都必須學習和適應他們的隊友正在下的棋。這種耦合使人類能夠從他們的人工智能對手那里學習,成為更好的棋手。與AlphaGo配對的中國圍棋大師連笑解釋說:"AlphaGo非常自信,他也給了我信心。他幫助我相信我應該掌好舵"。雖然人類在AlphaGo手中的失敗讓一些人感到失望,但這實際上是一種變相的祝福。H-A組隊有可能增強,甚至可能改善人類目前的能力。
本文將試圖回答美軍將如何利用人工智能和H-A團隊合作,為未來10到20年的大規模戰斗做準備。為了使美國軍隊既能最大限度地發揮人工智能的潛力,又能維護國際法治,H-A團隊合作在未來的沖突中是必不可少的。通過理論、歷史、條令、已完成的研究項目和潛在的未來情景,這項研究將有助于回答人工智能在美國軍事行動中的未來是什么樣子。證據將集中在利用自主武器系統(AWS)和人工智能的積極和消極方面。
本文還將探討H-A組隊的能力,以及當兩者結合在一起時,性能是否會提高。研究結果將解決 "終結者難題 "的可能性,特別是在自主機器提供明顯優勢的情況下是否使用它們。雖然這個話題相對較新,但有許多關于人工智能研究和在美國軍隊中使用的書籍、期刊文章和新聞報道。研究將擴展這一主題,并提出在未來戰場上人工智能和人類合作的方式。人工智能有可能引領下一次軍事事務的革命(RMA);然而,除非人工智能成為人類有效團隊的一部分,否則美國無法在大規模戰斗中充分發揮其潛力。
本報告介紹了在三個主要議題方面取得的成果:
對小型無人機系統(SUAS)的分布式團隊進行實驗驗證,以協調執行復雜的行為。
開發了一個現實的多架無人機模擬器,以應用強化學習技術來協調一組小型無人機系統以達到特定目的。
設計并驗證了安裝在無人機上的帶有主動多輸入多輸出(MIMO)毫米波雷達傳感器的融合光學相機。
與驗證SUAS團隊有關的工作提出并實驗測試了我們的態勢感知、分布式SUAS團隊所使用的框架,該團隊能夠以自主方式實時運行,并在受限的通信條件下運行。我們的框架依賴于三層方法:(1)操作層,在這里做出快速的時間和狹窄的空間決定;(2)戰術層,在這里為智能體團隊做出時間和空間決定;以及(3)戰略層,在這里為智能體團隊做出緩慢的時間和廣泛的空間決定。這三層由一個臨時的、軟件定義的通信網絡協調,即使在通信受限的情況下,也能確保各層的智能體小組和團隊之間的信息傳遞稀少而及時。實驗結果顯示,一個由10個小型無人機系統組成的團隊負責在一個開放區域搜索和監測一個人。在操作層,我們的用例介紹了一個智能體自主地進行搜索、探測、定位、分類、識別、跟蹤和跟蹤該人,同時避免惡意碰撞。在戰術層,我們的實驗用例介紹了一組多個智能體的合作互動,使其能夠在更廣泛的空間和時間區域內監測目標人物。在戰略層,我們的用例涉及復雜行為的檢測--即被跟蹤的人進入汽車并逃跑,或者被跟蹤的人離開汽車并逃跑--這需要戰略反應以成功完成任務。
目標搜索和檢測包括各種決策問題,如覆蓋、監視、搜索、觀察和追逐-逃避以及其他問題。我們開發了一種多智能體深度強化學習(MADRL)方法來協調一組飛行器(無人機),以定位未知區域內的一組靜態目標。為此,我們設計了一個現實的無人機模擬器,它復制了真實實驗的動態和擾動,包括從實驗數據中提取的統計推斷,用于其建模。我們的強化學習方法,利用這個模擬器進行訓練,能夠為無人機找到接近最優的政策。與其他最先進的MADRL方法相比,我們的方法在學習和執行過程中都是完全分布式的,可以處理高維和連續的觀察空間,并且不需要調整額外的超參數。
為了給在受限通信條件下運行的SUAS開發一個分布式的分類和協調框架,我們的第一個目標是在無人駕駛飛行器(UAV)上建立一個多傳感器系統,以獲得高探測性能。眾所周知,安裝在無人機上的光學和熱傳感器已被成功用于對難以進入的區域進行成像。然而,這些傳感器都不提供關于場景的范圍信息;因此,它們與高分辨率毫米波雷達的融合有可能改善成像系統的性能。我們提出了一個配備了無源光學攝像機和有源多輸入多輸出(MIMO)毫米波雷達傳感器的下視無人機系統的初步實驗結果。毫米波雷達的三維成像是通過收集通過運動線的數據來實現的,從而產生一個合成孔徑,并使用垂直于運動軌跡的結線MIMO陣列。我們的初步結果顯示,融合的光學和毫米波圖像提供了形狀和范圍信息,最終導致無人機系統的成像能力增強。
這個項目的目標是開發在具有挑戰性的多目標環境中自主分布式傳感器管理和融合所需的基礎方法。這涉及到開發能夠自動跟蹤多個目標的算法,根據從具有數據關聯不確定性和高誤報率的多個平臺收到的信息進行分類并分配資源。在研究者最近在多目標跟蹤和分布式傳感器融合方面的發展基礎上,該工作方案開發了能夠在大規模多傳感器多目標跟蹤應用中基于信息理論標準實現自主傳感器分配的方法。這是通過重新評估信息理論中的關鍵工具來實現的,這些工具適用于基于點過程理論的多目標監視的挑戰,該理論旨在適應單個目標的狀態和目標數量的不確定性。所開發的信息理論方法被應用于多傳感器問題,使人們能夠決定如何分配傳感器資源,以及完善對場景的認識。所開發的工具將有助于減少監測單一傳感器饋電的勞動密集型負擔,并能做出適應性決定,以優化多模式網絡的運行,并增強對監測區域的整體認識。對多目標跟蹤情景的信息理論表述的關注,將使人們能夠驗證傳感器饋電是否能夠可靠地融合,以避免數據損壞的可能性。該項目在智能傳感方面提供了關鍵的先進技術,以實現動態環境中的連續和適應性監視。這些將是可擴展的,可用于從多個分布式傳感器對許多目標進行大規模跟蹤。
該項目的總體目標是研究和開發基于信息理論原則的分布式多傳感器多目標系統的自主傳感器控制的新策略:
為大規模系統的多目標跟蹤開發可擴展的解決方案。
開發基于信息論原理的多傳感器融合的分布式解決方案。
確定多傳感器多目標跟蹤系統可以交換多少信息。
該項目為多傳感器多目標跟蹤開發了基本的解決方案:
對許多目標進行大規模跟蹤。問題的規模越來越大,因此解決方案需要可擴展,跟蹤許多目標需要減輕組合復雜性的算法。多目標跟蹤的低復雜度解決方案將被開發出來,并在復雜環境中進行測試。開發了一種用于穩健地跟蹤大量目標的方法,該方法在目標數量和測量數量上是可擴展的,這使得數百萬目標可以被跟蹤。
確定多傳感器多目標跟蹤系統的信息含量。在具有高密度信息的傳感器網絡中,帶寬可能是多傳感器多目標跟蹤的一個制約因素。這個項目得出了確定用于多目標跟蹤的傳感器網絡的信息含量的結果。預計這將有助于評估傳感網絡的效率和有效性,并與發送數據的數量和頻率相平衡。
來自多個傳感器的數據的分布式整合。操作員需要根據來自多個跟蹤系統的信息做出決定,以提高整體的態勢感知。為多傳感器集成開發了一種分布式多傳感器多目標跟蹤的新方法,該方法可減輕來自不準確或誤導性數據源的損壞。
對多目標監視應用中的威脅進行評估。對許多物體的大規模跟蹤能夠識別直接威脅。然而,有些威脅可能比其他威脅更有針對性。開發了一種新的對抗性風險的表述,為操作人員提供態勢感知,以幫助確定傳感資產的優先次序。
目標跟蹤估計器的性能界限。費舍爾信息的倒數,即克拉默-拉奧約束,為參數的估計器提供了一個約束,是統計分析的基礎。它為一個參數提供了一個可實現的最小方差或協方差。根據量子場理論的數學概念,為點過程推導出克拉默-拉奧約束,將這一概念推廣到具有空間變量的變量。
這項研究考察了通信方式對人與機器人團隊中的人類表現、信任、態勢感知和對機器人的感知的影響。在一項2×2的混合因素研究中,32名參與者在與機器人組隊時進行了模擬的封鎖和搜索式任務。參與者被分配到一種通信方式(指令性與非指令性;內部),兩組都經歷了高與低的任務負荷期(在被試中)。結果表明,與通信方式相比,任務負荷對參與者的任務表現影響更大,盡管由于通信方式對反應時間和工作量有一些不同的影響。這可能是由于不同的通信方式所固有的反饋的差異。
在單向通信模式中,雙方都沒有意識到或能夠解決對方的需求(Héder 2014)。雙向通信被認為比單向通信對認知的要求要低(Héder 2014),以及本質上更準確(因為接收者可以根據需要要求更多的信息)和及時(因為接收者不必懷疑信息是否不再相關)。在人類-智能體團隊中,通過通信進行的知識轉移支持共享態勢(Lyons 2013;Sycara和Sukthankar 2006)。當考慮到這些優勢的綜合影響時,我們有理由期待,與使用單向通信方法的團隊相比,使用雙向通信的人類-智能體團隊會有更好的績效結果。本研究擬通過一系列班組級的、類似于警戒線和搜索的任務來研究人類-智能體團隊中雙向通信的影響。
人與智能體通信的研究主要集中在智能體理解人類的能力上。研究人員從理論上提出了機器人需要理解自然語言(Lueth等人,1994年;Mavridis,2015年)、語義建模(Labrou等人,1999年;Yi和Goodrich,2014年)、手勢識別(Carinon和Billard,2007年;Fiore等人,2011年;Mavridis,2015年)和意圖識別(Hayes和Scassellati,2013年),許多人已經開始開發這些能力并通過實驗探索其相關問題(Calinon和Billard,2007年;Kaupp等人,2010年)。很明顯,許多研究人員認為能夠理解人類語言、語境和意圖的機器人是機器進化的下一步。讓智能體通過與人類隊友的通信獲得信息,也被證明可以提高智能體的性能(Breazeal和Thomaz 2008;Cakmak和Thomaz 2012)。雖然許多研究人員已經調查了人類-智能體團隊內的通信對人類隊友的表現和感知的影響(Rau等人,2009;Selkowitz等人,2016;Wright等人,2017;Lakhmani等人,2019a;Stowers等人,2020;Wright等人,2020),但相對來說,很少有人將這一研究擴展到考察機器人的通信方式的影響。
本研究的目的是考察機器人的通信方式在多大程度上影響人類隊友對自主機器人伙伴的看法。之前的工作已經探討了團隊內部的通信如何影響人類隊友的單向通信,即智能體向人類提供有關其感知、目標和行動的信息(沒有人類的輸入)(Selkowitz等人,2016;Lakhmani等人,2019a;Wright等人,2020)。有證據表明,在這種單向通信的環境中,智能體在通信目標、動機、預測結果和不確定性信息方面的透明度越高,人類隊友就越信任智能體,將代智能體擬人化,并認為它更有智慧和活力(Lakhmani等人,2019a;Wright等人,2020)。此外,智能體的透明度增加,可以更好地支持人類隊友的態勢感知(SA;Selkowitz等人,2016)。
尚待探討的是,人類與智能體通信的能力(即改變目標和動機以及保存資源)將如何影響人類對所述智能體的看法、對智能體的信任以及智能體的態勢感知。不可避免的是,當智能體被部署在下馬隊中時,組長將有能力和必要向智能體傳達不斷變化的目標和指令。當務之急是事先了解這種雙向通信的結果,以了解和避免(在可能的情況下)在戰場上可能遇到的潛在困難。
人與機器人的對話可能會影響人類對機器人的認知(Kaupp等人,2010),盡管人類對機器人的認知可能是不準確或不正確的。在Fong等人(2003)的遠程操作研究中,人類引導機器人通過一個擁擠的區域,同時與機器人保持通信。機器人可以詢問人類,人類也可以詢問機器人的狀態、進展和當前狀態。大多數參與者在被機器人詢問時都做出了回應,盡管有些人在完成當前任務后才做出回應。然而,所有參與者都拒絕主動向機器人提問,這表明他們可以通過機器人的表現來推斷機器人的狀態(Fong等人,2003)。這一反應表明,人類參與者并沒有將很高的靈性賦予機器人。當被問及為什么不詢問機器人時,參與者透露了對機器人如何工作或機器人發起的通信的重要性的錯誤認識。參與者可能試圖用人類的通信模式來理解與機器人的通信,但事實證明這是不充分的。
人與人之間的通信往往有細微的差別,除了簡單的信息通信或收集外,還有很多原因。人際通信動機(ICM)模型(Rubin等人,1988)概述了影響人們通信動機的六個因素。人類通信是為了快樂,為了表達愛意,為了感受被包容,為了逃避或放松,以及為了施加控制。通信是由三個方面組成的:我們與誰交談,我們如何與他們交談,以及我們談論什么(Graham等人,1993)。誰 "可以是與他們交談,我們談什么,因為通信者之間的關系集中并形成了互動(Rubin 1977)。然而,在一個進行聯合任務的兩人團隊中,"誰 "是預先確定的,而在進行任務時討論的 "什么 "將大多限于與任務相關的信息(Klein等人,2005)。這就留下了 "如何 "形成通信的問題,而這將取決于通信者的通信方式。
諾頓的通信者方式(1978)包括兩個維度(即指令性與非指令性),可以是主動的,也可以是不主動的,是基于人際交往的動機、功能和個人需求的滿足。指導性(DIR)風格是主導的,精確的,并且經常有爭議,而非指導性(NDIR)風格是友好的,細心的,圓滑的,并且鼓勵他人的想法。積極的風格是戲劇性的和生動的,而不積極的風格是放松和平靜的。諾頓爭辯說,一個人的通信者風格帶有意義,并構造了通信。已經發現DIR風格與ICM通信動機中的控制、包容、逃避和快樂正相關,而非直接與快樂、感情、包容和放松的動機正相關(Graham等人,1993)。人類隊友對機器人的通信方式很敏感,這已被證明會影響他們對機器人的接受和看法(Rau等人,2009)。在一項跨文化研究中,當機器人以隱性(即非指令性)通信方式而非顯性(即指令性)通信方式進行通信時,中國參與者更有可能接受機器人的建議,并表示更加信任、喜歡和可信。然而,德國參與者對使用隱性通信方式的機器人的評價遠遠低于顯性機器人,并且不太可能聽從其建議(Rau等人,2009)。這表明,為了提高人-智能體團隊的互動效率,匹配人類偏好的通信方式可能很重要(Chien等人,2020年;Matthews等人,2019年)。
在人類-智能體團隊中,信息共享的方式由界面設計決定(Kilgore和Voshell 2014),其中一個方面將是團隊成員的通信風格。機器人是簡單地分享關于其狀態和對周圍環境的信念的信息(單向通信),還是團隊成員有能力相互查詢,更新目標和糾正錯誤信息(雙向通信),這不是由團隊決定的,而是由界面內置的能力決定的。因此,在某種程度上,人類對智能體的看法可能不是由智能體的任務表現或能力決定的,而是由團隊部署前很久做出的設計決定決定的。在這項工作中,將評估通信方式對人類的任務表現、SA、感知的工作量、信任和對自主智能體的看法的影響。此外,還將評估可能影響調查結果的幾個個體差異因素。
發展適當的SA已被證明是人類-機器人團隊的一個關鍵任務目標(Evans 2012)。有幾個關于SA的概念;最流行的是Endsley(1995)的基于信息處理的模型。基于信息處理的模型認為,個人的SA包括三個層次,每個層次都與其他層次不同,但都是累積性的。這三個層次是:第一層次:對環境中的元素的感知;第二層次:對其意義的理解;第三層次:對其在不久的將來的狀態的預測(Endsley 1995)。
基于SA的智能體透明度(SAT)模型(Chen等人,2014年)為智能體應該提供支持個人SA的信息提供了一個框架。與Endsley的模型類似,它也有三個層次,每個層次都概述了支持Endsley模型中相關層次所需的信息類型。然而,維持SA是一個持續的、個體與環境之間的互動過程(Smith和Hancock 1995)。當一個人與一個智能體合作完成一個共同的任務時,每個人都必須保持他們自己對環境的SA,以及他們對對方的知識、理解和能力的SA,才能有效(Bradshaw等人,2011)。動態SAT模型(Chen等人,2014年)代表了從事共享任務的人類和智能體之間不斷更新的互動。通過比較單向交流條件和雙向交流條件下的表現,我們可以探索這兩種SAT模型的相對效用。
為了評估個人當前的SA水平,我們將使用類似于情況意識全球評估技術(SAGAT)的查詢方法。SAGAT是一種在分析的任務中,在預定的模擬暫停期間對參與者進行SA相關查詢的方法(Jones和Kaber 2004;Salmon等人2009;Stanton等人2012)。我們還將使用每個SA探針中包含的五點李克特量表(McGuinness 2004)評估相關的對自己SA的信心概念(Endsley and Jones 1997)。除了SA之外,我們還將測量參與者在與智能體通信時的感知工作量。
Parasuraman等人(2008)將心理工作負荷定義為:"任務所要求的心理資源與人類操作者可提供的資源之間的功能關系"。因此,認知工作負荷不是由任務的要求決定的,而是由操作者在特定任務負荷要求下的能力決定的。在擬議的研究中,一個優先事項是看看工作量與團隊成員之間用于傳遞信息的通信方式之間是否存在關系。為此,每個參與者將完成兩個場景,在每個任務負荷水平(高與低)下完成一個場景。
將使用兩種不同的工作負荷測量方法。第一個衡量參與者感知到的工作負荷的方法是NASA任務負荷指數(TLX)(Hart和Staveland 1988)。NASA-TLX要求參與者對他們在實驗中的主觀工作量水平進行評價。NASA-TLX由六個子量表組成:精神需求、身體需求、時間需求、表現、努力和挫折感。這項測量將在每個場景之后進行。
第二項是眼睛的工作負荷測量。這些將使用連接到顯示任務的計算機顯示器上的眼球追蹤器進行記錄。眼部測量已被證明是測量工作負荷的一種有效方式(Ahlstrom和Friedman-Berg,2006年)。眨眼時間和平均瞳孔直徑已被證明與認知工作負荷呈正相關(Ahlstrom和Friedman-Berg 2006)。固定的次數與任務難度正相關(Ehmke和Wilson,2007)。擬議的研究將使用這些工作負荷測量方法來評估不同溝通方式所引起的認知工作負荷的任何差異。
該研究的另一個研究問題是,參與者對智能體的信任將如何受到隊友通信方式的影響。操作者的信任被定義為 "在以不確定性和脆弱性為特征的情況下,智能體將幫助實現個人的目標的態度"(Lee and See 2004)。為了正確地校準操作者的信任,機器人需要有意義地提供關于其行動和為什么執行這些行動的洞察力(Chen等人,2014)。太多的信任會導致自滿或誤用,而信任不足則會導致誤用(Parasuraman和Riley 1997)。在擬議的研究中,信任將使用修改后的自動化信任量表(Jian等人,2000)進行測量。該量表被修改為評估Parasuraman等人(2000)描述的四類自動化功能中的信任。操作人員對自動化的態度影響了他們對自動化的信任程度(Chen等人,2014)。操作人員的顯性態度是有意識的,而且是認知上的努力,可以用自我報告的方式來測量(Merritt等人,2013)。另一方面,對自動化的隱性態度,無意識的 "直覺反應",仍然可以影響操作者對信息的感知和隨后的行為(Merritt等人,2013;Krausman等人,2022)。與明確的對應物不同,內隱態度是由 "概念(如黑人、同性戀者)和評價(如好、壞)之間的關聯強度 "決定的(Project Implicit 2017)。
對自動化的積極內隱態度在人與自動化的團隊合作中可能導致好的和壞的后果;它可能支持用戶對不可靠的系統的信任;然而,它也可能導致用戶在與自動化合作時更容易表現出自滿行為(Singh等人,1993;Merritt等人,2013)。在目前的研究中,顯性信任是使用自動化信任量表的修改版(Jian等人,2000年)來評估的,而對自動化的隱性態度是使用基于計算機的隱性關聯測試(IAT)來評估對自動化的態度(Merritt等人,2013年;Project Implicit 2017)。
機器人被認為是智能的程度和它的擬人化傾向也會影響信任(Ososky等人,2014;Lee和See,2004)。Hinds等人(2004年)發現,在人類與機器人的合作任務中,人類操作者在與類似人類的機器人合作時,感覺對任務的責任比與類似機器的機器人合作要小。這一發現表明,當機器人更像人的時候,操作者更愿意把對任務結果的責任讓給他們的機器人隊友。在之前的研究中(Selkowitz等人,2016年),研究表明,當機器人傳達有關其不確定性和預測結果的信息時,與只傳達其推理和當前對環境的理解的機器人相比,操作員將機器人評為更像人類。此外,機器人被評為更值得信賴,盡管其可靠性沒有變化(Selkowitz等人,2016)。Godspeed問卷(Bartneck等人,2009年)將被用來評估參與者對代理的人性化、生動性、可親性和智能的看法。
此外,還將研究影響操作者在多任務環境中表現的幾個個體差異(ID)變量的影響。這些變量包括感知的注意力控制(PAC)和工作記憶能力(WMC)。以前的研究表明,高PAC和WMC有助于在模擬環境和機器人監督任務中的表現(Chen和Terrence 2009;Wright等人2018)。PAC已被證明與操作者在需要注意力集中和轉移注意力的任務中的表現和SA有關(Chen和Barnes 2012),并將使用Derryberry和Reed(2002)的自我報告調查來評估。WMC差異已被證明會影響多機器人監督任務的表現(Ahmed等人,2014年)和SA(Endsley,1995年;Wickens和Holland,2000年),將使用自動閱讀跨度任務進行評估(Redick等人,2012年;Unsworth等人,2005年)。
本研究探討了在多任務的動態環境中,雙向通信方式如何與任務負荷相互作用,影響操作者的表現、信任、工作負荷和對通信的看法。該實驗是一個混合因素設計,通信方式(即DIR與NDIR)是主體間因素,任務負荷(即低與高)是主體內變量。
在一個模擬的多任務環境中,參與者與一個機器人隊友在繁忙的道路附近進行封鎖和搜索類型的任務。機器人負責搜索和保護建筑物的后部,而參與者則負責監測道路上的潛在威脅(威脅探測),并向機器人警告即將到來的叛亂分子。任務負荷(低與高)是通過增加威脅檢測任務的事件率來操控的。
每位參與者被分配到一種與機器人通信的方式,然后完成兩個試驗,每個任務負荷條件下一個。在這兩種交流條件下,機器人還監測道路,并試圖識別進入該區域的人,并確定他們的行動。然后,機器人詢問參與者它對該人的評估是否準確。在DIR條件下,參與者同意或糾正了在智能體,智能體沒有進一步的回應。在NDIR條件下,在參與者同意或糾正后,智能體審查信息并通知參與者它是否同意或不同意參與者的反應。
本研究的目標是了解不同的通信方式如何與任務負荷相互作用,在人與智能體的合作背景下,影響人的表現、信任、工作量、SA和對智能體的看法。
假設1(H1)任務表現:
H1a: 在DIR條件下的參與者在通信任務上的表現將比在NDIR條件下的參與者更好。通信任務的表現將由正確的反應和反應的速度來評估。
H1b: 在每個溝通方式條件下,低任務負荷(LTL)條件下的溝通任務表現將高于高任務負荷條件。
H1c: 在DIR條件下,參與者在目標識別任務上的表現將優于NDIR條件下的參與者。目標識別任務的表現將由正確的識別和識別目標的速度來評估。
H1d: 在每個通信方式條件下,低任務負荷條件下的目標識別表現將高于高任務負荷條件。
假設2(H2)信任:
H2a: 與NDIR條件下的參與者相比,DIR條件下的參與者將對機器人有更高的信任。
H2b: 在每個通信方式條件下,高任務負荷條件下的參與者對機器人的信任度將高于低任務負荷條件下的參與者。
假設3(H3)工作負荷:
H3a: 在NDIR條件下,參與者的工作負荷將大于DIR條件下的參與者。
H3b:在每個通信方式條件下,高任務量條件下的參與者感知的認知工作負荷將大于低任務量條件下的參與者。
假設4(H4)SA:
H4a: 在DIR條件下的參與者將比在NDIR條件下的參與者有更高的SA。
H4b: 在每個通信方式條件下,高任務負荷條件下的參與者SA將高于低任務負荷條件下的參與者。
假設5 (H5) 對機器人的感知:
H5a: 與NDIR條件下的參與者相比,DIR條件下的參與者會認為機器人的生動性較低,不討人喜歡,智力較低,安全性較低。
H5b: 在每個通信方式條件下,任務負荷將影響參與者對代理的感知,低任務負荷條件下的感知將高于高任務負荷條件下的感知(即,更有活力、更討人喜歡、更有智慧和更安全)。
假設6(H6)個體差異:
H6:由于ID(即IAT、WMC和PAC)的原因,在所有因果測量(即目標探測性能、信任、工作量、SA和對代理的感知)上會有不同的結果。
多Agent系統,尤其是無人駕駛系統,是解決很多現實問題的關鍵部分,因此必須改進任務分配技術。在這篇綜述中,我們介紹了用于任務分配算法的主要技術,并根據所使用的技術對其進行了分類,主要側重于最近的工作。我們還分析了這些方法,主要集中在它們的復雜性、優化性和可擴展性上。我們還提到了任務分配方法中使用的常見通信方案,以及任務分配中不確定性的作用。最后,我們根據上述標準對它們進行了比較,試圖找到文獻中的差距,并提出最有希望的方法。
關鍵詞:任務分配、MAS、優化、學習、博弈論、元啟發式方法
眾所周知,自然界中的大多數系統都是復雜的分布式系統。這樣的系統主要需要溝通和合作,以實現一個共同的目標,如改善群體內每個人的表現,旨在實現最佳的整體表現[1]。因此,由于受到自然界的啟發,許多復雜的工程系統也采用了同樣的原則。特別是在過去的15年里,很多研究工作都集中在多智能體系統上,這些系統可以更好地完成很多單一智能體有時無法完成的任務。智能體可以是一個物理實體,如UAVs、UGVs或UUVs,一般類型的機器人,但甚至是計算機資源,如處理器,或一個計算機程序[2]。
科學界將注意力集中在MAS上的原因有很多。一些任務,特別是分布式任務,由于其復雜性和前提條件,可能無法由單個智能體來完成。此外,多個智能體的存在提高了執行任務的性能和可信度,因為更多的智能體可以合作更快地完成相同的任務,而且系統對智能體的損失或故障更加強大。另外,成本可能會降低,因為可以使用許多便宜的、有時是一次性的智能體,而不是一個昂貴的智能體[3]。
但是,在使用多智能體系統完成多項任務時,出現了分工的問題,即哪項任務將被分配給哪個智能體,智能體將有什么類型的通信,一般來說,每個智能體的行為將被定義,以便有一個最佳和強大的性能[3], [4]。所有這些問題的答案就是任務分配技術。為MAS中的任務分配問題找到一個最優或接近最優的解決方案是一個相當困難的過程,在一般情況下已被證明是NP困難的[5], [6]。任務分配的一些主要目標,除了實現整體最優的系統性能外,還可以是任務執行時間的最小化,一些智能體保持不活動的時間最小化,在特定的時間內完成的任務數量最大化,任務分配程序的可靠性最大化,即任務的成功完成,等等。[7]. 由于最佳整體性能是一個模糊的概念,難以量化,而且可能取決于每個智能體的感知,因此使用了效用的概念,即對任務分配程序對系統性能的價值或成本進行估計[4]。
任務分配的第一步是靜態的,但由于現實環境是動態環境,動態任務分配領域在過去幾年中已經成為一個很大的研究領域。在動態任務分配中,系統可以處理任務或環境的在線變化,具有更強大的性能[8]。使用的算法可以是集中式的,也可以是分散式的,取決于智能體的通信結構,也可以使用同質或異質的智能體。在任務分配技術的最初應用中,主要是假設同質智能體,因為相應算法的計算負擔較小。但是,在現實世界的應用中,經常需要異質的智能體。例如,在機器人系統中可能存在不同類型的傳感器,或者同一問題的不同任務可能需要不同類型的機器人。盡管異質性增加了計算成本,但它在許多應用中的必要性,促使研究人員為異質MAS開發了大量的任務分配算法[9], [10]。
用于解決MAS中任務分配問題的主要技術是基于拍賣(或市場)的方法、基于博弈論的方法、基于優化的方法(啟發式算法、元啟發式算法等),以及機器學習技術。根據所使用的技術,可以找到一個最佳的,或者幾乎總是一個近似的解決方案,而且問題的可擴展性、復雜性和適應性也會存在不同程度。MAS中的任務或任務分配的應用包括搜索和救援任務(SAR)[11]-[14],軍事行動,如攻擊或監視[15]-[18],物理災害管理[11],[12],[19]-[22],其中主要使用無人駕駛系統,也包括眾包平臺的使用,云計算[23]-[28],智能電網,制造業的資源分配[29]-[32]和其他。
解決任務分配問題的算法主要有兩大類,即集中式算法和分布式算法。
集中式算法是過去研究較多的一類算法。其主要概念是,有一個中央協調者智能體,它與所有其他智能體有通信渠道。這個智能體管理其他智能體的談判,并決定分配給其他智能體的任務。在這些情況下,大多數時候,會考慮全局效用函數[14],[33],[3],[34]。
圖1. 一個集中式系統,智能體A7是中央協調人
這些方法的優點是使用較少的系統資源,可能有較低的實施成本,但由于計算成本高,它們只能用于少量的智能體,而且它們不能適應動態環境,因此它們主要用于靜態任務分配。任務集中分配的事實避免了任務分配的沖突,因此不需要共識階段,也可以找到分配問題的最優解。它們也缺乏穩健性,因為它們很容易受到智能體,特別是中央智能體的損失,導致整體性能的惡化。此外,所有的智能體與中央智能體進行通信的事實,限制了它們的可擴展性[17],[35]。
分布式算法克服了集中式算法的一些缺點,因此它們在過去幾年中吸引了研究人員的注意。在這種類型的算法中,沒有中央協調者,智能體對環境有一個局部的感知,并可能相互協商。因此,任務分配的決定是以分布式方式在局部做出的。每個智能體也可能有自己的效用函數,總體效用函數可能是近似的[14]、[33]、[3]、[34]。
圖2. 一個分布式系統
這些方法的優點是它們具有穩健性,因為智能體的失敗對整體性能的影響很小,而且由于智能體之間的通信水平較低,所以也是可擴展的。此外,它們的計算成本比集中式方法小,使它們成為大規模系統的理想選擇,即使通信帶寬很小。權衡之下,它們找到了任務分配問題的次優(近似)解決方案,而且可能需要一種共識算法,因為局部任務分配可能導致任務之間發生沖突[17],[35]。
在MAS中,有很多用于任務分配的技術。下面對所使用的方法進行分類介紹(見圖3)。
在MAS中用于任務分配的一大類算法是基于拍賣的算法。這類算法以經濟學為基礎,智能體使用談判協議,根據他們對環境的局部感知,在拍賣中為任務投標。這就是為什么有時這些方法也被稱為基于市場的原因。智能體根據他們計算的效用或成本出價,他們的目標是為分配的任務完成最高的效用或最低的成本。基于智能體的效用函數,一個全局目標函數被優化。拍賣者可能是一個中央智能體,也可能由系統的智能體以分布式方式進行拍賣,拍賣可能需要幾輪,可以考慮一個或幾個任務[10], [14], [36], [37]。
基于拍賣的算法有很多優點,例如,即使找到了次優的解決方案,也有很高的解決效率,因為它們同時使用了集中式和分布式的方法及穩健性。它們也是可擴展的,因為它們有適度的計算成本或通信負擔,不是完全集中式的算法,它們對動態任務分配很好,因為它們可以從拍賣程序中增加或刪除新任務[3]。
圖3. 任務分配技術分類
a) 基于CBBA的算法:基于共識的捆綁算法(CBBA)是一種分布式的算法,它為多目標優化問題提供解決方案,與智能體態勢感知的不一致無關,其成本函數是每個智能體對執行捆綁任務所感知的效用。在第一階段,該算法使用帶有貪婪啟發式的拍賣來選擇任務,在第二階段,該算法應用基于共識的程序來解開任何重疊的任務。該算法被證明可以為單機器人單任務的任務分配問題提供次優解(完整的分類法見[4]),并且具有高度的可擴展性,使其適用于動態任務分配應用,因為它具有多項式時間競標[38] [39]。
最近發現的方法包括PI(性能影響)算法的改進,如PI-MaxAss[14]和[35]。此外,其他技術是CBBA算法的改進,如修改的CCBBA[38],G-CBBA[40]和[41]。
b) 基于CNP的技術:Smith[42]開發的合約網協議(CNP)是第一個用于任務分配問題的談判平臺,構成了眾多任務分配算法的基礎。它是一個標準化的協議,可以將任務分配給最合適的智能體,同時它能夠在需要時進行任務重新分配[43]。另一方面,CNP有信息擁塞的問題,有時會使智能體之間的談判程序變得不方便。與其他方法不同,如基于信息素的方法,CNP在很大程度上依賴于智能體之間的信息通信,這些信息的計算成本可能非常高,從而降低了通信效率和系統性能[44]。
最近一些基于CNP的方法包括[45]、[46]、[11]、[27]、[44]。此外,一種不屬于上述類別的基于拍賣的方法是(FMC TA)[47]。
在基于博弈論的方法中,假定智能體是采取特定行動的玩家,任務分配方案是他們應該遵循的策略。在博弈結束時,玩家根據他們的行動所獲得的回報被稱為報酬。當玩家選擇了最佳策略,那么他們就不會希望改變他們的策略,因為這是他們能夠完成的最佳結果,達到納什均衡[48]。
博弈可以分為兩大類,合作博弈和非合作博弈。在合作博弈中,智能體在采取具體行動之前進行合作或形成聯盟,影響他們的一般戰略和效用。合作博弈的一個例子是聯盟形成博弈。在非合作博弈中,智能體單獨選擇他們的行動和策略,這意味著智能體是自私的,希望達到最高的回報。一些例子包括貝葉斯博弈、非合作性差分博弈、子模態博弈等。[49].
最近一些基于博弈論的方法包括[50]、[20]、[51]、[52]、[53]、[54]、[55]。
優化是應用數學的一個領域,旨在從一組可能的解決方案中找到一個特定問題的解決方案,使某一成本或目標函數的成本最小或利潤最大。這個成本函數根據一些約束條件進行優化,決定了系統的目標。有很多優化技術可以是確定性的或隨機性的[3], [56]。確定性方法不考慮隨機性,也就是說,如果使用相同的起點,通往解決方案的路徑將是相同的。確定性方法包括諸如圖形方法、基于圖形的方法、順序規劃、線性規劃、混合整數線性規劃(MILP)等技術。隨機方法或元啟發式方法是指在計算過程中包含隨機性的方法。元啟發法包括進化算法、蜂群智能、模擬退火等。此外,啟發式算法是用來尋找快速和高質量的解決方案的算法,以解決確定性方法會有難以承受的計算成本的困難優化問題。這些方法雖然提供了近似的解決方案[57]。
a) 基于確定性的優化:一個經常被用作開發新任務分配算法的基礎的優化算法是匈牙利算法[58]。匈牙利算法將任務分配問題視為一個組合優化問題,使用圖論并在多項式時間內解決該問題。該算法計算每個智能體效用的估計值,從而使整體效用最大化。但這在計算上是很昂貴的,而且當系統存在高不確定性時,有時價值較低,因此對該算法提出了很多改進[59]。最近的一些方法包括[60]、[61]和[62]。
b) 元啟發式算法:元啟發式算法包括幾種方法,如蜂群智能、遺傳算法、模擬退火和其他。蜂群智能已被廣泛用于MAS的任務分配,它是一類受生物啟發的算法,主要來自具有社會行為的動物,如昆蟲群、魚群、鳥群等[63]。 這些動物表現出高效的分工,由于團隊成員的專業化,導致了群體的高效率[64]。即使智能體可能相當簡單,但由于他們的合作,他們可以作為一個整體完成復雜的任務,導致強大、高效和低成本的解決方案[65]。另一方面,這些算法有時會給智能體分配不必要的任務,導致沖突,并對環境變化有緩慢的整體反應[63]。主要使用的方法分為基于閾值和概率的方法。
在基于閾值的方法中,如響應閾值法[66],智能體決定其關于任務的行動,取決于一些監測量的值和閾值的值。閾值可以是固定的,也可以是可變的,智能體可能只有關于該數量的局部或整體信息。在概率方法中,智能體根據環境觀察或歷史數據計算出的概率,隨機地改變任務。另外,可能會使用一個刺激物,當刺激物對特定的任務來說是高的時候,可能會選擇一個任務[67]。
最近一些基于元啟發式的任務分配方法包括改進的分布式蜜蜂算法[63]、動態蟻群的分工[17]、分布式免疫多Agent算法[68]、改進的QPSO[69]、分層任務分配和路徑尋找方法[70]、多目標多類人機器人任務分配[71]和其他技術如[72]、[73]、[15]。
c) 啟發式方法:最近基于啟發式的方法包括Lazy max-sum算法[19]、平均Hamilton分區--多個旅行推銷員算法[74]、One-To-Many Bipartite Matching[75]、基于最近鄰的聚類和路由方法[76]和[77]。
要預測一個智能體必須處理的未來干擾是非常困難的,特別是在沒有具體的數學模型來描述環境行為的情況下,這對實際應用來說是動態的。因此,一個解決方案是智能體學習如何面對這種干擾,考慮到他們過去的行動和其他智能體的行動,從而提高系統效率[78], [79], [80]。
一個典型的機器學習技術是強化學習,其中智能體使用他們的經驗來學習如何在環境的不同狀態下采取行動。環境通常是以馬爾科夫決策過程(MDP)的形式形成的,智能體優化成本或獎勵函數,以便從環境中學習。經常使用的RL方法是Q-learning,它是一種無模型的RL方法,幫助智能體找到MDP的最優解。[78], [79]. RL有很多優點,包括處理環境中的不確定性、實時實施(對于訓練有素的網絡)和處理不同的任務[16]。另一方面,特別是在大規模的復雜系統中,大多數RL算法需要高計算能力[81]。
已發現的基于學習的方法包括[82]中的分布式自組織地圖方法、[12]中的隨機強化學習算法、基于圖的多智能體強化學習方法[83]、帶有增強爬坡搜索方法的MARL[84]、基于Q-學習的快速任務分配算法[16]、使用合作深度強化學習策略的任務分配過程[79]和基于MARL軟Q-學習方法[85]。
除了上述解決任務分配問題的方法外,還有一些結合了上述一些方法的其他方法,它們被稱為混合方法。
在[86]中,優化和基于拍賣的方法被結合起來,而在[87]中,基于市場的方法與基于博弈論的方法被結合起來。此外,[88]、[89]和[13]是基于市場和元啟發式的結合,[90]是基于市場和學習的結合。在[91]中,進化算法與貪婪算法相結合,而在[92]中,基于博弈論的方法與學習算法相結合。
評價MAS中的任務分配程序的一些基本標準是所使用的算法的計算復雜性、解決方案的最優性和所使用方法的可擴展性。此外,算法處理不確定性的能力,以及通信程序的有效性,對整個系統的性能起著重要作用。
影響任務分配計算成本的因素是所使用的算法的復雜性,這些算法的使用頻率,以及智能體之間需要的通信方法的計算成本(智能體為實現成功的任務分配需要交換的信息比特)[93], [94]。
另一個關鍵因素是找到的解決方案的最優性。當我們提到任務分配程序的最優性時,我們的意思是所找到的解決方案具有可能的最高總體效用,受到系統特性的限制,如提供給智能體的信息的噪聲、不確定性和不準確性。為了找到動態而非靜態的解決方案而執行算法的頻率,以及可以重新分配的任務的比例,都會影響解決方案的質量[4]。此外,隨著越來越多的復雜任務和更多的智能體被用于任務分配方案,算法的可擴展性對其有效性至關重要。
表一 一些有代表性的任務分配算法的復雜性
a) 基于CBBA的方法:所提出的基于CBBA的方法,是CBBA和PI算法的改進,比基線CBBA方法有更好的效率和可擴展性,但缺點是計算成本較高。具體來說,PI-MaxAss[14]算法的計算復雜性相當于 ,其中
是任務數。此外,改進的CCBBA算法[38]的復雜度為
,其中Θ是收斂前需要的最大迭代次數,
是每個任務的最大傳感器數量,
是智能體數量,
是任務數量,M是規劃范圍。
b) 基于CNP的方法:一般來說,基于CNP的技術在重新分配任務方面非常好,但高度依賴于智能體之間的通信程序,通常造成高計算成本。此外,CNP的另一個問題是觀察到的信息擁堵。所提出的改進的CNP算法,比基線CNP有更高的效率和更小的計算成本。但是,即使有一些方法試圖解決消息擁塞的問題,例如[44],這仍然是一個開放的研究領域。
c) 基于博弈論的方法:所提出的博弈論方法,比基線方法更有效,有更好的次優(近優)解決方案。此外,一些博弈論的算法比基于市場的方法有更好的效率。至于復雜度,基于Apollonius圈的主動追擊者檢查(AAPC)[52],其復雜度為 其中
為追擊者的數量。基于匿名享樂博弈[50]的GRAPE算法的復雜度由
約束,盡管在大多數情況下要小得多,其中
是網絡的圖徑,
是任務數,
是智能體的數量。至于每個智能體的通信復雜度是
,其中
是智能體i所通信的智能體數量。
d) 啟發式方法:有很多解決DCOP問題的技術。提供最優解決方案的技術通常具有指數級的協調負擔,而基于啟發式的技術具有較低的協調成本,但提供次優的解決方案。一些提議的技術顯示了比一些基于遺傳和市場的方法更高的效率和更小的計算成本[19]。懶惰的最大和方法[19]的信息傳遞復雜性為 但如果我們考慮所有智能體對所有任務的分配,復雜度會上升到
對于找到次優解的AHP-mTSP算法[74](平均哈密爾頓分區,多個旅行銷售人員問題),對于
個智能體和
個任務,每個迭代的復雜度為
平均運行時間為
。此外,集中式啟發式基于最近鄰的聚類和路由(ncar)方法[76]的計算成本為
,其中
是智能體的數量。OTMaM技術[75]適用于大規模的系統,其時間復雜度為
,其中
是智能體的數量,
是任務的數量。
e) 元啟發法:元啟發式技術成本低、穩健、高效,但有時會造成任務間的沖突,為智能體分配不必要的任務,對環境變化的反應也很慢。與基線算法相比,所提出的算法具有較低的復雜性和更好的可擴展性。但是,其中一些算法是次優的,或者假設通信程序沒有故障。此外,其中一些算法比一些貪婪的和基于市場的(如CNP)方法具有更高的可擴展性和更好的性能。對于MOMHTA算法[71],總體最壞情況下的復雜度是 ,其中
是任務的數量,H是超平面上參考點的數量,L是目標的數量,K是創建集群的數量。
f) 基于學習的方法:基于學習的方法,特別是強化學習的方法,通常具有很高的效率,可以在線實施,并對環境干擾有很好的表現。我們注意到,很多技術比基線模擬退火、爬坡和貪婪算法有更好的性能。此外,我們還注意到比基于邊界的方法和匈牙利方法的效率更高。盡管一些方法的計算成本比基于拍賣的方法小,但計算成本和維度的增加仍然是其他強化學習方法的一個問題。
表二 一些有代表性的任務分配算法的通信類型
g) 混合方法:使用混合方法是一個非常好的解決方案,因為兩種技術可以結合起來,利用它們的優勢,實現比基線方法或只使用一種方法更高的效率或更小的計算成本。在[86]中,使用了簡化的MILP程序和多智能體投標的迭代調度算法,迭代調度器的計算復雜度為 ,其中
是智能體的子集。此外,在這個調度器的低級階段,使用了GSTP算法,增加了整體的復雜性。在[89]中,基于CBBA的方法與蟻群系統(ACS)算法相結合,并且在CBBA的包含階段使用了基于貪婪的策略,最壞情況下的計算復雜性是
,其中
是幸存者(任務)的數量。
表一中列出了上述算法的復雜度摘要。我們可以看到大多數方法都有多項式的時間復雜度。計算成本較高的是基于CBBA的算法,以及一些混合方法。另一方面,基于啟發式的方法和基于博弈論的方法的復雜性較低。
智能體之間的通信是其協調性能的一個非常重要的因素。目標是智能體使用最小的可用帶寬,在不使通信網絡過載的情況下,交換有關其狀態以及周圍環境的重要信息[12]。智能體的通信可以是明確的或隱含的。顯性或直接通信,是指智能體之間使用通信網絡和專用網絡協議交換信息。大多數現有的協調方法都使用這種類型的通信。隱式方法是指通過環境,使用智能體配備的傳感器,獲得關于多智能體系統中其他智能體的信息。如果智能體利用其他智能體在環境中留下的信息進行交流,那么隱式交流是主動的(生物學啟發技術),如果智能體使用他們的傳感器來感知環境發生的變化,那么隱式交流是被動的[96]。
顯式通信方式通常比隱式情況有更高的準確性,缺點是通信負荷較高,特別是對于大規模的系統。隱式的情況下,即使缺乏準確性,也有更好的穩定性和更強的容錯性。因此,混合使用這些方法是一個非常好的主意,可以利用它們的優勢,導致更好的整體系統性能[96]。在表二中列出了一些任務分配的特征算法的通信技術。我們看到,一些經常使用的技術是社會網絡技術、黑板計劃、信息素圖和一般基于圖的技術。
表三 主要任務分配方法的比較
考慮到不確定性的任務分配技術,對于在現實生活中實現高效和穩健的任務分配非常有用。到目前為止,大多數技術,特別是分布式技術,比集中式技術更難融入不確定性。不確定性可以考慮到傳感器的不準確性、智能體的失敗、環境干擾等[97] [98]。根據以前的研究,應該把可靠性作為優先考慮的因素,因為如果忽略了失敗的可能性,性能就會下降(次優性能)[99]。例如,在[100]中,作者發現在通信程序不確定的環境中使用基于異步共識的捆綁算法(ACBBA)(現實的有損網絡環境),會產生低效的任務分配,特別是對于大量的智能體。因此,該算法的性能與理論上的預期性能相比是不同的。
在[99]中,使用啟發式方法和非馬爾科夫狀態,研究了多智能體系統中的不確定性問題(通常是任務分配程序中的元素失效)。他們的結論是,做出簡化的假設,如馬爾科夫狀態,會導致結果不能公平地反映系統的性能。此外,他們證明了在某些類別的問題中,使用更復雜的啟發式方法,更好地描述物理環境和發生的不確定性,導致了性能的提高。在[97]中,作者通過處理不確定的環境,開發了性能影響(PI)算法的改進版本,提高了魯棒性。提出了三種穩健的PI變體,使用蒙特卡洛抽樣從高斯分布中抽取不確定的變量。與基線CBBA和PI相比,所提出的方法降低了不確定情況下的故障率和未分配任務的數量,但增加了計算的復雜性,使得它們對時間關鍵型應用不可靠。
因此,納入不確定性在很多應用中是非常有用的,可以帶來更好的性能。但是,總是存在著計算復雜度較高的危險,因此在效率、穩健性和收斂時間之間應該有一個平衡,這取決于可用的計算能力和每個應用的具體需求。
表三是主要任務分配技術的一些主要性能特征的總結,從1(低值)到4(非常高的值)進行了分類。我們看到,基于CBBA和CNP的技術通常具有較高的計算成本,使它們不適合大規模的系統。此外,確定性優化技術也有極高的成本和低可擴展性,使得它們也不適合于中到大規模的系統,盡管它們有非常好的效率。另一方面,啟發式和博弈論方法具有非常低的成本,使它們成為提供具有中等和良好效率的快速解決方案的理想選擇。這些方法也可以用于大規模的系統,因為它們具有非常好的可擴展性。元啟發式方法和學習方法具有適度的成本、良好的效率和可擴展性,可用于中等規模,有時也可用于大規模環境,這取決于具體問題。特別是學習技術在動態任務分配和動態環境中非常好。
隨著MAS系統技術的發展和計算能力的逐年提高,在實際環境中實施改進的任務分配算法的需求勢在必行。這樣的環境有很高的不確定性,復雜的任務,并且可能需要實時實現所用的算法。由于對這種環境的適應性,RL方法是一個很有前途的任務分配研究領域,在過去的幾年里被科學界廣泛研究。此外,博弈論和元啟發式方法對這類系統也很有前途。如[101]所述,基于RL和博弈論的技術的結合改善了多Agent情況下的RL(MARL),因此基于博弈論和RL的技術的結合對于任務分配方法來說也是非常有前途的。
該項目基于博弈論、不確定性量化和數值逼近等方法,致力于兩個主要目標:(I)將它們應用于計算數學中具有實際意義的高影響問題;(II)它們向機器學習方向發展。本著這一目的,以及對概念/理論進步和算法/計算復雜性進步的雙重強調,本計劃的成就如下:(1) 我們開發了學習核的一般穩健方法,包括:(a) 通過核流(交叉驗證的一種變體)進行超參數調整,并應用于學習動態系統和天氣時間序列的外推;(b) 通過可解釋回歸網絡(核模式分解)對核進行規劃,并應用于經驗模式分解。(2) 我們發現了一種非常穩健和大規模并行的算法,基于Kullback-Liebler發散(KL)最小化,計算密集核矩陣的反Cholesky因子的精確近似值,具有嚴格的先驗復雜度與準確度的保證。(3) 我們引入了競爭梯度下降法,這是梯度下降法在雙人博弈環境中的一個令人驚訝的簡單而強大的概括,其中更新是由基礎游戲的正則化雙線性局部近似的納什均衡給出。該算法避免了交替梯度下降中出現的振蕩和發散行為,而且選擇較大步長的能力進一步使所提出的算法實現更快的收斂。(4)我們開發了一個嚴格的框架,用于分析人工神經網絡作為離散化的圖像注冊算法,圖像被高維空間的高維函數所取代。(5) 我們引入了一種通用的高斯過程/核方法來解決和學習任意的非線性PDEs。(6) 我們引入了一個新的不確定性量化框架,解決了傳統方法的局限性(在準確性、穩健性和計算復雜性方面)。
機器學習(ML),從廣義上講,是一類自動優化參數以處理給定輸入并產生所需輸出的計算機算法。ML的一個經典例子是線性回歸,據此找到一條最適合(通過)一組點的線。最近的一個例子是分類任務,如用 "貓 "這樣的單字來標記一張百萬像素的圖像。
對于許多應用,ML完成了人類可以做得同樣好的任務。然而,ML在兩種情況下大放異彩:1)任務的數量巨大,例如數百萬;2)問題的維度超出了人類思維的理解。一個簡單的例子是同時實時監控成千上萬的安全攝像頭,尋找可疑的行為。也許一個ML方法可以發現異常事件,并只與人類觀察者分享這些視頻片段。更好的是,異常圖像可以被暫時貼上諸如 "1號入口處的蒙面入侵者 "之類的標簽,以幫助保安人員只關注相關的信息。
除了減少人類的負擔外,ML還可以將人類可能無法識別的復雜的相互聯系拼湊起來。例如,一個ML算法可以發現,在一百萬個銀行賬戶中,有五個賬戶的交易似乎是同步的,盡管它們沒有相互發送或接收資金,也沒有向共同的第三方發送或接收資金。
鑒于手持和固定設備的計算資源不斷增加,我們有必要想象一下,ML可以在哪些方面改變戰爭的打法。當然,ML已經對美國陸軍的科學研究產生了影響,但我們也可以很容易地想象到自主車輛和改進的監視等作戰應用。
本文件的主要目標是激勵美國陸軍和美國防部的人員思考ML可能帶來的結果,以及為實現這些結果,哪些研究投資可能是有成效的。
在ARL的許多研究項目中,機器學習目前正在被使用,或者可以被使用。我們列出了一些使用ML或可能從ML中受益的研究項目。我們列出的與ML相關的ARL研究工作絕非完整。
雖然從技術上講,機器學習自19世紀初高斯發明線性回歸以來就一直存在,但我們相信,ML的最新進展將以我們目前無法想象的方式影響軍隊。在本節中,我們概述了我們認為將得到加強的軍隊行動的許多領域,以及可能采用的ML方法的種類。
軍事情報包括信息收集和分析,因為它涉及到指揮官做出最佳決策所需的信息。由于收集的數據量越來越大,處理必須自動化。需要考慮的主要問題是數據的數量、速度、真實性和多樣性。大量的數據(又稱大數據)需要在許多計算節點上對數據進行智能分配。速度要求快速計算和網絡連接到數據流。真實性是對信息來源和異常檢測的信任問題。多樣性相當于使用許多不同的ML算法的不同訓練模型的應用。我們在本小節中概述了不同類型的數據和分析要求。
讓計算機從從各種媒體來源收集到的大型文本數據庫中提煉出重要的概念和文本部分,有很大的好處。最近報道的另一個ML突破是不同語言之間的精確文本翻譯。 軍隊的一個獨特挑戰是翻譯不常見的語言,因此專業翻譯人員較少。在人工通用智能(AGI)領域,一些團體聲稱,自然語言處理將是類似人類認知的基礎。
鑒于人類、傳感器和代理產生的數據的激增,一個很大的問題是,除了證明其收集的直接用途之外,這些數據還包含什么剩余價值。數據挖掘可以是統計學和機器學習的努力,以發現數據中的模式,否則人類操作者就會錯過。
傳統上,異常檢測是通過首先識別已知數據的群組和描述數據的分布來進行的。然后,當新的輸入被處理時,它們被識別為屬于或不屬于原始分布。如果它們在已知分布之外,就被認為是異常的。以下許多類型的異常檢測系統可能對軍隊有用。
網絡入侵檢測:超出常規的網絡流量。McPAD和PAYL是目前使用的軟件中的2個這樣的例子,它們使用了異常檢測。
生活模式異常:人們的視覺和生物統計學上的行為方式與常人不同,表明他們可能正在進行一些對抗性行動。
基于條件的維護:在當前生命周期中,材料/系統在其年齡段不典型的信號。
士兵異常:有理由相信士兵的生物識別技術不正常。
異物檢測:在已知物資數據庫中無法識別的物體的視覺效果。
自動目標識別(ATR)是一個非常成熟的領域,已經使用機器學習幾十年了。
1)目前深度學習的進展將在多大程度上增強ATR?
2)更復雜的算法是否需要更復雜/更耗電的機載計算?
ML是否能對目標的各種欺騙性的混淆行為具有魯棒性?
強化學習在多大程度上可以用來進行實時軌跡調整?
機器學習在機器人學中的應用也是一個巨大的領域。ML應用領域包括傳感、導航、運動和決策。目前,傳感將從計算機視覺的所有進展中受益。導航,除了使用標準的GPS之外,還可以從自我運動中受益,也就是基于自身感知的運動估計。運動可以被學習,而不是規劃,這不僅會導致更快的開發時間,而且還能在新的環境或受損的模式下重新適應(例如,失去四條腿中的一條)。最后,隨著機器人的數量超過人類操作員的數量,機器人將有必要自行決定如何執行其規定的任務。它將不得不做出這樣的決定:"由于電池電量不足,我是否要回到大本營?"或者 "我是否繼續前進一點,然后自我毀滅?"
除了機器人技術,人們最終希望任何系統在損壞或不能滿負荷工作時能夠自我糾正。這需要在某種程度上的智能,以自主診斷缺陷和問題,并利用其可用的資源糾正這些問題。
在通過機器學習來學習自主權的情況下,問題將是:"自主系統將如何應對X情況?" 這里的問題是,對于一個擁有潛在致命武力的系統,我們怎么能確定它只會正確合法地使用武力?我們推測,在機器學習的算法擁有使用致命武力的實際能力之前,必須對其進行廣泛的測試,即使它與人類的環形決策相聯系。
近年來,大量的研究都在研究使用機器學習來自主地玩各種視頻游戲。在某些情況下,報告的算法現在已經超過了人類玩游戲的水平。在其他情況下,仍然存在著處理長期記憶的挑戰。對于美國空軍來說,智能代理已經成功地在以戰斗為中心的飛行模擬器上進行了訓練,這些模擬器密切模仿現實生活。陸軍的問題包括以下內容。
智能代理能否附加到機器人平臺上?
智能在多大程度上可以通用于處理現實生活與視頻游戲中遇到的各種情況?
當我們可能不理解一個訓練有素的代理的邏輯時,我們能相信它的行動嗎?
代理在多大程度上能夠與人類合作?
在過去的十年里,機器學習在網絡安全方面發揮了不可或缺的作用。具體來說,ML可以用于異常檢測,檢測已知威脅的特定模式,并辨別網絡行為是否可能由惡意代理產生。隨著該領域的不斷加強,問題是ML是否能使安全比對手領先一步,因為對手可能利用ML來混淆檢測。
一個長期的設想是,軍隊使用的每一個機械系統都有一些關于系統當前和預測健康的內部感應。相關問題如下。
我們能從有限的傳感器中辨別出一個系統或系統組件的當前健康狀況嗎?
機載ML能否預測一個系統或系統部件在暴露于特定環境或彈道侮辱之后的健康狀況?
隨著基因組序列的數量繼續呈指數級增長,比較在現場獲得的序列所需的計算工作可能變得無法管理。機器學習可以通過對序列進行不同層次的分類來減少必要的比較。
93 近年來,機器學習已經在檢測各種組織中的惡性腫瘤方面取得了長足的進步。94 它同樣可以被用來描述創傷或創傷后應激障礙(PTSD)95,并制定治療計劃。
陸軍的一個重要組成部分集中在對行動、系統、研究和測試的分析上。傳統上,分析人員使用大量的工具,包括機器學習,以多維回歸、聚類和降維的形式。隨著深度學習的出現,一套新的工具應該是可能的,可以更有效地處理需要更復雜模型的大型數據集。例如,應該有可能從測試期間拍攝的視頻流中提取特征和物理屬性,這可能超過目前的標準做法。
自適應用戶界面(AUI)和情感計算。ML可以用來確定用戶的心理和/或情緒狀態,并提供適合這種狀態的界面。此外,可變的AUI可以服務于用戶的變化。例如,一些用戶可能喜歡音頻反饋而不是視覺反饋。
推薦系統。最流行的推薦系統之一是根據以前看過的電影的評分來選擇用戶想看的下一部電影(例如,所謂的 "Netflix問題")。對于軍隊來說,可以根據以前的使用情況和庫存核算的反饋來推薦后勤補給的情況。
搜索引擎/信息檢索。傳統上,搜索引擎返回文件的 "點擊率"。新的范式是以簡明的形式回答用戶的問題,而不是簡單的模式匹配。
情感分析。社交媒體上的流量和對環境進行訓練的各種傳感器不僅可以檢測關鍵的關鍵詞或特定物體的存在,還可以推斷出可能的攻擊的可能性。
有針對性的宣傳。傳統上,宣傳是通過散發傳單來完成的,如今,宣傳可以通過社交媒體來傳播。ML的角度是如何以最有說服力的信息向正確的人口群體進行宣傳。此外,重要的是快速檢測和顛覆來自對手針對我們自己的人員/人民的宣傳。
本研究的目標之一是確定當前研究中的差距,這些差距可能會限制ML在軍隊研究和行動中的全部潛力。本節借用了ARL運動科學家Brian Henz博士和Tien Pham博士(未發表)的戰略規劃工作。
傳統上,在一個特定領域采用ML的一半戰斗是弄清楚如何適應現有的工具和算法。對于陸軍所面臨的許多問題來說,這一點更為突出,與其他學術、商業或政府用途相比,這些問題可能是獨一無二的。任何數據分析員面臨的第一個問題是使數據適應他們想要使用的統計或ML模型。并非所有的數據都使用連續變量或者是一個時間序列。離散/標簽數據的管理可能非常棘手,因為標簽可能不容易被轉換成數學上的東西。在自然語言處理中的一個例子是,單詞經常被轉換為高維的單熱向量。另一個例子可能是如何將大量的維修報告轉換為對某一特定車輛在一段時間內的表現的預測。
此外,陸軍的要求超出了典型的商業部門的使用范圍,不僅需要檢測物體和人,還需要檢測他們的意圖和姿態。這將需要開發新的模型。另一個大的要求是可解釋性,正如DARPA最近的一個項目所概述的那樣:是什么因素導致ML算法做出一個特定的決定?在一個真實的事件中,如果一個ML算法在沒有人類驗證的情況下宣布一個重要目標的存在,我們能相信這一決定嗎?
隨著對計算要求高的ML任務的設想,開發人員正在使用多線程、并行和異構架構(GPU、多核)來加快計算速度。ML的分布式實現遠不如GPU版本常見,因為分布式計算中的節點間通信存在固有的網絡瓶頸,而且在單精度浮點性能方面,GPU相對于CPU有很大優勢。除了目前對GPU的強烈依賴,生物啟發式神經計算旨在尋找非馮-諾伊曼架構來更有效地執行ML,并可能更快。這方面的一個例子是IBM的神經形態芯片。97 未來的研究應該關注如何分配ML處理,使節點之間的網絡通信最小化。另外,像聚類這樣的無監督學習算法在多大程度上可以被映射到神經網絡中?
其他需要考慮的事情。
目前的ML軟件(特定的神經網絡)在一個小型的GPU集群中表現最好。
大多數基于非神經網絡的ML算法的并行性不高,或者根本就沒有并行。
另一個軍隊的具體挑戰是分析基本上沒有標記的數據集(例如,用無監督學習)。手動標注集群將是一種半監督學習的形式。
隨著進入偏遠地區或任何遠離基地的地區,軍隊必須限制系統的尺寸、重量和功率。此外,在 "激烈的戰斗 "中,時間是關鍵。例如,人們不能在遭到槍擊時等待作戰模擬的完成。最后,在其他商業發射器占主導地位的地區,或者在限制無線電通信以提高隱蔽性的情況下,網絡帶寬可能會受到很大限制。
在這種倍受限制的環境中,機器學習將需要有效地進行,而且往往是以一種孤立的方式進行。截然相反的條件是使用大型數據庫訓練大型神經網絡,這往往是最先進的機器學習功力的情況。商業部門正在開發自動駕駛汽車,據推測將使用低功耗的計算設備(如現場可編程門陣列、移動GPU)進行自主駕駛、道路/障礙物檢測和導航。然而,陸軍將有更多的要求,包括自主傳感器和執行器、態勢感知/理解、與人類的通信/合作,以及廣泛的戰場設備。這將需要多幾個因素的計算能力和特定算法的硬件,以實現最佳的小型化和低功耗。
在混亂的環境中,操作環境預計會有比通常密度更高的靜態和動態物體。此外,人們完全期待主動欺騙以避免被發現。我們也希望能夠開發出足夠強大的算法,至少能夠意識到欺騙,并相應地調低其確定性估計。
基于CNN的目標分類的突破可以部分歸功于每個物體類別的成千上萬個例子的可用性。在軍隊場景中,某些人和物體的數據可能是有限的。人們最終將需要one-hot99或multishot分類器,其中幾個有代表性的數據條目就足以學習一個新的類別。到目前為止,最好的選擇是 "知識轉移",通過調整以前訓練的模型的所有參數的子集來學習新的類別。我們的想法是,由于需要優化的參數較少,修改這些參數所需的數據也較少。
即使對于我們可以產生大量圖像的目標類別(例如,友好物體),我們也需要訓練自己的模型,以便從每個類別的潛在的數千張圖像中識別軍隊相關類別。軍隊還使用商業車輛中通常不存在的其他傳感模式(例如,熱能和雷達)。因此,需要為這些非典型的傳感設備訓練模型。從根本上說,非典型傳感設備可能需要新的神經網絡拓撲結構以達到最佳的準確性和緊湊性。
一個值得研究的有趣領域是將模型和模擬與機器學習相結合。有很多方法可以做到這一點。例如,ML可以用來推導出模擬的起始參數。此外,ML還可以用來處理模擬的輸出。一個耐人尋味的新領域是開發基于物理學或類似物理學的模擬,使用類似ML的模型/方程。一個這樣的應用是預測 "如果?"的情景。例如,"如果我跑過這棵樹呢?接下來會發生什么?"
機器學習在傳統上被認為是人工智能的硬性(即數學)表現形式。有可能最終,所有的人工智能任務都會被簡化為數學。然而,就目前而言,一些智能任務似乎更多的是基于推理或情感。對于之前描述的方法中的任務,ML并不能充分解決以下軟性人工智能的特點。
人類并不總是完全按邏輯推理,但他們也有能力將不完整的信息拼湊起來,做出 "最佳猜測 "的決定。幾十年來,對這種行為進行編碼一直是一個挑戰。
情緒似乎是驅動人類達到某些目的的動機/目標功能。例如,快樂可能會導致不活動或追求生產性的創造力。另一方面,恐懼則可能會導致忍氣吞聲。計算機是否需要情感來更有效地運作,還是說它們最好擁有100%的客觀性?這既是一個哲學問題,也是一個未來的研究方向。不過現在,毫無疑問的是,在人與代理人的團隊合作中,計算機需要準確地解釋人類的情感,以實現最佳的團體結果。
與人類的互動性是陸軍研究未來的首要關注點。一個類似的問題是,不同的計算機系統之間如何進行交流,而這些系統不一定是由同一個實驗室設計的。研究的一個領域是用計算機來教那些在這方面有困難的人進行社會交流。 再一次,對于人與代理的合作,代理將需要能夠參與社會互動,并在人類的陪伴下遵守社會規范。
創造力通常被認為是隨機合并的想法,與新的元素相結合,由一個鑒別功能決定新創造的項目的功能和/或美學。在某些方面,創造力已經被某些計算機實驗室所證明。例如,為了設計的目的,計算機可以被賦予某些方面的創造力。
人工智能的最終目標是將許多狹義的智能算法合并成一個統一的智能,就像人類的頭腦一樣。75鑒于許多狹義的人工智能任務已經比人類的某些任務要好,即使是早期的所謂人工通用智能(AGI)也可能具有一些超人的能力。AGI的一個主要目標是將目前由人類執行的某些任務自動化。
如果不提及許多哲學家的猜測,機器學習將最終能夠改進自己的編程,導致能力的指數級提高,也許會遠遠超過人類智能,那么機器學習的研究就不完整了。這些設想既是烏托邦式的104,也是烏托邦式的105。希望超級智能能夠解決世界上的許多問題。
在這項工作中,我們回顧了機器學習的不同類別,并描述了一些更常用的方法。然后,我們指出了一小部分關于ML在ARL中的應用的例子。最后,我們預測了ML在未來可以應用于軍隊的各個領域,并概述了為實現這一結果需要解決的一些挑戰。我們希望這份文件能夠激勵未來的研究人員和決策者繼續投資于研究和開發,以充分利用ML來幫助推動美國陸軍的發展。