在許多組織中,預算主管和部門負責人通過在會議室的談判來進行資源分配。在本文中,我們提出了一個更全面的資源分配流程,讓預算主管對其組織有更廣泛的了解,并作為談判的基礎。該流程從員工調查開始,評估用戶對單個資源的偏好。根據這些偏好,我們計算出每種資源的感知效用得分。最后,利用感知效用分數和成本,我們開發了一個線性程序,推薦資源分配組合,使組合的感知效用最大化。通過模型比較,我們確定我們的程序所提供的資源配置組合的感知效用比僅通過協商制定的資源配置組合高出14%。
關鍵詞 資源配置 線性規劃 效用參數 調查設計
自1947年喬治-丹齊格(George Dantzig)提出單純形法以來,資源配置優化一直是人們探索的主題,并被廣泛應用于商業、制造和工程實踐中。資源配置幾乎在人類生活的方方面面無處不在,但每一種不同的應用都是獨一無二的。不同的組織采用不同的技術來解決各自的資源分配問題,但往往會出現次優解決方案。造成次優資源分配的因素有很多。首先,預算主管通常與實際資源使用情況相去甚遠。此外,比較不同資源對組織的重要性也很困難。預算主管如何才能準確評估不同資源組,甚至是同一資源組中的資源?最后,在一些預算編制過程中,很少有技術性的、可量化的操作,預算主管往往通過協商來進行最終分配。
在本文中,我們提出了一種新技術,可從三個方面改進預算編制過程。首先,通過獲取員工對項目重要性的意見,它有助于縮小預算主管與資源利用之間的差距。其次,我們的技術涉及一種根據員工的感知效用對項目進行定量比較的方法。最后,與預算主管直接進行談判不同,基于資源的感知效用的優化資源配置可用作建立談判的初始框架。
首先,我們提出一個組織情景,為我們的方法提供背景。假設一個組織的資源可以被分配到三個內部商品組中的一個,它們的組合服務于組織目的。每個商品組由三個不同的項目組成。每種商品必須至少購買一次,但購買次數不得超過五次。總預算定為250美元。"用戶 "是指通常在商品組內工作,但了解組織宗旨以及其他商品組如何對其做出貢獻的員工。從根本上說,預算主管不屬于任何一個商品組,她必須決定如何為每個商品組內的資源分配資金。同樣,她對商品組或商品組內項目的相對效用知之甚少。
我們的系統由三個主要部分組成,它們相互提供數據;首先是調查(偏好收集),然后是效用參數(優先級排序),最后是線性程序(優化資源分配)。首先,用戶需要花時間完成一項調查,調查中提出的預算決策與其預算主管將面臨的預算決策類似。用戶的回答將被匯總,以獲得用戶對每個項目的總體偏好。然后,這些用戶偏好將通過一個函數來確定每個項目的感知效用分數。請注意,我們使用的是 "感知效用 "而非 "實際價值",因為分數是基于用戶對物品的不完美感知,而這種感知可能會受到多種因素的影響,包括物品的美感(Cascetta & Cascetta, 2009)。最后,線性程序將根據感知效用得分和商品價格以及預算約束條件選擇最佳投資組合。圖1直觀地展示了我們的解構系統以及我們組織場景中物品的感知效用得分。
在不確定的情況下做出決策,往往要權衡現有選擇方案的預期成本和收益。成本與收益的權衡會使決策變得容易或困難,尤其是在成本與收益不確定的情況下。在這項研究中,我們評估了基于實例學習理論(IBLT)的認知模型和兩種著名的強化學習(RL)算法如何在不確定和決策復雜度不斷增加的情況下,學會在尋求目標的網格世界任務中做出更好的選擇。我們還使用隨機代理作為基礎比較。我們的結果表明,IBL 模型和 RL 模型在簡單設置下的準確度相當,盡管 RL 模型比 IBL 模型更有效。然而,隨著決策復雜度的增加,IBL 模型不僅比 RL 模型更準確,而且更高效。我們的結果表明,即使成本增加,IBL 模型也能追求高回報的目標;而 RL 模型似乎會被較低的成本 "分散注意力",從而達到較低回報的目標。
我們介紹了一個基于統計分類的對話系統,該系統用于在協作導航領域實現人機對話自動化。分類器是在一個小型的多層 Wizard-of-Oz 對話語料庫中訓練的,其中包括兩個向導:一個代表對話能力,另一個代表導航能力。下面,我們將介紹分類器的實現細節,并展示如何將其用于自動對話向導。我們在語料庫中的幾組源數據上評估了我們的系統,發現即使使用非常有限的訓練數據,響應準確率也普遍很高。這項工作的另一個貢獻是新穎地展示了對話管理器,它使用分類器與兩個不同的人類角色進行多樓層對話。總之,這種方法有助于口語對話系統對自然語言輸入做出穩健而準確的回應,也有助于需要在團隊環境中與人類互動的機器人。
我們目前正在開發一個端到端口語對話系統,用于人機協作導航領域。該系統在涉及雙 WoZ 設置的小型語料庫上進行訓練,其中一個向導負責對話管理(DM),另一個向導負責機器人導航(RN)。使用這種語料庫的理由是,我們希望系統能以適當的、類似人類的方式解釋語音并做出反應。這種方法提供了數據驅動的見解,讓我們了解在協作導航任務的背景下,這樣的回應會是什么,以及我們應該期待什么樣的回應。我們的最終目標是創造一個完全自主的機器人。在本文中,我們介紹了利用基于跨語言信息檢索的統計分類器實現自然語言對話功能自動化的初步嘗試。該系統跨多個樓層(即不同的通信渠道)運行,"翻譯 "人類用戶與 RN 組件或向導之間的信息,并向人類用戶提供積極和消極的反饋。
鑒于我們的語料庫規模較小,我們有興趣探索一下,利用如此有限的訓練數據和注釋,我們能在多大程度上采用數據驅動方法。大多數端到端系統需要大量的訓練集才能獲得合理的性能,但之前對類似分類器的評估顯示,與其他系統(如 [20])所需的數十萬條訓練數據相比,我們只用了幾百條語料就獲得了相當高的準確率 [9]。請注意,我們并不是說我們的方法可以避免其他數據驅動系統的局限性,我們將在第 5 節中討論其中的一些局限性。然而,我們的目標是通過我們的分類和 DM 方法來減輕其中的一些局限性。
下面,我們將介紹我們的任務領域,并提供所用語料的詳細信息。接下來,我們將介紹我們的分類方法以及實施的 DM 策略。最后,我們將在語料庫中不同規模的數據集上對我們的系統進行評估,以比較響應的準確性。在評估中,我們將關注以下幾點:(1) 分類器的準確性(尤其是與訓練數據的大小和組成有關的方面),(2) DM 響應的充分性,以及 (3) 系統在機器人架構中的集成。
我們的任務領域涉及類似 USAR 場景的協作導航。在任務中,人類擔任指揮官,監督遠程定位的機器人在一個陌生的物理環境中執行導航任務。該環境以房屋為模型,包括各種房間和與該環境類型一致的物體(房間、走廊等)。任務的目標是團隊合作完成兩項子任務--一項與搜索有關(如尋找鞋子),另一項與分析有關(如評估該區域是否可用作總部)。
在整個任務過程中,指揮官都坐在電腦前,電腦界面顯示與任務相關的信息。界面包括顯示機器人位置的二維占位網格、機器人拍攝的最后一張圖像快照,以及顯示機器人對話回復的文本框(見圖 1 右上方)。為了指揮機器人,指揮官可以使用不受約束的自然語言自由發言。常見的指令包括 "向前移動 10 英尺"、"拍照 "和 "右轉 45?"。人們也會使用基于地標的指令,如 "移動到黃色圓錐體前 "和 "到你右邊的門口去",不過這些指令不如基于度量的指令那么常見[15]。
圖 1 具有雙向導設置的實驗任務域(摘自 [13] )。
任務使用雙 WoZ 設置運行,其中一個向導控制 DM,另一個向導控制 RN。重要的是,向導之間必須相互通信,以確保正確及時地執行操作和做出響應[14]。該任務已進行了多次實驗,其他實驗目前正在進行中。在實驗(Exp.)1 中,DM 向導根據預先制定的指南(見 [13]),向指揮官和 RN 向導自由輸入回復。在此基礎上,我們開發了一個圖形用戶界面,供 DM 向導在實驗 2 中使用,以提供更快、更統一的回復[2, 16]。在實驗 3 中,我們使用了相同的圖形用戶界面,但這里我們使用的是模擬機器人和環境,而不是物理環境。實驗 1 和實驗 2 各有 10 名參與者,而實驗 3 則有 62 名參與者。
我們的研究展示了如何將技術和數據科學實踐與用戶知識相結合,既提高任務性能,又讓用戶對所使用的系統充滿信心。在本手稿中,我們重點關注圖像分類,以及當分析師需要及時、準確地對大量圖像進行分類時出現的問題。利用著名的無監督分類算法(k-means),并將其與用戶對某些圖像的手動分類相結合,我們創建了一種半監督圖像分類方法。這種半監督分類方法比嚴格的無監督方法具有更高的準確性,而且比用戶手動標記每張圖像所花費的時間要少得多,這表明機器和人工優勢的結合比任何替代方法都能更快地產生更好的結果。
為了解決如何利用現有數據的增長來建立有用的模型的問題,一個自動發現模型和管道的方法是有序的,它可以利用這些數據。我們已經探索了自動發現模型和管道所需的許多方面:建立一個模型知識庫和基于推薦系統方法的模型排名,通過數據集的圖形表示進行模型推薦,通過擴展基于樹的管道優化工具(TPOT)和基于強化學習的方法進行管道生成。我們探索了一種預算意識到的超參數調整算法和神經網絡的不確定性估計。我們探索了不同的訓練方法,包括無梯度優化、零點學習和持續學習。我們還解決了神經網絡架構的問題。我們將所有這些結合起來,形成了一個模塊化的自動機器學習(AutoML)系統,該系統支持廣泛的任務類型,在項目評估中一直處于前三名。
建模與仿真即服務(MSaaS)體現了這樣一個理念:仿真應該由松耦合的共享組件、仿真服務在基于云的環境中為手頭的任務快速組成。然后,這些模擬作為組成的模擬服務,提供給人類和技術消費者。這方面的重要功能是讓仿真操作員發現和組合仿真服務并執行組合。我們用我們所說的MSaaS基礎設施能力來描述這一功能。按照逐步完善的理念,仿真服務的發現和組合可以在設計時使用與實施無關的仿真服務信息,在實施時使用與實施有關的仿真服務信息。執行環境也可以在設計時和實施時進行設置。因此,我們在描述MSaaS基礎設施的能力時,要說明它們是如何用于獨立于實施的和特定于實施的服務信息的。通過做這些闡述,我們打算更深入地了解如何進行模擬服務的發現、組成和執行。我們的結論是,盡管MSaaS基礎設施所需的大部分功能都可以通過現有的平臺和框架獲得,但為了實現MSaaS的愿景,有必要將這些功能作為服務,與(組成)仿真服務一起提供。
圖 1. 建模和仿真即服務 (MSaaS) 聯合框架,具有 MSaaS 門戶功能(發現、組合、執行)和用于數據管理、組合以及服務管理和控制的 MSaaS 基礎設施功能。
對行動、訓練和演習的模擬支持具有很大的潛力,它可以支持和增強行動過程,并通過新的方面和擴展的接觸來加強訓練。隨著多國部隊的相互聯系越來越緊密,對國防活動的模擬支持被認為將變得越來越重要。
然而,建立和執行分布式模擬是一個漫長的過程,根據所涉及的系統的復雜性和特點,有各種障礙。由于系統的版本和設置可能在這期間被更新或改變,因此每次行動或演習都必須重復這一過程。跨網絡的系統連接也帶來了自己的一系列問題。所有這些挑戰使得在分布式模擬的生命周期中,有必要在每個地點配備熟練的技術人員,這增加了已經很復雜的后勤工作和有時漫長的操作和演習計劃。
建模與仿真服務(MSaaS)--尤其是北大西洋公約組織(NATO)的MSaaS聯盟框架--提出了一個愿景,即為行動、演習和培訓設置仿真應該是快速和容易的。該服務概念通過通用功能的標準化體現了可重用性,并通過松散耦合和標準化的服務描述體現了可組合性。
圖1說明了這一理念,供應商在云環境中共享仿真服務。仿真操作員使用一個基于網絡的門戶來發現并將仿真服務組合成一個仿真組合來執行。組成的仿真本身可以作為服務提供,以便重復使用。云環境促進了 "按需、隨地 "的模擬訪問。事實上,基于云的模擬和MSaaS被認為是 "巨大的挑戰",對模擬軟件提出了新的要求,特別是對服務描述、服務發現和服務組合的需求。
門戶網站中發現、組成和執行模擬的功能是由MSaaS基礎設施能力的集合提供的,這些能力分為數據管理、組成以及服務管理和控制(SMC)的能力(圖1)。討論的主線是闡述這些MSaaS基礎設施能力應該是什么,目的是為了更好地理解在面向服務的環境中處理模擬的基本機制。我們的闡述是建立在早期的MSaaS經驗之上的。
在MSaaS的參考架構中,服務目前被稱為是獨立實施的。也就是說,服務是由其獨立于實施的服務描述來識別的,參考架構中列出了一些與建模和仿真相關的服務。當獨立于實施的服務描述被標準化并以機器可讀的格式表達時,可以建立工具來支持某種程度的自動發現和組成。這就支持了MSaaS快速仿真部署的愿景,并進一步支持了仿真操作員(圖1)在未來可能成為非技術培訓師或其他操作人員的愿景。
然而,為了對面向服務的標準和仿真協議世界中的開發者有用,這些標準和協議中的每一個都可能處于不同的特定實現抽象水平,MSaaS參考架構需要包括相應的抽象水平。此外,從概念建模到設計再到實現的步驟中所表達的逐步細化原則,進一步激勵了擁有多個抽象層次的服務概念。
因此,在闡述MSaaS基礎設施能力時,我們在考慮這些能力如何在模擬服務抽象的幾個層次上運作的同時,進行了闡述。這樣就能更好地理解服務抽象層次本身,以及基礎設施能力如何通過這些抽象層次進行逐步細化。
MSaaS依賴于北約國家和組織之間以及民用基礎設施之間共享的云基礎設施。這意味著模擬服務和它們的組合,以及基礎設施的能力,必須在適當的云應用成熟度水平的軟件中實現;例如,見Kratzke的云準備、云友好、云彈性、云本地分類。然而,我們在本文中的重點是了解功能層面的基礎設施能力(Kratzke參考模型中的服務構成和應用層)。確定MSaaS的適當的云應用成熟度水平是下一個重要步驟,在本文中沒有討論。
在認識論上,我們在這里的工作相當于建立格雷戈爾所說的分析型理論和設計與行動型理論。前者由 "是什么 "的概念化組成;在我們的案例中,"是什么 "不是一個物理實體,而是一個概念實體;即一個參考架構。后一種類型的理論描述了 "如何做 "事情,包括設計原則。這兩種類型的理論都不支持理論本身所表達的預測,這些預測可以用傳統的方式進行反駁。相反,可以說,它們通過假設概念化和設計有利于各種目的而暗示了元預測。我們提出的概念化是有益的,這可以通過從業者和研究者發現它有多大用處、它在解析性方面有多好、它有多有趣以及理論的其他質量方面來進行分析和經驗性的驗證。這種驗證必須由其他研究者和實踐者長期進行,并與不斷發展概念化的研究者合作。
在第2節中,我們回顧并闡述了MSaaS參考架構的服務概念,在這個概念中,服務可以在幾個抽象層次上被聲明--使用服務描述,從獨立于實施到具體實施。然后,我們在第3節中介紹了MSaaS的基礎設施能力,并在第4-6節中分別闡述了與服務抽象層次有關的組成數據、組合和SMC能力。我們在第7節中得出結論。
圖7. 建模和仿真即服務基礎設施功能之間的關系。
內聚力是團隊的一個重要屬性,它可以影響個人隊友和團隊成果。然而,在包括自主系統作為隊友的團隊中,內聚力是一個未被充分探索的話題。我們研究了關于人類團隊內聚力的現有文獻,然后在此基礎上推進對人類-自主系統團隊的內聚力的理解,包括相似性和差異性。我們描述了團隊的內聚力,各種定義、因素、維度以及相關的好處和壞處。我們討論了當團隊包括一個自主性的隊友時,該元素可能會受到怎樣的影響,并進行了逐一描述。最后,我們確定了可能與內聚力有關的人類-自主性互動的具體因素,然后闡述了對推進有效的人類-自主性團隊的科學至關重要的未來研究問題。
多Agent系統,尤其是無人駕駛系統,是解決很多現實問題的關鍵部分,因此必須改進任務分配技術。在這篇綜述中,我們介紹了用于任務分配算法的主要技術,并根據所使用的技術對其進行了分類,主要側重于最近的工作。我們還分析了這些方法,主要集中在它們的復雜性、優化性和可擴展性上。我們還提到了任務分配方法中使用的常見通信方案,以及任務分配中不確定性的作用。最后,我們根據上述標準對它們進行了比較,試圖找到文獻中的差距,并提出最有希望的方法。
關鍵詞:任務分配、MAS、優化、學習、博弈論、元啟發式方法
眾所周知,自然界中的大多數系統都是復雜的分布式系統。這樣的系統主要需要溝通和合作,以實現一個共同的目標,如改善群體內每個人的表現,旨在實現最佳的整體表現[1]。因此,由于受到自然界的啟發,許多復雜的工程系統也采用了同樣的原則。特別是在過去的15年里,很多研究工作都集中在多智能體系統上,這些系統可以更好地完成很多單一智能體有時無法完成的任務。智能體可以是一個物理實體,如UAVs、UGVs或UUVs,一般類型的機器人,但甚至是計算機資源,如處理器,或一個計算機程序[2]。
科學界將注意力集中在MAS上的原因有很多。一些任務,特別是分布式任務,由于其復雜性和前提條件,可能無法由單個智能體來完成。此外,多個智能體的存在提高了執行任務的性能和可信度,因為更多的智能體可以合作更快地完成相同的任務,而且系統對智能體的損失或故障更加強大。另外,成本可能會降低,因為可以使用許多便宜的、有時是一次性的智能體,而不是一個昂貴的智能體[3]。
但是,在使用多智能體系統完成多項任務時,出現了分工的問題,即哪項任務將被分配給哪個智能體,智能體將有什么類型的通信,一般來說,每個智能體的行為將被定義,以便有一個最佳和強大的性能[3], [4]。所有這些問題的答案就是任務分配技術。為MAS中的任務分配問題找到一個最優或接近最優的解決方案是一個相當困難的過程,在一般情況下已被證明是NP困難的[5], [6]。任務分配的一些主要目標,除了實現整體最優的系統性能外,還可以是任務執行時間的最小化,一些智能體保持不活動的時間最小化,在特定的時間內完成的任務數量最大化,任務分配程序的可靠性最大化,即任務的成功完成,等等。[7]. 由于最佳整體性能是一個模糊的概念,難以量化,而且可能取決于每個智能體的感知,因此使用了效用的概念,即對任務分配程序對系統性能的價值或成本進行估計[4]。
任務分配的第一步是靜態的,但由于現實環境是動態環境,動態任務分配領域在過去幾年中已經成為一個很大的研究領域。在動態任務分配中,系統可以處理任務或環境的在線變化,具有更強大的性能[8]。使用的算法可以是集中式的,也可以是分散式的,取決于智能體的通信結構,也可以使用同質或異質的智能體。在任務分配技術的最初應用中,主要是假設同質智能體,因為相應算法的計算負擔較小。但是,在現實世界的應用中,經常需要異質的智能體。例如,在機器人系統中可能存在不同類型的傳感器,或者同一問題的不同任務可能需要不同類型的機器人。盡管異質性增加了計算成本,但它在許多應用中的必要性,促使研究人員為異質MAS開發了大量的任務分配算法[9], [10]。
用于解決MAS中任務分配問題的主要技術是基于拍賣(或市場)的方法、基于博弈論的方法、基于優化的方法(啟發式算法、元啟發式算法等),以及機器學習技術。根據所使用的技術,可以找到一個最佳的,或者幾乎總是一個近似的解決方案,而且問題的可擴展性、復雜性和適應性也會存在不同程度。MAS中的任務或任務分配的應用包括搜索和救援任務(SAR)[11]-[14],軍事行動,如攻擊或監視[15]-[18],物理災害管理[11],[12],[19]-[22],其中主要使用無人駕駛系統,也包括眾包平臺的使用,云計算[23]-[28],智能電網,制造業的資源分配[29]-[32]和其他。
解決任務分配問題的算法主要有兩大類,即集中式算法和分布式算法。
集中式算法是過去研究較多的一類算法。其主要概念是,有一個中央協調者智能體,它與所有其他智能體有通信渠道。這個智能體管理其他智能體的談判,并決定分配給其他智能體的任務。在這些情況下,大多數時候,會考慮全局效用函數[14],[33],[3],[34]。
圖1. 一個集中式系統,智能體A7是中央協調人
這些方法的優點是使用較少的系統資源,可能有較低的實施成本,但由于計算成本高,它們只能用于少量的智能體,而且它們不能適應動態環境,因此它們主要用于靜態任務分配。任務集中分配的事實避免了任務分配的沖突,因此不需要共識階段,也可以找到分配問題的最優解。它們也缺乏穩健性,因為它們很容易受到智能體,特別是中央智能體的損失,導致整體性能的惡化。此外,所有的智能體與中央智能體進行通信的事實,限制了它們的可擴展性[17],[35]。
分布式算法克服了集中式算法的一些缺點,因此它們在過去幾年中吸引了研究人員的注意。在這種類型的算法中,沒有中央協調者,智能體對環境有一個局部的感知,并可能相互協商。因此,任務分配的決定是以分布式方式在局部做出的。每個智能體也可能有自己的效用函數,總體效用函數可能是近似的[14]、[33]、[3]、[34]。
圖2. 一個分布式系統
這些方法的優點是它們具有穩健性,因為智能體的失敗對整體性能的影響很小,而且由于智能體之間的通信水平較低,所以也是可擴展的。此外,它們的計算成本比集中式方法小,使它們成為大規模系統的理想選擇,即使通信帶寬很小。權衡之下,它們找到了任務分配問題的次優(近似)解決方案,而且可能需要一種共識算法,因為局部任務分配可能導致任務之間發生沖突[17],[35]。
在MAS中,有很多用于任務分配的技術。下面對所使用的方法進行分類介紹(見圖3)。
在MAS中用于任務分配的一大類算法是基于拍賣的算法。這類算法以經濟學為基礎,智能體使用談判協議,根據他們對環境的局部感知,在拍賣中為任務投標。這就是為什么有時這些方法也被稱為基于市場的原因。智能體根據他們計算的效用或成本出價,他們的目標是為分配的任務完成最高的效用或最低的成本。基于智能體的效用函數,一個全局目標函數被優化。拍賣者可能是一個中央智能體,也可能由系統的智能體以分布式方式進行拍賣,拍賣可能需要幾輪,可以考慮一個或幾個任務[10], [14], [36], [37]。
基于拍賣的算法有很多優點,例如,即使找到了次優的解決方案,也有很高的解決效率,因為它們同時使用了集中式和分布式的方法及穩健性。它們也是可擴展的,因為它們有適度的計算成本或通信負擔,不是完全集中式的算法,它們對動態任務分配很好,因為它們可以從拍賣程序中增加或刪除新任務[3]。
圖3. 任務分配技術分類
a) 基于CBBA的算法:基于共識的捆綁算法(CBBA)是一種分布式的算法,它為多目標優化問題提供解決方案,與智能體態勢感知的不一致無關,其成本函數是每個智能體對執行捆綁任務所感知的效用。在第一階段,該算法使用帶有貪婪啟發式的拍賣來選擇任務,在第二階段,該算法應用基于共識的程序來解開任何重疊的任務。該算法被證明可以為單機器人單任務的任務分配問題提供次優解(完整的分類法見[4]),并且具有高度的可擴展性,使其適用于動態任務分配應用,因為它具有多項式時間競標[38] [39]。
最近發現的方法包括PI(性能影響)算法的改進,如PI-MaxAss[14]和[35]。此外,其他技術是CBBA算法的改進,如修改的CCBBA[38],G-CBBA[40]和[41]。
b) 基于CNP的技術:Smith[42]開發的合約網協議(CNP)是第一個用于任務分配問題的談判平臺,構成了眾多任務分配算法的基礎。它是一個標準化的協議,可以將任務分配給最合適的智能體,同時它能夠在需要時進行任務重新分配[43]。另一方面,CNP有信息擁塞的問題,有時會使智能體之間的談判程序變得不方便。與其他方法不同,如基于信息素的方法,CNP在很大程度上依賴于智能體之間的信息通信,這些信息的計算成本可能非常高,從而降低了通信效率和系統性能[44]。
最近一些基于CNP的方法包括[45]、[46]、[11]、[27]、[44]。此外,一種不屬于上述類別的基于拍賣的方法是(FMC TA)[47]。
在基于博弈論的方法中,假定智能體是采取特定行動的玩家,任務分配方案是他們應該遵循的策略。在博弈結束時,玩家根據他們的行動所獲得的回報被稱為報酬。當玩家選擇了最佳策略,那么他們就不會希望改變他們的策略,因為這是他們能夠完成的最佳結果,達到納什均衡[48]。
博弈可以分為兩大類,合作博弈和非合作博弈。在合作博弈中,智能體在采取具體行動之前進行合作或形成聯盟,影響他們的一般戰略和效用。合作博弈的一個例子是聯盟形成博弈。在非合作博弈中,智能體單獨選擇他們的行動和策略,這意味著智能體是自私的,希望達到最高的回報。一些例子包括貝葉斯博弈、非合作性差分博弈、子模態博弈等。[49].
最近一些基于博弈論的方法包括[50]、[20]、[51]、[52]、[53]、[54]、[55]。
優化是應用數學的一個領域,旨在從一組可能的解決方案中找到一個特定問題的解決方案,使某一成本或目標函數的成本最小或利潤最大。這個成本函數根據一些約束條件進行優化,決定了系統的目標。有很多優化技術可以是確定性的或隨機性的[3], [56]。確定性方法不考慮隨機性,也就是說,如果使用相同的起點,通往解決方案的路徑將是相同的。確定性方法包括諸如圖形方法、基于圖形的方法、順序規劃、線性規劃、混合整數線性規劃(MILP)等技術。隨機方法或元啟發式方法是指在計算過程中包含隨機性的方法。元啟發法包括進化算法、蜂群智能、模擬退火等。此外,啟發式算法是用來尋找快速和高質量的解決方案的算法,以解決確定性方法會有難以承受的計算成本的困難優化問題。這些方法雖然提供了近似的解決方案[57]。
a) 基于確定性的優化:一個經常被用作開發新任務分配算法的基礎的優化算法是匈牙利算法[58]。匈牙利算法將任務分配問題視為一個組合優化問題,使用圖論并在多項式時間內解決該問題。該算法計算每個智能體效用的估計值,從而使整體效用最大化。但這在計算上是很昂貴的,而且當系統存在高不確定性時,有時價值較低,因此對該算法提出了很多改進[59]。最近的一些方法包括[60]、[61]和[62]。
b) 元啟發式算法:元啟發式算法包括幾種方法,如蜂群智能、遺傳算法、模擬退火和其他。蜂群智能已被廣泛用于MAS的任務分配,它是一類受生物啟發的算法,主要來自具有社會行為的動物,如昆蟲群、魚群、鳥群等[63]。 這些動物表現出高效的分工,由于團隊成員的專業化,導致了群體的高效率[64]。即使智能體可能相當簡單,但由于他們的合作,他們可以作為一個整體完成復雜的任務,導致強大、高效和低成本的解決方案[65]。另一方面,這些算法有時會給智能體分配不必要的任務,導致沖突,并對環境變化有緩慢的整體反應[63]。主要使用的方法分為基于閾值和概率的方法。
在基于閾值的方法中,如響應閾值法[66],智能體決定其關于任務的行動,取決于一些監測量的值和閾值的值。閾值可以是固定的,也可以是可變的,智能體可能只有關于該數量的局部或整體信息。在概率方法中,智能體根據環境觀察或歷史數據計算出的概率,隨機地改變任務。另外,可能會使用一個刺激物,當刺激物對特定的任務來說是高的時候,可能會選擇一個任務[67]。
最近一些基于元啟發式的任務分配方法包括改進的分布式蜜蜂算法[63]、動態蟻群的分工[17]、分布式免疫多Agent算法[68]、改進的QPSO[69]、分層任務分配和路徑尋找方法[70]、多目標多類人機器人任務分配[71]和其他技術如[72]、[73]、[15]。
c) 啟發式方法:最近基于啟發式的方法包括Lazy max-sum算法[19]、平均Hamilton分區--多個旅行推銷員算法[74]、One-To-Many Bipartite Matching[75]、基于最近鄰的聚類和路由方法[76]和[77]。
要預測一個智能體必須處理的未來干擾是非常困難的,特別是在沒有具體的數學模型來描述環境行為的情況下,這對實際應用來說是動態的。因此,一個解決方案是智能體學習如何面對這種干擾,考慮到他們過去的行動和其他智能體的行動,從而提高系統效率[78], [79], [80]。
一個典型的機器學習技術是強化學習,其中智能體使用他們的經驗來學習如何在環境的不同狀態下采取行動。環境通常是以馬爾科夫決策過程(MDP)的形式形成的,智能體優化成本或獎勵函數,以便從環境中學習。經常使用的RL方法是Q-learning,它是一種無模型的RL方法,幫助智能體找到MDP的最優解。[78], [79]. RL有很多優點,包括處理環境中的不確定性、實時實施(對于訓練有素的網絡)和處理不同的任務[16]。另一方面,特別是在大規模的復雜系統中,大多數RL算法需要高計算能力[81]。
已發現的基于學習的方法包括[82]中的分布式自組織地圖方法、[12]中的隨機強化學習算法、基于圖的多智能體強化學習方法[83]、帶有增強爬坡搜索方法的MARL[84]、基于Q-學習的快速任務分配算法[16]、使用合作深度強化學習策略的任務分配過程[79]和基于MARL軟Q-學習方法[85]。
除了上述解決任務分配問題的方法外,還有一些結合了上述一些方法的其他方法,它們被稱為混合方法。
在[86]中,優化和基于拍賣的方法被結合起來,而在[87]中,基于市場的方法與基于博弈論的方法被結合起來。此外,[88]、[89]和[13]是基于市場和元啟發式的結合,[90]是基于市場和學習的結合。在[91]中,進化算法與貪婪算法相結合,而在[92]中,基于博弈論的方法與學習算法相結合。
評價MAS中的任務分配程序的一些基本標準是所使用的算法的計算復雜性、解決方案的最優性和所使用方法的可擴展性。此外,算法處理不確定性的能力,以及通信程序的有效性,對整個系統的性能起著重要作用。
影響任務分配計算成本的因素是所使用的算法的復雜性,這些算法的使用頻率,以及智能體之間需要的通信方法的計算成本(智能體為實現成功的任務分配需要交換的信息比特)[93], [94]。
另一個關鍵因素是找到的解決方案的最優性。當我們提到任務分配程序的最優性時,我們的意思是所找到的解決方案具有可能的最高總體效用,受到系統特性的限制,如提供給智能體的信息的噪聲、不確定性和不準確性。為了找到動態而非靜態的解決方案而執行算法的頻率,以及可以重新分配的任務的比例,都會影響解決方案的質量[4]。此外,隨著越來越多的復雜任務和更多的智能體被用于任務分配方案,算法的可擴展性對其有效性至關重要。
表一 一些有代表性的任務分配算法的復雜性
a) 基于CBBA的方法:所提出的基于CBBA的方法,是CBBA和PI算法的改進,比基線CBBA方法有更好的效率和可擴展性,但缺點是計算成本較高。具體來說,PI-MaxAss[14]算法的計算復雜性相當于 ,其中
是任務數。此外,改進的CCBBA算法[38]的復雜度為
,其中Θ是收斂前需要的最大迭代次數,
是每個任務的最大傳感器數量,
是智能體數量,
是任務數量,M是規劃范圍。
b) 基于CNP的方法:一般來說,基于CNP的技術在重新分配任務方面非常好,但高度依賴于智能體之間的通信程序,通常造成高計算成本。此外,CNP的另一個問題是觀察到的信息擁堵。所提出的改進的CNP算法,比基線CNP有更高的效率和更小的計算成本。但是,即使有一些方法試圖解決消息擁塞的問題,例如[44],這仍然是一個開放的研究領域。
c) 基于博弈論的方法:所提出的博弈論方法,比基線方法更有效,有更好的次優(近優)解決方案。此外,一些博弈論的算法比基于市場的方法有更好的效率。至于復雜度,基于Apollonius圈的主動追擊者檢查(AAPC)[52],其復雜度為 其中
為追擊者的數量。基于匿名享樂博弈[50]的GRAPE算法的復雜度由
約束,盡管在大多數情況下要小得多,其中
是網絡的圖徑,
是任務數,
是智能體的數量。至于每個智能體的通信復雜度是
,其中
是智能體i所通信的智能體數量。
d) 啟發式方法:有很多解決DCOP問題的技術。提供最優解決方案的技術通常具有指數級的協調負擔,而基于啟發式的技術具有較低的協調成本,但提供次優的解決方案。一些提議的技術顯示了比一些基于遺傳和市場的方法更高的效率和更小的計算成本[19]。懶惰的最大和方法[19]的信息傳遞復雜性為 但如果我們考慮所有智能體對所有任務的分配,復雜度會上升到
對于找到次優解的AHP-mTSP算法[74](平均哈密爾頓分區,多個旅行銷售人員問題),對于
個智能體和
個任務,每個迭代的復雜度為
平均運行時間為
。此外,集中式啟發式基于最近鄰的聚類和路由(ncar)方法[76]的計算成本為
,其中
是智能體的數量。OTMaM技術[75]適用于大規模的系統,其時間復雜度為
,其中
是智能體的數量,
是任務的數量。
e) 元啟發法:元啟發式技術成本低、穩健、高效,但有時會造成任務間的沖突,為智能體分配不必要的任務,對環境變化的反應也很慢。與基線算法相比,所提出的算法具有較低的復雜性和更好的可擴展性。但是,其中一些算法是次優的,或者假設通信程序沒有故障。此外,其中一些算法比一些貪婪的和基于市場的(如CNP)方法具有更高的可擴展性和更好的性能。對于MOMHTA算法[71],總體最壞情況下的復雜度是 ,其中
是任務的數量,H是超平面上參考點的數量,L是目標的數量,K是創建集群的數量。
f) 基于學習的方法:基于學習的方法,特別是強化學習的方法,通常具有很高的效率,可以在線實施,并對環境干擾有很好的表現。我們注意到,很多技術比基線模擬退火、爬坡和貪婪算法有更好的性能。此外,我們還注意到比基于邊界的方法和匈牙利方法的效率更高。盡管一些方法的計算成本比基于拍賣的方法小,但計算成本和維度的增加仍然是其他強化學習方法的一個問題。
表二 一些有代表性的任務分配算法的通信類型
g) 混合方法:使用混合方法是一個非常好的解決方案,因為兩種技術可以結合起來,利用它們的優勢,實現比基線方法或只使用一種方法更高的效率或更小的計算成本。在[86]中,使用了簡化的MILP程序和多智能體投標的迭代調度算法,迭代調度器的計算復雜度為 ,其中
是智能體的子集。此外,在這個調度器的低級階段,使用了GSTP算法,增加了整體的復雜性。在[89]中,基于CBBA的方法與蟻群系統(ACS)算法相結合,并且在CBBA的包含階段使用了基于貪婪的策略,最壞情況下的計算復雜性是
,其中
是幸存者(任務)的數量。
表一中列出了上述算法的復雜度摘要。我們可以看到大多數方法都有多項式的時間復雜度。計算成本較高的是基于CBBA的算法,以及一些混合方法。另一方面,基于啟發式的方法和基于博弈論的方法的復雜性較低。
智能體之間的通信是其協調性能的一個非常重要的因素。目標是智能體使用最小的可用帶寬,在不使通信網絡過載的情況下,交換有關其狀態以及周圍環境的重要信息[12]。智能體的通信可以是明確的或隱含的。顯性或直接通信,是指智能體之間使用通信網絡和專用網絡協議交換信息。大多數現有的協調方法都使用這種類型的通信。隱式方法是指通過環境,使用智能體配備的傳感器,獲得關于多智能體系統中其他智能體的信息。如果智能體利用其他智能體在環境中留下的信息進行交流,那么隱式交流是主動的(生物學啟發技術),如果智能體使用他們的傳感器來感知環境發生的變化,那么隱式交流是被動的[96]。
顯式通信方式通常比隱式情況有更高的準確性,缺點是通信負荷較高,特別是對于大規模的系統。隱式的情況下,即使缺乏準確性,也有更好的穩定性和更強的容錯性。因此,混合使用這些方法是一個非常好的主意,可以利用它們的優勢,導致更好的整體系統性能[96]。在表二中列出了一些任務分配的特征算法的通信技術。我們看到,一些經常使用的技術是社會網絡技術、黑板計劃、信息素圖和一般基于圖的技術。
表三 主要任務分配方法的比較
考慮到不確定性的任務分配技術,對于在現實生活中實現高效和穩健的任務分配非常有用。到目前為止,大多數技術,特別是分布式技術,比集中式技術更難融入不確定性。不確定性可以考慮到傳感器的不準確性、智能體的失敗、環境干擾等[97] [98]。根據以前的研究,應該把可靠性作為優先考慮的因素,因為如果忽略了失敗的可能性,性能就會下降(次優性能)[99]。例如,在[100]中,作者發現在通信程序不確定的環境中使用基于異步共識的捆綁算法(ACBBA)(現實的有損網絡環境),會產生低效的任務分配,特別是對于大量的智能體。因此,該算法的性能與理論上的預期性能相比是不同的。
在[99]中,使用啟發式方法和非馬爾科夫狀態,研究了多智能體系統中的不確定性問題(通常是任務分配程序中的元素失效)。他們的結論是,做出簡化的假設,如馬爾科夫狀態,會導致結果不能公平地反映系統的性能。此外,他們證明了在某些類別的問題中,使用更復雜的啟發式方法,更好地描述物理環境和發生的不確定性,導致了性能的提高。在[97]中,作者通過處理不確定的環境,開發了性能影響(PI)算法的改進版本,提高了魯棒性。提出了三種穩健的PI變體,使用蒙特卡洛抽樣從高斯分布中抽取不確定的變量。與基線CBBA和PI相比,所提出的方法降低了不確定情況下的故障率和未分配任務的數量,但增加了計算的復雜性,使得它們對時間關鍵型應用不可靠。
因此,納入不確定性在很多應用中是非常有用的,可以帶來更好的性能。但是,總是存在著計算復雜度較高的危險,因此在效率、穩健性和收斂時間之間應該有一個平衡,這取決于可用的計算能力和每個應用的具體需求。
表三是主要任務分配技術的一些主要性能特征的總結,從1(低值)到4(非常高的值)進行了分類。我們看到,基于CBBA和CNP的技術通常具有較高的計算成本,使它們不適合大規模的系統。此外,確定性優化技術也有極高的成本和低可擴展性,使得它們也不適合于中到大規模的系統,盡管它們有非常好的效率。另一方面,啟發式和博弈論方法具有非常低的成本,使它們成為提供具有中等和良好效率的快速解決方案的理想選擇。這些方法也可以用于大規模的系統,因為它們具有非常好的可擴展性。元啟發式方法和學習方法具有適度的成本、良好的效率和可擴展性,可用于中等規模,有時也可用于大規模環境,這取決于具體問題。特別是學習技術在動態任務分配和動態環境中非常好。
隨著MAS系統技術的發展和計算能力的逐年提高,在實際環境中實施改進的任務分配算法的需求勢在必行。這樣的環境有很高的不確定性,復雜的任務,并且可能需要實時實現所用的算法。由于對這種環境的適應性,RL方法是一個很有前途的任務分配研究領域,在過去的幾年里被科學界廣泛研究。此外,博弈論和元啟發式方法對這類系統也很有前途。如[101]所述,基于RL和博弈論的技術的結合改善了多Agent情況下的RL(MARL),因此基于博弈論和RL的技術的結合對于任務分配方法來說也是非常有前途的。
基于機器學習系統的決策,特別是當這種決策可能影響到人類的生命時,是機器學習界最感興趣的一個話題。因此,有必要為這些系統配備一種估計其發出的預測的不確定性的方法,以幫助從業者做出更明智的決策。在本工作中,我們介紹了不確定性估計的主題,并分析了這種估計在應用于分類系統時的特殊性。我們分析了不同的方法,這些方法被設計用來為基于深度學習的分類系統提供測量其預測的不確定性的機制。我們將審視如何使用不同的方法對這種不確定性進行建模和測量,以及對不確定性的不同應用的實際考慮。此外,我們還回顧了一些在開發此類度量標準時應注意的屬性。總而言之,本調查旨在為分類系統中不確定性的估計提供一個務實的概述,這對學術研究和深度學習從業者都非常有用。
機器學習(ML)目前存在于各種應用和領域。目標識別、自動字幕和機器翻譯只是機器學習,特別是深度學習(DL)為競爭性業務服務的多個領域中的一部分。在某些應用領域,如自動駕駛或自動病人診斷支持系統,所需的性能水平非常高。預測的失敗會導致嚴重的經濟損失,甚至是人命的損失。因此,需要有管理自動決策所帶來的風險的方法,特別是對這些類型的應用。
在應用深度學習系統(機器學習的一個子領域)時,管理這種風險尤其重要。深度學習是基于使用豐富的人工神經網絡(ANN)的架構。它與傳統機器學習系統的主要區別之一是假設這些ANN可以捕捉到輸入數據的有意義的特征,并使其適應學習任務。通過委托這些模型中的特征工程,DL使得分類系統的設計更加簡單。
然而,這種將特征工程委托給模型的做法,以及許多現代DL架構中存在的大量模型參數,使得這些系統難以解釋。如果我們在獲得的預測中加入一個不確定性的度量,使我們能夠管理決策中使用的風險,那么這種缺乏可解釋性的問題就可以得到解決。然而,不確定性的概念不是單一的,甚至沒有一個公認的定義,因為它存在于機器學習過程的每個階段。不確定性的來源可以在數據采集和預處理、模型設計、選擇階段、甚至是訓練過程中找到。這就產生了許多不同的不確定性定義,取決于研究人員和從業者關注的具體方面。
根據機器學習文獻,Gal[28],理解不確定性的一種常見方式是依靠其來源。在這種情況下,我們可以考慮alleatoric不確定性--它與數據中固有的不確定性有關--和epistemic不確定性--它與模型的信心有關。[88]中提出的另一種方法是將其分為四種類型:隨機性--與隨機變量有關的一種客觀不確定性;模糊性--由于沒有嚴格或精確的概念界限而產生的一種認知不確定性;粗糙性--代表知識的準確程度;以及非特定性或模糊性--從兩個或多個不明確的對象中選擇一個而產生。此外,我們還可以考慮其他不同的類型,取決于不確定性是否可以減少。正如我們將看到的,并不總是能夠保持這些鮮明的劃分,因為同一個模型在其生命周期內可能遭受不同類型的不確定性。
鑒于上述情況,我們可以說,不確定性是一個復雜的概念,需要被表示、測量和應用。本工作的目標是調查文獻中存在的針對分類系統中采用的這三個階段的不同方法。盡管在深度學習分類模型中估計不確定性所遵循的程序與用于傳統分類模型的程序沒有根本的不同,但它確實有一些具體的特點。在深度學習中,最廣泛使用的損失函數是softmax交叉熵,這在傳統模型中從來沒有很受歡迎。這個函數在早期層的未標度輸出(logits)上運行,意味著理解單元的相對標度是線性的。這樣的方法提供了一個直接的概率解釋,即以類的分數作為定義不確定度的基礎。此外,神經網絡固有的靈活性可以用來豐富分類模型,增加一些組件來計算這些不確定性措施。例如,額外的層可以用來應用分層貝葉斯模型進行不確定性估計。關于認識上的不確定性度量,經典的方法是將每個模型參數視為一組定義隨機變量的參數估計,而不是一個點估計。在這種情況下,挑戰依賴于要估計的參數數量,可能是數以百萬計的。
本文的附加價值有三個方面。首先,與Gal[28]不同的是,他專注于回歸問題中的不確定性估計,我們處理分類問題,調查了一系列方法,從最早的基于Dropout的方法到更新穎的技術,如在單純線上建立連續分布模型。其次,我們通過統一的貝葉斯視角來介紹各種方法,以利于理解。最后,我們不僅介紹了估計技術的最新進展,而且還介紹了關于其特性和在實際場景中使用的一些考慮。
文章的以下兩節正式介紹了深度學習分類場景,這也是本次調查的重點,同時也回顧了不確定性的定義。
第4節調查了深度學習分類系統中的不確定性是如何表示的。在大多數情況下,這些系統產生的結果是以一組類的概率分布的形式出現的。表示系統預測中的不確定性的最基本方法之一是依靠這些概率來決定是否相信系統的結果。然而,正如文章所示,這些概率可能會導致錯誤,因為它們可能沒有被很好地校準,它們的解釋可能不直觀,或者更糟糕的是,它們可能被錯誤地認為是安全的預測。
與其依賴這些點估計,不確定性估計方法可以從分類器輸出的后驗分布的近似值產生不確定性度量。我們將看到各種工作如何通過使用不同的概率分布和關注其定義的不同術語來提出不同的方法來模擬這種后驗分布。
在回顧了估計分類器后驗分布的不同方法后,我們在第5節中介紹了測量不確定性的不同方法。如果我們要把不確定性的概念變成一個可操作的值,使風險在分類系統中得到管理,這是一個必要的步驟。在這一節中,我們將看到這些系統在試圖提取不確定性的單一度量時是如何帶來額外困難的。這是由于分類系統通常會返回多個值,以及每個類別的相應不確定性。因此,有必要建立一種機制,將這些多個輸出合并為一個單一的值。正如我們的回顧所顯示的,這種額外的復雜性導致了多種總結不確定性的方式,與回歸系統的不確定性度量形成對比,后者通常輸出一個單一的值。
第6節介紹了一些應用,說明了不確定性在與分類系統相關的不同方面的使用。
最后,第7節對本文進行了總結,并描述了不確定性估計方法面臨的一系列挑戰。這樣做的目的是為讀者提供一些標準和良好的實踐,幫助從業者在將不確定性納入分類系統的設計時選擇最適合他們問題的方法。
自主機器人團隊組成中的異質性什么時候是有益的,什么時候是有害的?我們在一個最小可行的模型中研究并回答了這個問題,該模型研究了異質速度在周界防御問題中的作用,其中防御者共享一個總的速度分配預案。我們考慮了兩種不同的問題背景,并制定了基于動態規劃和局部互動規則的策略。我們對這兩種方法進行了理論分析,并使用模擬方法對我們的結果進行了廣泛的驗證。有趣的是,我們的結果表明,異質團隊的生存能力取決于防御者可用的信息量。此外,我們的結果表明了一個普遍性屬性:在廣泛的問題參數范圍內,防守方的最佳速度比率幾乎保持不變。
關鍵詞:周界防御,異質多機器人團隊,動態規劃
機器人系統的一項日益重要的任務是保衛一個地區免受外部因素的影響,這些因素構成了不同程度的威脅。這方面的例子包括保衛機場,防止無人機入侵[6],保衛野生動物棲息地,防止偷獵者侵入[1],撲滅和防止人類或自然活動造成的破壞性野火蔓延[8],以及軍事應用[13]。
一般來說,周界防御問題的解決方案是為一組限制在某一區域周界的智能體尋找策略,這些智能體受托保衛該區域不受試圖突破該區域周界的入侵者侵害[16]。
與同質化的機器人團隊相比,具有不同能力的機器人團隊(異質化團隊)有其獨特的優勢和挑戰。為不同的智能體配備不同的能力可以形成協同效應,在這種情況下,異質系統勝過由相同智能體組成的同質系統。因此,在過去十年中,機器人界對定義、探索和量化不同機器人應用中的異質性產生了極大的興趣[19,14,11,7,12,10]。
本文研究了多機器人團隊中異質性對周界防御問題的影響。我們提出了兩種最優策略,在不同的假設條件下有效。第一個策略是基于動態規劃(DP)[2]。當防御者能夠預測來襲攻擊的位置時,它是最優的,但受到維度詛咒的影響,因此相關計算成本相對較高。第二種策略是基于局部互動規則的,當防御者沒有關于來襲攻擊的信息時是最佳的。這種策略可以以在線方式高效計算,但沒有提供對攻擊位置的任何先驗知識。
我們證明了兩種策略的最優性并分析了它們的時間復雜性。這些算法在模擬中得到了廣泛的驗證。我們的數值實驗是二維的,但大多數理論結果對任何維度都有效。這包括無人機應用中的三維周界,以及作為任意維度狀態空間中約束集產生的更高維度的周界。
我們的結果表明,異質性在防守方能夠獲得有關來襲攻擊信息的情況下是有益的,而在防守方沒有攻擊信息的情況下是有害的。此外,我們顯示了一個普遍性的屬性,即在兩個防御者的情況下,防御者的最佳速度比率幾乎保持不變。
相關工作:周界防御問題是追擊-規避問題的一個變體,在文獻中已經被廣泛地研究。Issacs的開創性工作描述了微分博弈的方法,以得出一個追求者一個規避者博弈的均衡策略[4]。不同研究人員為解決涉及多個追擊者和規避者的追擊規避博弈各種變體做了大量的工作[20,21,3]。這些論文包含了從追擊者方面、從規避者方面或兩者來看待追擊-逃避博弈的工作。維度的詛咒對解決涉及多個追擊者和規避者的問題構成了相當大的挑戰。本文提出的周界防御問題是Isaacs[4]首次提出的目標守衛問題的一個變體。在目標守衛問題的設定中,一個智能體的任務是對抗一個敵對智能體以守衛一個目標區域。對周界防御問題的研究還處于初級階段。Shishika和Kumar的綜述文章[16]描述了最近關于多機器人周界防御問題的工作[15,5,18,17]。與這些工作中考慮的問題不同,我們考慮的是一類周界防御問題,其中攻擊者的數量遠遠大于防御者的數量。
本文的其余部分組織如下。第2節包含了我們的符號和問題陳述。第3節和第4節分別詳細介紹了我們在非限定和單位時間范圍內的理論結果。第5節討論了模擬結果。
圖1:三個防守者面對三個攻擊者,每個防守者的單位時間可達集顯示。請注意,第三個維度是時間;如果攻擊代表一個物理物體,它是從圓圈外的某個地方接近的,但我們只關心它將在哪里和什么時候擊中周界。在這個例子中,防守者不允許離開周界,所以可達集的大小隨著速度的增加而線性增加(直到它覆蓋整個周界)。