亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

多智能體系統(MAS)已經在不同的環境和框架中得到了利用,因此已經成功地應用于許多應用中,以實現不同的目標。事實證明,與建立一個具有任務可能需要的所有能力的單一智能體相比,多智能體系統更具有成本效益。此外,成本并不是采用MASs的唯一驅動因素,例如,安全是另一個重要方面。在惡劣或極端的環境中部署一組智能體,而不是一個人類團隊,可以減少安全風險。此外,與單一智能體的解決方案相比,MAS提供了更多的靈活性和穩健性。靈活性來自于將資源分成不同的小組,而穩健性則來自于一個智能體的關鍵錯誤不一定會危及任務的成功這一事實。請注意,一個任務可能有許多不同的約束和方面,然而,最微不足道的情況是只有一個智能體和一個任務。

這些類型的任務可以由人類操作員計劃,監督任務,而不需要自動計劃器。另一方面,更復雜的任務,即利用大量的異質智能體和任務,以及約束條件(優先權、同步性等),對人類操作員來說并不是那么簡單的計劃。這些復雜的問題給制定一個可行的計劃帶來了巨大的挑戰,更不用說是最好的計劃了。此外,機器人系統中可用的計算平臺的功率增加,允許利用并行任務執行。更具體地說,它允許在傳感、計算、運動和操縱任務中可能的并行性。這反過來又有一個好處,即允許創建更復雜的機器人任務。然而,它的代價是增加了優化任務分配問題的復雜性。為了規避這些問題,需要一個自動規劃器。這些類型的問題是出了名的難解決,而且可能需要太長時間才能找到一個最佳計劃。因此,優化和產生計劃所需的計算時間之間的平衡變得非常重要。

本論文涉及兩個特殊的多機器人任務分配(MRTA)問題配置的正式定義,用于表示多智能體任務規劃問題。更具體地說,本論文的貢獻可以歸納為三類

首先,這項工作提出了一個模型,以結構化的方式表示不同的問題配置,也被稱為任務。這個模型被稱為TAMER,它還允許以更系統的方式增加新的維度,與以前提出的MRTA分類法相比,擴大了可以描述的問題的數量。

其次,本論文以混合整數線性問題的形式,定義并提供了兩種不同的問題形式,即擴展的彩色旅行推銷員問題(ECTSP)。這些模型在CPLEX優化工具中對選定的問題實例進行了實施和驗證。此外,還設計了一個解決這些復雜問題的次優方法。提出的解決方案是基于遺傳算法(GA)的方法,并與最先進的(和實踐中的)求解器,即CPLEX獲得的解決方案進行比較。與經典方法相比,使用GA進行規劃的優勢在于它具有更好的可擴展性,使其能夠找到大規模問題的解決方案。盡管這些解決方案在大多數情況下是次優的,但它們比其他精確方法獲得的速度要快得多。另一個優勢體現在 "隨時停止 "選項的形式上。在時間緊迫的操作中,重要的是可以選擇停止規劃過程,并在需要時使用次優的解決方案。

最后,這項工作涉及到MRTA問題的一個維度,這個維度在過去沒有引起很多研究的關注。特別是,包括多任務(MT)機器人在內的問題配置被忽視了。為了克服上述問題,首先,對可能實現任務并行的情況進行了定義。此外,還介紹了物理和虛擬任務之間的區別以及它們在并行任務執行方面的相互關系。我們提出并比較了兩個模型。第一個模型以ILP的形式表達,并在CPLEX優化工具中實現。另一個被定義為限制性規劃(CP)模型并在CP優化工具中實現。兩種求解器都在一系列的問題實例上進行了評估。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

深度強化學習(RL)在各個領域取得了顯著的成功,包括在圍棋和國際象棋等游戲中的使用。最近,深度多智能體強化學習(MARL)引起了廣泛關注,因為大量現實世界的問題可以自然地在MARL環境中表示。例如,自主車輛與無人機或機器人編隊的協調控制需要多個智能體根據局部觀察采取行動并協調其行為。然而,單智能體深度強化學習和多智能體深度強化學習都面臨著一個共同的挑戰:數據效率低和訓練時間長。本文向解決該問題邁出了一步:如何使(多智能體)深度強化學習更有效,即如何使用更少的數據和減少訓練時間?本文從五個方面解決深度強化學習的訓練時間長和數據效率低的問題:(1)并行高通量訓練;(2)更好的表示學習;(3)遷移學習;(4)高效探索;(5)訓練智能體以利用外部知識。對于1),為了實現更高的強化學習訓練吞吐量,我們提出了一個快速強化學習訓練框架,該框架并行收集數據,而不犧牲強化學習算法的數據效率。對于2),研究了圖卷積網絡的使用,以捕獲MARL中常用的集中式批評器的排列不變性質。我們發現這可以導致更有效的學習。研究了一種以物體為中心的表示,將多智能體RL算法擴展到復雜的視覺環境。3)為了讓強化學習智能體利用經過訓練的智能體的"知識",本文提出了一個遷移學習框架,該框架允許學生模型利用多個教師模型的"知識"。我們發現這種遷移可以導致更快的學習。對于4),研究了協調的多智能體探索,這允許智能體協調它們的探索努力,并更快地學習。最后,對于5),本文提出了"知識詢問" (AFK),一個學習生成語言命令以查詢有意義的知識的智能體,以更有效地解決給定的任務。綜上所述,本文研究了提高深度強化學習數據效率和訓練時間的方法。我們相信,通過更短的訓練時間和更好的數據效率,(多智能體)深度強化學習可以應用于各種現實世界的問題,本文提出的方法使我們更接近這一目標。

付費5元查看完整內容

軍隊為訓練、規劃和研究目的進行兵棋推演。人工智能(AI)可以通過降低成本、加快決策過程和提供新的見解來改善軍事兵棋推演。以前的研究人員根據強化學習(RL)在其他人類競技游戲中的成功應用,探討了將強化學習(RL)用于兵棋推演。雖然以前的研究已經證明RL智能體可以產生戰斗行為,但這些實驗僅限于小規模的兵棋推演。本論文研究了擴展分層強化學習(HRL)的可行性和可接受性,以支持將人工智能融入大型軍事兵棋推演。此外,本論文還通過探索智能體導致兵棋推演失敗的方式,研究了用智能體取代敵對勢力時可能出現的復雜情況。在越來越復雜的兵棋推演中,對訓練封建多智能體層次結構(FMH)和標準RL智能體所需的資源以及它們的有效性進行了比較。雖然FMH未能證明大型兵棋推演所需的性能,但它為未來的HRL研究提供了啟示。最后,美國防部提出了核查、驗證和認證程序,作為一種方法來確保未來應用于兵棋推演的任何人工智能應用都是合適的。

引言

兵棋推演是成功軍隊的寶貴訓練、規劃和研究工具。自然,美國(U.S.)國防部(DOD)計劃將人工智能(AI)納入兵棋推演。將人工智能融入兵棋推演的一種方式是用智能體取代人類玩家;能夠展示戰斗行為的算法。本論文研究了用智能體取代人類兵棋推演操作員的可行性、可接受性和適宜性。為此,本章解釋了為什么兵棋推演對成功的軍隊至關重要。

A. 軍方為什么要進行兵棋推演

軍隊進行兵棋推演是為了回答關于戰爭的關鍵問題,這些問題必須在實際沖突發生之前被理解。兵棋推演是利用對立的力量模擬實際的戰斗,并由人類的決策來決定[1]。雖然有廣泛的不同類型的兵棋推演,但它們都有一個共同的目標:"獲得有效和有用的知識" [2]。這種劃分很重要,因為兵棋推演的不同目的會導致玩家和游戲控制者的行為不同。圖1顯示了兵棋推演從訓練到分析到實驗的廣泛范圍。

1.訓練用的兵棋推演

最直接的兵棋推演類型是用于訓練的兵棋推演。大型參謀部使用建設性的模擬(數字兵棋推演)來鍛煉他們的參謀過程,并驗證他們的軍事準備。小型參謀部使用虛擬模擬器來訓練他們的戰斗演習和船員演習。軍隊進行這些兵棋推演是為了了解戰爭和鍛煉決策能力[3]。所有隊員的行動和決策一般都要符合已知的條令和戰術、技術和程序(TTP)。對于大型的參謀部演習,對手可能會突破TTP的界限來挑戰參謀部(例如,表現得更有侵略性,但仍然依賴相同的TTP)。

2.用于分析的兵棋推演

兵棋推演可用于分析,即 "確定在部隊對抗中會發生什么"[3]。這些是大多數軍事人員所熟悉的兵棋推演類型:作為行動方案(COA)分析的一部分而進行的兵棋推演。這些類型的兵棋推演允許對戰爭計劃、部隊結構或理論進行評估。在這些戰役中,雙方都要采用已知的理論和TTP,但 "在這些戰役中,創新精神可以自由發揮"[4]。

3.實驗性的兵棋推演

在譜的另一端是實驗性兵棋推演。在這些戰役中,雙方都可以使用新的力量、武器和/或戰術來探索潛在的未來戰爭[5]。歸根結底,組織進行實驗性兵棋推演是為了產生 "關于戰爭問題性質的知識"[2]。美國軍方在演習中整合了這些類型的兵棋推演,如美國陸軍未來司令部的聚合項目和聯合作戰人員評估。

4.兵棋推演的好處

盡管兵棋推演既不是預測性的,也不是對現實的完全復制,但它們確實提供了一些沒有實戰就無法獲得的東西:對戰爭中決策的洞察力。當為訓練而進行戰爭演習時,組織正在學習良好的決策是什么樣子的(包括過程和最終結果)。當為分析而進行戰爭演習時,計劃者正在評估他們在計劃期間做出的決定,以及在執行期間需要做出的潛在決定。

這些好處足以讓美國防部副部長羅伯特-沃克在2015年發布了一份備忘錄,呼吁在整個美國防部重新努力開展兵棋推演[6]。沃克副部長認為,兵棋推演有利于創新、風險管理和專業軍事教育。沃克認為,最終,兵棋推演將推動美國防部的規劃、計劃、預算和執行過程,這是告知國防部資源分配的方法。美國和它的西方盟友并不是唯一相信兵棋推演好處的軍隊。中國正在為兵棋推演投入大量資源,包括將人工智能融入兵棋推演[7]。

B.兵棋推演中的人工智能

人工智能提供了一個機會,通過降低成本、加快決策過程和提供新的見解來改善軍事兵棋推演。為兵棋推演中的許多角色雇用人類操作員是昂貴的。組織必須給自己的人員分配任務(使他們脫離正常的職能)或支付外部支持。這種成本可以通過將人工智能整合到兵棋推演中而消除。兵棋推演分析的速度只能和人類操作者一樣快。用智能體代替操作員可以加快兵棋推演的速度,并允許多個兵棋推演同時發生,從而實現更廣泛的分析。最后,智能體因其在游戲中的創造性而受到關注[8]。創造性的智能體可以通過探索人類戰爭者可能沒有考慮的可能性,使戰爭計劃、部隊編隊或戰術得到更好的分析。

美國國內的國家安全組織認識到將人工智能融入兵棋推演的潛力。人工智能國家安全委員會在其最終報告中主張立即將人工智能能力整合到兵棋推演中,以確保美國及其盟友保持與同行的競爭力[9]。美國陸軍未來的模擬訓練系統--合成訓練環境(STE)設想整合人工智能來監測和調整訓練場景的難度[10]。美國陸軍研究實驗室有許多項目在調查人工智能與軍事指揮和控制系統的整合。具體來說,他們正在探索使用人工智能的一個子領域,即強化學習(RL)來進行連續規劃,以開發 "藍色部隊的新計劃"[11]。連續規劃將需要一個能夠評估其計劃的智能體,可能通過兵棋推演。

基于其他RL智能體在人類競技游戲中的成功,如《星際爭霸II》[12]、《古人防御》(DotA)[13]和圍棋[14],多名研究人員正在研究用于戰爭游戲的RL智能體。像《星際爭霸II》和DotA這樣的實時戰略(RTS)游戲最能代表兵棋推演。與兵棋推演類似,RTS游戲需要在有限的信息環境中進行長期的目標規劃和短期的戰術決策。以前的研究表明,RL智能體可以在兵棋推演中復制理想的戰斗行為[5], [11]。根據Kania和McCaslin的說法,谷歌的AlphaGo成功擊敗了世界上最好的圍棋大師,證明了人工智能可以應用于兵棋推演[7]。

C. 問題陳述

雖然以前的研究已經證明RL智能體可以產生戰斗行為,但實驗僅限于小型交戰。研究人員只要求RL智能體控制三到五個下屬單位。強化學習智能體將需要成功擴展,以滿足涉及幾百個單位的大型兵棋推演的規模要求。

問題是,隨著兵棋推演中單位數量和類型的增加,信息量和可能的動作數量變得難以解決。Newton等人提出可擴展性是一組目標:速度、收斂和性能,同時保持在一組約束條件下:隨著項目規模的增加,成本、計算能力和時間[15] 。分層組織是擴展的一種方法。本論文將研究分層強化學習(HRL)的可擴展性。換句話說,任何可行的、可接受的人工智能集成到戰爭游戲中,隨著戰爭游戲中單位數量的增加,必須仍然顯示出理想的戰斗行為。

除了將人工智能整合到軍事兵棋推演中的可行性和可接受性之外,這種整合還需要是合適的。開發和執行一個失敗的兵棋推演是有可能的,因為從中得出的知識是無效的或沒有用的。Weuve等人[16]解釋了可能導致兵棋推演失敗的不同途徑,他們稱之為兵棋推演病癥。以取代人類操作者為目的的智能體的設計和實施,需要防止兵棋推演的病態,從而確保有效的結果。

這導致了以下的研究問題。HRL是否允許智能體在不損失性能的情況下增加合作單位的數量和有效性?什么框架可以確保智能體的設計和應用正確,以滿足兵棋推演的目的?

D. 研究范圍

本論文延續了[17]和[18]對Atlatl戰斗環境中RL的調查。Atlatl是一個離散的、基于六邊形的兵棋推演,模擬陸地作戰行動。最初的研究使用一個簡單的多層感知器[17]成功地在RL智能體中產生了戰斗行為。隨后的研究使用卷積神經網絡(CNN)架構在復雜的地形和動態的對手中研究RL智能體[18]。

雖然有廣泛的HRL方法,但本研究的重點是封建多智能體層次結構(FMH)。在FMH中,一個單一的R智能體(即經理),將任務分配給一系列被稱為工人的下級RL智能體[19]。本論文比較了在Atlatl中越來越大的場景中采用基于規則的智能體、單一RL智能體和FMH所需的資源和有效性。

兵棋推演是由玩家和裁判員組成的[1]。友軍單位的玩家被稱為藍軍,他們的對手被稱為紅軍,任何一個玩家之外的平民或軍事單位被稱為綠軍。雖然有可能通過使用所有玩家和裁判員的智能體來實現兵棋推演的完全自動化,但本論文只評估了對單個玩家的替換。

本論文還研究了用智能體替換對方部隊(OPFOR)即紅色部隊時可能出現的復雜情況。討論了具體的兵棋推演病癥,并提出了緩解這些病癥的方法。美國防部的驗證、核實和認證(VV&A)框架被應用于通過RL對OPFOR的建模。

E. 研究結果

本論文發現,當FMH智能體以分布式方式進行訓練時,FMH智能體未能比單一RL智能體表現得更好。當經理和工人在同一環境中訓練時,FMH智能體的學習能力有所提高。然而,工人的不一致行動使經理無法制定最佳策略。此外,FMH的訓練要求超過了單個RL智能體的要求,這抑制了FMH擴展到大型軍事兵棋推演的能力。最后,本論文發現,將人工智能整合到軍事兵棋推演中的方法適合于像美國防部的VV&A框架那樣的過程。否則,基于模型的去太原的病癥會使兵棋推演的目標失效,并對美軍產生負面影響。

F. 論文對研究的貢獻

本論文通過進一步研究在建設性模擬中采用完全自主的智能體,對美國政府有直接好處。完全自主的兵棋推演智能體,能夠在多個層次上運作,需要支持兵棋推演的全部范圍。這很容易延伸到軍事規劃期間的決策支持工具,協助規劃者快速評估不同的COA。此外,探索在兵棋推演中使用智能體的適宜性將促進兵棋推演界采用人工智能。

付費5元查看完整內容

多智能體系統中的自主智能體通過協調來實現其目標。然而,在一個部分可觀察的世界中,目前的多智能體系統在實現其目標方面往往不太有效。在很大程度上,這種限制是由于智能體缺乏對其他智能體及其心理狀態的推理。另一個因素是智能體無法與其他智能體分享所需的知識,以及在證明目標背后的原因時缺乏解釋。這項研究通過提出一種在意外情況下的智能體目標管理的一般方法來解決這些問題。在這種方法中,智能體應用三個主要概念:目標推理--確定追求和分享什么目標;心智理論--選擇一個(幾個)智能體進行目標委托;解釋--向選定的智能體證明委托目標背后的原因。

我們的方法提出了在多智能體系統中進行目標管理所需的幾種算法。我們證明,這些算法將幫助多智能體背景下的智能體更好地管理他們的目標并提高他們的性能。此外,我們評估了我們的多智能體系統在海洋生物調查領域和漫游車領域的性能。最后,我們將我們的工作與不同的多智能體系統進行比較,并提出支持我們主張的經驗結果。

付費5元查看完整內容

黑盒優化(BBO)問題經常發生在許多工程和科學學科中,在這些學科中,人們可以訪問一個函數(黑盒)的零階評估,該函數必須在特定的領域進行優化。在許多情況下,函數的計算成本很高,因此計算的次數受到預算的限制。貝葉斯優化(Bayesian Optimization)是一種流行的算法,它通過代理對黑箱函數進行建模,并通過評估最有可能導致最優結果的點進行運算。多目標優化(MOO)是優化中的另一個主題,其目標是在一個公共領域中同時優化定義的多個目標。通常情況下,對于相同的輸入,這些目標不會達到它們的最佳狀態。在這種情況下,不是尋找單一的最佳解決方案,而是需要一組帕累托最優解決方案。本文研究了BBO和MOO的幾種優化策略及其應用。

**本文的前半部分是關于昂貴函數的BBO。**首先,基于隨機擴展的思想,提出了一種簡單而靈活的多目標黑盒優化方法。我們引入了多目標后悔的概念,并表明隨著預算的增長,我們的策略實現了零后悔。接下來,我們研究了神經網絡對昂貴BBO的有效性。我們證明了一個簡單的貪心方法可以達到接近高斯過程貝葉斯優化的性能。利用最近研究的高斯過程和非常廣泛的神經網絡訓練動態之間的聯系,我們證明了我們提出的算法的遺憾的上界。最后,我們提出了一個考慮成本的貝葉斯優化框架,該框架考慮了每次評估的成本。這種方法在評估成本隨輸入域而變化的環境中很有用,低成本評估可以提供關于最大值的大量信息。

本文的后半部分是關于MOO在兩個可微MOO問題上的應用。我們的第一個應用是學習稀疏嵌入,使用神經網絡進行快速檢索。這里要優化的目標是檢索精度和檢索速度。我們引入了一種新的稀疏正則化方法,并演示了一種退火策略,與其他方法相比,該策略產生了更好的目標帕累托邊界。對于我們的第二個應用,我們考慮了分層時間序列預測的問題,其中多個相關的時間序列被組織成一個層次。我們提出了一種考慮層次結構的方法,同時可擴展到大型層次,并表明它在大多數層次級別上都能提高精度。我們還將其視為一個多目標問題,并演示了跨不同層次的性能權衡。為了總結我們的貢獻,在這篇論文中,我們提出了各種類型的黑盒和多目標函數的優化策略,并在合成或基準數據集上進行實驗評估。

付費5元查看完整內容

近年來,由于機器人技術所依賴的各種技術的進步所帶來的推動力,人們對機器人技術的興趣越來越大。在機器人技術發展的所有方面中,最相關的一個是與自主機器人技術有關的,即機器人能夠在最小的人為干預下執行指定任務。一個簡單的例子是現在常見的無人駕駛飛行器(UAV),它能夠在各點之間飛行,而不需要人去執行駕駛任務。這種在最小的人類干預下執行指定任務的能力,在那些在惡劣的、危險的、甚至遙遠的環境中執行的任務中具有主要優勢。

使用這種類型的機器人的通常工作方式是從定義一些目標開始的,這就是所謂的任務。定義一個計劃來實現任務目標。在這種情況下,計劃的定義僅限于機器人必須執行的一系列行動,沒有其他的執行分支。當有可能控制執行計劃的環境條件時,這種方法是可以接受的。然而,對使用自主機器人更感興趣的環境,如有危險或相當遠的距離,通常是開放的。這意味著在這些環境中可能會出現妨礙正確執行計劃的情況,有必要使任務適應這些情況。

傳統上,當出現阻礙計劃執行的情況時,任務的調整有兩種方式:

1.將適應能力委托給機器人。

2.更新任務計劃,要么調整它,要么為發現的情況創建一個新的計劃(重新規劃)。

這兩種選擇都有其缺點。一方面,授權并不總是可能的,遠非易事。而且,即使在那些可以將某種適應能力委托給機器人的情況下,仍然有可能出現機器人無法適應的情況。另一方面,更新任務計劃是一個耗時的過程,這將對任務的完成產生負面影響。此外,如果幾個機器人合作參與一項任務,有可能其中一個機器人檢測到的情況需要為其他人調整計劃。而無論是授權,還是重新規劃或計劃修復都不包括這種可能性。

此外,在執行任務的過程中還可以檢測到其他類型的情況,這些情況并不意味著需要調整計劃,而是意味著存在著實現其他理想目標的機會。

本論文提出了在物聯網(IoT)框架內對合作機器人的任務規劃調整的貢獻,其目標如下:1)定義一個改進的規劃結構,與它的經典定義兼容,并允許使用現有的知識來預測可能的調整,以及識別原始計劃之外的機會;2)定義一個任務管理的參考中間件架構,使用之前的結構,作為特定系統的具體架構設計的指南。

所定義的新結構,在本論文中稱為 "戰略",包含了規劃的經典結構,并輔以對構成規劃的行動可能進行的分層分解,包括決策節點,以及對已確定的機會的備選計劃的考慮。這個結構由一個任務管理的通用參考架構的建議來補充,在本論文中稱為 "CoMMMA"。CoMMMA包括必要的功能,以促進對事件的適應和對機會的檢測,與物聯網(IoT)參考模型保持密切的關系。

作為概念的證明和建議的驗證,該模型已被用于為SWARMs歐洲研究項目的架構定義一個任務管理器組件。SWARMs項目旨在擴大水下和水面自主機器人的使用,使用自主車輛在滿足危險和距離條件的水下環境中執行任務。管理者組件采用了適用于該項目的具體要求的必要的CoMMMA概念,它已經在該項目的最終演示器中成功測試,獲得了有希望的結果。

本論文提出的CoMMMA模型也被用于歐洲研究項目AFarCloud的架構的任務管理組件的設計中,該項目是在精準農業領域的框架下進行的,在撰寫這些行文時正在等待評估。

付費5元查看完整內容

這篇論文提出了在自動化制造背景下的多智能體機器人裝配規劃的算法。我們的工作涉及到 "工廠自主權堆棧 "的許多部分。本論文的第一個貢獻是引入了一個離散工廠問題的表述,其中包括時間延長的多機器人任務分配、任務間的優先權約束和避免碰撞的約束。我們提出了一種解決此類問題的有效方法。我們算法效率的兩個關鍵是它將任務分配和路線規劃解耦,以及它能夠利用一些機器人在自己的時間表中被推遲而不對工廠的整體性能造成任何負面影響的情況。

本論文的下一個主要貢獻是針對我們的離散工廠問題的在線版本的重新規劃算法系列。在在線設置中,工廠指揮中心定期收到新的制造工作量,這些工作量必須被迅速納入整體計劃中。我們通過大量的實驗表明,我們的重新規劃方法適用于廣泛的問題。此外,我們提出的方法在應用時可以使工廠在等待收到更新的計劃時永遠不必凍結。

我們最后的貢獻是一個概念驗證系統,用于大規模的多機器人裝配計劃,包括任意形狀和尺寸的裝配體和原材料。我們的系統從原材料和一套關于這些材料如何組合的基本指令開始。然后,規劃器合成一個施工計劃,其中定義了每個有效載荷將如何攜帶(由一個或多個機器人攜帶),每個組件和子組件將在哪里建造,以及哪些特定的機器人將被分配到每個單獨和協作的運輸任務。最后,一個反應式防撞控制策略使機器人能夠以分布式方式執行建造計劃。我們在模擬中證明,我們的系統可以在幾分鐘內合成具有數百個部件的裝配體的施工計劃。雖然我們沒有解決圍繞多機器人制造的所有相關的 "現實世界 "的考慮,但我們的工作是向使用移動機器人的大規模自動化施工邁出的一小步。

付費5元查看完整內容

機器人系統正在進入舞臺。在硬件組件和軟件技術進步的推動下,機器人越來越能夠在工廠外運作,協助人類,并與人類一起工作。機器人擴張的限制因素仍然是機器人系統的編程。由于建立一個多機器人系統需要許多不同的技能,只有最大的組織能夠在機器人提供的服務空間中進行創新。

只有最大的組織能夠在機器人提供的服務空間中進行創新。為了使開發新的機器人服務更容易,我在這篇論文中提出了一個規劃模型,在這個模型中,用戶(程序員)給出了需要完成的聲明性規范,然后一個后臺系統確保該規范被安全、可靠地執行。我介紹了Antlab,一個這樣的后端系統。Antlab接受來自多個用戶的線性時態邏輯(LTL)規范,并使用一組不同能力的機器人來執行它們。

在實施Antlab的經驗基礎上,我確定了由所提出的規劃模型產生的問題。這些問題分為兩大類:規范和規劃。

在規范問題的類別中,我解決了從正反兩方面的例子中推斷LTL公式的問題,以及僅從一組正面例子中推斷LTL公式的問題。在這些解決方案的基礎上,我開發了一種方法來幫助用戶將他們的意圖轉移到正式的規范中。本論文所采取的方法是將來自單個演示的意圖信號和用戶給出的自然語言描述結合起來。通過將問題編碼為命題邏輯的可滿足性問題,推斷出一組候選規范。通過與用戶的互動,這組規格被縮小到一個單一的規格;用戶批準或拒絕對機器人在不同情況下的行為進行的模擬。

在規劃問題類別中,我首先解決了目前正在執行任務的機器人的規劃問題。在這種情況下,不清楚應該把什么作為規劃的初始狀態。我通過考慮多個推測的初始狀態來解決這個問題。從這些狀態出發的路徑是根據一個質量函數來探索的,該函數反復估計規劃時間。第二個問題是獎勵函數為非馬爾科夫時的強化學習問題。建議的解決方案包括反復學習代表獎勵函數的自動機,并使用它來指導探索。

付費5元查看完整內容

本文考慮了一類特殊的多機器人任務分配問題,其中任務對應于定義在特定環境的不同區域的異質多機器人路由問題。我們提出了一個分層規劃器,將這個問題的復雜性分解為兩個子問題:將機器人分配到路由任務的高層問題,以及計算每個子團隊的實際路由路徑的低層問題。規劃者使用圖形神經網絡(GNN)作為啟發式方法來估計特定聯盟在特定路由任務上的子團隊表現。然后,隨著底層問題解決方案的出現,它將估計值迭代細化為實際的子團隊性能。在一個以異構多機器人區域檢查問題為基礎路由任務的測試平臺問題上,我們的經驗表明,我們的分層規劃器能夠計算出最優或接近最優(7%以內)的解決方案,比事先計算所有可能的分配計劃以獲得精確的路由時間的最優基線快16倍左右(平均而言)。此外,我們表明,與其他基線(非學習型)估計器相比,基于GNN的估計器可以在解決方案的質量和計算時間之間提供出色的權衡。

圖 1:應用于我們的測試平臺問題的擬議分層規劃框架。 GNN 首先用于估計不同子團隊檢查環境不同區域所需的時間。高級求解器使用這些估計來計算高級分配,而低級求解器使用專門的路由算法計算實際路徑。然后使用實際任務持續時間來更新高級求解器的 GNN 估計,然后可以使用改進的估計集計算新的分配。

I 引言

本文考慮了一類特殊的多機器人任務分配問題,其中任務對應于定義在特定環境的不同區域的異質多機器人路由問題。目標是最小化完成所有路由任務所需的時間。這類問題代表了一些場景,在這些場景中,將機器人的子團隊分配到各個區域將是有益的。例如,在跨越非常大的環境的搜索和救援行動中,電池的限制可能使一個機器人不能被用于一個以上的區域。另外,在軍事場景中,戰略區域可能需要在車隊通過之前同時檢查是否有對手存在。作為最后一個例子,考慮一個通信受限的巡邏場景,將子團隊分配到各個區域可以保證機器人將有足夠的組間網絡,以迅速響應對入侵者的檢測。這些類型的問題本質上顯示了一個層次結構:如果我們事先知道每個可能的機器人子團隊完成每個可能的路由任務所需的時間,我們可以首先確定子團隊對感興趣區域的最佳分配,然后只計算該分配的實際子團隊路徑。優化處理第一階段的一個直接方法是預先計算所有可能的子團隊任務分配的路徑,這將提供所有可能的路由時間作為一個副產品。不幸的是,即使不考慮分配問題的組合性,通常情況下,由子團隊分配產生的多機器人路由問題是NP-hard,只有通過計算昂貴的算法方法才能得到一個好的解決方案,例如將路由問題表述為混合整數線性程序(MILP),通常需要幾秒鐘到幾分鐘或幾小時的運行。為了減少整體規劃時間,尋找一個好的分配應該以懶惰的方式解決路由任務問題,從最有希望的子團隊分配給任務開始。然而,知道一個分配的潛在效用通常需要知道它的路由計劃,消除了懶惰方法的優勢。

我們注意到,子團隊的分配只需要知道給定分配的不同路由計劃的成本,而不是實際計劃本身。如果我們能夠估計這些成本,而不同時解決相應的路由問題,我們就可以推遲計算路由計劃,直到決定了一個暫定的分配。

基于這些觀察,我們提出了一個分層規劃器,能夠將原始問題的復雜性分解為兩個自然的子問題:將機器人分配到路由任務的高層次問題,以及只為所有可能分配給子團隊的區域中的一個選定子集計算實際路由路徑的低層次問題。由于多機器人路由問題通常是在圖形表示的環境中定義的,規劃者使用圖形神經網絡(GNN)作為啟發式方法來估計特定聯盟在特定路由任務中的子團隊性能。迭代后,計劃者將這些估計值細化為真正的子團隊性能,因為低層問題的解決方案已經可用。我們引入了一個測試平臺問題,其中有一個異構多機器人區域檢查問題作為基本的路由任務,對此我們再次考慮了基于傳統混合整數線性編程表述的解決方法。圖1顯示了擬議的規劃框架的示意圖。

在包含多達45個機器人和20個檢查區域的路由任務分配問題中,我們的經驗表明,我們的方法總是能夠計算出最優或接近最優(7%以內)的解決方案,比事先計算所有可能分配的計劃以獲得精確的路由時間的最優基線快16倍(平均)。我們還表明,與其他基線(非學習型)估計器相比,基于GNN的估計器在解決方案的質量和計算時間之間提供了一個很好的權衡。

付費5元查看完整內容
北京阿比特科技有限公司