這篇論文提出了在自動化制造背景下的多智能體機器人裝配規劃的算法。我們的工作涉及到 "工廠自主權堆棧 "的許多部分。本論文的第一個貢獻是引入了一個離散工廠問題的表述,其中包括時間延長的多機器人任務分配、任務間的優先權約束和避免碰撞的約束。我們提出了一種解決此類問題的有效方法。我們算法效率的兩個關鍵是它將任務分配和路線規劃解耦,以及它能夠利用一些機器人在自己的時間表中被推遲而不對工廠的整體性能造成任何負面影響的情況。
本論文的下一個主要貢獻是針對我們的離散工廠問題的在線版本的重新規劃算法系列。在在線設置中,工廠指揮中心定期收到新的制造工作量,這些工作量必須被迅速納入整體計劃中。我們通過大量的實驗表明,我們的重新規劃方法適用于廣泛的問題。此外,我們提出的方法在應用時可以使工廠在等待收到更新的計劃時永遠不必凍結。
我們最后的貢獻是一個概念驗證系統,用于大規模的多機器人裝配計劃,包括任意形狀和尺寸的裝配體和原材料。我們的系統從原材料和一套關于這些材料如何組合的基本指令開始。然后,規劃器合成一個施工計劃,其中定義了每個有效載荷將如何攜帶(由一個或多個機器人攜帶),每個組件和子組件將在哪里建造,以及哪些特定的機器人將被分配到每個單獨和協作的運輸任務。最后,一個反應式防撞控制策略使機器人能夠以分布式方式執行建造計劃。我們在模擬中證明,我們的系統可以在幾分鐘內合成具有數百個部件的裝配體的施工計劃。雖然我們沒有解決圍繞多機器人制造的所有相關的 "現實世界 "的考慮,但我們的工作是向使用移動機器人的大規模自動化施工邁出的一小步。
深度強化學習(RL)在各個領域取得了顯著的成功,包括在圍棋和國際象棋等游戲中的使用。最近,深度多智能體強化學習(MARL)引起了廣泛關注,因為大量現實世界的問題可以自然地在MARL環境中表示。例如,自主車輛與無人機或機器人編隊的協調控制需要多個智能體根據局部觀察采取行動并協調其行為。然而,單智能體深度強化學習和多智能體深度強化學習都面臨著一個共同的挑戰:數據效率低和訓練時間長。本文向解決該問題邁出了一步:如何使(多智能體)深度強化學習更有效,即如何使用更少的數據和減少訓練時間?本文從五個方面解決深度強化學習的訓練時間長和數據效率低的問題:(1)并行高通量訓練;(2)更好的表示學習;(3)遷移學習;(4)高效探索;(5)訓練智能體以利用外部知識。對于1),為了實現更高的強化學習訓練吞吐量,我們提出了一個快速強化學習訓練框架,該框架并行收集數據,而不犧牲強化學習算法的數據效率。對于2),研究了圖卷積網絡的使用,以捕獲MARL中常用的集中式批評器的排列不變性質。我們發現這可以導致更有效的學習。研究了一種以物體為中心的表示,將多智能體RL算法擴展到復雜的視覺環境。3)為了讓強化學習智能體利用經過訓練的智能體的"知識",本文提出了一個遷移學習框架,該框架允許學生模型利用多個教師模型的"知識"。我們發現這種遷移可以導致更快的學習。對于4),研究了協調的多智能體探索,這允許智能體協調它們的探索努力,并更快地學習。最后,對于5),本文提出了"知識詢問" (AFK),一個學習生成語言命令以查詢有意義的知識的智能體,以更有效地解決給定的任務。綜上所述,本文研究了提高深度強化學習數據效率和訓練時間的方法。我們相信,通過更短的訓練時間和更好的數據效率,(多智能體)深度強化學習可以應用于各種現實世界的問題,本文提出的方法使我們更接近這一目標。
近年來,由于機器人技術所依賴的各種技術的進步所帶來的推動力,人們對機器人技術的興趣越來越大。在機器人技術發展的所有方面中,最相關的一個是與自主機器人技術有關的,即機器人能夠在最小的人為干預下執行指定任務。一個簡單的例子是現在常見的無人駕駛飛行器(UAV),它能夠在各點之間飛行,而不需要人去執行駕駛任務。這種在最小的人類干預下執行指定任務的能力,在那些在惡劣的、危險的、甚至遙遠的環境中執行的任務中具有主要優勢。
使用這種類型的機器人的通常工作方式是從定義一些目標開始的,這就是所謂的任務。定義一個計劃來實現任務目標。在這種情況下,計劃的定義僅限于機器人必須執行的一系列行動,沒有其他的執行分支。當有可能控制執行計劃的環境條件時,這種方法是可以接受的。然而,對使用自主機器人更感興趣的環境,如有危險或相當遠的距離,通常是開放的。這意味著在這些環境中可能會出現妨礙正確執行計劃的情況,有必要使任務適應這些情況。
傳統上,當出現阻礙計劃執行的情況時,任務的調整有兩種方式:
1.將適應能力委托給機器人。
2.更新任務計劃,要么調整它,要么為發現的情況創建一個新的計劃(重新規劃)。
這兩種選擇都有其缺點。一方面,授權并不總是可能的,遠非易事。而且,即使在那些可以將某種適應能力委托給機器人的情況下,仍然有可能出現機器人無法適應的情況。另一方面,更新任務計劃是一個耗時的過程,這將對任務的完成產生負面影響。此外,如果幾個機器人合作參與一項任務,有可能其中一個機器人檢測到的情況需要為其他人調整計劃。而無論是授權,還是重新規劃或計劃修復都不包括這種可能性。
此外,在執行任務的過程中還可以檢測到其他類型的情況,這些情況并不意味著需要調整計劃,而是意味著存在著實現其他理想目標的機會。
本論文提出了在物聯網(IoT)框架內對合作機器人的任務規劃調整的貢獻,其目標如下:1)定義一個改進的規劃結構,與它的經典定義兼容,并允許使用現有的知識來預測可能的調整,以及識別原始計劃之外的機會;2)定義一個任務管理的參考中間件架構,使用之前的結構,作為特定系統的具體架構設計的指南。
所定義的新結構,在本論文中稱為 "戰略",包含了規劃的經典結構,并輔以對構成規劃的行動可能進行的分層分解,包括決策節點,以及對已確定的機會的備選計劃的考慮。這個結構由一個任務管理的通用參考架構的建議來補充,在本論文中稱為 "CoMMMA"。CoMMMA包括必要的功能,以促進對事件的適應和對機會的檢測,與物聯網(IoT)參考模型保持密切的關系。
作為概念的證明和建議的驗證,該模型已被用于為SWARMs歐洲研究項目的架構定義一個任務管理器組件。SWARMs項目旨在擴大水下和水面自主機器人的使用,使用自主車輛在滿足危險和距離條件的水下環境中執行任務。管理者組件采用了適用于該項目的具體要求的必要的CoMMMA概念,它已經在該項目的最終演示器中成功測試,獲得了有希望的結果。
本論文提出的CoMMMA模型也被用于歐洲研究項目AFarCloud的架構的任務管理組件的設計中,該項目是在精準農業領域的框架下進行的,在撰寫這些行文時正在等待評估。
低成本、小型機器人平臺的廣泛使用,催生了機器人群。在機器人群中,大量的小型機器人平臺共同運作,協作完成一項復雜的任務。在所有有用的應用中,機器人群技術也可能對安全關鍵領域構成威脅。在機場、軍事基地、政府設施等安全關鍵區域周圍出現敵對的機器人群,意圖收集關鍵信息,或對該區域進行物理破壞,可能會造成災難性的后果。在這篇論文中,我們考慮了一個多智能體的區域防御游戲,它由以下部分組成:1)一隊或一群自主的、敵對的機器人平臺(稱為攻擊者),旨在到達一個安全關鍵區域,2)一隊自主的機器人平臺(稱為防御者),旨在阻止攻擊者到達安全關鍵區域,從而防止攻擊者可能造成的任何損害。我們考慮兩種類型的攻擊者:i)風險規避型,即關心自己生存的攻擊者;ii)風險承擔型,即不一定關心自己的生存,試圖到達安全關鍵區域的攻擊者。我們為防御者團隊提供協作任務分配和運動規劃算法,這樣他們就可以防止因安全關鍵區域附近存在規避風險和承擔風險的攻擊者而可能造成的損害。
首先,我們開發了一種叫做 "StringNet Herding"的放牧算法,讓防衛者將規避風險的攻擊者趕到一個預先指定的安全區域,在一個障礙物密集的環境中遠離安全關鍵區域。我們假設規避風險的攻擊者通過遠離防御者和環境中的其他靜態和動態智能體來避免對自己的傷害。在 "StringNet Herding "方法中,"規避風險的攻擊者 "被圍在由防御者形成的封閉的障礙物隊列中,稱為 "StringNet",這樣,攻擊者的運動被限制在 "StringNet "的內部,攻擊者可以被安全地趕到安全區域。開發了一個開環時間最優和狀態反饋有限時間控制法的組合,為防御者在障礙物密集的環境中成功進行 "StringNet Herding"提供了一個策略。StringNet Herding通過模擬以及使用內部制造的四旋翼飛行器的實驗演示得到了證明。然后,"StringNet Herding "方法被擴展到對抗性蜂群可能分裂成多個小蜂群的情況。對于多群的情況,使用基于密度的空間聚類算法(DBSCAN)來識別空間上呆在一起的攻擊者群(或集群)。然后,提供一個混合整數二次約束規劃(MIQCP)和一個基于幾何學的啟發式方法,將防御者分成較小的團隊,并將這些團隊分配到攻擊者群中去。StringNet Herding方法也被擴展到三維環境。
第二,為防御者開發了一種防御者之間的碰撞感知攔截策略(IDCAIS),以盡可能快地攔截盡可能多的冒險攻擊者,同時確保防御者之間不發生碰撞。特別是,防衛者被分配到使用混合整數二次規劃(MIQP)攔截攻擊者,該規劃:1)在時間最優控制下,最小化防御者捕獲攻擊者的時間總和;2)有助于消除或推遲防御者之間在最優軌跡上可能發生的碰撞。為了防止在最優軌跡上不可避免的碰撞,或由于攻擊者的時間次優行為而產生的碰撞,為每個防御者提供了一個使用指數控制障礙函數(ECBF)的最小增強控制。
最后,我們為防御者提供了一個綜合戰略,以防御安全關鍵區域的風險規避者和冒險攻擊者的各種行為。我們通過在一個協作框架內將針對規避風險的攻擊者的 "StringNet Herding "策略和針對承擔風險的攻擊者的碰撞感知攔截策略IDCAIS結合起來,來制定這一策略。使用混合整數規劃(MIPs)和幾何啟發式方法開發了幾種算法,以分組和分配防御者團隊或單個防御者,來驅趕規避風險的攻擊者群,或攔截冒險的攻擊者,以應對攻擊者的行為,如分裂成更小的群來躲避防御者,或由一些冒險的攻擊者進行高速機動以最大化對保護區域的破壞。我們提供了這些MIPs和幾何啟發式啟發法的計算成本的理論和數值比較。
由于最近的技術進步,自主系統(地面、海洋或空中)正變得無處不在。例如,根據美聯邦航空管理局的網站,截至2021年,美利堅合眾國(USA)有超過86萬架無人機注冊[1]。低成本技術已經催生了機器人(或機器人)群[2,3]。在機器人群中,大量的機器人車輛被一起使用,利用彼此間的局部互動,協作完成復雜的任務。這種協作可以提供:1)對系統部件故障的魯棒性,2)適應性,以及3)可擴展性。特別是,地面、海洋或空中機器人群正在被部署以完成:搜索和救援任務[4],[5];災害管理[6-8];農業[9,10]和海洋[11]環境中的監測和測繪;空中包裹投遞[12];以及合作運輸[13-15]等。機器人群的大量應用清單可以在評論文章[16]中找到。
圖1.1 集群機器人的應用
這類應用需要集群中各個智能體之間的合作,因此需要開發協作性任務分配、運動規劃和控制算法,以實現手頭的應用目標。一些智能體因故障而不合作,或因外部實體而不合作,對上述目標構成了進一步的挑戰。
然而,在機場、政府和軍事設施等安全關鍵基礎設施附近出現成群的對抗性智能體(攻擊者),旨在造成物理破壞或收集關鍵信息,可能導致災難性的后果。例如,媒體上有關于蜂群攻擊軍事基地的新聞[19-21]。在本論文中,我們考慮兩種類型的對抗性智能體(攻擊者):1)規避風險的(自利的)攻擊者,或2)承擔風險的攻擊者。規避風險的攻擊者是指那些不一定想為手頭的任務冒生命危險的攻擊者。因此,我們假設規避風險的攻擊者更可能試圖避免與其他靜態或動態智能體的碰撞,以避免對自己造成任何損害。我們還假設,規避風險的攻擊者可能更有興趣通過在安全關鍵區域(保護區)周圍閑逛來收集關鍵信息,而不是打算對保護區進行物理破壞。另一方面,承擔風險的攻擊者被認為與他們的任務相比,他們對自己的生存有較低的優先權。這樣的攻擊者可能對物理上破壞保護區感興趣。攻擊者的風險規避程度可能有所不同。此外,攻擊者可能1)相互合作,作為一個蜂群集合在一起,或者2)相互之間不合作。攻擊者的各種可能的行為以及它們的后果,要求仔細設計防御團隊的協作任務分配、運動規劃和控制算法,以保護安全關鍵的基礎設施免受攻擊團隊的影響。
保護安全關鍵區域不受冒險攻擊者影響的一個可能機制是攔截或捕獲這些攻擊者(見圖1.2a的一個例子)。研究表明,防衛者(防衛者)有各種攔截或捕獲策略來抵御冒險攻擊者。例如,在多智能體到達-規避游戲中使用的HamiltonJacobi-Isaacs方法[22, 23],攔截多個流氓智能體的Voronoibased分區方法[24],攔截或捕獲攻擊者的最優控制技術[25-32]。然而,在這些方法中,防御者之間的合作并不考慮他們自己的安全,以試圖攔截或捕獲冒險的攻擊者。此外,在城市環境中的低空,由于人類和其他脆弱實體或基礎設施的存在,通過物理攔截或捕獲的手段來對抗規避風險的攻擊者群,如[23-32]中研究的那樣,可能并不可取。在這種情況下,受動物放牧的啟發(見圖1.2b),可以作為一種間接的方式,將攻擊者引導到一些安全區域。這樣,攻擊者將被安全地帶離保護區,從而減少他們對保護區的威脅。一旦被帶到安全區域,這些攻擊者可以被摧毀,或者被重新配置,用于其他一些有用的任務。在文獻中,有一些研究放牧問題的作品。例如,使用n-wavefront算法將鳥群趕出機場[33],通過利用牧群和牧民之間基于幾何的互動,使用機器人牧民控制非合作的牧群[34],使用受海豚啟發的包圍技術限制一組智能體[35],使用勢能函數通過籠子進行牧群[36]。然而,這些方法大多沒有考慮到被自主智能體放牧的智能體對抗性[34-36],而有些方法沒有考慮到要保護的環境中存在的安全關鍵區域。
圖1.2 針對對手的防御機制
在這篇論文中,我們研究的問題是設計:1)一個協作決策框架,以形成防衛者的分隊,并將其分配給攻擊者;2)防衛者的協作運動規劃算法,以應對攻擊者(對手)的蜂群攻擊,表現出規避風險和承擔風險的行為。防御者的目標是防止對抗性攻擊者的不同行為可能造成的損害。在這篇論文中,我們開發了兩個任務分配和運動規劃框架,以便防御者解決規避風險的攻擊者(在第一個框架中)和承擔風險的攻擊者(在第二個框架中)。這兩個框架解決了現有蜂群防御方法的一些主要缺點,如。1)簡單的運動模型,如單積分器動力學;2)強烈依賴特定的勢場數學形式來模擬攻擊者的排斥運動;3)防御者之間缺乏合作,以避免它們之間的碰撞;4)缺乏對環境中障礙物的考慮。然后,這兩個框架被結合在一起,為防御者團隊提供一個系統的、協作的防御策略,以應對攻擊者的各種行為。
在這篇論文中,研究了為防御者團隊設計任務分配和運動規劃算法的問題,以應對風險規避者和風險承擔者的蜂群攻擊。本論文的章節大綱和本論文對解決上述問題的具體貢獻列舉如下。
圖1.5:StringNet:攻擊者群周圍形成的封閉式障礙物B的隊形(紅色的圓圈表示攻擊者,深綠色的圓圈表示防御者,連接這些防御者的白色虛線表示防御者之間的障礙物(字符串),藍色的圓圈表示在防御者完全包圍攻擊者之前,防御者形成的開放性障礙物)
在第3章中,第2章開發的 "StringNet Herding"方法被擴展到這樣的場景:攻擊者的蜂群可能會分裂成更小的蜂群,以應對防衛者的到來。特別是,使用混合整數規劃(MIP)開發了集中和分散的合作算法,以分組和分配防御者將識別的不同攻擊者群趕到最近的安全區域。還開發了一種受幾何學啟發的啟發式算法,以獲得對MIPs的次優但更快的分配方案。本章的結果是基于[101, 102]的工作。
在第4章中,為一組防守者開發了一種防守者之間的碰撞感知攔截策略(IDCAIS),以盡快攔截盡可能多的冒險攻擊者,同時確保防守者之間不發生碰撞。特別是,首先解決了防守者和攻擊者之間的非零和博弈,以獲得一個時間最優的防御策略,所有的防守者和攻擊者對。然后開發一個混合整數二次規劃(MIQP)來尋找碰撞感知的防御者-攻擊者分配(CADAA),以便盡可能多地和盡可能快地捕獲攻擊者,同時防止或推遲防御者之間的碰撞。本章的結果目前正在審查中[103]。
在第5章中,第2-3章開發的 "StringNet Herding"策略和第4章開發的碰撞感知攔截策略IDCAIS被結合在一起,以同時處理規避風險和冒險的攻擊者。特別是,使用MIPs和基于幾何學的啟發式方法開發了幾種算法,以分組和分配防御者團隊或單個防御者來驅趕風險規避型攻擊者群,或攔截風險規避型攻擊者,以應對攻擊者分裂成更小的群組來躲避防御者或一些風險規避型攻擊者的高速機動以最大限度地破壞保護區域。本章的結果目前正在審查中[104]。
在第6章中,"StringNet Herding"策略被擴展到三維環境中。特別是,為'StringNet Herding'策略的不同階段設計了三種三維防御隊形,對第2章中設計的控制法則進行了適當的修改以適應三維環境,然后提供了玩家初始狀態的條件,在這些條件下,保證防御者在攻擊者到達保護區前聚集在攻擊者最短路徑上的某個位置。本章的結果是基于我們在[105]的合作工作。
最后,在第7章中提供了論文的結論和未來的研究方向。
本論文中開發的任務分配和運動規劃算法是考慮應用于蜂群防御問題的(如前面第1.2節開頭所討論的),然而,這些算法,無論是原樣還是修改后的形式,也適用于其他場景。例如,第6章中開發的 "3D StringNet Herding "算法可用于解決[75]中研究的機器人放牧問題,該問題涉及將一群鳥從機場放牧到離機場足夠遠的安全區域,這樣鳥群就不會再對經過機場的航班造成任何危險。
如果我們不考慮問題中的對抗性攻擊者和保護區,那么這個問題可以被建模為一個協作載荷運輸問題,即一隊機器人圍繞著最初位于已知位置的載荷(如快遞包裹、緊急藥品或救援任務中的人)形成所需的隊形,然后將載荷運送到障礙物密集環境中的所需位置(安全區域)。在第二章介紹的 "StringNet Herding"方法中,只考慮聚集和放牧階段,通過在聚集階段結束時適當地改變所需的隊形,就可以實現這種協作式的負載運輸。
如果我們用動物代替對抗性攻擊者,那么這個問題就可以被建模為使用自主機器人的動物放養問題。第2章中開發的 "StringNet Herding"算法可以用來控制防御者(自主機器人),以便將動物趕到障礙物密集環境中的一個特定區域。
如果我們把敵對的攻擊者換成緊急情況下的人群(如火災、自然災害),那么這個問題可以被建模為使用自主機器人在緊急情況下的人群控制問題,自主機器人的任務是引導人類人群安全地到達一個沒有任何危險的指定區域。第2章中開發的 "StringNet Herding"算法可用于控制自主機器人(防衛者),以便通過在 "StringNet Herding"方法的每個階段適當地改變所需的隊形,引導(放牧)人類人群到障礙物密集環境的指定區域。
創新和技術發展在科學的突破中一直發揮著重要作用。在過去的幾十年里,無人水下航行器(UUV)的使用已經徹底改變了水生探索。UUV可以部署在人類無法到達的深度和環境中,并且可以收集到其他方式無法獲得的數據。
近年來,人們對重新開放歐洲各地的廢棄礦區的興趣越來越大,這些礦區可能含有目前急需的原材料,其開發將減少歐洲對外部資源的依賴。最近一項關于歐洲廢棄礦場的調查收集了關于30000個礦場的數據,其中有8000多個礦場被淹沒。本論文為UNEXMIN項目框架內開發的創新解決方案做出了貢獻,該項目旨在探索這些被淹沒的地點,其中設計了一個新型水下平臺系統,名為UX-1。UX1機器人需要在未知礦井隧道的三維網絡中完全自主航行,因為不可能有任何通信,并收集各種地球科學數據。開發這個打算在挑戰性環境中執行的新型平臺,需要對其軟件和硬件模塊采取創新設計方法。
本論文的主要研究目標是設計、實現和驗證UX-1水下機器人的自主引導系統。該機器人新穎的機械設計及其獨特的機載科學儀器代表了該平臺的具體特征。這些儀器與潛水器本身的運動的協調,滿足每一種類型的傳感器的科學樣品捕獲的嚴格位置要求,必須由平臺的引導系統來保證。由于這些原因,UX-1的導向系統的設計和實施構成了一個獨特的研究挑戰。
此外,為了確保長期的自主性,需要有足夠程度的彈性,以便在受到意外事件干擾時保持和恢復系統的運行功能。為此,我們開發了一種先進的基于知識的自我意識技術,名為元控制。元控制器的設計是為了通過提高機器人的容錯能力來增加其自主性。一個自我診斷模塊被用來確定機器人的狀態,一個決策模塊被用來根據之前的診斷結果選擇整個機器人系統的最佳重新配置以實現最佳功能。
所提出的解決方案在復雜的情況下使用模擬、軟件在環(SIL)和硬件在環(HIL)方法進行實驗驗證,旨在以越來越高的保真度重現礦井隧道環境中的導航。代表最高保真度的HIL實驗要求將真實的硬件和軟件模塊,包括我們的制導系統,與部分模擬的環境讀數相結合。實驗是在一個水池中進行的,其中與定位有關的真實讀數被用于導航和控制目的,而測繪傳感器的讀數被繞過,以便復制不同的礦井隧道結構。在這些測試中獲得的結果證明了制導系統的有效性及其與機器人其他系統的適當整合,并驗證了UX-1平臺在淹沒的礦山環境中執行復雜任務的能力。
本論文分為七章,第一章介紹了論文的動機、問題陳述和目標,以及方法。論文的其余部分組織如下。
第二章介紹了機器人學的背景,機器人的分類,并回顧了水下航行器領域的技術現狀,重點介紹了UUVs。此外,還介紹了自主系統,以及自主水平(LOA)和技術準備水平(TRLs)的定義。
第三章介紹了水下探雷機器人UX-1,它被用作開發我們的引導系統的平臺。解釋了對機器人設計的要求和限制,詳細介紹了機器人的機械設計以及運動系統。此外,還解釋了UX-1的硬件組件和它的傳感器,以及它的軟件結構。
第四章介紹了制導系統。首先,介紹了水下機器人的路徑規劃和任務控制的技術現狀。然后,解釋了制導系統,以及它的子系統,即任務規劃器、行動執行器、軌跡發生器。最后,對幾個路徑規劃器進行了基準測試和討論。
第五章介紹了為實現容錯操作而開發的元控制器。首先,介紹了容錯和自我意識方面的技術現狀。第二,介紹了一般的元控制框架和TOMASys元模型的擴展。第三,解釋了使用TOMASys的UX-1機器人的本體建模。最后,討論了所提解決方案的好處和局限性。
第六章介紹了用于測試和驗證制導系統的實驗裝置。解釋了軟件在環(SIL)和HIL范式,以及使用的虛擬環境。然后,詳細介紹了用于制導系統驗證的實驗。
第七章包括結論和未來工作。
多智能體系統(MAS)已經在不同的環境和框架中得到了利用,因此已經成功地應用于許多應用中,以實現不同的目標。事實證明,與建立一個具有任務可能需要的所有能力的單一智能體相比,多智能體系統更具有成本效益。此外,成本并不是采用MASs的唯一驅動因素,例如,安全是另一個重要方面。在惡劣或極端的環境中部署一組智能體,而不是一個人類團隊,可以減少安全風險。此外,與單一智能體的解決方案相比,MAS提供了更多的靈活性和穩健性。靈活性來自于將資源分成不同的小組,而穩健性則來自于一個智能體的關鍵錯誤不一定會危及任務的成功這一事實。請注意,一個任務可能有許多不同的約束和方面,然而,最微不足道的情況是只有一個智能體和一個任務。
這些類型的任務可以由人類操作員計劃,監督任務,而不需要自動計劃器。另一方面,更復雜的任務,即利用大量的異質智能體和任務,以及約束條件(優先權、同步性等),對人類操作員來說并不是那么簡單的計劃。這些復雜的問題給制定一個可行的計劃帶來了巨大的挑戰,更不用說是最好的計劃了。此外,機器人系統中可用的計算平臺的功率增加,允許利用并行任務執行。更具體地說,它允許在傳感、計算、運動和操縱任務中可能的并行性。這反過來又有一個好處,即允許創建更復雜的機器人任務。然而,它的代價是增加了優化任務分配問題的復雜性。為了規避這些問題,需要一個自動規劃器。這些類型的問題是出了名的難解決,而且可能需要太長時間才能找到一個最佳計劃。因此,優化和產生計劃所需的計算時間之間的平衡變得非常重要。
本論文涉及兩個特殊的多機器人任務分配(MRTA)問題配置的正式定義,用于表示多智能體任務規劃問題。更具體地說,本論文的貢獻可以歸納為三類:
首先,這項工作提出了一個模型,以結構化的方式表示不同的問題配置,也被稱為任務。這個模型被稱為TAMER,它還允許以更系統的方式增加新的維度,與以前提出的MRTA分類法相比,擴大了可以描述的問題的數量。
其次,本論文以混合整數線性問題的形式,定義并提供了兩種不同的問題形式,即擴展的彩色旅行推銷員問題(ECTSP)。這些模型在CPLEX優化工具中對選定的問題實例進行了實施和驗證。此外,還設計了一個解決這些復雜問題的次優方法。提出的解決方案是基于遺傳算法(GA)的方法,并與最先進的(和實踐中的)求解器,即CPLEX獲得的解決方案進行比較。與經典方法相比,使用GA進行規劃的優勢在于它具有更好的可擴展性,使其能夠找到大規模問題的解決方案。盡管這些解決方案在大多數情況下是次優的,但它們比其他精確方法獲得的速度要快得多。另一個優勢體現在 "隨時停止 "選項的形式上。在時間緊迫的操作中,重要的是可以選擇停止規劃過程,并在需要時使用次優的解決方案。
最后,這項工作涉及到MRTA問題的一個維度,這個維度在過去沒有引起很多研究的關注。特別是,包括多任務(MT)機器人在內的問題配置被忽視了。為了克服上述問題,首先,對可能實現任務并行的情況進行了定義。此外,還介紹了物理和虛擬任務之間的區別以及它們在并行任務執行方面的相互關系。我們提出并比較了兩個模型。第一個模型以ILP的形式表達,并在CPLEX優化工具中實現。另一個被定義為限制性規劃(CP)模型并在CP優化工具中實現。兩種求解器都在一系列的問題實例上進行了評估。
在許多現實世界的應用中,多主體決策是一個普遍存在的問題,如自動駕駛、多人視頻游戲和機器人團隊運動。多智能體學習的主要挑戰包括其他智能體行為的不確定性,以及由聯合觀察、行動和策略空間的高維性導致的維數災難。由于未知的智能體意圖和意外的、可能的對抗性行為,這些挑戰在對抗性場景中進一步加劇。本文提出了魯棒和可擴展的多智能體學習方法,目標是高效地構建可以在對抗性場景中魯棒運行的自主智能體。通過觀察智能體的行為準確推斷其意圖的能力是魯棒決策的關鍵。在這種情況下,一個挑戰是對手實際行為的高度不確定性,包括潛在的欺騙,這可能與先驗行為模型有很大的不同。捕捉自我主體和對手之間的交互以及對雙方主體可用信息的推理,對于建模這種欺騙行為至關重要。本文采用博弈論對手建模方法解決了這一意圖識別問題,該方法基于一種新的多樣性驅動的信念空間集合訓練技術,用于實現對欺騙的魯棒性**。為了將集成方法擴展到具有多個智能體的場景,本文提出了一種可擴展的多智能體學習技術,該技術通過稀疏注意力機制促進了接近最優的聯合策略學習。該機制的結果是集中的參數更新,這大大提高了采樣效率**。此外,本文還提出了一種新的隱式集成訓練方法,該方法利用多任務學習和深度生成策略分布,以較低的計算和內存成本獲得更好的魯棒性。將魯棒的意圖識別和可擴展的多智能體學習結合起來,可以實現魯棒的、可擴展的離線策略學習。然而,完全自主的智能體還需要能夠不斷地從新的環境和對等智能體中學習(并適應)。因此,本文還提出了一種安全的適應方法,既能適應新的對手,又能在對抗場景中對任何可能的對手剝削保持低可利用性。本文的貢獻有助于構建自主代理,使其能夠在具有不確定性的競爭多智能體場景下做出魯棒的決策,并通過計算效率學習安全地適應以前未見的對等智能體。
圖是數據和系統表示的強大工具。許多類型的復雜和高度結構化的數據都可以用圖表示,比如社交網絡、計算機網絡和分子。圖還可以用來表示計算機系統,例如分布式存儲網絡和對等通信網絡。在本論文中,我們討論了處理大規模圖數據和使用圖來設計更好的系統的方法。
我們首先討論兩種處理大規模圖數據的方法。雖然它們非常強大,但圖數據集對其處理和存儲提出了獨特的挑戰。圖神經網絡(GNNs)是將深度學習應用于圖結構數據的一種有效方法。但是,由于圖的互連和高度結構化的特性,訓練GNN的計算可能非常昂貴。研究了一種提高GNN訓練效率的分層聚合方法。另一種理解圖數據集的方法是檢查小的、重復的模式的頻率。我們提出了時間活動狀態塊模型(Temporal Activity State Block Model),這是一種用于計算時間圖中預期母題頻率的分析模型,它增加了邊在大時間跨度內到達的復雜性。
接下來我們將介紹兩種應用圖來設計更好系統的方法。在分布式存儲系統中,在服務器故障的情況下,通常需要使用冗余存儲數據,而在何處以及以何種頻率創建這種冗余的設計可以表示為一個圖問題。部分重復(FR)代碼是一種用于實現這一目的的方法,旨在最大化存儲容量,同時確保故障節點可以通過從幸存節點發送替換數據來替換。我們提出了負載平衡的分數重復碼,這是FR碼的加強,有額外的保證,如何迅速地更換失敗的節點。接下來我們考慮在對等網絡中發送消息的問題。這個問題可以用一個圖來表示哪個對等點擁有另一個對等點想要的數據。索引編碼是一種設計從中央服務器到一組接收器的客戶端通信的方法。我們將這種方法應用于點對點模型,并引入和研究了嵌入索引編碼。
//searchworks.stanford.edu/view/14230534
近年來,人工智能研究取得了驚人的發展和進步。這些進步主要是在三個方面取得的:計算機視覺、自然語言處理和機器人技術。例如,圖像識別被廣泛認為是計算機視覺的圣杯,而語言建模和翻譯一直是自然語言處理的基本任務。然而,許多實際應用程序和任務需要解決的不僅僅是這些特定于領域的問題,而是需要解決涉及所有三個領域的問題。一個自主系統不僅需要能夠識別圖像中的物體,而且還需要解釋自然語言的描述或命令,并理解它們如何與它所感知的視覺觀察相關聯。此外,機器人需要利用這些信息進行決策,并決定為了完成任務而采取哪些物理行動。在本文的第一部分,我提出了一種學習如何將自然語言與三維形狀聯系起來的方法,使系統能夠將文本描述中描述的“圓”等詞與三維物體中的圓的幾何屬性進行連接。為了將這兩種模式聯系起來,我們依賴一個跨模態嵌入空間來進行多模態推理,并在沒有細粒度、屬性級分類注釋的情況下學習這個空間。通過學習如何將這兩種模態聯系起來,我們可以執行諸如文本到形狀的檢索和形狀操作等任務,還可以實現新的任務,如文本到形狀的生成。在本論文的第二部分,我們允許主體被具體化,并探索一個依賴于所有三個領域(計算機視覺、自然語言和機器人)的任務:機器人導航通過遵循自然語言指令。不再依賴于固定的圖像或3D對象數據集,代理程序現在位于一個物理環境中,并使用機載相機捕捉自己對空間的視覺觀察。為了在視覺、語言和機器人物理狀態之間建立聯系,我們提出了一個使用拓撲圖執行規劃和控制的系統。這種基本的抽象允許主體將語言指令的部分與環境的相關空間區域聯系起來,并將一系列視覺觀察與物理動作和行動聯系起來。