對機器人群進行規劃是很困難的,因為系統要求是在機器人群層面(即全球)制定的,而控制規則需要在單個機器人層面(即本地)進行編碼。通過數學建模將全局和局部水平聯系起來,或者反過來預測系統行為,一般被認為是群體機器人技術的巨大挑戰。我們建議通過直接在群體層面規劃來解決這個問題。這個解決方案的關鍵是使用異質群體,結合適當的智能體子集,其硬編碼的智能體行為具有已知的全局影響。我們從全局到局部的設計方法允許為自組織任務分配的實例應用組成異質群。我們定義了大量但有限的局部智能體控制器,并將重點放在行為異質群的全局動力學上。用戶為群體輸入所需的全局任務分配,作為分配給任務智能體的固定概率分布。我們提供了一種通用方法,通過數學上推導出異質群體的適當組合來實現所需的群體行為,這些組合近似于用戶的全局要求。我們在幾種任務分配情況下研究了我們的方法,并通過多智能體模擬驗證了我們的結果。所提出的從全局到局部的設計方法并不局限于任務分配問題,它可以為設計其他群體行為的正式方法鋪平道路。
在大規模系統中,當集中式技術被用于任務分配時,存在著基本的挑戰。交互的數量受到資源限制,如計算、存儲和網絡通信。我們可以通過將系統實現為分布式任務分配系統,在許多智能體之間共享任務來提高可擴展性。然而,這也增加了通信和同步的資源成本,并且難以擴展。
在本文中,我們提出了四種算法來解決這些問題。這些算法的組合使每個智能體通過強化學習改善他們的任務分配策略,同時根據他們過去的經驗,改變他們對系統的探索程度,相信他們當前的策略是最優化的。我們專注于分布式智能體系統,其中智能體的行為受到資源使用限制的制約,限制了智能體的本地知識,而不是全系統的知識。我們在一個模擬環境中評估這些算法,在這個環境中,智能體被賦予一個由多個子任務組成的任務,必須分配給具有不同能力的其他智能體,然后執行這些任務。我們還模擬了現實生活中的系統效應,如網絡不穩定。我們的解決方案顯示,在所考慮的系統配置中,任務分配問題的解決率為理論最優的6.7%。當系統連接受到影響時,它比無知識保留方法提供了5倍的性能恢復,并對多達100個智能體的系統進行了測試,對算法性能的影響小于9%。
在一個分布式任務分配系統(DTAS)中,許多獨立的智能體之間存在著相互作用。這些系統越來越多地出現在廣泛的現實世界應用中,如無線傳感器網絡(WSN)[5, 7, 36, 50]、機器人[12, 46]和分布式計算[38, 48]。這些應用的復雜性和范圍不斷擴大,帶來了許多挑戰,如應對變化、處理故障和優化等。系統性能也必須隨著智能體數量的增長而擴展,能夠在計算或存儲資源的限制下執行任務。下面總結的挑戰在許多不同的學科領域都有,這意味著相關的和實用的解決方案變得更加普遍適用。
任務分配,如何在系統中的智能體中最好地分配任務。一個智能體可能有一個目標,其中包括一個綜合任務,需要其他智能體完成一些子任務[70]。
資源管理,分配和優化資源的使用,以完成一項任務。例如,在物理環境中執行一項功能時管理能源的使用[29, 60, 96]。
動態網絡、智能體發現和通信適應性。智能體必須能夠在連接丟失和創建時相互溝通[6]。
自組織,自主形成結構以完成一個目標。具有剛性結構的解決方案通常不適用于具有許多未知因素的動態系統,因為設計會過于復雜。為了提高智能體在這些情況下的適應性,可以使用自組織的解決方案。[1, 26, 27, 34, 47]。
正式設計的智能體可以在一個被充分理解的系統下執行設定的任務。然而,設計能夠預測大規模、真實世界操作環境中可能發生的各種故障或變化的算法通常是不可行的。此外,隨著系統變得更加復雜,智能體的狀態行動空間大小也呈指數級增長。這個空間代表了它們可能處于的狀態組合的集合,以及它們在這些狀態下可能采取的行動。在部署智能體之前就知道這個空間往往是不現實的,就像了解哪些算法會有最佳表現一樣。引入一個持續更新的關于環境和其他智能體的信息的集中源,可以增加智能體對其狀態行動空間的了解,允許更好的優化。像這樣的方法,如使用協調智能體,專門協調系統中的其他智能體,在分布式軟件架構[39, 41, 49, 66]和機器人學[4, 20]中被使用。然而,在通過集群和共識技術擴展這種方法以增加容錯性時,產生了一個脆弱的中心點。由于其他智能體的互動和通信是通過這些中心化的智能體進行的,擁堵和帶寬飽和問題也會增加。
具有學習增強功能的分布式智能體系統,如多智能體強化學習(MARL),可以提供相同的功能,但分布在各智能體之間,消除協調的焦點,緩解擁堵問題,同時仍然提供知識共享和行動協調,使智能體能夠優化狀態-行動空間。雖然隨著互動智能體數量的增加,我們看到系統內的通信量呈指數級增長,最終使帶寬飽和并耗盡計算資源。還有一個穩定性的期望,即智能體優化的解決方案保持相對穩定,隨著時間的推移,對狀態行動空間的探索需求逐漸減少。在動態系統中,這一點往往不成立。MARL技術也沒有考慮到采取不同類型的行動所涉及的固有風險,這導致了在機器人領域的災難性影響,如一些行動可能有嚴重的物理損壞風險,或在金融系統中可能會產生巨大的損失[33, 40, 57, 87]。
整個問題可以概括為如何在動態多智能體系統中提供有效的任務分配,同時隨著任務數量的增加和智能體可用性的改變,確保可擴展性。所提出的解決方案結合使用了一些算法,允許智能體確定其他已知智能體執行任務的能力,分配這些任務,并根據其當前的知識和探索智能體能力空間的需要執行其他行動。所介紹的算法有:
具有風險影響意識的智能體任務分配(ATA-RIA)算法允許每個智能體選擇系統中其他智能體的一個子集,其依據是它預測這些智能體將在多大程度上幫助完成其整體綜合任務的子任務。他們可以學習這些智能體的最佳任務分配策略,但也可以改變哪些智能體組成的小組來提高性能。
行動-風險概率的獎勵趨勢(RT-ARP)算法使智能體有能力根據一段時間內獲得的獎勵趨勢來改變他們的探索策略。使用這種算法,智能體可以根據他們的歷史表現,增加他們采取有可能對其任務分配策略進行較大改變的行動的可能性。
狀態-動作空間知識-保留(SAS-KR)算法智能地管理智能體用來維護他們所學到的關于狀態-動作空間的信息和他們的行動效果的資源。
鄰居更新(N-Prune)算法有選擇地將智能體從一個智能體考慮的任務分配組中刪除,以限制資源的使用。這種選擇不僅基于一個智能體預測其他智能體對其綜合任務的貢獻有多大,而且還基于它對這種預測的不確定性有多大,因此與ATA-RIA算法的行為相得益彰。
我們通過評估這些算法在一系列模擬的多智能體系統中的表現來測試其有效性。
第2節涵蓋了MARL和多智能體系統領域的相關研究。第3節對問題領域和動機進行了深入分析,第4節和第5節對提出的解決方案和算法的定義進行了探討。我們在第6節中介紹了在系統模擬中對算法性能的評估。最后,我們在第8節中討論了結論和未來的研究。
圖 8. 一個常見級別 WSN 系統示意圖。在圖 8a 中,部署了節點并學習了初始任務優化。在圖 8b 中,ATA-RIA 調整節點的動作以考慮由于電流和通過無人機的運動。在圖 8c 中,節點被高度中斷,一些節點出現故障。 SAS-KR 和 RT-ARP 算法可根據過去的知識和環境穩定時的探索優先級快速重新建立最佳配置。
太空一直是一個需要高度自主的領域。所需的自主性帶來的挑戰使其難以在短時間內完成復雜的任務和操作。隨著越來越多地使用多Agent系統來增強空中領域的傳統能力和展示新能力,在軌道上和近距離多Agent操作的發展需求從未如此強烈。本文提出了一個分布式的、合作的多Agent優化控制框架,為在近距離操作環境中執行多Agent任務相關的分配和控制問題提供解決方案。然而,所開發的框架可以應用于各種領域,如空中、太空和海上。所提出的解決方案利用第二價格拍賣分配算法來優化每個衛星的任務,同時實施模型預測控制來優化控制Agent,同時遵守安全和任務約束。該解決方案與直接正交配位法進行了比較,并包括了對調整參數的研究。結果表明,所提出的技術允許用戶用模型預測控制來優化超越相位的控制,并以三個調諧參數實現編隊交會。與傳統的多相MPC相比,這更好地接近了配位技術中的相變。
兵棋模擬是一種決策工具,可以為利益相關者分析的場景提供定量數據。它們被廣泛用于制定軍事方面的戰術和理論。最近,無人駕駛飛行器(UAVs)已經成為這些模擬中的一個相關元素,因為它們在當代沖突、監視任務以及搜索和救援任務中發揮了突出的作用。例如,容許戰術編隊中的飛機損失,有利于一個中隊在特定戰斗場景中勝利。考慮到無人機的分布可能是這種情況下的決定性因素,無人機在超視距(BVR)作戰中的位置優化在文獻中引起了關注。這項工作旨在考慮敵人的不確定性,如射擊距離和位置,使用六種元啟發法和高保真模擬器來優化無人機的戰術編隊。為紅軍蜂群選擇了一種空軍經常采用的戰術編隊,稱為line abreast,作為案例研究。優化的目的是獲得一個藍軍蜂群戰術編隊,以贏得對紅軍蜂群的BVR戰斗。采用了一個確認優化的穩健性程序,將紅軍蜂群的每個無人機的位置從其初始配置上改變到8公里,并使用兵棋方法。進行了戰術分析以確認優化中發現的編隊是否適用。
索引詞:優化方法,計算機模擬,無人駕駛飛行器(UAV),自主智能體,決策支持系統,計算智能。
兵棋是在戰術、作戰或戰略層面上模擬戰爭的分析性游戲,用于分析作戰概念,訓練和準備指揮官和下屬,探索情景,并評估規劃如何影響結果。這些模擬對于制定戰術、戰略和理論解決方案非常有用,為參與者提供了對決策過程和壓力管理的洞察力[1]。
最近,無人駕駛飛行器(UAVs)作為一種新的高科技力量出現了。利用它們來實現空中優勢可能會導致深刻的軍事變革[2]。因此,它們的有效性經常在兵棋中被測試和評估。
由于具有一些性能上的優勢,如增加敏捷性、增加過載耐久性和增加隱身能力,無人機已經逐漸發展起來,并在許多空中任務中取代了有人系統[3]。然而,由于戰斗的動態性質,在視覺范圍之外的空戰中用無人系統取代有人平臺是具有挑戰性的。在空戰中,無人機可以被遠程控制,但由于無人機飛行員對形勢的認識有限,它將在與有人平臺的對抗中處于劣勢。然而,這種限制可以通過自動戰斗機動[4]和戰術編隊的優化來克服。此外,使用無人機可以允許一些戰術編隊和戰略,而這些戰術編隊和戰略在有人駕駛的飛機上是不會被考慮的,例如允許中隊的飛機被擊落,如果它有助于團隊贏得戰斗。文獻中最早的一篇旨在優化超視距(BVR)作戰中的飛機戰術編隊的文章[5]表明,空戰戰術是用遺傳算法(GA)進行優化的候選方案。該實施方案采用分層概念,從小型常規作戰單位建立大型編隊戰術,并從兩架飛機的編隊開始,然后是四架飛機,最后是這些飛機的倍數。在模擬中沒有對導彈發射進行建模。當一架飛機將其對手置于武器交戰區(WEZ)的高殺傷概率(Pkill)區域內一段特定時間,簡化的交戰模擬器就宣布傷亡。事實證明,所提出的方法的應用是有效的,它消除了團隊中所有沒有優化編隊的飛機,并為整個優化編隊的飛機團隊提供了生存空間。
Keshi等人[6]使用了與[5]相同的分層概念,從由兩架飛機組成的元素中構建大型戰術編隊。模擬退火遺傳算法(SAGA)被用來優化編隊,使其能夠克服對局部最優解的收斂。對16架飛機的編隊進行了優化,提出的最優解表明SAGA比基本的GA更有效。最后,為了探索一個穩健的SAGA,對不同的馬爾科夫鏈進行了比較,事實證明自調整馬爾科夫電流更適合所提出的問題。
Junior等人[7]提出使用計算機模擬作為一種解決方案,以確定BVR空戰的最佳戰術,使擊落敵機的概率最大化。在低分辨率下使用通用參數對飛機和導彈進行建模,并改編了名為COMPASS的模擬優化算法,模擬了兩架飛機對一架飛機的BVR戰斗。低分辨率模型假定在水平面的二維空間內有一個均勻的直線運動。使用優化的戰術表明,擊落敵機的平均成功率從16.69%提高到76.85%。 Yang等人[8]提出了一種方法來優化飛機對一組目標的最佳攻擊位置和最佳路徑。該工作考慮到飛機能夠同時為每個目標發射導彈,并將飛機與目標有關的攻擊性和脆弱性因素作為評價攻擊位置的指標。一個高保真模擬被用來模擬每個導彈的飛機、雷達、導彈和WEZ的動態特性。這項工作并沒有解決在BVR戰斗場景中優化一組飛機對另一組飛機的編隊問題。
Li等人[9]提出了一種基于指揮員主觀認識的編隊優化方法,即在空戰中目標設備信息不確定的情況下選擇飛機編隊的問題。首先,計算戰斗機的戰斗力,這是通過指揮員的主觀認識評估目標戰斗力的基礎。戰斗機的戰斗力以能力的形式表現出來,包括攻擊、探測、生存能力、通信、電子戰、預警系統等。因此,通過采用前景理論和綜合模糊評估來優化空戰訓練。最后,一個應用實例證明了該方法在小規模空戰中的可行性。作者聲稱,利用戰斗力評估戰斗情況的能力為優化空戰訓練提供了一種新的方法。
?zpala等人[10]提出了一種在兩個對立小組中使用多個無人駕駛戰斗飛行器(UCAVs)進行空戰的決策方法。首先,確定兩隊中每個智能體的優勢地位。優勢狀態包括角度、距離和速度優勢的加權和。在一個團隊中的每個智能體與對方團隊中的每個智能體進行比較后,每個航空飛行器被分配到一個目標,以獲得其團隊的優勢而不是自己的優勢。為一對對立的團隊實施了一個零和博弈。對許多智能體參與時的混合納什均衡策略提出了一種還原方法。該解決方案基于博弈論方法;因此,該方法在一個數字案例上進行了測試,并證明了其有效性。
Huang等人[11]開發了新的方法來處理UCAV編隊對抗多目標的合作目標分配和路徑規劃(CTAPPP)問題。UCAV的編隊是基于合作決策和控制的。在完成目標偵察后,訓練指揮中心根據戰場環境和作戰任務向每架UCAV快速傳輸任務分配指令。UCAV機動到由其火控系統計算出的最佳位置,發射武器裝備。合作目標分配(CTAP)問題通過增強型粒子群優化(IPSO)、蟻群算法(ACA)和遺傳算法(GA)來解決,并在歸因、精度和搜索速度等方面進行了比較分析。在進化算法的基礎上發展了UCAV多目標編隊的合作路徑規劃(CPPP)問題,其中提供并重新定義了獨特的染色體編碼方法、交叉算子和突變算子,并考慮燃料成本、威脅成本、風險成本和剩余時間成本來規劃合作路徑。
Ma等人[12]開展的工作解決了在BVR作戰場景中優化兩組(R和B)無人機對手之間的優勢地位問題。一個無人機ri∈R對一個無人機bj∈B的優勢是通過ri和bj之間的距離、ri的導彈發射距離的下限和上限、ri的高度和bj的高度之差以及ri的最佳發射高度來估計的。決定性的變量是無人機在兩組中的空間分布和每架飛機在這些組中的目標分配。無人機在三維作戰空間BVR中的可能位置被簡化(離散化),通過立方體的中心位置來表示。每個無人機組都有一組立方體。優化問題被建模為一個零和博弈,并被解決以獲得納什均衡。
Ma等人[12]提出的工作沒有使用高保真模擬來分析無人機空間分布的選擇和分配給它們的目標對BVR作戰的影響。高保真模擬對飛機、雷達、導彈及其導彈的WEZ的動態特性進行建模。這些動態特性也影響到BVR作戰時每架飛機的行動觸發,因此也影響到最終的結果。例如,如果在兩組無人機之間第一次沖突后的時間窗口內考慮高保真BVR作戰模擬,新的沖突可能會發生,直到模擬結束。因此,每個在交戰中幸存的無人機將能夠選擇一個新的目標,這取決于可用目標的優勢值。在[12]中沒有考慮與無人機行為有關的不確定性。有關敵方無人機在戰術編隊中的確切位置及其導彈發射距離的信息是行為不確定性的例子。這兩個信息和上面描述的其他信息在BVR戰斗中是相關的:它們直接影響飛機之間的交戰結果。
在這項研究中,我們試圖解決文獻中發現的一些局限性,如低分辨率模擬、與敵人有關的不確定性的處理以及缺乏對優化解決方案的穩健性的確認,旨在提高兵棋結果的質量。我們的目標是驗證哪些藍色蜂群的戰術編隊可以在BVR戰斗中戰勝紅色蜂群。作為一個案例研究,RED蜂群使用了空軍經常采用的戰術編隊,稱為line abreast[13]。為了評估BLUE蜂群解決方案的穩健性,我們解決了新的問題,改變了RED蜂群每架飛機的位置,目的是估計新的RED蜂群編隊對BLUE蜂群的優化戰術編隊的效率的影響。
我們使用自主智能體和高保真計算機模擬來優化BVR戰斗中的無人機戰術編隊,考慮與敵人相關的不確定性,如戰術編隊中的位置誤差和導彈發射距離。統一行為框架(UBF)被采納為創建自主智能體的基礎。飛機和導彈在三維環境中用六個自由度(DoFs)建模。
該程序將在接下來的章節中進一步討論。
UAI是人工智能領域智能不確定性研究方向最權威的國際會議。最新組委會公布了一系列最佳論文。其中墨爾本理工大學獲得最佳論文,UMass大學等獲最佳短論文。 人工智能不確定性會議(UAI)是研究不確定性下的知識表示、學習和推理的主要國際會議之一。UAI得到人工智能不確定性協會(AUAI)的支持。自1985年以來,大會每年舉行一次。第38屆世界杯將在荷蘭埃因霍溫理工大學舉行。
最佳論文
多類神經網絡是現代無監督域自適應的常用工具,但自適應文獻中對其非均勻樣本復雜度缺乏適當的理論描述。為填補這一空白,本文提出了第一個多類別學習器的PAC-貝葉斯自適應界限。我們通過對我們考慮的多類分布散度提出一階近似技術來促進我們邊界的實際應用。對于依賴于Gibbs預測器的散度,我們提出了額外的pac -貝葉斯適應界,從而消除了低效的蒙特卡羅估計的需要。在經驗上,我們測試了我們提出的近似技術的有效性,以及一些新的設計概念,我們包括在我們的邊界。最后,我們運用我們的邊界分析了一種常見的使用神經網絡的自適應算法。
最佳學生論文
祖先圖是編碼因果知識的一個重要工具,因為它們代表了關于潛在混淆和選擇偏差存在的不確定性,可以從數據中推斷。對于其他的圖模型,幾個最大祖先圖(MAGs)可以以條件獨立性的形式編碼相同的統計信息。這樣的MAGs被稱為馬爾可夫等效。這項工作涉及MAGs之間馬爾可夫等價的圖表征和計算方面。這些問題在過去的幾年里已經被研究,導致了幾個標準和方法來檢驗馬爾可夫等價。Hu和Evans [UAI 2020]提供的最先進的算法,對具有n個頂點的實例運行時間為O(n^5)。我們提出了一個新的構造MAGs的馬爾可夫等價的圖形判據,它允許我們發展一個實際有效的最壞情況運行時間為O(n^3)的等價檢驗。此外,我們的準則是用自然圖概念表示的,這是獨立的價值。
摘 要
人工智能體在我們的世界中的流行提高了確保它們能夠處理環境的顯著屬性的需求,以便計劃或學習如何解決特定任務。
第一個重要方面是現實世界的問題不限于一個智能體,并且通常涉及在同一環境中行動的多個智能體。此類設置已被證明難以解決,其中一些示例包括交通系統、電網或倉庫管理。此外,盡管許多問題域固有地涉及多個目標,但這些多智能體系統實現中的大多數旨在優化智能體相對于單個目標的行為。通過對決策問題采取多目標視角,可以管理復雜的權衡;例如,供應鏈管理涉及一個復雜的協調過程,用于優化供應鏈所有組件之間的信息和物質流。
在這項工作中,我們關注這些突出的方面,并討論當涉及多個智能體時,如何將人工智能體的決策和學習過程形式化,并且在該過程中需要考慮多個目標。為了分析這些問題,我們采用了基于效用的觀點,主張在相互競爭的目標之間做出妥協,應該基于這些妥協對用戶的效用,換句話說,它應該取決于結果的可取性。
我們對多目標多智能體決策 (MOMADM) 領域的分析表明,迄今為止該領域已經相當分散。因此,對于如何識別和處理這些設置還沒有統一的看法。作為第一個貢獻,我們開發了一種新的分類法來對 MOMADM 設置進行分類。這使我們能夠提供該領域的結構化視圖,清楚地描述當前多目標多智能體決策方法的最新技術,并確定未來研究的有希望的方向。
在多目標多智能體系統的學習過程中,智能體接收一個值列表,每個分量代表不同目標的性能。在自利智能體人的情況下(即,每個人都可能對目標有不同的偏好),在相互沖突的利益之間尋找權衡變得非常簡單。作為第二個貢獻,我們繼續分析和研究不同多目標優化標準下的博弈論均衡,并提供有關在這些場景中獲得此類解決方案的存在和條件的理論結果。我們還表明,在某些多目標多智能體設置中,納什均衡可能不存在。
當決策過程中的每個參與者都有不同的效用時,智能體了解其他人的行為就變得至關重要。作為最后的貢獻,我們首次研究了對手建模對多目標多智能體交互的影響。我們提供了新穎的學習算法,以及將對手行為建模和學習與對手學習意識相結合的擴展(即,在預測一個人對對手學習步驟的影響的同時進行學習)。實證結果表明,對手的學習意識和建模可以極大地改變學習動態。當存在納什均衡時,對手建模可以為實現它的智能體帶來顯著的好處。當沒有納什均衡時,對手學習意識和建模允許智能體仍然收斂到有意義的解決方案。
提 綱
1 引言
1.1 多智能體與多目標 1.2 激勵示例 1.3 研究目標和貢獻 1.3.1 貢獻 1.4 論文結構
2 多目標多智能體系統
2.1 強化學習 2.1.1 基于價值的方法 2.1.2 策略梯度和演員評論家 2.2 多智能體決策理論 2.2.1 標準形式博弈與均衡 2.3 單智能體多目標決策 2.3.1 工具函數 2.3.2 多目標優化標準 2.3.3 應用案例場景 2.4 多智能體多目標決策 2.4.1 多目標隨機博弈 2.4.2 特殊案例模型 2.4.3 多目標標準博弈 2.4.4 MONFG優化標準 2.5 總結
3 構建多目標多智能體決策域
3.1 執行階段 3.1.1 團隊獎勵 3.1.2 個體獎勵 3.2 解決方案概念 3.2.1 策略 3.2.2 覆蓋集合 3.2.3 均衡 3.2.4 ε近似納什均衡 3.2.5 聯盟形式與穩定概念 3.2.6 社會福利與機制設計 3.2.7 其他解決方案的概念 3.3 總結
4 多目標多智能體場景均衡
4.1 MONFG計算均衡 4.1.1 定義 4.1.2 理論分析 4.1.3 用于SER分析的附加博弈 4.2 實驗 4.2.1 Game 1 - The (Im)balancing Act Game 4.2.2 Game 2 - The (Im)balancing Act Game without action M 4.2.3 Game 3 - A 3-action MONFG with pure NE 4.3 總結
5 多目標多智能體場景中的對手建模
5.1 背景 5.1.1 對手建模 5.2 MONFG中的對手建模 5.2.1 對手學習意識和建模使用高斯過程 5.2.2 MONFG評價器 5.2.3 MONFG策略梯度方法 5.3 實驗設置與結果 5.3.1 完整信息設置 - MO-LOLA vs. MO-LOLA 5.3.2 無信息設置 5.4 總結
6 結論
6.1 討論 6.2 未來研究方向
6.2.1 優化標準和解決方案概念 6.2.2 ESR計劃、強化學習與SER博弈論 6.2.3 對手建模和建模對手效用 6.2.4 互動研究方法 6.2.5 深度多目標多智能體決策 6.2.6 更廣泛的適用性
對抗性例子的威脅激發了訓練可靠的魯棒神經網絡的工作,以便在推理時有效地驗證局部魯棒性。我們形式化了全局魯棒的概念,它捕獲了在線局部魯棒認證的操作特性,同時為魯棒訓練提供了一個自然學習目標。我們證明,通過將有效的全局Lipschitz邊界合并到網絡中,通過構建達到最先進的可驗證精度的可靠模型,廣泛使用的體系結構可以很容易地適應這一目標。值得注意的是,與最近的認證訓練方法相比,這種方法需要更少的時間和記憶,并且在在線認證點時成本可以忽略不計;例如,我們的評估表明,在大約幾小時內訓練一個大型魯棒的Tiny-Imagenet模型是可能的。我們的模型有效地利用了便宜的全局Lipschitz邊界來進行實時認證,盡管之前的建議是為了良好的性能需要更緊密的局部邊界;我們假設這是可能的,因為我們的模型經過專門訓練,以實現更緊密的全局邊界。也就是說,我們證明了對于給定的數據集,最大可實現的可驗證精度不能通過使用局部邊界來提高。
《SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for Autonomous Driving》.
獲獎理由:
本文提出了一個完善且經過深思熟慮的系統,對自動駕駛社區具有巨大的潛在影響。
論文簡介: 多智能體交互是現實世界中自動駕駛的基礎,盡管人們已經進行了十多年的研究和發展,但如何在各種情況下與各種道路車輛(智能體)進行有效交互的問題仍未解決。Learning的方法可以為解決這個問題提供很多幫助,但是這一方法需要一個現實的多智能體模擬器,該模擬器會產生多種多樣且有效的駕駛交互。為了滿足這一需求,我們開發了一個專用的仿真平臺:SMARTS (Scalable Multi-Agent RL Training School):可擴展多智能體強化學習學校。
上圖是SMARTS 模型架構,其交互方案是使用特定領域語言(DSL)定義的。Social智能體是從“ Social智能體Zoo”中實例化而來。橙色車輛由學智能體控制、深藍色車輛由 Social智能體控制、淺藍色車輛由交通服務提供商控制。原則上,所有提供程序和智能體都可以在自己的進程中運行,也可以遠程運行。SMARTS支持訓練、積累和使用道路用戶的各種行為模型,這些反過來又可以用于創建越來越現實和多樣化的交互,從而可以對多智能體交互進行更深入、更廣泛的研究。在本文中,我們描述了SMARTS的設計目標,解釋了SMARTS的基本體系架構和關鍵功能,并通過在交互場景中進行具體的多智能體實驗來說明其用法。
最后,我們開源了SMARTS平臺以及相關的基準測試任務和性能評估指標,以鼓勵和支持針對自動駕駛的多智能體學習的研究。