最近,深度強化學習(RL)方法已被成功應用于多智能體場景。通常情況下,分布式決策的觀測向量是由一個智能體收集的關于其他智能體(局部)信息的串聯來表示。然而,串聯法在具有大量同質智能體的集群系統中的擴展性很差,因為它沒有利用這些系統固有的基本特性:(i)集群中的智能體是可以互換的;(ii)集群中智能體的確切數量是不相關的。因此,我們提出了一種新的基于分布式均值嵌入的深度多智能體RL狀態表示,我們將智能體視為樣本,并使用經驗的均值嵌入作為分布式策略的輸入。我們使用直方圖、徑向基函數和端到端訓練的神經網絡來定義均值嵌入的不同特征空間。我們對集群文獻中的兩個著名問題--交會和追趕逃避--在全局和局部可觀察的設置中評估了該表示。對于本地設置,我們進一步引入了簡單的通信協議。在所有的方法中,使用神經網絡特征的平均嵌入表示能夠在相鄰的智能體之間進行最豐富的信息交流,促進復雜的集體策略的開發。
本項目的目標是利用智能體間通信基礎設施提高多智能體任務分布式協調的效率。在這個項目的第一階段,我們探索了基于共識捆綁算法(CBBA)的增強,用于預算約束下的分布式任務分配。CBBA技術的局限性在于,所有智能體必須預先知道環境,并且必須清楚地定義具有已知代價和回報的任務。這種技術顯然不適合在未知環境下的合作任務,因為智能體間必須一起探索和即興發揮他們的行動。在本項目的第二階段,我們研究了在未知環境下,智能體只有部分觀測的任務合作技術。本研究以多智能體捕食博弈為平臺。目標是讓智能體共同定位和捕獲獵物。智能體對環境和獵物的逃跑算法沒有先驗知識。他們相互交流,以獲得超出自己局部觀測的環境信息。基于對環境的局部理解,智能體選擇自己的行動,包括移動到哪里以及是否與其他智能體通信,以最大化團隊獎勵。應用強化學習來優化智能體的策略,使游戲以最少的步驟完成。
我們第二階段研究的主要貢獻是信念圖輔助多智能體系統(BAMS)。信任映射表示智能體在融合傳入消息后維護環境的隱藏狀態。通過將信念圖與強化學習框架集成,并向信念圖提供反饋,我們加速了訓練并提高了系統可以接收的獎勵。在不同復雜程度的環境中,使用捕食者和獵物合作游戲來評估BAMS的性能。與具有消息傳遞功能的現有多智能體模型相比,BAMS提供了以下優點:
1)訓練收斂速度加快68%,使用BAMS模型訓練的智能體完成游戲的步數減少了27.5%。
2)性能穩健:應用模式下,智能體的數量不必與訓練環境相同。
3)對智能體之間的通信信息進行加密。BAMS中的信息是智能體對環境信念的學習表征的向量。它們不僅包含關于智能體和環境的當前和未來狀態的信息。每個數字與智能體或環境的任何物理屬性都不對應。除非有經過訓練的BAMS模型,否則不可能解碼信息。
4)智能體在訓練過程中達成默契。從實驗結果來看,使用BAMS訓練的智能體似乎可以在沒有明確通信的情況下理解彼此的意圖。
5)解碼后的信念圖為智能體的決策提供了一個粗略的解釋。在BAMS中,信念圖解碼器與策略網絡一起訓練。通過將信念圖與實際圖進行比較,系統接收到額外的反饋通道,從而監督訓練過程。在執行過程中,信念圖提供了一種解釋智能體隱藏狀態的方法,可以進一步用于解釋智能體的行為。
本文為強化學習和計算機視覺應用構建深度學習模型,重點是設計新穎有效的表示學習框架。所提出的方法有兩個主要方面:神經網絡模型架構設計和目標工程。為演示如何操縱每個方面,深入研究了人工智能中兩個重要研究領域的代表性應用,即強化和計算機視覺。在這兩個領域,都強調了如何操縱抽象表示,以從目標任務和可用數據類型中建立強大的歸納偏差。我們希望我們的例子可以為今后處理相關領域和其他領域的問題提供啟發。 論文的第一部分研究了強化學習中的代表性任務。我們的貢獻如下:
作為起點,旨在改善通用和探索性行為,并反映一類流行的無模型、基于策略的強化學習算法、actor - critic方法的環境不確定性。本文提出隨機actor-critic方法(Shang et al., 2019b; Chapter 2;第2章)它采用了一種有效而靈活的方式將隨機性注入到actor-critic模型中。隨機性被注入到高級抽象表示中。測試了幾個用隨機激活增強的actor-critic模型,并在廣泛的Atari 2600游戲、連續控制問題和賽車任務中證明了它們的有效性。
接下來,我們將注意力轉向如何在一個更具體但更常見的RL問題設置中進行結構化探索:一個承載著不同任務套件的持久環境或世界。本文提出對環境進行世界圖分解,以加速強化學習(Shang et al., 2019a; Chapter 3;第3章)世界圖的節點是重要的航路點狀態,邊表示它們之間的可行遍歷。在識別世界圖之后,該框架將其應用于分層強化學習算法,以將探索偏向于與任務相關的航路點和區域。在一套具有挑戰性的迷宮任務上徹底評估了所提出方法,并表明使用環境的世界圖抽象可以顯著加速強化學習,實現更高的回報和更快的學習。
最后,考慮多智能體必須合作以實現共同目標的場景,這是多智能體強化學習的一個子集。建議將以智能體為中心的表示納入多智能體強化學習(Shang等人,2020a;第四章)以兩種方式。引入了一個以智能體為中心的注意力模塊,具有跨智能體的顯式連接。注意力模塊建立在智能體的抽象表示之上。利用了一個以智能體為中心的無監督預測目標,作為輔助損失或預訓練步驟的基礎。在谷歌Research Football環境和DeepMind Lab 2D上評估了這些方法,表明它們導致了智能體之間更復雜的合作策略的出現,并提高了樣本效率和泛化能力。
論文的第二部分將重點轉移到各種計算機視覺任務和領域的無監督學習。我們的貢獻如下:
為了更好地利用無標簽數據并增強無監督圖像建模,本文提出通道遞歸變分自編碼器(crVAE) (Shang等人,2018;第5章)。它將抽象卷積特征的跨通道循環連接集成到推理和生成步驟,允許以全局到局部、粗到細的方式捕獲由此產生的高級特征。結合對抗性損失,產生的通道循環VAE-GAN (crVAE-GAN)在生成不同光譜的高分辨率圖像方面優于基線VAE-GAN,同時保持相同的計算效率水平。
下一步,進一步擴展通道循環框架,并提出了注意力的條件通道循環自編碼;)屬性條件人臉合成。評估通過定性的視覺檢查和定量的指標進行,即inception分數、人類偏好和屬性分類精度。
考慮對無標記視頻序列進行無監督學習,并建議學習視頻級靜態和動態表示(Shang等人,2020b;第7章從時間一致性和動力學角度對視頻進行分解。本文展示了在幾個應用中學習到的表示的重要性,包括一個新的動力學檢索任務,在人臉、人類活動和機器人抓取數據集上。
深度強化學習(DRL)已經在單智能體學習中得到了廣泛的研究,但在多智能體領域還需要進一步發展和理解。作為最復雜的集群問題之一,競爭性學習評估了多智能體團隊合作實現某些目標的性能,同時超越了其他候選方案。這樣的動態復雜性使得即使是小眾的DRL方法也難以解決多智能體問題。在一個競爭性的框架內,我們研究了最先進的演員評論家算法和Q算法,并從性能和收斂性方面深入分析了它們的改型(如優先化、雙重網絡等)。為了討論的完整性,我們提出并評估了一個異步和優先版本的近似策略優化行為批判技術(P3O)與其他基準的對比。結果證明,在給定的環境中,基于Q的方法比演員評論家的配置更加穩健和可靠。此外,我們建議納入本地團隊通信,并將DRL與直接搜索優化相結合,以提高學習效果,特別是在具有部分觀察的挑戰性場景中。
圖3 多智能體深度強化學習系統。已實現的深度強化學習技術所使用的主要算法數據流圖。a) 具有單一團隊經驗重放緩沖區的深度Q網絡。盡管保存了異步強化學習轉換,但樣本是隨機的。目標網絡,其參數以緩慢的方式更新,給學習過程帶來了穩定性。b) 帶有優先團隊經驗重放緩沖器的決斗雙深Q網絡。根據時差誤差為每個存儲的過渡分配隨機優先級。c) 帶有分布式記憶的近似策略優化。網絡更新由團隊智能體異步進行。d) 帶有智能體分布式記憶、演員評論家網絡的優先級近似策略優化。每個智能體存儲自己的經驗,并使用它們來進行異步網絡更新。同時,根據有效的召回系數建立優先的數據集,然后用來訓練網絡。此外,該算法還與團隊共享的演員評論家網絡以及團隊共享的演員評論家網絡進行了研究。e)具有分布式記憶的異步優勢演員評論家。
在過去的十年中,使用自主無人機系統進行測量、搜索和救援或最后一英里的交付已經成倍增加。隨著這些應用的興起,需要高度穩健、對安全至關重要的算法,這些算法可以在復雜和不確定的環境中操作無人機。此外,快速飛行使無人機能夠覆蓋更多的地面,這反過來又提高了生產力,并進一步加強了它們的使用情況。開發用于高速導航的算法的一個代表是自主無人機競賽的任務,研究人員對無人機進行編程,使其盡可能快地使用機載傳感器和有限的計算能力飛過一連串的閘門并避開障礙。速度和加速度分別超過80公里/小時和4克,在感知、規劃、控制和狀態估計方面提出了重大挑戰。為了實現最大的性能,系統需要對運動模糊、高動態范圍、模型不確定性、空氣動力干擾和通常不可預知的對手具有魯棒性的實時算法。本調查涵蓋了自主無人機競賽的進展,包括基于模型和學習的方法。我們提供了該領域的概述,其多年來的演變,并以未來將面臨的最大挑戰和開放性問題作為結論。
縱觀歷史,人類一直癡迷于比賽,在那里,身體和精神的健康受到了考驗。最早提到的正式比賽可以追溯到公元前3000年的古埃及,法老被認為在賽德節上進行了一場比賽,以顯示他的身體素質,表明他有能力統治王國[1], [2]。隨著時代的發展,人類已經從步行比賽轉向使用戰車、汽車、飛機,以及最近的四軸飛行器[3]。雖然船只經常變化,但自早期的賽車以來,有一件事一直保持不變,那就是把任務作為科學和工程發展的催化劑,這是一個反復出現的主題。最近,我們看到有人推動將人類從循環中移除,將高度復雜的賽車任務自動化,以推動車輛性能超越人類所能實現的。
無人機競賽是一項受歡迎的運動,有高知名度的國際比賽。在傳統的無人機比賽中,每架無人機都由一名人類飛行員控制,他從機載攝像機接收第一人稱視角(FPV)的實時流,并通過無線電發射器駕駛無人機。圖1中可以看到無人機的機載圖像。人類無人機飛行員需要多年的訓練來掌握先進的導航和控制技能,這些技能是在國際比賽中取得成功所必需的。這種技能對于必須快速、安全地在復雜環境中飛行的自主系統也很有價值,其應用包括災難響應、空中運送和復雜結構的檢查。例如,在搜救場景中,無人機必須能夠在復雜的環境中快速導航,以最大限度地擴大其空間覆蓋。更簡單地說,能夠快速飛行的無人機就能飛得更遠[4]。
圖1:無人機競賽是一項迅速普及的運動,對手在由一系列門組成的預設賽道上競爭。自主的無人機競賽研究旨在建立能夠在這種比賽中勝過人類飛行員的算法。 a) 自主的無人機競賽任務在過去幾年中獲得了研究界的大量關注,每年相關出版物的數量不斷增加就說明了這一點。 b) 自主的無人機依靠視覺和慣性傳感器來估計自己的狀態,以及對手的狀態。
檢查任務的自動化可以拯救生命,同時比人工檢查更有成效。根據最近一項關于無人駕駛飛行器(UAV)在橋梁檢測中的使用的調查[5],大多數用于檢測任務的無人機依靠GPS導航,而檢測效率的最大限制因素是無人機的耐力和機動性。此外,作者指出,美國幾個交通部用于勘察的最流行的無人機并不是完全自主的,需要專業的人類飛行員[5]。高度靈活的無人機系統的商業和安全優勢是顯而易見的,然而對自主無人機競賽的研究也可以幫助我們對人類飛行員的視覺處理和控制是如何工作的獲得新的理解,如[6]所示。
在過去的五年里,已經啟動了幾個項目來鼓勵該領域的快速進展,如DARPA的快速輕量級自主(FLA)[8]和歐洲研究理事會的AgileFlight[9]。這些項目的資金池都超過100萬美元,并具有巨大的商業潛力,這對研究人員和企業家探索敏捷飛行研究的新模式有很大的激勵作用。諸如IROS'16-19自主無人機競賽系列[10]、NeurIPS 2019的無人機游戲[11]和2019年AlphaPilot挑戰賽[12]、[13]等競賽為研究人員提供了進一步的機會,以競爭方式相互比較他們的方法。圖2中可以看到這些比賽所取得的進展的描述。
無人機競賽是一個具有挑戰性的基準,可以幫助研究人員衡量復雜的感知、規劃和控制算法的進展。比賽中的自主無人機必須能夠在幾十毫秒的范圍內進行感知、推理、計劃和行動,所有這些都在一個計算有限的平臺上進行。除了具有很大的挑戰性外,無人機競賽任務提供了一個衡量自主飛行機器人技術進展的唯一標準:單圈時間。解決這個問題需要算法高效、輕便,并實時提供最佳決策和控制行為。此外,如圖1所示,我們看到該領域的論文數量逐年呈指數式增長。
據作者所知,這是第一份關于自主無人機競賽技術狀況的調查。這一概述對于那些希望在現有工作之間建立聯系、了解當前和過去方法的優勢和劣勢,以及確定前進方向的研究人員來說是非常有用的,這將使該領域獲得有意義的進展。
無人機競賽的任務是在最短的時間內駕駛四旋翼飛機按照給定的順序通過一系列的門,同時避免碰撞。人類在這項任務上的表現令人吃驚,他們以遠遠超過100公里/小時的速度飛行,只用第一人稱視角的攝像機作為他們的感官輸入。除此之外,專家級飛行員可以在幾分鐘內迅速適應新的賽道,然而專業無人機飛行員所需的感覺運動技能需要多年的訓練才能獲得。
對于自主無人機來說,要成功完成這項任務,它必須能夠檢測對手和賽道上的航點,計算它們在三維空間中的位置和方向,并計算出一個動作,使其能夠盡快地在賽道上導航,同時還能控制一個高度非線性系統的極限。這在三個不同方面具有挑戰性。感知、計劃和控制。其中任何一個方面的不良設計都可能造成比賽的勝負,而比賽的勝負可能由不到十分之一秒的時間決定。
本文的結構如下。首先,在第1節中詳細討論了無人機的建模過程,包括空氣動力學、電池、電機、相機和系統的非線性因素。第2節然后在第二節中介紹了一個經典的機器人管道。第3節介紹了一個經典的機器人管道,并深入探討了與敏捷飛行相關的文獻,分為感知、規劃和控制三個子節。之后,在第4節中我們深入研究了基于學習的感知、規劃和控制的方法,這些方法依賴于機器學習界的最新進展。然后,第5節討論了仿真工具的發展,這些工具可以使敏捷飛行的應用得到快速發展。第6節介紹了無人機競賽的歷史和用于每項競賽的方法。接下來,在第7節中提供了一個開放源代碼庫、硬件平臺和研究人員的數據集的摘要。最后,在第8節中對未來對自主無人機競賽感興趣的研究人員的機會和挑戰進行了前瞻性的討論。
機器學習的現實應用通常具有復雜的目標和安全關鍵約束。當代的機器學習系統擅長于在具有簡單程序指定目標的任務中實現高平均性能,但它們在許多要求更高的現實世界任務中很困難。本文致力于開發可信的機器學習系統,理解人類的價值觀并可靠地優化它們。
機器學習的關鍵觀點是,學習一個算法通常比直接寫下來更容易,然而許多機器學習系統仍然有一個硬編碼的、程序指定的目標。獎勵學習領域將這種見解應用于學習目標本身。由于獎勵函數和目標之間存在多對一的映射,我們首先引入由指定相同目標的獎勵函數組成的等價類的概念。
在論文的第一部分,我們將等價類的概念應用于三種不同的情形。首先,我們研究了獎勵函數的可識別性:哪些獎勵函數集與數據兼容?我們首先對誘導相同數據的獎勵函數的等價類進行分類。通過與上述最優策略等價類進行比較,我們可以確定給定數據源是否提供了足夠的信息來恢復最優策略。
其次,我們解決了兩個獎勵函數等價類是相似還是不同的基本問題。我們在這些等價類上引入了一個距離度量,即等價策略不變比較(EPIC),并表明即使在不同的過渡動態下,低EPIC距離的獎勵也會誘導具有相似回報的策略。最后,我們介紹了獎勵函數等價類的可解釋性方法。該方法從等價類中選擇最容易理解的代表函數,然后將代表函數可視化。
在論文的第二部分,我們研究了模型的對抗魯棒性問題。本文首先介紹了一個物理上現實的威脅模型,包括在多智能體環境中行動的對抗性策略,以創建對防御者具有對抗性的自然觀察。用深度強化學習訓練對手,對抗一個凍結的最先進的防御者,該防御者通過自訓練,以對對手強大。這種攻擊可以可靠地戰勝最先進的模擬機器人RL智能體和超人圍棋程序。
最后,研究了提高智能體魯棒性的方法。對抗性訓練是無效的,而基于群體的訓練作為一種部分防御提供了希望:它不能阻止攻擊,但確實增加了攻擊者的計算負擔。使用顯式規劃也有幫助,因為我們發現具有大量搜索的防御者更難利用。
。
一個機器人要想在非結構化的室外環境中與人類高效合作,就必須將指令從操作者直觀的模態轉化為行動。機器人必須能夠像人類一樣感知世界,這樣機器人所采取的行動才能反映自然語言和人類感知的細微差別。傳統上,導航系統結合了個人感知、語言處理和規劃塊,這些塊通常是根據不同的性能規格單獨訓練的。它們使用限制性接口進行通信以簡化開發(即,具有離散屬性的點對象和有限的命令語言),但這也限制了一個模塊可以傳遞給另一個模塊的信息。
深度學習的巨大成功徹底改變了計算機視覺的傳統研究方向,如目標檢測和場景標記。視覺問答(VQA)將自然語言處理中的最先進技術與圖像理解聯系起來。符號基礎、多步驟推理和對空間關系的理解已經是這些系統的元素。這些元素統一在一個具有單一可微損失的架構中,消除了模塊之間定義良好接口的需要,并簡化了與之相伴的假設。我們介紹了一種將文本語言命令和靜態航空圖像轉換為適合規劃的成本圖的技術。我們建立在FiLM VQA架構的基礎上,對其進行調整以生成成本圖,并將其與修改后的可微分計劃損失(最大邊際計劃)結合起來使用Field D*計劃器。通過這種架構,我們向統一語言、感知和規劃到單一的端到端可訓練系統邁出了一步。
我們提出了一個源自CLEVR數據集的可擴展綜合基準測試,我們用它來研究算法在無偏倚環境中具有幾乎無限數據的理解能力。我們分析了該算法在這些數據上的表現,以了解其局限性,并提出未來的工作來解決其缺點。我們使用真實的航空圖像和合成命令提供混合數據集的結果。規劃算法通常具有高分支因子,并且不能很好地映射到近年來催化深度學習發展的GPU。我們精心選擇了Field D和Max Margin Planning,以在高度并行的架構上表現良好。我們引入了一個適用于多GPU數據并行訓練的Field D版本,它使用Bellman-Ford算法,與我們的cpu優化實現相比,性能幾乎提高了十倍。在團隊中工作的人之間的流暢互動取決于對任務、環境和語言微妙之處的共同理解。在這種情況下工作的機器人也必須這樣做。學習將命令和圖像轉換為具有可微分規劃損失的軌跡是捕捉和模仿人類行為的一種方法,也是實現機器人和人類無縫交互的一小步。
機器人研究的一個長期目標是創建能夠從零開始自動學習復雜控制策略的算法。將這種算法應用到機器人上的挑戰之一是表示的選擇。強化學習(RL)算法已經成功地應用于許多不同的機器人任務中,如帶有機器人手臂的cup中的Ball-in-a-Cup任務和各種機器人世界杯機器人足球啟發的領域。然而,RL算法仍然存在訓練時間長、所需訓練數據量大的問題。為狀態空間、行動空間和策略選擇合適的表示可以大大減少所需的訓練時間和所需的訓練數據。
本文主要研究機器人的深度強化學習。具體來說,狀態空間、動作空間和策略表示的選擇如何減少機器人學習任務的訓練時間和樣本復雜度。特別集中注意兩個主要領域: 1)通過張量狀態-動作空間表示 2)多狀態表示的輔助任務學習
第一個領域探索了在環境變化中改進機器人策略遷移的方法。學習策略的成本可能很高,但是如果策略可以在類似的環境中傳輸和重用,那么訓練成本可以平攤。遷移學習是一個被廣泛研究的領域,涉及多種技術。在這篇論文中,我們著重設計一個易于傳輸的表示。我們的方法將狀態空間和動作空間映射為多維張量,設計成當環境中機器人和其他對象的數量變化時保持固定維數。我們還提出了全卷積Q-Network (FCQN)策略表示,這是一種特殊的網絡架構,與張量表示相結合,允許跨環境大小進行零距離傳輸。我們在模擬的單代理和多代理任務上演示了這種方法,靈感來自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我們還表明,在真實世界的傳感器數據和機器人中使用這樣的表示和模擬訓練策略是可能的。
第二個領域考察了一個機器人深度RL狀態表示的優勢如何彌補另一個機器人深度RL狀態表示的劣勢。例如,我們經常想要利用機器人可用的傳感器來學習任務,其中包括像攝像機這樣的高維傳感器。最近的Deep RL算法可以通過圖像進行學習,但是數據的數量對于真實的機器人來說是難以接受的。或者,可以使用任務完成所需的最小集創建狀態。這樣做的好處是:1)減少策略參數的數量,2)刪除不相關的信息。然而,提取這些特征通常會在工程、額外硬件、校準和實驗室之外的脆弱性方面有很大的成本。我們在仿真和現實世界的多個機器人平臺和任務上演示了這一點。我們證明它在模擬的RoboCup小型聯賽(SSL)機器人上工作。我們還演示了這樣的技術允許在真實的硬件上從零開始學習,通過機器人手臂執行一個球在一個杯子的任務。