現代人工智能(AI)為制造智能機器人創造了令人興奮的新機會。特別是,基于梯度的學習架構(深度神經網絡)在感知、推理和行動方面極大地提高了對3D場景的理解。然而,這些進步已經破壞了過去幾十年發展起來的許多“經典”技術。我們假設,“經典”和“學習”方法的混合是開發靈活、可解釋和可操作的世界模型的最有希望的途徑: 智能具身智能體的必要性。
“結合經典技術和基于梯度的學習架構來豐富理解3D世界的理想方式是什么?”是本文的中心問題。這種理解使得大量的應用程序能夠從根本上影響具身智能體如何感知和與其環境交互。這篇論文被稱為“可微世界程序”,將多個密切相關但目前互不相關的領域的研究成果統一起來,包括機器人、計算機視覺、計算機圖形學和人工智能。
我們的第一個貢獻—gradslam—是一個完全可微的密集同時定位和映射(SLAM)系統。通過非線性最小二乘優化、光線投射、視覺測程和密集映射等不可微組件實現梯度計算,gradSLAM為集成經典3D重建和深度學習開辟了新途徑。
我們的第二個貢獻——任務圖——提出了將大型3D場景編碼為3D場景圖的任務條件稀疏化。這使得經典的規劃者能夠通過集中計算與任務相關的場景屬性來匹配(并超越)最先進的基于學習的規劃者。
我們的第三個也是最后一個貢獻—gradsim—是一個完全可微分的模擬器,它由可微分的物理和圖形引擎組成,可以僅從視頻或靜態圖像進行物理參數估計和視覺運動控制。
在新環境中有效的自主導航對于智能體達到更復雜的自主水平至關重要。我們對改善攜帶輕型光電傳感器有效載荷的車輛在未知環境中的自主導航和估計感興趣。由于傳感的限制,在非瑣碎的新環境中,世界的許多幾何結構還沒有被觀察到,導致了嚴重的幾何模糊性。盡管收集額外的幾何信息可以減少模糊性,但這樣做往往與任務的目標相抵觸。我們建議將對象層面的語義信息和幾何信息結合起來,以切實改善導航和估計。
在這篇論文中,我們提出了在新環境中改善自主導航的三個貢獻。首先,我們通過將有用的導航行為編碼在由部分占有率和對象級地圖告知的抽樣分布中,來提高新環境中的導航效率。我們認識到,在有效導航時,在有限的視角下,對象層面的估計是具有挑戰性的,因此我們還開發了兩種在線建立對象層面表征的方法。在我們的第二個貢獻中,我們通過引入額外的紋理測量和語義類形狀先驗,提高了帶有橢圓體表征的對象級SLAM的視點效率。最后,在我們的第三個貢獻中,我們提出了一種新的深度學習的三維對象估計方法,利用間接的圖像空間注釋和類內形狀一致性來實現從單一的RGB圖像的三維對象估計。
多智能體強化學習 (RL) 解決了每個智能體應該如何在多個智能體同時學習的隨機環境中表現最佳的問題。它是一個歷史悠久的跨學科領域,位于心理學、控制理論、博弈論、強化學習和深度學習的聯合領域。繼 AlphaGO 系列在單智能體 RL 中取得顯著成功之后,2019 年是蓬勃發展的一年,見證了多智能體 RL 技術的重大進步;在開發許多具有挑戰性的任務(尤其是多人視頻游戲)上,勝過人類的人工智能已經取得了令人矚目的突破。盡管如此,多智能體 RL 技術的主要挑戰之一仍是可擴展性。設計高效的學習算法來解決包括遠多于兩個智能體 (N2) 的任務仍然不是一件容易的事,我將其命名為大量智能體強化學習 (many-agent reinforcement learning,MARL) 問題。
在本論文中,我從四個方面對解決MARL問題做出了貢獻。首先,我從博弈論的角度提供了多智能體 RL 技術的獨立概述。該概述填補了大多數現有工作要么未能涵蓋自 2010 年以來的最新進展,要么沒有充分關注博弈論的研究空白,我認為博弈論是解決多智能體學習問題的基石。其次,我在多智能體系統中開發了一種易于處理的策略評估算法——。
的關鍵優勢在于它可以在多人廣義和博弈中輕松計算 α-Rank 的解概念,而無需存儲整個收益矩陣。這與經典的解概念形成對比,例如納什均衡,即使在兩人的情況下也被認為是 PPAD 難的。
讓我們第一次能夠實際進行大規模的多智能體評估。第三,我在多智能體系統中引入了一種可擴展的策略學習算法——平均場 MARL。平均場 MARL 方法利用了物理學中的平均場近似,它是第一個試圖打破 MARL 任務維數詛咒的可證明收斂的算法。使用所提出的算法,我給出了通過 MARL 方法解決 Ising 模型和多智能體戰斗博弈的第一個結果。第四,我研究了開放式元博弈(即策略空間中的博弈)中的多智能體學習問題。具體來說,我專注于對元博弈中的行為多樣性進行建模,并開發保證在訓練期間擴大多樣性的算法。所提出的基于行列式點過程的度量,是多樣性的第一個數學嚴格定義。重要的是,多樣性感知學習算法在可利用性方面大大擊敗了現有的最先進的博弈求解器。
除了算法開發之外,我還貢獻了 MARL 技術的兩個實際應用。具體來說,我展示了MARL的巨大應用潛力, 研究了自然界中涌現的人口動態,并為自動駕駛中的多樣化和現實交互建模。這兩個應用程序都體現了 MARL 技術可以在純視頻游戲之外的真實物理世界中產生巨大影響的前景。
與單智能體 RL 相比,多智能體 RL 是一個通用框架,可以更好地匹配現實世界 AI 應用的廣泛范圍。然而,由于存在同時學習的多個智能體,除了單智能體 RL 中已經存在的那些之外,MARL 方法還提出了更多的理論挑戰。與通常有兩個智能體的經典 MARL 環境相比,解決大量智能體 RL 問題更具挑戰性。事實上,1 組合復雜性、2 多維學習目標、3 非平穩性問題,都導致大多數 MARL 算法能夠解決只有兩個玩家的博弈,特別是兩個玩家的零和博弈。
本論文主要圍繞大量智能體強化學習的研究課題。我為這個主題貢獻的方法位于圖 1.8 中列出的三個研究領域:它們是博弈論,它提供了現實且易于處理的解決方案概念來描述大量智能體系統的學習結果; RL 算法,提供可證明的收斂學習算法,可以在順序決策過程中達到穩定和合理的均衡;最后是深度學習技術,它提供了學習算法表達函數逼近器。
圖 1.8:本論文的研究范圍包括三個支柱。深度學習是學習過程中強大的函數逼近工具。博弈論提供了一種描述學習成果的有效方法。 RL 提供了一種有效的方法來描述多智能體系統中智能體的激勵。
圖 1.9:本文后續章節的結構,與列出的三個挑戰(1 組合復雜性、2 多維學習目標、3 非平穩性)相關,每章都試圖解決這些挑戰。
以下各章的結構和貢獻如下(另請參見圖 1.9):
第 2 章:由于 MARL 的可擴展性問題深深植根于其博弈論基礎,在本章中,我將首先概述現代 MARL 方法的博弈論方面,以及最近的進展。我相信這個概述是對社區的重要貢獻,因為大多數現有調查要么不關注博弈論,要么就遺漏了自 2010 年以來的大多數近期文獻而過時。第 1 章和第 2 章構成了 MARL 的獨立專著。該專著的目標是從博弈論的角度對當前最先進的 MARL 技術進行專門評估。我希望這項工作能夠為即將進入這個快速發展領域的新研究人員和想要獲得全景,并根據最新進展確定新方向的現有領域專家提供基礎。
第 3 章:本章提供了 MARL 技術在理解 AI 智能體的新興種群動態方面的應用。本章的目標是在我介紹方法學發展之前作為開篇,展示 MARL 方法的巨大潛力。具體來說,在這項工作中,我將 RL 智能體放入模擬的捕食者-獵物世界中,并驗證自然界中開發的原理是否可用于理解人工創造的智能種群,反之亦然。這項工作的主要貢獻在于,它啟發了許多人口生物學家和計算生物學家,在對宏觀生物學研究中的自利智能體進行建模時,為他們提供了一種基于 MARL 的新方法。
第 4 章:本章介紹了一種新的大量智能體系統策略評估方法:。
是 α-rank 的隨機變體,是一種新穎的解概念,在多人廣義和博弈中具有多項式時間解。
的一個主要好處是,人們現在可以輕松地評估大型多智能體系統(即多人廣義和博弈),例如,具有
聯合策略配置文件的多智能體系統只需一臺機器;這與計算納什均衡相反,即使在兩人的情況下,這也是眾所周知的 PPAD-hard。
第 5 章:在本章中,我將重點解決大量智能體系統中策略學習的核心問題。具體來說,我提出了平均場 MARL (MFMARL) 方法,該方法利用了物理學中平均場近似的經典思想。 MF-MARL 通過僅??考慮總體的平均效應,有效地將大量智能體學習問題轉化為雙智能體問題。使用 MF-MARL 方法,可以有效地訓練數百萬智能體來解決大型合作博弈。我測試了 MF-MARL 算法來解決 Ising 模型,這是一個眾所周知的物理學難題,因為它的組合性質,并得出了第一個基于 MARL 的 Ising 模型解。總的來說,本章的主要貢獻是提供了第一個可證明收斂的可擴展 MARL 算法,并證明了它在遠不止兩個智能體的場景中的有效性。
第 6 章:本章研究開放式元博弈(即策略級別的博弈,也稱為聯盟訓練或自動課程)中的大量智能體學習問題,其中行為多樣性是一個關鍵但尚未充分探索的主題。本章為策略空間中的行為多樣性提供了第一個數學上嚴格的定義,并提出了被證明可以在策略訓練期間擴大多樣性的學習算法。零和博弈的經驗結果表明,所提出的方法在很大程度上優于現有的最新技術。這項研究可能會產生重大的經濟影響,因為所提出的算法可以直接插入到開發游戲 AI 的聯盟訓練中(例如,訓練能夠在撲克游戲中擊敗人類玩家的 AI 群體)。
第 7 章:除第3章外,本章介紹MARL的第二種應用,即自動駕駛(AD)。我展示了使用 MARL 技術來模擬 AD 中現實和多樣化的多智能體交互的巨大潛力。具體來說,我介紹了 SMARTS 平臺:第一個專門支持 RL 和 MARL 訓練的 AD 模擬器。基于 SMART,我分享了一個藍天理念,即在 MARL 中創建多樣化的自動課程是在 AD 中建模現實交互的關鍵。我詳細闡述了多樣化自動課程的必要性,并列出了應用這種技術的四個開放挑戰。本章的貢獻有兩方面:首先,我展示了 MARL 技術可以在真實的物理世界中產生有影響力的應用,而不是純粹的視頻游戲;其次,我向 AD 中的研究人員介紹了一種新方法,以便他們能夠生成當前缺失的高質量交互。
第8章:在最后一章中,我總結了這篇論文,并提出了四個未來的研究方向;它們是深度 MARL 理論、安全魯棒的 MARL、基于模型的 MARL 和多智能體元 RL。
近年來,人工智能研究取得了令人難以置信的發展和進步。這些進展主要是在三個方面取得的:計算機視覺、自然語言處理和機器人技術。例如,圖像識別被廣泛認為是計算機視覺的圣杯,而語言建模和翻譯則是自然語言處理的基本任務。然而,許多實際的應用程序和任務需要解決的不僅僅是這些特定于領域的問題,而是需要解決同時涉及所有三個領域的問題。一個自主系統不僅需要能夠識別圖像中的物體,還需要能夠解釋自然語言描述或命令,并理解它們如何與其感知到的視覺觀察相關聯。此外,機器人需要利用這些信息來做決策,并決定采取哪些物理行動來完成任務。在本文的第一部分中,我提出了一種學習如何將自然語言和3D形狀聯系起來的方法,這樣系統就可以將文本描述中描述的單詞(如“round”)與3D對象中圓形的幾何屬性聯系起來。為了將這兩種模式聯系起來,我們依賴一個跨模態嵌入空間來進行多模態推理,并在沒有細粒度的屬性級分類注釋的情況下學習這個空間。通過學習如何將這兩種模態聯系起來,我們可以執行文本到形狀的檢索和形狀操作等任務,也可以執行新的任務,如文本到形狀的生成。在本論文的第二部分中,我們允許代理被嵌入并探索一個依賴于所有三個領域(計算機視覺、自然語言和機器人)的任務:通過遵循自然語言指令進行機器人導航。與依賴固定的圖像或3D對象數據集不同,代理現在位于一個物理環境中,并使用機載攝像機捕捉自己對空間的視覺觀察。為了把視覺、語言和機器人的物理狀態聯系起來,我們提出了一個使用拓形圖進行規劃和控制的系統。這種基本的抽象允許主體將語言指令的部分與環境的相關空間區域聯系起來,并將一系列的視覺觀察與物理運動和動作聯系起來
作者介紹
Federico Errica在比薩大學獲得計算機科學博士學位,導師是Alessio Micheli和Davide Bacciu。他現在是NEC歐洲實驗室有限公司的研究科學家。他的研究興趣包括圖形的深度概率模型、神經網絡和混合架構。
Bayesian Deep Learning for Graphs
**結構化數據的自適應處理是機器學習中一個長期存在的研究課題,**研究如何自動學習從結構化輸入到各種性質的輸出的映射。最近,人們對圖形的自適應處理越來越感興趣,這導致了不同的基于神經網絡的方法的發展。**在本論文中,我們采用不同的方法,提出了一個用于圖學習的貝葉斯深度學習框架。本論文首先回顧了該領域中大多數方法建立的原則,然后對圖分類再現性問題進行了研究。然后,通過以增量的方式構建我們的深度架構,我們繼續將深度學習的基本思想與貝葉斯世界聯系起來。這個框架允許我們考慮具有離散和連續邊緣特征的圖,產生足夠豐富的無監督嵌入,以達到在多個分類任務上的先進水平。該方法還支持貝葉斯非參數擴展,它可以自動選擇幾乎所有模型的超參數。兩個真實世界的應用證明了深度學習對圖形的有效性。第一個問題是用有監督的神經模型預測分子模擬的信息理論量。**之后,我們利用貝葉斯模型來解決惡意軟件分類任務,同時對過程內代碼混淆技術具有魯棒性。最后,我們試圖將神經和貝葉斯世界的精華融合在一起。由此產生的混合模型能夠預測以輸入圖為條件的多模態分布,因此能夠比大多數工作更好地模擬隨機性和不確定性。總的來說,我們的目標是為圖深度學習的研究領域提供一個貝葉斯視角。
**//www.zhuanzhi.ai/paper/b323bf6a83ab7fa0e026ef63a6cb988e
目錄內容
在第二章中,我們首先回顧了概率論、貝葉斯學習的基本定義,以及我們將在接下來的工作中得到啟發的模型。然后,我們將討論圖的正式定義,從而引導讀者了解最常用的數學符號。最后,我們將簡要總結不直接屬于深度學習的圖的自適應處理的相關方法。
在第三章中,我們介紹了機器學習圖的基本原理,不管模型的性質如何,可以是神經模型、概率模型或混合模型。我們以一個分子生物科學領域的應用來結束本章。
在第四章中,我們介紹了本論文在方法論上的主要貢獻,即深度貝葉斯圖網絡。這篇論述的組織方式是,新技術可以被看作是以前技術的擴展,許多并行性與第三章的基本概念相一致。對于提出的每個模型,我們將展示各種各樣的實證分析,以支持基準的結果。在本章的最后,我們將所開發的模型應用于一個真實世界的惡意軟件分類任務。
在第五章中,我們利用神經網絡和概率網絡的優點,設計了一個混合模型,稱為圖混合密度網絡,以輸出任意輸入圖的多模態分布。對合成隨機圖和真實世界的化學任務的經驗評估是為了表明,對于某些問題,圖深度學習的“標準”方法不能產生正確的輸出。
第六章對論文進行了總結,討論了有待解決的問題和未來的研究方向。
結構化數據的自適應處理是機器學習中一個長期存在的研究課題,研究如何自動學習從結構化輸入到各種性質的輸出的映射。最近,人們對圖形的自適應處理越來越感興趣,這導致了不同的基于神經網絡的方法的發展。在本論文中,我們采用不同的方法,開發了一個用于圖學習的貝葉斯深度學習框架。本論文首先回顧了該領域中大多數方法建立的原則,然后對圖分類再現性問題進行了研究。然后,通過以增量的方式構建我們的深度架構,我們繼續將深度學習的基本思想與貝葉斯世界聯系起來。這個框架允許我們考慮具有離散和連續邊緣特征的圖,產生足夠豐富的無監督嵌入,以達到在多個分類任務上的先進水平。該方法還支持貝葉斯非參數擴展,它可以自動選擇幾乎所有模型的超參數。兩個真實世界的應用證明了深度學習對圖形的有效性。第一個問題是用有監督的神經模型預測分子模擬的信息理論量。之后,我們利用貝葉斯模型來解決惡意軟件分類任務,同時對過程內代碼混淆技術具有魯棒性。最后,我們試圖將神經和貝葉斯世界的精華融合在一起。由此產生的混合模型能夠預測以輸入圖為條件的多模態分布,因此能夠比大多數工作更好地模擬隨機性和不確定性。總的來說,我們的目標是為圖形深度學習的研究領域提供一個貝葉斯視角。
近年來,人工智能研究取得了驚人的發展和進步。這些進步主要是在三個方面取得的:計算機視覺、自然語言處理和機器人技術。例如,圖像識別被廣泛認為是計算機視覺的圣杯,而語言建模和翻譯一直是自然語言處理的基本任務。然而,許多實際應用程序和任務需要解決的不僅僅是這些特定于領域的問題,而是需要解決涉及所有三個領域的問題。一個自主系統不僅需要能夠識別圖像中的物體,而且還需要解釋自然語言的描述或命令,并理解它們如何與它所感知的視覺觀察相關聯。此外,機器人需要利用這些信息進行決策,并決定為了完成任務而采取哪些物理行動。在本文的第一部分,我提出了一種學習如何將自然語言與三維形狀聯系起來的方法,使系統能夠將文本描述中描述的“圓”等詞與三維物體中的圓的幾何屬性進行連接。為了將這兩種模式聯系起來,我們依賴一個跨模態嵌入空間來進行多模態推理,并在沒有細粒度、屬性級分類注釋的情況下學習這個空間。通過學習如何將這兩種模態聯系起來,我們可以執行諸如文本到形狀的檢索和形狀操作等任務,還可以實現新的任務,如文本到形狀的生成。在本論文的第二部分,我們允許主體被具體化,并探索一個依賴于所有三個領域(計算機視覺、自然語言和機器人)的任務:機器人導航通過遵循自然語言指令。不再依賴于固定的圖像或3D對象數據集,代理程序現在位于一個物理環境中,并使用機載相機捕捉自己對空間的視覺觀察。為了在視覺、語言和機器人物理狀態之間建立聯系,我們提出了一個使用拓撲圖執行規劃和控制的系統。這種基本的抽象允許主體將語言指令的部分與環境的相關空間區域聯系起來,并將一系列視覺觀察與物理動作和行動聯系起來。
我們為什么在這里?我們大多數人來到這里的原因很簡單:我們想解決人工智能問題。那么,人工智能和這本書的書名有什么關系呢?人工智能的現代定義之一是對理性代理的研究和設計[RN09]。從這個意義上說,我們將一個系統描述為智能的,當它最大化某些預期的性能概念時。機器學習的子領域處理的是問題和算法的子集,其中代理可以獲得經驗(通常以某種形式的數據),可以利用這些經驗來改進性能的概念[MRT12]。大多數情況下,性能是由代理人在新的和看不見的情況下如何行動來衡量的,這些情況不構成其訓練經驗的一部分。例如,可以訓練一名代理人將英文翻譯成法文,其訓練經驗包括大量翻譯的聯合國文件。然而,在評估時,它可能會在與它所見過的文件不同的聯合國新文件上進行測試。很自然地,代理在它所看到的訓練經驗和它所評估的新情況下的表現之間存在著差距。代理泛化的能力是通過性能上的差距有多小來衡量的。
希望前面的段落已經解釋了在機器學習的背景下,以及在更大的AI背景下,什么是泛化。那么,標題中還保留著哪些“分布外”詞呢?如前所述,泛化是指減少一個agent在已知訓練情境下的表現與同一agent在未知測試情境下的表現之間的差距。然而,有許多不同類型的未知。統計學習通常處理的一類泛化是分布的:當從訓練示例生成的數據與測試示例生成的數據無法區分時。根據定義,非分布內的泛化問題稱為分布外泛化問題,這是本書的主題。
這項工作的目標很簡單。我們想要回顧,分布外泛化的知識。因此,這項工作的很大一部分將致力于理解(有時是微妙的)不同方法和假設之間的差異和相似性,通常以一種孤立的方式呈現。重點將放在與人工智能或現代大規模機器學習應用等想法上。此外,我們將特別注意研究不同方法的缺點,以及下一步可能是重要的。
在第二章中,我們首先討論如何量化分布外泛化。通過幾個例子,我們研究了分布外泛化與處理不同分布外任務的幾種常用方法之間的關系。本文將特別強調這些方法背后的假設,并說明這些方法何時有效,何時無效。
在第三章中,我們將關注一個特定的分布外任務類。在這些預測任務中,就像在許多實際問題中一樣,在分布之外泛化的困難在于找出數據中的哪些相關性是假的和不可靠的,以及哪些相關性代表感興趣的現象。
在第四章中,我們討論了不同應用領域在實踐中出現的分布外任務的類型,以及這些領域在過去是如何處理這些問題的。
在第五章中,我們為分布外泛化和人工智能背景下的新研究領域奠定了基礎。在本章中,我們將關注在探索或強化學習環境中與世界交互的agent,以及它們如何從分布外泛化中獲益。
在因果關系領域,我們想要了解一個系統在干預(例如基因剔除實驗)下是如何反應的。這些問題超出了統計上的依賴,因此不能用標準的回歸或分類技術來回答。在本教程中,你將學習因果推理的有趣問題和該領域的最新發展。不需要事先了解因果關系。
第一部分: 我們引入結構化的因果模型和形式化的干預分布。我們定義因果效應,并說明如果因果結構已知,如何計算它們。
第二部分: 我們提出了三個可以用來從數據中推斷因果結構的想法:(1)發現數據中的(條件)獨立性,(2)限制結構方程模型和(3)利用因果模型在不同環境中保持不變的事實。
第三部分: 如果時間允許,我們將展示因果概念如何在更經典的機器學習問題中使用。
//stat.mit.edu/news/four-lectures-causality/
賦予機器以感知三維世界的能力,就像我們人類一樣,是人工智能領域一個基本且長期存在的主題。給定不同類型的視覺輸入,如二維/三維傳感器獲取的圖像或點云,一個重要的目標是理解三維環境的幾何結構和語義。傳統的方法通常利用手工特征來估計物體或場景的形狀和語義。然而,他們很難推廣到新的對象和場景,并努力克服關鍵問題造成的視覺遮擋。相比之下,我們的目標是理解場景和其中的對象,通過學習一般和魯棒的表示使用深度神經網絡,訓練在大規模的真實世界3D數據。為了實現這些目標,本文從單視圖或多視圖的物體級三維形狀估計到場景級語義理解三個方面做出了核心貢獻。
在第3章中,我們從一張圖像開始估計一個物體的完整三維形狀。利用幾何細節恢復密集的三維圖形,提出一種強大的編碼器解碼器結構,并結合對抗式學習,從大型三維對象庫中學習可行的幾何先驗。在第4章中,我們建立了一個更通用的框架來從任意數量的圖像中精確地估計物體的三維形狀。通過引入一種新的基于注意力的聚合模塊和兩階段的訓練算法,我們的框架能夠集成可變數量的輸入視圖,預測穩健且一致的物體三維形狀。在第5章中,我們將我們的研究擴展到三維場景,這通常是一個復雜的個體對象的集合。現實世界的3D場景,例如點云,通常是雜亂的,無結構的,閉塞的和不完整的。在借鑒以往基于點的網絡工作的基礎上,我們引入了一種全新的端到端管道來同時識別、檢測和分割三維點云中的所有對象。
總的來說,本文開發了一系列新穎的數據驅動算法,讓機器感知我們真實的3D環境,可以說是在推動人工智能和機器理解的邊界。
//ora.ox.ac.uk/objects/uuid:5f9cd30d-0ee7-412d-ba49-44f5fd76bf28