一、教程說明:
在共享環境中導航智能體團隊是許多現有和新興應用領域的一個重要問題。示例包括倉庫物流、郵件分揀、自主交叉口管理和無人機群的協調。在每種情況下,從業者都必須解決一個具有挑戰性的組合問題,即多智能體路徑查找 (MAPF)。關于這個主題的研究經常出現在人工智能的文獻和旗艦會議的會議記錄中,例如 AAAI。這些工作也引起了鄰近領域的研究人員的興趣,例如機器人和離散優化。
在本教程中,我們建議概述 MAPF 的核心問題并總結這個快速發展的研究領域的最新進展。我們的目標是提供一個涵蓋理論基礎和實際算法的整體視角:用于規劃、執行和處理實踐中常見的各種運營問題。我們的目標受眾是任何對規劃和協調多智能體感興趣的人。本教程將特別有益于對 MAPF 及其許多應用程序感興趣的人。
二、教程大綱: 1、MAPF 概述(slides)
2、規劃 ( slides-part-1 , slides-part-2 )
3、執行(slides)
4、可擴展性(slides-part-1,slides-part-2)
5、總結和機會(slides)
【導讀】國際人工智能會議AAAI 2022論文將在全程線上舉辦,時間在 2 月 22 日-3 月 1 日,本屆大會也將是第 36 屆 AAAI 大會。大會涵蓋了眾多最近研究Tutorial報告,來自?znur Alkan等學者共同做了關于人在環路機器學習進展報告,非常值得關注!
本教程面向人工智能研究人員和實踐者,以及對人在循環機器學習感興趣的領域專家,包括交互式推薦和主動學習。參與者將從豐富的人類反饋中了解交互式機器學習的當前發展——重點是白盒交互和解釋性學習——以及可用方法的多樣性和它們之間的關系的概念圖。主要目的是告訴觀眾關于交互式機器學習的最新解釋,開放的問題和研究方向,以及這些發展如何與更廣泛的機器學習和人工智能背景相關。
目錄內容: The tutorial is split into four main sessions, of roughly 22 minutes each, followed by a Q&A:
Welcome (5min).
Motivation and Challenges (22min), presented by ?znur Alkan.
Interacting via Local Explanations (22min), presented by Stefano Teso.
Interacting via Global Explanations (22min), presented by Elizabeth Daly.
Interaction via Concept-based Explanations (22min), presented by Wolfgang Stammer.
Q&A (12min).
地址:
【導讀】國際人工智能會議AAAI 2022論文將在全程線上舉辦,時間在 2 月 22 日-3 月 1 日,本屆大會也將是第 36 屆 AAAI 大會。大會涵蓋了眾多最近研究Tutorial報告,來自Shirin Sohrabi等學者共同做了關于AI規劃理論與實踐的進展報告,非常值得關注!
人工智能規劃是人工智能的一個長期存在的子領域,處理順序決策,是強化學習的姊妹領域。規劃技術在對話系統、網絡安全、交通物流、IT等各個領域都有成熟的工業應用。雖然基于模型的規劃工具可以解決實際規模的問題,但在實踐中應用人工智能規劃研究面臨著幾個挑戰,阻礙了它的廣泛應用。然而,使用無模型方法的替代方法往往被證明對實際尺寸的問題是不可行的。本教程的目的是為觀眾提供必要的理論背景知識,以及實踐經驗,以允許使用規劃工具解決日常挑戰。在本教程中,我們將概述規劃領域,包括該領域的最新進展。然后,我們將深入研究三個挑戰:(1)建模——如何表示、提取和學習知識;(2)理論和工具——計算問題的形式化定義以及如何解決這些問題;(3)實踐-在端到端應用程序中使用人工智能規劃。我們將有一個實踐環節來舉例說明如何使用規劃工具來解決示例應用。我們的目標是為AAAI的與會者提供在他們的應用中使用人工智能規劃工具的必要手段
在當今日益互聯的世界,圖挖掘在許多現實世界的應用領域發揮著關鍵作用,包括社交網絡分析、建議、營銷和金融安全。人們作出了巨大的努力來發展廣泛的計算模型。然而,最近的研究表明,許多被廣泛應用的圖挖掘模型可能會受到潛在的歧視。圖挖掘的公平性旨在制定策略以減少挖掘過程中引入或放大的偏差。在圖挖掘中加強公平性的獨特挑戰包括: (1)圖數據的非iid性質的理論挑戰,這可能會使許多現有研究背后的公平機器學習的基本假設無效,(2) 算法挑戰平衡模型準確性和公平性的困境。本教程旨在(1)全面回顧圖挖掘方面最先進的技術,(2)確定有待解決的挑戰和未來的趨勢。特別是,我們首先回顧了背景、問題定義、獨特的挑戰和相關問題;然后,我們將重點深入概述(1)在圖挖掘背景下實施群體公平、個人公平和其他公平概念的最新技術,以及(2)圖上算法公平的未來研究方向。我們相信,本教程對數據挖掘、人工智能、社會科學等領域的研究人員和實踐者具有吸引力,并對現實世界的眾多應用領域有益。
//jiank2.web.illinois.edu/tutorial/cikm21/fair_graph_mining.html
【論文標題】多智能體深度強化學習:綜述Multi-agent deep reinforcement learning: a survey
【作者團隊】Sven Gronauer, Klaus Diepold
【論文鏈接】//link.springer.com/content/pdf/10.1007/s10462-021-09996-w.pdf
【推薦理由】強化學習的進步已記錄了各個領域的卓越成就。盡管在此過程中,多智能體領域已被其單智能體領域所遮蓋,但多智能體強化學習獲得了快速發展的動力,最新成果解決了現實世界中的復雜性問題。本文概述了多智能體深度強化學習領域的最新發展。主要關注近年來的文獻,這些文獻結合了深度強化學習方法和多智能體方案。主要內容分為三個部分。首先,分析了用于訓練多個特工的訓練方案的結構。第二,考慮了合作,競爭和混合場景中代理行為的新興模式。第三,系統地枚舉了多代理領域中唯一出現的挑戰,并回顧了用于應對這些挑戰的方法。本文討論了研究進展,確定趨勢并概述了該研究領域未來工作的可能方向。
基于最近關于非凸優化算法在訓練深度神經網絡和數據分析中的其他優化問題中的應用,我們對非凸優化算法全局性能保證的最新理論成果進行了綜述。我們從經典的論證開始,證明一般的非凸問題不可能在合理的時間內得到有效的解決。然后,我們給出了一個可以通過盡可能多地利用問題的結構來尋找全局最優解的問題列表。處理非凸性的另一種方法是將尋找全局最小值的目標放寬到尋找一個平穩點或局部最小值。對于這種設置,我們首先給出確定性一階方法收斂速度的已知結果,然后是最優隨機和隨機梯度格式的一般理論分析,以及隨機一階方法的概述。然后,我們討論了相當一般的一類非凸問題,如α-弱擬凸函數的極小化和滿足Polyak- Lojasiewicz條件的函數,這些函數仍然可以得到一階方法的理論收斂保證。然后我們考慮非凸優化問題的高階、零階/無導數方法及其收斂速度。
Meta-learning in natural and artificial intelligence
元學習,或學會學習,近年來在人工智能領域重新引起了人們的興趣。然而,元學習在自然界中令人難以置信地普遍,它深深植根于認知科學和心理學,目前在神經科學中以各種形式被研究。在這次演講中,我將從元學習的角度討論最近的研究,包括之前的神經科學發現,以及通過元- RL訓練的深度學習系統執行更復雜認知形式的能力,比如因果決策。
論文
元學習在自然界與人工智能
元學習,或學會學習,近年來在人工智能領域重新引起了人們的興趣。然而,元學習在自然界中非常普遍,它深深植根于認知科學和心理學,目前在神經科學中以各種形式被研究。這篇綜述的目的是在元學習的視角下重塑以前的生物智能研究路線,將這些工作置于一個共同的框架中。人工智能和神經科學之間的互動,以及在這個觀點下出現的有趣的新方向將被討論。
The tutorial is written for those who would like an introduction to reinforcement learning (RL). The aim is to provide an intuitive presentation of the ideas rather than concentrate on the deeper mathematics underlying the topic. RL is generally used to solve the so-called Markov decision problem (MDP). In other words, the problem that you are attempting to solve with RL should be an MDP or its variant. The theory of RL relies on dynamic programming (DP) and artificial intelligence (AI). We will begin with a quick description of MDPs. We will discuss what we mean by “complex” and “large-scale” MDPs. Then we will explain why RL is needed to solve complex and large-scale MDPs. The semi-Markov decision problem (SMDP) will also be covered.
The tutorial is meant to serve as an introduction to these topics and is based mostly on the book: “Simulation-based optimization: Parametric Optimization techniques and reinforcement learning” [4]. The book discusses this topic in greater detail in the context of simulators. There are at least two other textbooks that I would recommend you to read: (i) Neuro-dynamic programming [2] (lots of details on convergence analysis) and (ii) Reinforcement Learning: An Introduction [11] (lots of details on underlying AI concepts). A more recent tutorial on this topic is [8]. This tutorial has 2 sections: ? Section 2 discusses MDPs and SMDPs. ? Section 3 discusses RL. By the end of this tutorial, you should be able to ? Identify problem structures that can be set up as MDPs / SMDPs. ? Use some RL algorithms.
題目: A Survey and Critique of Multiagent Deep Reinforcement Learning
簡介: 近年來,深度強化學習(RL)取得了出色的成績。這使得應用程序和方法的數量急劇增加。最近的工作探索了單智能體深度強化之外的學習,并考慮了多智能體深度強化學習的場景。初步結果顯示在復雜的多智能體領域中的成功,盡管有許多挑戰需要解決。本文的主要目的是提供有關當前多智能體深度強化學習(MDRL)文獻的概述。此外,我們通過更廣泛的分析對概述進行補充:(i)我們回顧了以前RL中介紹的基礎內容,并強調了它們如何適應多智能深度強化學習設置。 (ii)我們為該領域的新開業者提供一般指導:描述從MDRL工作中汲取的經驗教訓,指出最新的基準并概述研究途徑。 (iii)我們提出了MDRL的實際挑戰(例如,實施和計算需求)。
作者介紹: Pablo Hernandez-Leal,Borealis AI的研究員,在此之前,曾與Michael Kaisers一起參與過阿姆斯特丹CWI的智能和自治系統。研究方向:單智能體環境開發的算法以及多智能體。計劃開發一種算法,該算法使用博弈論,貝葉斯推理和強化學習中的模型和概念在戰略交互中得到使用。