簡介: 這本書需要數學思維,但只需要基本的背景知識。 在本書的大部分內容中,我們都假設您具備基本的計算機科學知識(算法,復雜性)和基本的概率論。 在更多的技術部分中,我們假設您熟悉Markov決策問題(MDP),數學編程(特別是線性和整數編程)和經典邏輯。
所有這些(基本計算機科學除外)都在附錄中進行了簡要介紹,但是它們只是作為更新和建立符號的用途,不能替代這些主題的背景知識。 (尤其是概率論,這是正確的。)但是,最重要的是,先決條件是具有清晰思考的能力。
本書包括13個章節,大致分為以下幾部分:
Block 1, Chapters 1–2:分布式問題解決
Block 2, Chapters 3–6:非合作博弈論
Block 3, Chapters 7:learning
Block 4, Chapters 8:交流
Block 5, Chapters 9–11:組協議
Block 6, Chapters 12:聯盟博弈論
Block 7, Chapters 13–14:邏輯理論
部分目錄:
作為布爾邏輯的替代
雖然邏輯是理性推理的數學基礎和計算的基本原理,但它僅限于信息既完整又確定的問題。然而,許多現實世界的問題,從金融投資到電子郵件過濾,本質上是不完整或不確定的。概率論和貝葉斯計算共同提供了一個處理不完整和不確定數據的框架。
不完全和不確定數據的決策工具和方法
貝葉斯編程強調概率是布爾邏輯的替代選擇,它涵蓋了為真實世界的應用程序構建概率程序的新方法。本書由設計并實現了一個高效概率推理引擎來解釋貝葉斯程序的團隊編寫,書中提供了許多Python示例,這些示例也可以在一個補充網站上找到,該網站還提供了一個解釋器,允許讀者試驗這種新的編程方法。
原則和建模
只需要一個基本的數學基礎,本書的前兩部分提出了一種新的方法來建立主觀概率模型。作者介紹了貝葉斯編程的原理,并討論了概率建模的良好實踐。大量簡單的例子突出了貝葉斯建模在不同領域的應用。
形式主義和算法
第三部分綜合了已有的貝葉斯推理算法的工作,因為需要一個高效的貝葉斯推理引擎來自動化貝葉斯程序中的概率演算。對于想要了解貝葉斯編程的形式主義、主要的概率模型、貝葉斯推理的通用算法和學習問題的讀者,本文提供了許多參考書目。
常見問題
第四部分連同詞匯表包含了常見問題的答案。作者比較了貝葉斯規劃和可能性理論,討論了貝葉斯推理的計算復雜性,討論了不完全性的不可約性,討論了概率的主觀主義和客觀主義認識論。
貝葉斯計算機的第一步
創建一個完整的貝葉斯計算框架需要新的建模方法、新的推理算法、新的編程語言和新的硬件。本書著重于方法論和算法,描述了實現這一目標的第一步。它鼓勵讀者探索新興領域,例如仿生計算,并開發新的編程語言和硬件架構。
題目: Decision-theoretic foundations for statistical causality
摘要:
我們為企業決策理論的統計因果關系(DT)建立了一個數學和解釋基礎,這是一種直接表達和解決因果問題的方法。DT將因果推理重新定義為“輔助決策”,目的是了解何時以及如何利用外部數據(通常是觀察性的)來幫助解決決策問題,利用數據與我的問題之間假定的關系。
因果問題的任何表述中所包含的關系都需要更深層次的證明,這必然取決于上下文。在這里,我們澄清了支持DT方法應用所需要考慮的事項。互換性考慮被用來構建所需的關系,而意圖治療和干預治療之間的區別形成了“可忽略性”啟用條件的基礎。我們還展示了DT的觀點是如何統一和闡明統計因果關系的其他流行形式的,包括潛在的響應和有向無環圖。
統計學習是一套以復雜數據建模和數據理解為目的的工具集,是近期才發展起來的統計學的一個新領域。本書出自統計學習領域聲名顯赫的幾位專家,結合R語言介紹了分析大數據必不可少的工具,提供一些重要的建模和預測技術,并借助豐富的實驗來解釋如何用R語言實現統計學習方法。論題包括線性回歸、分類、重抽樣方法、壓縮方法、基于樹的方法、支持向量機、聚類等,作者借助彩圖和實際案例直觀解釋這些方法。為了讀者更好地理解書中內容,每章后還配有豐富的概念性和應用性練習題。
書中內容與《The Elements of Statistical Learning》的大部分內容相同,但是本書起點低,弱化了數學推導的細節,更注重方法的應用,所以更適合作為入門教材。當然,這本《統計學習導論》不僅是優秀的“統計學習”或“機器學習”課程的教材,也是數據挖掘、數據分析等相關從業者不可或缺的參考書。
Gareth James 斯坦福大學統計學博士畢業,師從Trevor Hastie。現為南加州大學馬歇爾商學院統計學教授,美國統計學會會士,數理統計協會終身會員,新西蘭統計協會會員。《Statistica Sinica》、《Applications and Case Studies》、《Theory and Methods》等期刊的副主編。
Daniela Witten 斯坦福大學統計學博士畢業,師從Robert Tibshirani。現為華盛頓大學生物統計學副教授,美國統計學會和國際數理統計協會會士,《Journal of Computational and Graphical Statistics》和《Biometrika》等期刊副主編。
Trevor Hastie 美國統計學家和計算機科學家,斯坦福大學統計學教授,英國皇家統計學會、國際數理統計協會和美國統計學會會士。Hastie參與開發了 R 中的大部分統計建模軟件和環境,發明了主曲線和主曲面。
Robert Tibshirani 斯坦福大學統計學教授,國際數理統計協會、美國統計學會和加拿大皇家學會會士,1996年COPSS總統獎得主,提出lasso方法。Hastie和Tibshirani都是統計學習領域的泰山北斗,兩人合著《The Elements of Statistical Learning》,還合作講授斯坦福大學的公開課《統計學習》。
題目: A Game Theoretic Framework for Model Based Reinforcement Learning
摘要: 基于模型的強化學習(MBRL)最近獲得了極大的興趣,因為它具有潛在的樣本效率和合并非策略數據的能力。然而,使用富函數逼近器設計穩定、高效的MBRL算法仍然具有挑戰性。為了從抽象的角度揭示MBRL的實際挑戰并簡化算法設計,我們開發了一個新的框架,將MBRL描述為:(1)一個策略參與者,它試圖在學習模型下最大化回報;(2)一個模型player,它試圖與策略player收集的真實數據相匹配。在算法開發方面,我們構造了一個雙方參與的Stackelberg博弈,并證明了它可以用近似的雙層優化來解決。這就產生了兩種自然的MBRL算法,基于這兩種算法,玩家被選擇為Stackelberg游戲的領導者。它們一起封裝、統一和泛化了許多以前的MBRL算法。此外,我們的框架是一致的,并提供了一個明確的基礎啟發式已知是重要的實踐,從以往的工作。最后,通過實驗驗證了所提出的算法具有較高的樣本效率,匹配無模型策略梯度的漸近性能,并能擴展到靈巧手操作等高維任務。
主題: Algorithmic Machine Learning and Data Science
介紹: 本課程數學嚴謹,需要以前的機器學習課程(例如CS-UY 4563、CS-GY 6923或ECE-GY 6143)和以前的算法設計和分析課程(例如CS-UY 2413、CS-GY 6033或CS-GY 6043)為基礎。
講師介紹: Christopher Musco,紐約大學坦頓工程學院計算機科學與工程的助理教授。他的研究是關于機器學習和數據科學的算法基礎。他在麻省理工學院完成了計算機科學博士學位。在麻省理工學院之前,他是Redfin的工程師。
題目: Epistemic Reasoning In Multiagent Systems
報告簡介: 本教程介紹了動態認知邏輯,該邏輯使人們能夠及時推理知識及其演化。 我們將首先展示如何為認知情況建模。 其次,我們將討論推理任務的算法問題。 第三,我們將介紹動態邏輯的擴展。
嘉賓介紹:
Tristan Charrier,博士。 研究領域:符號模型,認知計劃,用于指定認知情況的語言,認知推理的證明。
Fran?ois Schwarzentruber是法國雷恩(ENS Rennes)副教授。 他目前的研究興趣主要集中在邏輯理論及其在人工智能,代理和多代理系統以及計算機科學中的應用。 他曾是Synthese,Studia Logica和Theoretical Computer Science等期刊的審稿人。 自2011年以來,他的研究主要致力于研究動態認知邏輯。
slide簡介:
Despite deep reinforcement learning has recently achieved great successes, however in multiagent environments, a number of challenges still remain. Multiagent reinforcement learning (MARL) is commonly considered to suffer from the problem of non-stationary environments and exponentially increasing policy space. It would be even more challenging to learn effective policies in circumstances where the rewards are sparse and delayed over long trajectories. In this paper, we study Hierarchical Deep Multiagent Reinforcement Learning (hierarchical deep MARL) in cooperative multiagent problems with sparse and delayed rewards, where efficient multiagent learning methods are desperately needed. We decompose the original MARL problem into hierarchies and investigate how effective policies can be learned hierarchically in synchronous/asynchronous hierarchical MARL frameworks. Several hierarchical deep MARL architectures, i.e., Ind-hDQN, hCom and hQmix, are introduced for different learning paradigms. Moreover, to alleviate the issues of sparse experiences in high-level learning and non-stationarity in multiagent settings, we propose a new experience replay mechanism, named as Augmented Concurrent Experience Replay (ACER). We empirically demonstrate the effects and efficiency of our approaches in several classic Multiagent Trash Collection tasks, as well as in an extremely challenging team sports game, i.e., Fever Basketball Defense.