【導讀】一份簡明博弈論教程
【導讀】來自加州大學圣地亞哥分校《計算機視覺中的領域自適應》中生成式對抗網絡GAN介紹
【導讀】來自Jordi Pons一份循環神經網絡RNNs簡明教程,37頁ppt
【導讀】來自Fariz Darari博士的一份簡明《神經網絡與深度學習》的講義,64頁ppt,可以學習。
這本全面的教科書向讀者介紹了博弈論的主要思想和應用,以一種結合了嚴謹性和可達性的風格。Steven Tadelis從對理性決策的簡明描述開始,接著討論了具有完全信息的策略性和廣泛的形式博弈、貝葉斯博弈和具有不完全信息的廣泛的形式博弈。他涵蓋了一系列的主題,包括多階段重復博弈、討價還價理論、拍賣、尋租博弈、機制設計、信號博弈、信譽構建和信息傳遞博弈。與其他博弈論書籍不同,這本書從理性的概念開始,通過諸如主導策略和理性化等概念,探討其對多人決策問題的影響。只有這樣,它才提出了納什均衡及其導數的問題。
《博弈論》是高等本科和研究生的理想教材。在整個過程中,概念和方法是解釋使用真實世界的例子支持精確的分析材料。這本書有許多重要的應用經濟學和政治學,以及大量的練習,集中在如何正式的非正式情況,然后分析他們。
介紹博弈論的核心思想和應用 包含靜態和動態博弈,包含完整和不完整的信息 提供各種各樣的例子、應用程序和練習 主題包括重復博弈、討價還價、拍賣、信號、聲譽和信息傳輸 適合本科及研究生 為教師提供完整的解決方案,為學生提供精選的解決方案
現代博弈論的權威性和定量方法,應用于經濟、政治科學、軍事科學和金融等不同領域。
探索當前博弈論文本中未涉及的領域,包括對零和博弈的深入研究;提供博弈論的入門材料,包括討價還價,室內游戲,體育,網絡游戲和動態游戲;探討議價模式,探討議價模式下的資源分配、買賣指示、信譽等新結果;在每一章的結尾,都會給出理論結果以及大量的例子和詳細的解決方案;平衡了博弈論的理論基礎和復雜應用。
Deep Reinforcement Learning via Policy Optimization
簡介: 遷移學習作為機器學習的一大分支,已經取得了長足的進步。本手冊簡明地介紹遷移學習的概念與基本方法,并對其中的領域自適應問題中的若干代表性方法進行講述。最后簡要探討遷移學習未來可能的方向。 本手冊編寫的目的是幫助遷移學習領域的初學者快速入門并掌握基本方法,為自己的研究和應用工作打下良好基礎。 本手冊的編寫邏輯很簡單:是什么——介紹遷移學習;為什么——為什么要用遷移學習、為什么能用;怎么辦——如何進行遷移 (遷移學習方法)。其中,是什么和為什么解決概念問題,這是一切的前提;怎么辦是我們的重點,也占據了最多的篇幅。為了最大限度地方便初學者,我們還特別編寫了一章上手實踐,直接分享實現代碼和心得體會。
作者簡介: 王晉東,現于中國科學院計算技術研究所攻讀博士學位,研究方向為遷移學習、機器學習等。他在國際權威會議ICDM、UbiComp等發表多篇文章。同時,也是知乎等知識共享社區的機器學習達人(知乎用戶名:王晉東不在家)。他還在Github上發起建立了多個與機器學習相關的資源倉庫,成立了超過120個高校和研究所參與的機器學習群,熱心于知識的共享。個人主頁://jd92.wang
目錄:
Few-shot Learning aims to learn classifiers for new classes with only a few training examples per class. Existing meta-learning or metric-learning based few-shot learning approaches are limited in handling diverse domains with various number of labels. The meta-learning approaches train a meta learner to predict weights of homogeneous-structured task-specific networks, requiring a uniform number of classes across tasks. The metric-learning approaches learn one task-invariant metric for all the tasks, and they fail if the tasks diverge. We propose to deal with these limitations with meta metric learning. Our meta metric learning approach consists of task-specific learners, that exploit metric learning to handle flexible labels, and a meta learner, that discovers good parameters and gradient decent to specify the metrics in task-specific learners. Thus the proposed model is able to handle unbalanced classes as well as to generate task-specific metrics. We test our approach in the `$k$-shot $N$-way' few-shot learning setting used in previous work and new realistic few-shot setting with diverse multi-domain tasks and flexible label numbers. Experiments show that our approach attains superior performances in both settings.
Most policy search algorithms require thousands of training episodes to find an effective policy, which is often infeasible with a physical robot. This survey article focuses on the extreme other end of the spectrum: how can a robot adapt with only a handful of trials (a dozen) and a few minutes? By analogy with the word "big-data", we refer to this challenge as "micro-data reinforcement learning". We show that a first strategy is to leverage prior knowledge on the policy structure (e.g., dynamic movement primitives), on the policy parameters (e.g., demonstrations), or on the dynamics (e.g., simulators). A second strategy is to create data-driven surrogate models of the expected reward (e.g., Bayesian optimization) or the dynamical model (e.g., model-based policy search), so that the policy optimizer queries the model instead of the real system. Overall, all successful micro-data algorithms combine these two strategies by varying the kind of model and prior knowledge. The current scientific challenges essentially revolve around scaling up to complex robots (e.g., humanoids), designing generic priors, and optimizing the computing time.