主題: Predictive Models: Explore, Explain, and Debug,Human-Centered Interpretable Machine Learning
簡介: 在這本書中,我們提出了一系列可用于模型驗證、模型探索和模型決策解釋的方法。由于這類方法的發展是一個非常活躍的研究領域,而且新方法幾乎是在連續的基礎上出現的,因此我們并不打算窮盡所有的方法。相反,我們提出了思維定勢、關鍵問題和一些可用于模型探索的方法示例。
作者介紹: Przemyslaw Biecek,華沙理工大學的副教授和華沙大學的助理教授。他的研究方向是大型復雜數據的預測建模、數據可視化和模型可解釋性。//pbiecek.github.io/index.html
Tomasz Burzykowski,博士,哈塞爾特大學理學院教授。
機器學習方法以有限的資源快速地從大量的數據中提取價值。它們是在廣泛的工業應用中建立起來的工具,包括搜索引擎、DNA測序、股票市場分析和機器人移動,它們的使用正在迅速蔓延。了解這些方法的人可以選擇有回報的工作。這個動手實踐書冊為計算機科學學生打開這些機會。它是專為具有有限的線性代數和微積分背景的大四本科生和碩士生設計的。它在圖模型的框架內開發了從基本推理到高級技術的所有內容。學生們學到的不僅僅是一系列的技巧,他們還會發展分析和解決問題的技巧,這些技巧使他們能夠適應真實的世界。許多例子和練習,以計算機為基礎和理論,包括在每一章。為學生和教師的資源,包括一個MATLAB工具箱,可在網上獲得。
主題: Explainable Reinforcement Learning: A Survey
摘要: 可解釋的人工智能(XAI),即更透明和可解釋的AI模型的開發在過去幾年中獲得了越來越多的關注。這是由于這樣一個事實,即AI模型隨著其發展為功能強大且無處不在的工具而表現出一個有害的特征:性能與透明度之間的權衡。這說明了一個事實,即模型的內部工作越復雜,就越難以實現其預測或決策。但是,特別是考慮到系統像機器學習(ML)這樣的方法(強化學習(RL))在系統自動學習的情況下,顯然有必要了解其決策的根本原因。由于據我們所知,目前尚無人提供可解釋性強化學習(XRL)方法的概述的工作,因此本調查試圖解決這一差距。我們對問題進行了簡短的總結,重要術語的定義以及提議當前XRL方法的分類和評估。我們發現a)大多數XRL方法通過模仿和簡化一個復雜的模型而不是設計本質上簡單的模型來起作用,并且b)XRL(和XAI)方法通常忽略了方程的人為方面,而不考慮相關領域的研究像心理學或哲學。因此,需要跨學科的努力來使所生成的解釋適應(非專家)人類用戶,以便有效地在XRL和XAI領域中取得進步。
題目: Interpreting Interpretability: Understanding Data Scientists’Use of Interpretability Tools for Machine Learning
摘要: 機器學習(ML)模型現在經常應用于從刑事司法到醫療保健的各個領域。隨著這種新發現的普遍性,ML已經超越了學術界,發展成為一門工程學科。為此,設計了解釋工具來幫助數據科學家和機器學習實踐者更好地理解ML模型的工作方式。然而,很少有人評估這些工具在多大程度上實現了這一目標。我們研究數據技術人員使用兩種現有的解釋性工具,GAMs的解釋性ml實現和SHAP Python包。我們對數據科學家進行了背景調查(N=11)和調查(N=197),以觀察他們如何使用可解釋性工具來發現在構建和計算ML模型時出現的常見問題。我們的結果表明,數據科學家過度信任和濫用解釋工具。此外,我們的參與者很少能夠準確地描述這些工具的可視化輸出。我們為數據科學家強調可解釋工具的心智模型的定性主題。我們總結了對研究人員和工具設計者的啟示,并將我們的發現置于社會科學文獻的背景中。
簡介: 機器學習可解釋性的新方法以驚人的速度發布。與所有這些保持最新將是瘋狂的,根本不可能。這就是為什么您不會在本書中找到最新穎,最有光澤的方法,而是找到機器學習可解釋性的基本概念的原因。這些基礎知識將為您做好使機器學??習模型易于理解的準備。
可解釋的是使用可解釋的模型,例如線性模型或決策樹。另一個選擇是與模型無關的解釋工具,該工具可以應用于任何監督的機器學習模型。與模型不可知的章節涵蓋了諸如部分依賴圖和置換特征重要性之類的方法。與模型無關的方法通過更改機器學習的輸入來起作用建模并測量輸出中的變化。
本書將教您如何使(監督的)機器學習模型可解釋。這些章節包含一些數學公式,但是即使沒有數學知識,您也應該能夠理解這些方法背后的思想。本書不適用于嘗試從頭開始學習機器學習的人。如果您不熟悉機器學習,則有大量書籍和其他資源可用于學習基礎知識。我推薦Hastie,Tibshirani和Friedman(2009)撰寫的《統計學習的要素》一書和Andrewra Ng在Coursera3上開設的“機器學習”在線課程,著手進行機器學習。這本書和課程都是免費的!在本書的最后,對可解釋機器學習的未來前景持樂觀態度。
目錄:
簡介:
深度學習被認為是一種無模型,端到端和黑盒子的方法。它需要大量數據樣本,而不是目標領域的專家知識。因此,它沒有指定決策的機制和原因。這方面被認為是深度學習的關鍵限制。本文介紹了另一種觀點,即貝葉斯深度學習。深度學習可以應用在任何框架中,例如貝葉斯網絡和強化學習。隨后,專家可以將知識實現為圖結構,加快學習速度,并獲得目標域上的新知識。該框架被稱為深度生成模型。相反,我們可以將貝葉斯建模方法直接引入深度學習。隨后,有可能通過不確定性量化輸出來探究關于其決策確定性的深度學習,并檢測錯誤的決策或異常輸入。使用上述方法,可以調整深度學習的“brightness”。
論文題目: Definitions, methods, and applications in interpretable machine learning
論文摘要:
機器學習模型在學習復雜模式方面取得了巨大的成功,這些模式使機器能夠對未觀察到的數據做出預測。除了使用模型進行預測外,解釋模型所學內容的能力正受到越來越多的關注。然而,這種關注的增加導致了對可解釋性概念的相當大的混淆。特別是,目前還不清楚所提出的各種解釋方法是如何相互聯系的,以及可以用什么共同的概念來評價這些方法。我們的目標是通過定義機器學習環境中的可解釋性,并引入預測、描述和相關(PDR)框架來討論解釋性,從而解決這些問題。PDR框架為評估提供了3個主要的需求:預測準確性、描述準確性和相關性,以及相對于人類受眾判斷的相關性。此外,為了幫助管理大量的解釋方法,我們將現有的技術分為基于模型的和特定的類別,包括稀疏性、模塊化性和可模擬性。為了證明從業者如何使用PDR框架來評估和理解解釋,我們提供了大量的實際例子。這些例子突出了人類觀眾在討論可解釋性時常常被低估的作用。最后,基于我們的框架工作,我們討論了現有方法的局限性和未來工作的方向。我們希望這項工作將提供一個共同的詞匯,使從業者和研究人員更容易地討論和選擇全面的解釋方法。
論文作者:
W. James Murdoch是加州大學伯克利分校研究生,研究興趣為可解釋性,機器學習,自然語言處理和因果推理。
Chandan Singh在伯克利攻讀博士學位,研究計算系統,研究范圍是機器學習、可解釋性、計算神經科學。
諸如深度卷積神經網絡和遞歸神經網絡之類的復雜機器學習模型最近在諸如對象/場景識別,圖像字幕,視覺問題解答等廣泛的計算機視覺應用中取得了長足進步。但它們通常被視為黑匣子。隨著模型越來越深入地尋求更好的識別精度,變得越來越難以理解模型給出的預測及其原因。
本教程的目的是讓計算機視覺社區廣泛參與計算機視覺模型的可解釋性和可解釋性的主題。我們將回顧最近的進展,我們取得了可視化,解釋和解釋方法,以分析數據和模型在計算機視覺。本教程的主要主題是通過闡明機器學習可解釋性的動機、典型方法、未來趨勢和由此產生的可解釋性的潛在工業應用,就機器學習可解釋性這一新興主題建立共識。
機器學習模型經常被批評是技術黑箱:只要輸入數據就能得到正確答案,但卻無法對其進行解釋。Christoph Molnar在其新書中呼吁大家當前是時候停止將機器學習模型視為黑盒子,在學會運用模型的同時更應去學會分析模型如何做出決策,并給出了將黑盒變得具有可解釋性的討論。
Machine-learning models have demonstrated great success in learning complex patterns that enable them to make predictions about unobserved data. In addition to using models for prediction, the ability to interpret what a model has learned is receiving an increasing amount of attention. However, this increased focus has led to considerable confusion about the notion of interpretability. In particular, it is unclear how the wide array of proposed interpretation methods are related, and what common concepts can be used to evaluate them. We aim to address these concerns by defining interpretability in the context of machine learning and introducing the Predictive, Descriptive, Relevant (PDR) framework for discussing interpretations. The PDR framework provides three overarching desiderata for evaluation: predictive accuracy, descriptive accuracy and relevancy, with relevancy judged relative to a human audience. Moreover, to help manage the deluge of interpretation methods, we introduce a categorization of existing techniques into model-based and post-hoc categories, with sub-groups including sparsity, modularity and simulatability. To demonstrate how practitioners can use the PDR framework to evaluate and understand interpretations, we provide numerous real-world examples. These examples highlight the often under-appreciated role played by human audiences in discussions of interpretability. Finally, based on our framework, we discuss limitations of existing methods and directions for future work. We hope that this work will provide a common vocabulary that will make it easier for both practitioners and researchers to discuss and choose from the full range of interpretation methods.