近年來,機器學習發展迅速,尤其是深度學習在圖像、聲音、自然語言處理等領域取得卓越成效.機器學習算法的表示能力大幅度提高,但是伴隨著模型復雜度的增加,機器學習算法的可解釋性越差,至今,機器學習的可解釋性依舊是個難題.通過算法訓練出的模型被看作成黑盒子,嚴重阻礙了機器學習在某些特定領域的使用,譬如醫學、金融等領域.目前針對機器學習的可解釋性綜述性的工作極少,因此,將現有的可解釋方法進行歸類描述和分析比較,一方面對可解釋性的定義、度量進行闡述,另一方面針對可解釋對象的不同,從模型的解釋、預測結果的解釋和模仿者模型的解釋3個方面,總結和分析各種機器學習可解釋技術,并討論了機器學習可解釋方法面臨的挑戰和機遇以及未來的可能發展方向。
深度學習在很多人工智能應用領域中取得成功的關鍵原因在于,通過復雜的深層網絡模型從海量數據中學習豐富的知識。然而,深度學習模型內部高度的復雜性常導致人們難以理解模型的決策結果,造成深度學習模型的不可解釋性,從而限制了模型的實際部署。因此,亟需提高深度學習模型的可解釋性,使模型透明化,以推動人工智能領域研究的發展。本文旨在對深度學習模型可解釋性的研究進展進行系統性的調研,從可解釋性原理的角度對現有方法進行分類,并且結合可解釋性方法在人工智能領域的實際應用,分析目前可解釋性研究存在的問題,以及深度學習模型可解釋性的發展趨勢。為全面掌握模型可解釋性的研究進展以及未來的研究方向提供新的思路。
隨著機器學習模型越來越多地用于在醫療保健和刑事司法等高風險環境中幫助決策者,確保決策者(最終用戶)正確理解并信任這些模型的功能非常重要。我們將回顧了解模型的可解釋性和explainability的概念,詳細討論不同類型的可說明的模型(例如,基于原型方法,稀疏線性模型、基于規則的技術,廣義可加模型),事后解釋(黑箱解釋,包括反事實解釋和顯著性映射),并探索可解釋性與因果性、調試和公平性之間的聯系。可解釋機器學習這些應用可以極大地受益于模型的可解釋性,包括刑事司法和醫療保健。
機器學習(ML)模型現在經常應用于從刑事司法到醫療保健的各個領域。隨著這種新發現的普遍性,ML已經超越了學術界,發展成為一門工程學科。為此,解釋工具設計來幫助數據科學家和機器學習實踐者更好地理解ML模型的工作方式。然而,很少有人評估這些工具在多大程度上實現了這一目標。我們研究數據科學家對兩種現有的可解釋性工具的使用,即GAMs的解釋性ml實現和SHAP Python包。我們對數據科學家進行了背景調查(N=11)和調查(N=197),以觀察他們如何使用可解釋性工具來發現在構建和評估ML模型時出現的常見問題。我們的結果表明,數據科學家過度信任和濫用解釋工具。此外,很少有參與者能夠準確地描述這些工具的可視化輸出。我們為數據科學家的可解釋工具心智模型強調定性主題。我們總結了對研究人員和工具設計者的啟示,并將我們的發現置于社會科學文獻的背景中。
論文題目: Definitions, methods, and applications in interpretable machine learning
論文摘要:
機器學習模型在學習復雜模式方面取得了巨大的成功,這些模式使機器能夠對未觀察到的數據做出預測。除了使用模型進行預測外,解釋模型所學內容的能力正受到越來越多的關注。然而,這種關注的增加導致了對可解釋性概念的相當大的混淆。特別是,目前還不清楚所提出的各種解釋方法是如何相互聯系的,以及可以用什么共同的概念來評價這些方法。我們的目標是通過定義機器學習環境中的可解釋性,并引入預測、描述和相關(PDR)框架來討論解釋性,從而解決這些問題。PDR框架為評估提供了3個主要的需求:預測準確性、描述準確性和相關性,以及相對于人類受眾判斷的相關性。此外,為了幫助管理大量的解釋方法,我們將現有的技術分為基于模型的和特定的類別,包括稀疏性、模塊化性和可模擬性。為了證明從業者如何使用PDR框架來評估和理解解釋,我們提供了大量的實際例子。這些例子突出了人類觀眾在討論可解釋性時常常被低估的作用。最后,基于我們的框架工作,我們討論了現有方法的局限性和未來工作的方向。我們希望這項工作將提供一個共同的詞匯,使從業者和研究人員更容易地討論和選擇全面的解釋方法。
論文作者:
W. James Murdoch是加州大學伯克利分校研究生,研究興趣為可解釋性,機器學習,自然語言處理和因果推理。
Chandan Singh在伯克利攻讀博士學位,研究計算系統,研究范圍是機器學習、可解釋性、計算神經科學。