過去的十年見證了機器學習在諸多領域(如醫療保健、金融和司法)的巨大進步。然而,近年來的技術進步主要依賴于深度神經網絡,這種網絡的不透明性阻礙了人們對這些模型的檢查能力。此外,一些法律要求正在提議,要求在部署和使用模型之前必須先理解模型。這些因素推動了提高這些模型可解釋性和透明度的研究。本論文在這個方向上做出了一些貢獻。
首先,我們對當前用于定義和評估模型預測解釋的技術進行了簡潔而實用的概述。然后,我們觀察到各種可解釋性概念的定義和評估之間存在一種新穎的對偶性,并提出了一種新的生成解釋的方法,研究了這些新解釋的屬性。接下來,我們詳細研究了良好解釋的兩個基本屬性:正確性 - 解釋是否反映了模型內部的決策邏輯,以及可理解性 - 人類是否能夠準確地從這些解釋中推斷出更高層次和更普遍的模型行為。對于每個方面,我們都提出了評估方法來評估現有的模型解釋方法,并討論了它們的優缺點。
接下來,我們探討了解釋哪些實例的問題,并將透明度示例觀點作為回答這個問題的方法。我們展示了這種方法在揭示圖像分類器和機器人控制器的隱藏屬性方面的優勢。最后,本論文確定了未來研究的方向,并倡導將模型可解釋性和透明度更緊密地融入到可信賴機器學習研究的生態系統中,該生態系統還包括公平性、魯棒性和隱私等方面的努力。
1. 引言
在過去的十年中,機器學習(ML)迅速改變了社會。從谷歌翻譯、Facebook好友標記和Snapchat過濾器等日常產品和功能,到醫療診斷、保險承保和貸款審批等專家知識領域,再到自動駕駛、虛擬現實和基因治療等新興技術,ML在所有這些領域都發揮了關鍵作用,人們普遍認為,它的重要性只會越來越重要。盡管如此,ML的廣泛應用也帶來了獨特的挑戰。當我們無法手動指定模式時,ML的目標是從數據中自動發現它們。例如,在圖像分類中,因為如果有可能的話,編寫一個手動規則來分類像素矩陣是看起來更像貓還是狗是極其困難的,我們借助于ML在像素矩陣空間中學習一個決策邊界,以將貓的邊界和狗的邊界分開。當邊界具有非常復雜的形狀時,就像大多數復雜任務需要的那樣,理解它就成為一個嚴峻的挑戰。因此,學習計算這些邊界的模型通常由深度神經網絡或樹集成(例如,隨機森林或增強樹)表示,通常被稱為“黑盒模型”。
但是,為什么我們需要或者想要理解這些模型呢?除了滿足一般的好奇心外,了解模型學習的內容還有非常實際的目的。考慮一個基于過去貸款數據訓練的模型,以做出新的抵押貸款批準決策。雖然理想情況下我們希望模型根據申請人的財務健康狀況和還款可能性進行預測,但它很可能會學會依賴虛假的相關性。例如,在歷史上,非裔美國人往往財務不穩定,受到銀行的歧視,這導致這種種族與拒絕貸款有很強的相關性。因此,該模型可以學習一個簡單的規則,即拒絕非裔美國申請人,而不考慮他們的其他因素,這與訓練數據基本一致。對于這個模型,如果我們有強調種族特征對模型預測的重要性的模型解釋,我們可以很容易地發現種族偏見。 再舉一個例子,假設我們想訓練一個神經網絡來從x射線圖像中檢測癌癥,其中的數據來自兩個來源:綜合醫院和專業癌癥中心。可以預料的是,來自癌癥中心的圖像包含更多的癌癥病例。然而,在渲染x射線圖像時,癌癥中心在左上角添加了一個小的時間戳水印。由于時間戳與癌癥存在強烈相關,模型可以學習使用它進行預測。在這種情況下,雖然該模型可以通過識別時間戳或癌癥的真實醫學信號來達到非常高的準確性,但前者的操作模式將錯過所有沒有時間戳水印的癌癥陽性圖像的檢測,例如來自不同醫院的圖像。因此,如果我們意識到水印確實很重要,那么我們應該丟棄模型,并重新開發數據收集和模型訓練流程。 除了這些假設的設置之外,對這些模型的普遍缺乏了解也導致了許多引人注目的失敗。例如,谷歌照片中的圖像識別系統將深色皮膚的人標記為大猩猩,微軟的對話機器人Tay在某些提示下生成仇恨言論。因為我們對模型的行為沒有很好的理解,所以很難預測什么圖像或什么提示會導致這樣的惡劣行為,并主動阻止它們發生。這種擔憂導致了值得信任的機器學習領域的發展,廣泛地旨在使機器學習系統在部署后可靠和可靠。它包含許多子領域,被廣泛研究的子領域包括可解釋性、透明性、公平性、魯棒性和隱私性。本文側重于前兩個,試圖通過生成對其預測的解釋或研究其各種行為(例如,高置信度失敗)來更好地理解黑盒模型。本文將重點放在這兩個主題上,因為它們是實現公平、魯棒性和隱私的“手段”。
下面,我們對第2章到第7章進行概述,這構成了本文的技術內容。第八章重申了本文的主要觀點,并指出了今后的研究方向。
標準的模型理解方法從流程的第二階段開始,在這個階段我們已經確定了一些要研究的輸入實例。從這里開始,生成局部解釋來說明模型對這些輸入的推理過程。在本論文中,“模型推理”主要指的是每個特征的重要性。接下來,這些局部解釋被人類解釋消費者總結為更全局和普遍的模型理解,以便在后續決策中作出相應調整(例如,由于種族歧視而放棄模型)。在簡要概述模型可解釋性研究的現狀之后,我們將在第2章中關注生成和評估局部解釋的方法。在第3章中,我們提出了一種生成解釋的新范式,并討論了它的影響。然后,在第4章和第5章中,我們介紹了模型解釋的兩個關鍵屬性,即正確性和可理解性,并提出了評估這些屬性的方法,并討論了這些發現對未來模型解釋研究的影響。最后,本論文還倡導在模型理解流程的更早階段開始。我們不應從任意或隨機的輸入實例開始,而應明確考慮每個模型行為,如矛盾預測或高置信度錯誤,并將它們用于指導解釋輸入的選擇。具體而言,第6章和第7章介紹了Bayes-TrEx和RoCUS框架,以找到符合某種目標模型行為的輸入實例。從某種意義上說,這兩個框架回答了“解釋什么”的問題。
隨著機器學習模型在各種應用中的部署越來越頻繁,我們越來越需要更好地理解、交互和調節它們的行為。解釋性機器學習是一個致力于這一需求的研究領域,其主要焦點最初在滿足有利于揭示有關模型預測的可能有用信息的算法屬性的方法論發展。然而,批評也強調了需要更為嚴謹地評估這些方法在不同用戶的具體任務中的應用。在這篇論文中,我們對該領域的方法論和應用方面做出了我們個人的貢獻。在方法論上,我們提出了一種有效的算法,通過影響力大的訓練數據點提供關于模型行為的重要信息。然后,我們提出了一種理論框架,以理解模型在性能和公平性指標上的權衡。接下來,從應用驅動的角度,我們討論了一個評估框架,測試現有的圖像顯著性方法是否適用于實際的假相關檢測任務。最后,受到學術同行評審中實際問題的啟發,我們展示了我們對新的和現有的方法在幫助人類用戶進行文檔匹配任務方面的效用的發現。
在計算機視覺和自然語言處理等實踐領域表現出色的復雜機器學習模型,越來越多地被用來協助人類進行高風險的決策,如醫療、金融、法律和社會應用。這種加速的采用使得人類用戶越來越需要更好地理解、調節和與這些模型交互。解釋性機器學習是一個致力于這一需求的廣泛研究領域。許多文獻中的工作側重于方法論的發展:開發新的滿足各種技術目標的方法,可以有效地從一個黑盒機器學習模型中引出重要和有用的信息。然而,這些方法使用的各種技術目標與引出的信息的實際“重要性”或“有用性”沒有明確的聯系,這本質上依賴于用戶使用信息進行某些下游任務。因此,基于具體應用對開發的方法進行評估,對于完全閉環開發具有實用價值的新方法至關重要。在這篇論文中,我們提出了對這個領域的方法論和應用重點方面的個人貢獻。
本書對深度學習模型可解釋性的最新研究工具進行了全面的策劃、闡述和說明性討論,重點是神經網絡架構。此外,還包括計算機視覺、光學和機器學習相關主題的應用導向型文章中的若干案例研究。
這本書可以作為深度學習中涵蓋最新主題的可解釋性的專題論文,也可以作為研究生的教科書。負責研究、開發和應用的科學家從它的系統闡述中受益。
本書的動機是深度學習架構的黑箱性質與其編碼的知識模型的人類可解釋性之間的巨大差距。人工智能模型的準確性和可理解性對于人工智能和人類智能的共存和協作變得越來越重要。在某些危及生命的應用中,可解釋性對于根本原因分析和人類決策至關重要。本書側重于對深度學習模型可解釋性的最新研究工具進行全面的策劃、闡述和說明性討論,重點是神經網絡架構。其中很大一部分工作補充了現有的深度學習和神經網絡教科書,并以過去十年的工作為基礎,其中重點是網絡中編碼的知識的可視化和可解釋性。這些工作來自計算機視覺、模式識別和深度學習領域的領先會議和期刊。此外,還包括來自不同領域的面向應用文章的幾個案例研究,包括計算機視覺、光學和自然語言處理。在目前與深度學習、機器學習和神經網絡相關的研究生課程中,缺乏處理可解釋性主題的教學材料。這主要是因為機器學習社區之前的重點是精度,而可解釋性的問題是一個新興的話題。然而,隨著書籍[81]、[428]、課堂講稿[532]、新課程以及觀點[520]的出版,它作為越來越相關的主題正在獲得吸引力。然而,這些工作中對通用機器學習的關注意味著,深度學習中的可解釋性問題目前仍然沒有得到足夠的深度解決,深度學習現在在各種機器學習應用中廣泛使用。因此,這本教科書將是致力于這一主題的先驅教科書之一。這可能會導致設立關于這一主題的專門研究生課程,因為人們認為需要這類課程,但缺乏關于這一主題的有組織的材料是一個突出的障礙。
在第一章中,我們介紹了本書的背景和動機,幫助讀者設定對本書的期望并理解材料的范圍。我們還通過總結深度學習的演變提供了一個簡短的歷史。在此過程中,我們也闡明了這種演變如何導致知識抽象化的增加,從而形成了眾所周知的黑箱模型,它編碼了知識但并未解釋知識。我們自然地將這個討論引向可解釋性的問題,確定了其必要性以及所面臨的挑戰。我們也澄清了本書的重點是解決現有深度學習架構中的可解釋性,而將新的天然可解釋的深度學習架構的設計主題委托給最后一章的一個小節(并可能在未來的本書第二卷中)。
在第二章中,我們介紹了深度學習的各種現代主題,包括傳統的神經網絡架構、學習機制以及深度學習的挑戰。本章的目標是介紹背景概念并為后續章節的技術闡述做準備。特別地,我們將會覆蓋卷積神經網絡、自編碼器、對抗神經網絡、圖神經網絡和神經模糊網絡,因為在接下來的章節中將詳細探討這些范式的可解釋性機制。同樣,具體的學習機制將會被解釋,以便在后續章節中識別可解釋性的損失或機會。出于全面性的考慮,我們還將包含一節關于其他類型的深度學習方法,即使在其他章節中并未詳述它們的可解釋性。
在第三章中,我們開始全面處理可解釋性。具體來說,我們在深度學習方法的一般特性的背景下討論可解釋性的概念。我們從討論神經元和特征級別的抽象知識編碼開始,然后討論抽象編碼的可解釋性和可視化。從理解概念、優點和缺點的角度出發,我們討論了諸如激活圖、顯著性、注意力模型等常規技術。然后,我們分析了在優化或學習過程中知識如何傳播,作為深入了解如何解釋使用深度學習模型學習的知識的挑戰和機會。神經網絡通過連續的非線性激活提取特征,這使得知識表示變得困難,同時對噪聲和不完整數據區域敏感。我們使用一個案例研究討論了知識與性能的關系。最后,我們討論了深度編碼與淺層編碼的解釋,這兩者的性能存在競爭。因此,本章涵蓋了一系列普遍適用于任何深度學習架構的可解釋性主題。
第四章專門介紹針對特定單一架構的可解釋性方法。本章選擇的架構有卷積神經網絡、自編碼器網絡、對抗網絡和圖學習技術。我們包括了與這些架構相關的相對較新的主題,例如卷積神經網絡的新概念“卷積追蹤”,自編碼器網絡潛在空間中抽象特征的可解釋性,對抗網絡中判別模型的可解釋性,以及圖神經網絡的圖嵌入解釋性。我們為每種架構給出了至少一個案例研究,包括來自各種應用領域的案例。我們也簡要地參考了注意力網絡,這種網絡在設計中固有地包含了某種可解釋性。
第五章專門討論模糊深度學習。這種方法與以神經網絡為中心的深度學習略有不同,因為模糊邏輯和基于規則的推理是這類網絡設計的核心。對解釋的需求導致了對基于規則的系統的再度關注。這也是一個被獨立研究的主題,很少在深度學習和可解釋性的特定背景下研究。我們通過闡述模糊深度學習的主題和相關的.
機器學習已經被應用于越來越多影響我們日常生活的社交相關場景,從社交媒體和電子商務到自動駕駛汽車和刑事司法。因此,開發可信、可靠的機器學習方法至關重要,以避免對個人和社會產生負面影響。本文致力于理解和提升圖機器學習的可信性,由于圖數據的復雜關系結構,這提出了獨特的挑戰。
特別地,我們認為機器學習模型的可信性在異常情況下是可靠的。例如,機器學習模型在對抗攻擊下或在子種群上的性能不應嚴重退化,分別對應對抗魯棒性或公平性問題。值得信任的圖機器學習的獨特挑戰是,在圖數據的上下文中有許多更復雜的,有時是隱式的異常條件。本文識別了未充分挖掘的異常情況,理解了識別出的異常情況下的預期模型行為,并改進了現有模型在此類異常情況下的行為。
重點關注圖神經網絡(GNN),這是一類流行的圖機器學習模型,利用了深度學習的最新進展。**本文確定了圖神經網絡的三種異常情況。**首先,受社交網絡應用場景啟發,通過一個新的實際威脅模型研究了GNN的對抗魯棒性,并研究了GNN何時以及為什么會遭受對抗攻擊。發現現有的GNN對許多現實世界的圖數據可能會被錯誤指定,并開發了一個新的框架來改進現有的模型。發現了一種與節點結構位置相關的測試節點子種群之間的GNN預測的不公平性。本文還提出了一種主動學習框架來緩解不公平問題。
人工智能(AI),特別是機器學習(ML),已經作為一種通用技術融入人類社會1,有望在許多方面重塑我們的日常生活,從社交媒體和電子商務,到自動駕駛汽車和刑事司法。然而,盡管AI和ML帶來了巨大的經驗成功和商業價值,但要更廣泛地部署這些技術,需要更好地理解ML模型對社會的影響。因此,可信的ML成為了一個越來越受歡迎的研究方向。Trustworthy ML是一個概括性的概念,包括關于ML可靠性和透明度的各種主題,如公平性、魯棒性、可解釋性等。
例如,機器學習模型可能在特定子種群上的系統表現較差,這導致了公平性問題。因此,對機器學習公平性的研究興趣迅速增加。也有現實世界的ML應用程序證明了偏見和不公平:亞馬遜的人工智能招聘工具被發現具有性別偏見[37];一種曾經廣泛使用的犯罪預測工具,矯正罪犯管理分析替代制裁(COMPAS),被發現具有種族偏見[4]。另一個例子是,ML模型已被證明對添加到數據中的小的對抗性擾動很敏感,因此容易受到對抗性攻擊[136]。例如,最先進的計算機視覺模型可能通過停車標志[45]上看似隨機的涂鴉,將停車標志識別為限速標志。
由于相關主題的多樣性和我們對可信機器學習的科學理解的文獻歷史,社區自然發展出了一套相對被廣泛接受的可信性問題的概念類別,包括但不限于公平性、魯棒性、安全性、隱私、可問責性、可解釋性和因果性。雖然這種概念分類,像任何分類系統一樣,有助于簡化對該領域的理解,但有時也會產生誤導。
首先,這種分類可以使可信機器學習的不同問題被視為孤立的主題。然而,這些不同的可信性問題可能相互沖突或相關。例如,在某些隱私和公平概念之間存在固有的沖突[32,24]。另一方面,公平性也可以與域外泛化相關[99]。此外,可解釋的ML[41]和因果推理[113]可以成為一些公平性或魯棒性問題的候選解決方案。一個扁平的概念類別分類方法無法捕捉不同主題之間豐富的相互關系。
其次,這種分類傾向于為每個主題尋找過度通用的解決方案,這可能不是解決可信機器學習問題的最佳方法。由于主題的概念性質,通常有各種直觀合理的方法來將可信性概念(例如,公平性或魯棒性)形式化為定量概念,而同時實現所有概念的可信性是不現實的。例如,Kleinberg等人[78]證明,通常不可能有一種算法同時滿足三個常見的公平標準。因此,沒有一個通用的解決方案是所有應用的萬能藥。此外,不同的可信性問題的重要性和恰當表述是高度特定于應用程序的。就可信性不同方面的重要性而言,例如,自動駕駛汽車可能會遭受對抗性攻擊,因為它在野生[45]中接受數據輸入;相比之下,對電子健康記錄(EHR)數據進行對抗性攻擊實際上要困難得多,因為這些數據由授權的醫療專家生成,并且在封閉的系統中循環。另一方面,EHR數據的隱私標準遠高于駕駛數據。在可信性的正確制定方面,研究表明,制定的選擇應該利用利益相關者在具體應用[28]中的感知。總的來說,應該將可信性作為位于特定類型的應用程序場景中的ML技術的屬性來研究,而不是作為通用ML技術的屬性。
許多現有的可信性概念可以按照這個程序重新制定。例如,機器學習模型的不公平性問題往往是由于它們在特定少數子種群上的性能下降,而與它們在多數子種群上的性能相比。機器學習的對抗漏洞是指與在干凈數據上的性能相比,它們在對抗攻擊下的性能下降。另一方面,其他一些可信性概念,如可解釋性或因果關系,不能通過上述過程直接表述。在某種程度上,不公平或不魯棒的模型將產生直接后果,而可解釋性或因果關系可以被視為緩解問題的候選解決方案(例如,不公平或不魯棒)。上述過程關注的是作為問題而不是解決方案的可信性概念。這個過程還強調應用場景的可信性問題。
為約束特定應用場景下的可信范圍,本文對圖機器學習(GML)的可信性進行了研究。現實世界的數據中存在大量的關系結構,通常以圖的形式表示。例如,社交媒體上的用戶或物聯網系統中的傳感器通過圖結構進行連接。如果在預測任務中使用得當,這種關系圖結構可以提供顯著的預測能力。GML是一個流行的機器學習技術家族,它將圖結構用于預測模型。近年來,GML在許多影響人們日常生活的應用中表現出了優異的性能。舉個常見的例子,GML在Uber Eats[65]、亞馬遜[162]和Pinterest[157]的工業推薦系統中發揮著重要作用;GML還被廣泛用于在谷歌Map[38]中的ETA預測或房地產價格估計等任務中對地理數據進行建模[114]。此外,由于關系結構的普遍性,GML方法已經應用于或準備應用于高利害攸關的決策問題,如社會正義。例如犯罪預測和數據驅動的起訴[68,156],警察不當行為預測[22],假釋決定的風險評估[132],公共安全監視[95],以及許多其他社會公正和安全問題[111]。
鑒于GML的眾多社會相關應用場景,這類ML系統的可信性問題變得至關重要。此外,與傳統的ML相比,由于GML復雜的關系結構,在理解和改進GML的可信性問題方面存在獨特的挑戰。特別是,在GML的上下文中,有許多更復雜,有時甚至是隱式的異常條件。以對抗性攻擊為例,在傳統的機器學習設置中,攻擊者大多通過向輸入特征添加對抗性擾動來進行攻擊。對于GML,在實際應用中存在著更復雜的威脅:攻擊者不僅可以擾動GML節點屬性,還可以擾動圖結構;攻擊者還可以通過擾動鄰居節點來間接影響節點的預測結果。在子種群之間的機器學習公平性方面,大多數傳統文獻研究的是有關某些敏感屬性的子種群,如性別或種族。在圖數據中,人們可以根據圖結構來調查子群體,例如節點中心性[12,13]或社區結構[51,47]。社會科學理論認為,社會網絡中人們的結構特征往往與其社會經濟地位相關[53,16]。圖數據中獨特的對抗性威脅和基于結構的子群呈現出在傳統ML文獻中沒有充分探索的例外情況,使可信的GML更具挑戰性。
本文旨在解決這些對理解和提高GML可信性的獨特挑戰。具體而言,本文旨在回答以下3類研究問題,并在3種應用場景下展示研究方法。
機器學習的現實應用通常具有復雜的目標和安全關鍵約束。當代的機器學習系統擅長于在具有簡單程序指定目標的任務中實現高平均性能,但它們在許多要求更高的現實世界任務中很困難。本文致力于開發可信的機器學習系統,理解人類的價值觀并可靠地優化它們。
機器學習的關鍵觀點是,學習一個算法通常比直接寫下來更容易,然而許多機器學習系統仍然有一個硬編碼的、程序指定的目標。獎勵學習領域將這種見解應用于學習目標本身。由于獎勵函數和目標之間存在多對一的映射,我們首先引入由指定相同目標的獎勵函數組成的等價類的概念。
在論文的第一部分,我們將等價類的概念應用于三種不同的情形。首先,我們研究了獎勵函數的可識別性:哪些獎勵函數集與數據兼容?我們首先對誘導相同數據的獎勵函數的等價類進行分類。通過與上述最優策略等價類進行比較,我們可以確定給定數據源是否提供了足夠的信息來恢復最優策略。
其次,我們解決了兩個獎勵函數等價類是相似還是不同的基本問題。我們在這些等價類上引入了一個距離度量,即等價策略不變比較(EPIC),并表明即使在不同的過渡動態下,低EPIC距離的獎勵也會誘導具有相似回報的策略。最后,我們介紹了獎勵函數等價類的可解釋性方法。該方法從等價類中選擇最容易理解的代表函數,然后將代表函數可視化。
在論文的第二部分,我們研究了模型的對抗魯棒性問題。本文首先介紹了一個物理上現實的威脅模型,包括在多智能體環境中行動的對抗性策略,以創建對防御者具有對抗性的自然觀察。用深度強化學習訓練對手,對抗一個凍結的最先進的防御者,該防御者通過自訓練,以對對手強大。這種攻擊可以可靠地戰勝最先進的模擬機器人RL智能體和超人圍棋程序。
最后,研究了提高智能體魯棒性的方法。對抗性訓練是無效的,而基于群體的訓練作為一種部分防御提供了希望:它不能阻止攻擊,但確實增加了攻擊者的計算負擔。使用顯式規劃也有幫助,因為我們發現具有大量搜索的防御者更難利用。
。
隨著深度學習方法多年來取得了巨大的成功,對這些模型的理解還沒有跟上模型的發展。可解釋機器學習是致力于理解復雜機器學習模型的主要研究領域之一。雖然提出解釋的例子越來越多,但對解釋的評估一直是一個懸而未決的問題。在解釋的開發階段,涉及人類的評估是昂貴的。為了解決解釋設計過程中涉及到人的困難,本文旨在定義客觀標準,允許人們在沒有人的情況下衡量一些好的屬性解釋和相對于客觀標準可取的設計解釋。
在本文中,我們討論了使可解釋AI方法的評估更加客觀的不同標準,其中我們的方法主要可以分為三個方面:(a)忠實導向(b)理論驅動的(c)應用驅動的。面向忠實度的度量通常與模型的解釋應該忠實地“解釋”模型這一核心概念相關聯。理論動機的客觀標準通常具有“當模型和數據滿足某種性質時,解釋應滿足相應的性質”的形式。應用驅動的客觀標準定量模擬解釋如何在沒有人類的情況下幫助某些應用。我們為不同類型的解釋設計客觀標準,并使用這些客觀標準來指導新的解釋的設計。最后,通過一些人體研究來驗證這些新解釋的設計。
//chihkuanyeh.github.io/ 谷歌Brain的研究科學家。在CMU讀博期間,研究興趣集中在通過更客觀的解釋(可能是功能評價或理論性質)來理解和解釋機器學習模型。最近,對用更少(但更有效)的數據構建更好的大尺度模型感興趣,并通過模型解釋獲得的理解來改進模型。
**引言
可解釋人工智能(XAI)領域關注的是解釋機器學習模型的任務,隨著現代機器學習模型復雜性的增長,這一領域受到了越來越多的關注。解釋機器學習模型復雜的內部工作原理的需求也顯著增加,特別是當機器學習模型被應用于高風險決策時,包括金融、法律、醫療、社會應用和自動駕駛。在這些應用中,對高風險決策的解釋有助于理解和調試模型,增強用戶對模型的信任,明確模型的責任,并與模型就人- ai協作進行溝通。例如,使用人工智能幫助診斷的醫生將通過了解人工智能如何預測來決定是否信任它,從而受益。在社交應用中,理解模型為什么會做出某些決定來檢驗算法是否公平也很關鍵。此外,《通用數據保護條例》聲稱,數據保護當局有權解釋算法的輸出[123]。
解釋機器學習模型的一個關鍵困難是術語“解釋”或“可解釋性”沒有明確定義。目前的大多數解釋都解釋了復雜模型的某些類型的“屬性”,這些屬性可以被人類消化。一些常見的屬性包括但不限于模型使用的最顯著的數據輸入特征,模型使用的最顯著的訓練數據,模型使用的最顯著的人類可理解的概念,以及如何改變數據點的特征來改變模型的預測。然而,有許多不同的解釋和相互矛盾的哲學。例如,給定一個圖像分類器,圖像分類器的關鍵像素可能被認為是對某些用戶的一個很好的解釋,因為它闡明了模型如何進行預測,但也可能被認為是不可解釋的,因為最顯著的特征可能不足以推斷模型的推理原理。可以進行用戶研究和訪談,并要求用戶在給定的一組不同的解釋中選擇最具解釋性的算法,這與公正性的度量啟發有關[27,75]。然而,要求人類選擇最容易解釋的解釋也有其缺陷。眾所周知,人類存在認知偏差,解釋似乎是可以解釋的,但與模型無關。最近的研究甚至表明,許多關鍵的解釋彼此不一致,用戶可以根據個人喜好來決定使用哪種解釋[92]。如何選擇一個復雜機器學習模型的正確“屬性”來解釋?
衡量解釋有效性的另一種方法可能是評估解釋在應用中與人類一起的有用性,這是許多最近的研究提出的。Doshi-Velez和Kim[39]、Murdoch等人[116]提出要評估涉及人類用戶的現實應用中的解釋,并測試解釋如何在現實應用中幫助用戶。類似地,Chen等人。[25]鼓勵可解釋的機器學習問題與目標用例更緊密地聯系起來,并建議考慮基于真實任務的模擬版本的模擬。雖然這種評價是基于實際的應用,但利用這種類型的評價可能代價高昂,特別是在解釋的發展階段,因為這種評價往往需要真正的人參與。因此,合理的基于功能的評估對于設計/選擇要使用的解釋可能是有用的,而應用程序驅動的評估可以用于驗證設計/選擇的解釋可以在真實的應用程序或模擬用例中幫助人類。我們將這類基于功能的評估稱為客觀標準,主要是因為它在評估階段不需要實際的人員參與。
在本文中,我們主要考慮三類客觀標準(基于功能的評價):(1)以忠實度為動機的客觀標準,其動機是解釋對模型的描述能力如何;(2)以應用為動機的客觀標準,其動機是解釋在現實應用中如何被使用;(3)以理論為動機的公理標準,其動機是通過解釋的某些理論特性來幫助解釋的設計。下面,我們將更深入地討論這三類客觀標準。
一類基于功能的評價是基于解釋對給定模型的忠實程度,也被稱為解釋的忠實度或描述準確性[116]。解釋的忠實度是至關重要的,因為“忠實度”通常很難用人類來衡量——人類可能更喜歡那些在視覺上有吸引力但與要解釋的模型無關的解釋。客觀標準的一種形式是基于“解釋是否解釋了這個模型?”這個問題。這些評估的核心思想是確定一個忠實的解釋應該滿足的屬性,并在模型-解釋對上執行測試,以驗證屬性是否滿足。Murdoch等人[116]也將其稱為描述性準確性,因為它衡量了解釋解釋模型的準確性。例如,許多解釋是局部鄰域內的線性近似,而忠實度度量度量解釋在局部鄰域內近似模型的程度。Adebayo等人[2]的一個流行例子是為解釋設計一個完整性檢查,即隨機改變模型權重也應該改變結果解釋。令人驚訝的是,并不是所有的解釋都令人信服地通過了這個理性檢查,這可能意味著一些解釋不忠實于模型。
應用驅動客觀標準
另一種形式的客觀標準是基于與解釋相關的應用,特別是那些不需要人工參與或可以自動模擬的應用。例如,尋找有害的訓練例是基于例解釋的一個關鍵應用,而基于例解釋的某些評估涉及到根據解釋刪除有害的訓練例,并對模型進行再訓練,并衡量新模型的性能。由于在這種應用中不需要人工參與,移除和再訓練評估已經成為由現實應用驅動的基于實例的解釋的一個關鍵的客觀標準。
理論動機的客觀標準
基于功能的解釋評估的另一種形式是公理形式的理論性質。公理可以被看作是解釋在特定輸入中應該如何表現的理論約束。如果要解釋的機器學習模型具有某種期望的特性,人們會希望這種期望的特性可以反映在解釋中。這種解釋的約束稱為公理性質。例如,如果機器學習模型在兩個特征上是完全對稱的,并且這兩個特征對于某個給定的輸入具有相同的值,那么這兩個特征對這個輸入的解釋值應該是相同的。這就是被廣泛用于解釋方法的對稱公理。也許將公理融入設計解釋中最常見的工作是Shapley值家族[139],它起源于合作博弈論社區。
本文的目標是開發和定義有意義的客觀標準,并使用這些客觀標準來幫助我們設計不同類型的解釋。由于不同的解釋類型自然會遵循不同的客觀標準,我們旨在為各種解釋類型設計客觀標準,包括特征重要性解釋、特征集解釋、特征交互重要性解釋、示例重要性解釋和基于概念的解釋。
深度學習方法在許多人工智能任務中實現了不斷提高的性能。深度模型的一個主要限制是它們不具有可解釋性。這種限制可以通過開發事后技術來解釋預測來規避,從而產生可解釋的領域。近年來,深度模型在圖像和文本上的可解釋性研究取得了顯著進展。在圖數據領域,圖神經網絡(GNNs)及其可解釋性正經歷著快速的發展。然而,對GNN解釋方法并沒有統一的處理方法,也沒有一個標準的評價基準和試驗平臺。在這個綜述中,我們提供了一個統一的分類的視角,目前的GNN解釋方法。我們對這一問題的統一和分類處理,闡明了現有方法的共性和差異,并為進一步的方法論發展奠定了基礎。為了方便評估,我們為GNN的可解釋性生成了一組基準圖數據集。我們總結了當前的數據集和評價GNN可解釋性的指標。總之,這項工作為GNN的解釋提供了一個統一的方法處理和一個標準化的評價測試平臺。
引言
深度神經網絡的發展徹底改變了機器學習和人工智能領域。深度神經網絡在計算機視覺[1]、[2]、自然語言處理[3]、[4]、圖數據分析[5]、[6]等領域取得了良好的研究成果。這些事實促使我們開發深度學習方法,用于在跨學科領域的實際應用,如金融、生物學和農業[7]、[8]、[9]。然而,由于大多數深度模型是在沒有可解釋性的情況下開發的,所以它們被視為黑盒。如果沒有對預測背后的底層機制進行推理,深度模型就無法得到完全信任,這就阻止了它們在與公平性、隱私性和安全性有關的關鍵應用中使用。為了安全可靠地部署深度模型,有必要提供準確的預測和人類可理解的解釋,特別是為跨學科領域的用戶。這些事實要求發展解釋技術來解釋深度神經網絡。
深度模型的解釋技術通常研究深度模型預測背后的潛在關系機制。一些方法被提出來解釋圖像和文本數據的深度模型。這些方法可以提供與輸入相關的解釋,例如研究輸入特征的重要分數,或對深度模型的一般行為有較高的理解。例如,通過研究梯度或權重[10],[11],[18],我們可以分析輸入特征和預測之間的靈敏度。現有的方法[12],[13],[19]映射隱藏特征圖到輸入空間和突出重要的輸入特征。此外,通過遮擋不同的輸入特征,我們可以觀察和監測預測的變化,以識別重要的特征[14],[15]。與此同時,一些[10]、[16]研究側重于提供獨立于輸入的解釋,例如研究能夠最大化某類預測得分的輸入模式。進一步探究隱藏神經元的含義,理解[17]、[22]的整個預測過程。近年來對[23]、[24]、[25]、[26]等方法進行了較為系統的評價和分類。然而,這些研究只關注圖像和文本域的解釋方法,忽略了深度圖模型的可解釋性。
近年來,圖神經網絡(Graph Neural network, GNN)越來越受歡迎,因為許多真實世界的數據都以圖形的形式表示,如社交網絡、化學分子和金融數據。其中,節點分類[27]、[28]、[29]、圖分類[6]、[30]、鏈路預測[31]、[32]、[33]等與圖相關的任務得到了廣泛的研究。此外,許多高級的GNN操作被提出來提高性能,包括圖卷積[5],[34],[35],圖注意力[36],[37],圖池化[38],[39],[40]。然而,與圖像和文本領域相比,圖模型的可解釋性研究較少,這是理解深度圖神經網絡的關鍵。近年來,人們提出了幾種解釋GNN預測的方法,如XGNN[41]、GNNExplainer [42]、PGExplainer[43]等。這些方法是從不同的角度發展起來的,提供了不同層次的解釋。此外,它仍然缺乏標準的數據集和度量來評估解釋結果。因此,需要對GNN解釋技術的方法和評價進行系統的綜述。
為此,本研究提供了對不同GNN解釋技術的系統研究。我們的目的是提供對不同方法的直觀理解和高層次的洞察,讓研究者選擇合適的探索方向。這項工作的貢獻總結如下:
本綜述提供了對深度圖模型的現有解釋技術的系統和全面的回顧。據我們所知,這是第一次也是唯一一次關于這一主題的綜述工作。
我們對現有的GNN解釋技術提出了一個新的分類方法。我們總結了每個類別的關鍵思想,并提供了深刻的分析。
我們詳細介紹了每種GNN解釋方法,包括其方法論、優缺點以及與其他方法的區別。
我們總結了常用的GNN解釋任務的數據集和評估指標。我們討論了它們的局限性,并推薦了幾個令人信服的度量標準。
通過將句子轉換為圖表,我們從文本領域構建了三個人類可理解的數據集。這些數據集不久將向公眾開放,并可直接用于GNN解釋任務。
GNN解釋性分類法
近年來,人們提出了幾種解釋深圖模型預測的方法。這些方法關注于圖模型的不同方面,并提供不同的視圖來理解這些模型。他們通常會回答幾個問題;其中一些是,哪個輸入邊更重要?哪個輸入節點更重要?哪個節點特性更重要?什么樣的圖形模式將最大化某個類的預測?為了更好地理解這些方法,我們為GNN提供了不同解釋技術的分類。我們分類法的結構如圖1所示。根據提供的解釋類型,不同的技術分為兩大類:實例級方法和模型級方法。
首先,實例級方法為每個輸入圖提供依賴于輸入的解釋。給出一個輸入圖,這些方法通過識別用于預測的重要輸入特征來解釋深度模型。根據獲得的重要度分數,我們將方法分為4個不同的分支:基于梯度/特征的方法[53]1,[50],基于微擾的方法[42],[53]0,[53]3,[52],[53],分解方法[53]2,[50],[54],[55],以及代理方法[56],[57],[58]。具體來說,基于梯度/特征的方法使用梯度或特征值來表示不同輸入特征的重要性。此外,基于擾動的方法監測預測的變化與不同的輸入擾動,以研究輸入的重要性得分。分解方法首先將預測得分(如預測概率)分解到最后一隱藏層的神經元中。然后逐層反向傳播這些分數,直到輸入空間,并使用這些分解后的分數作為重要分數。與此同時,對于給定的輸入示例,基于代理的方法首先從給定示例的鄰居中采樣數據集。接下來,這些方法擬合一個簡單的和可解釋的模型,如決策樹,以采樣數據集。然后使用代理模型的解釋來解釋最初的預測。第二,模型級方法不考慮任何特定的輸入實例來解釋圖神經網絡。獨立于輸入的解釋是高層次的,解釋一般行為。與instance level方法相比,這個方向的研究仍然較少。現有的模型級方法只有基于圖生成的XGNN[41]。它生成圖形模式來最大化某個類的預測概率,并使用這些圖形模式來解釋該類。
總之,這兩類方法從不同的角度解釋了深度圖模型。實例級方法提供了特定于示例的解釋,而模型級方法提供了高層次的見解和對深度圖模型如何工作的一般理解。要驗證和信任深度圖模型,需要人工監督檢查解釋。對于實例級方法,需要更多的人工監督,因為專家需要探索不同輸入圖的解釋。對于模型級方法,由于解釋是高層次的,因此涉及的人力監督較少。此外,實例級方法的解釋基于真實的輸入實例,因此它們很容易理解。然而,對模型級方法的解釋可能不是人類能夠理解的,因為獲得的圖形模式甚至可能不存在于現實世界中。總之,這兩種方法可以結合起來更好地理解深度圖模型,因此有必要對兩者進行研究。
機器學習在許多部署的決策系統中發揮著作用,其方式通常是人類利益相關者難以理解或不可能理解的。以一種人類可以理解的方式解釋機器學習模型的輸入和輸出之間的關系,對于開發可信的基于機器學習的系統是至關重要的。一個新興的研究機構試圖定義機器學習的目標和解釋方法。在本文中,我們試圖對反事實解釋的研究進行回顧和分類,這是一種特殊類型的解釋,它提供了在模型輸入以特定方式改變時可能發生的事情之間的聯系。機器學習中反事實可解釋性的現代方法與許多國家的既定法律原則相聯系,這使它們吸引了金融和醫療等高影響力領域的實地系統。因此,我們設計了一個具有反事實解釋算法理想性質的準則,并對目前提出的所有反事實解釋算法進行了綜合評價。我們的標題便于比較和理解不同方法的優缺點,并介紹了該領域的主要研究主題。我們也指出了在反事實解釋空間的差距和討論了有前途的研究方向。
機器學習作為一種在許多領域實現大規模自動化的有效工具,正日益被人們所接受。算法能夠從數據中學習,以發現模式并支持決策,而不是手工設計的規則。這些決定可以并確實直接或間接地影響人類;備受關注的案例包括信貸貸款[99]、人才資源[97]、假釋[102]和醫療[46]的申請。在機器學習社區中,新生的公平、責任、透明度和倫理(命運)已經成為一個多學科的研究人員和行業從業人員的團體,他們感興趣的是開發技術來檢測機器學習模型中的偏見,開發算法來抵消這種偏見,為機器決策生成人類可理解的解釋,讓組織為不公平的決策負責,等等。
對于機器決策,人類可以理解的解釋在幾個方面都有優勢。例如,關注一個申請貸款的申請人的用例,好處包括:
對于生活受到該決定影響的申請人來說,解釋是有益的。例如,它幫助申請人理解他們的哪些因素是做出決定的關鍵因素。
此外,如果申請人覺得受到了不公平待遇,例如,如果一個人的種族在決定結果時至關重要,它還可以幫助申請人對決定提出質疑。這對于組織檢查其算法中的偏見也很有用。
在某些情況下,解釋為申請人提供了反饋,他們可以根據這些反饋采取行動,在未來的時間內獲得預期的結果。
解釋可以幫助機器學習模型開發人員識別、檢測和修復錯誤和其他性能問題。
解釋有助于遵守與機器生產決策相關的法律,如GDPR[10]。
機器學習中的可解釋性大體上是指使用固有的可解釋的透明模型或為不透明模型生成事后解釋。前者的例子包括線性/邏輯回歸、決策樹、規則集等。后者的例子包括隨機森林、支持向量機(SVMs)和神經網絡。
事后解釋方法既可以是模型特定的,也可以是模型不可知的。特征重要性解釋和模型簡化是兩種廣泛的特定于模型的方法。與模型無關的方法可以分為視覺解釋、局部解釋、特性重要性和模型簡化。
特征重要性(Feature importance)是指對模型的整體精度或某個特定決策最有影響的特征,例如SHAP[80]、QII[27]。模型簡化找到了一個可解釋的模型,該模型緊致地模仿了不透明模型。依存圖是一種常用的直觀解釋,如部分依存圖[51]、累積局部效應圖[14]、個體條件期望圖[53]。他們將模型預測的變化繪制成一個特征,或者多個特征被改變。局部解釋不同于其他解釋方法,因為它們只解釋一個預測。局部解釋可以進一步分為近似解釋和基于實例的解釋。近似方法在模型預測需要解釋的數據點附近抽取新的數據點(以下稱為explainee數據點),然后擬合線性模型(如LIME[92])或從中提取規則集(如錨[93])。基于實例的方法尋求在被解釋數據點附近找到數據點。它們要么以與被解釋數據點具有相同預測的數據點的形式提供解釋,要么以預測與被解釋數據點不同的數據點的形式提供解釋。請注意,后一種數據點仍然接近于被解釋的數據點,被稱為“反事實解釋”。
回想一下申請貸款的申請人的用例。對于貸款請求被拒絕的個人,反事實的解釋為他們提供反饋,幫助他們改變自己的特征,以過渡到決策邊界的理想一面,即獲得貸款。這樣的反饋被稱為可執行的。與其他幾種解釋技術不同,反事實解釋不能明確回答決策中的“為什么”部分;相反,他們提供建議以達到預期的結果。反事實解釋也適用于黑箱模型(只有模型的預測功能是可訪問的),因此不限制模型的復雜性,也不要求模型披露。它們也不一定能近似底層模型,從而產生準確的反饋。由于反事實解釋具有直覺性,因此也符合法律框架的規定(見附錄C)。
在這項工作中,我們收集、審查和分類了最近的39篇論文,提出了算法,以產生機器學習模型的反事實解釋。這些方法大多集中在表格或基于圖像的數據集上。我們在附錄b中描述了我們為這項調查收集論文的方法。我們描述了這個領域最近的研究主題,并將收集的論文按照有效的反事實解釋的固定需求進行分類(見表1)。