在本教程中,我們將介紹可解釋性的新興方向,我們將其稱為自然- xai。自然- xai旨在建立人工智能模型(1)在訓練時從自然語言中學習地面真實標簽的解釋,(2)在部署時為它們的預測提供這樣的解釋。例如,自動駕駛汽車不僅會在訓練時看到它必須在某個環境中停車,還會被告知為什么會這樣,例如,“因為前面的交通燈是紅色的。”在使用時,自動駕駛汽車也可以為其行為提供這樣自然的語言解釋,從而讓乘客放心。這一方向最近受到越來越多的關注。
摘要
在過去的幾十年里,人工智能技術迅猛發展,改變了每個人的日常生活,深刻改變了人類社會的進程。開發人工智能的目的是通過減少勞動、增加生活便利、促進社會公益來造福人類。然而,最近的研究和人工智能應用表明,人工智能可能會對人類造成意外傷害,例如,在安全關鍵的情況下做出不可靠的決定,或通過無意中歧視一個或多個群體而破壞公平。因此,值得信賴的人工智能最近受到越來越多的關注,人們需要避免人工智能可能給人們帶來的負面影響,以便人們能夠充分信任人工智能技術,與人工智能技術和諧相處。近年來,人們對可信人工智能進行了大量的研究。在本次綜述中,我們從計算的角度對值得信賴的人工智能進行了全面的評述,幫助讀者了解實現值得信賴的人工智能的最新技術。值得信賴的人工智能是一個大而復雜的課題,涉及方方面面。在這項工作中,我們關注實現值得信賴的人工智能的六個最關鍵方面: (i) 安全性和健壯性,(ii) 非歧視和公平,(iii) 可解釋性,(iv) 隱私,(v) 問責性和可審計性,和(vi) 環境福祉。對于每個維度,我們根據一個分類回顧了最近的相關技術,并總結了它們在真實系統中的應用。我們還討論了不同維度之間的協調和沖突互動,并討論了值得信賴的人工智能在未來研究的潛在方面。
引言
人工智能(AI)是一門研究和發展模擬、擴展和拓展人類智能的理論、方法、技術和應用系統的科學,為現代人類社會帶來了革命性的影響。從微觀角度來看,人工智能在我們生活的許多方面發揮著不可替代的作用。現代生活充滿了與人工智能應用的互動: 從用人臉識別解鎖手機,與語音助手交談,到購買電子商務平臺推薦的產品; 從宏觀角度看,人工智能創造了巨大的經濟成果。世界經濟論壇的《2020年就業前景報告》[136]預測,人工智能將在5年內創造5800萬個新就業崗位。到2030年,人工智能預計將產生13萬億美元的額外經濟利潤,對全球GDP的年增長率貢獻1.2%[54]。然而,隨著其快速而令人印象深刻的發展,人工智能系統也暴露了其不值得信任的一面。例如,安全至關重要的人工智能系統在對抗攻擊時很脆弱。無人駕駛汽車的深度圖像識別系統可能無法識別被惡意攻擊者修改的路標[345],對乘客安全構成極大威脅。此外,人工智能算法可能會導致偏見和不公平。在線人工智能聊天機器人可能會產生不雅、種族主義和性別歧視的內容[335],冒犯用戶,并產生負面社會影響。此外,人工智能系統還存在泄露用戶隱私和商業秘密的風險。黑客可以利用人工智能模型產生的特征向量來重構私人輸入數據,如指紋[25],從而泄露用戶的敏感信息。這些漏洞會使現有的人工智能系統無法使用,并可能造成嚴重的經濟和安全后果。對于人工智能來說,要想在一個領域取得進步、得到更廣泛的應用并創造更多的經濟價值,對誠信的擔憂已經成為一個巨大的障礙。因此,如何構建可信的人工智能系統成為學術界和業界關注的焦點。
近年來,出現了大量關于可信人工智能的文獻。隨著構建可信人工智能的需求日益增長,總結已有成果并探討未來可能的研究方向勢在必行。在本次綜述中,我們提供了值得信賴的人工智能的全面概述,以幫助新手對什么使人工智能系統值得信賴有一個基本的了解,并幫助老兵跟蹤該領域的最新進展。我們澄清了可信人工智能的定義,并介紹了可信人工智能的六個關鍵維度。對于每個維度,我們給出了它的概念和分類,并回顧了有代表性的算法。我們還介紹了不同維度之間可能的互動,并討論了值得信賴的人工智能尚未引起足夠關注的其他潛在問題。除了定義和概念,我們的綜述還關注實現可信人工智能每個維度的具體計算解決方案。這一視角有別于現有的一些相關工作,如政府指南[307],建議如何以法律法規的形式建立一個值得信賴的人工智能系統,或綜述[51,318],從高層次、非技術的角度討論值得信賴的人工智能的實現。
根據歐盟(EU)最近提供的人工智能倫理指南[307],一個值得信賴的人工智能系統應符合四項倫理原則: 尊重人類自主、防止傷害、公平和可解釋性。基于這四個原則,人工智能研究人員、實踐者和政府提出了值得信賴的人工智能的各個具體維度[51,307,318]。在這項調查中,我們重點關注已經被廣泛研究的六個重要和相關的維度。如圖1所示,它們是安全性和穩健性、非歧視性和公平性、可解釋性、隱私性、可審計性和可問責性,以及環境福祉。
余下論文綜述組織如下。在第2節中,我們明確了值得信賴的AI的定義,并提供了值得信賴的AI的各種定義,幫助讀者理解來自計算機科學、社會學、法律、商業等不同學科的研究人員是如何定義值得信賴的AI系統的。然后,我們將值得信賴的人工智能與倫理人工智能和負責任的人工智能等幾個相關概念區分開來。在第3節中,我們詳細介紹了安全性和穩健性的維度,這要求人工智能系統對輸入的噪聲擾動具有穩健性,并能夠做出安全的決策。近年來,大量研究表明,人工智能系統,尤其是那些采用深度學習模型的系統,可能對有意或無意的輸入擾動非常敏感,對安全至關重要的應用構成巨大風險。例如,如前所述,自動駕駛汽車可能會被改變的路標欺騙。此外,垃圾郵件檢測模型可能會被設計良好的文本[30]郵件欺騙。因此,垃圾郵件發送者可以利用這個弱點,使他們的電子郵件不受檢測系統的影響,這將導致糟糕的用戶體驗。已經證明,人工智能算法可以通過提供的訓練例子學習人類的歧視,并做出不公平的決定。例如,一些人臉識別算法難以識別非洲裔美國人的面孔[280]或將其誤分類為大猩猩[168]。此外,語音聽寫軟件在識別男性聲音時通常比識別女性聲音表現得更好[277]。
在第4節中,我們介紹了非歧視和公平的維度,在這個維度中,人工智能系統被期望避免對某些群體或個人的不公平偏見。在第5節中,我們討論了可解釋性的維度,這表明AI的決策機制系統應該能夠向利益相關者解釋(他們應該能夠理解解釋)。例如,人工智能技術已經被用于根據患者的癥狀和身體特征進行疾病診斷[289]。在這種情況下,黑箱決策是不可接受的。推理過程應該對醫生和患者透明,以確保診斷的每個細節都是準確的。
研究人員發現,一些人工智能算法可以存儲和暴露用戶的個人信息。例如,在人類會話語料庫上訓練的對話模型可以記住敏感信息,如信用卡號碼,這些信息可以通過與模型交互而得到[164]。在第6節中,我們提出了隱私的維度,這需要一個人工智能系統來避免泄露任何私人信息。在第7節中,我們描述了可審計性和問責性的維度,該維度期望人工智能系統由第三方評估,并在必要時為人工智能故障分配責任,特別是在關鍵應用中[307]。最近,人工智能系統對環境的影響引起了人們的關注,因為一些大型人工智能系統消耗了大量的能源。作為一項主流的人工智能技術,深度學習正在朝著追求更大的模型和更多的參數的方向發展。因此,會消耗更多的存儲和計算資源。一項研究[312]表明,訓練BERT模型[110]需要排放大約1400磅二氧化碳,這與跨美國的往返飛行相當。因此,人工智能系統應該是可持續的和環境友好的。
在第8節中,我們回顧了環境福利的維度。在第9節中,我們將討論不同維度之間的相互作用。最近的研究表明,值得信賴的AI的不同維度之間存在一致性和沖突[307,333]。例如,深度神經網絡的魯棒性和可解釋性緊密相連,魯棒模型往往更具有可解釋性[122,322],反之亦然[255]。此外,研究表明,在某些情況下,健壯性和隱私之間存在權衡。例如,對抗性防御方法會使模型更容易受到成員推理攻擊,增加了訓練數據泄漏的風險[308]。
除了上述六個維度,值得信賴的人工智能還有更多的維度,如人工代理和監督、可信性等。盡管這些額外的維度與本文中考慮的6個維度一樣重要,但它們還處于開發的早期階段,相關文獻非常有限,特別是對于計算方法而言。因此,在第10節中,我們將討論值得信賴的人工智能的這些方面,作為未來需要專門研究的方向。
來自華為的研究人員在KDD2021上將給出關于反事實解釋與XAI的教程,非常值得關注!
深度學習在許多領域都顯示出了強大的性能,但其黑箱特性阻礙了其進一步的應用。作為回應,可解釋人工智能應運而生,旨在解釋深度學習模型的預測和行為。在眾多的解釋方法中,反事實解釋被認為是最好的解釋方法之一,因為它與人類的認知過程相似:通過構建對比情境來進行解釋,人類可以認知地展示差異來解釋其背后的機制。
在本教程中,我們將介紹反事實解釋的認知概念和特點,反事實解釋的計算形式,主流方法,以及在不同解釋設置下的各種適應。此外,我們將展示幾個流行研究領域的反事實解釋的典型用例。最后,根據實踐,我們概述了反事實解釋的潛在應用,如數據增強或對話系統。我們希望本教程能幫助參與者對反事實解釋有一個大致的了解。
//sites.google.com/view/kdd-2021-counterfactual
反事實思維是人類理解世界的基本方式之一,因此,用反事實來解釋機器學習和深度學習模型成為近年來的流行[4]。一個反事實的解釋描述了一種因果情況,其形式為:“如果X沒有發生,Y就不會發生”[20]。Judea pearl 將反事實定義為對“如果發生了什么”問題[15]的概率回答。反事實陳述是尋找特征值的最小變化,以便它可以將預測變成期望的輸出。對于黑箱人工智能模型,反事實解釋通常是通過從數據集中檢索數據樣本或通過擾動原始輸入的特征生成樣本,使這些數據樣本的模型輸出與原始輸出相矛盾來獲得。由于計算和應用以及反事實解釋都與數據挖掘或數據處理密切相關,我們認為反事實解釋符合數據挖掘社區的興趣,因此值得在本教程中介紹。
幫助人類理解AI/ML模型及其預測的工具和方法集的高級指南。
機器學習的巨大成功導致了AI應用的新浪潮(例如,交通、安全、醫療、金融、國防),這些應用提供了巨大的好處,但無法向人類用戶解釋它們的決定和行動。DARPA的可解釋人工智能(XAI)項目致力于創建人工智能系統,其學習的模型和決策可以被最終用戶理解并適當信任。實現這一目標需要學習更多可解釋的模型、設計有效的解釋界面和理解有效解釋的心理要求的方法。XAI開發團隊正在通過創建ML技術和開發原理、策略和人機交互技術來解決前兩個挑戰,以生成有效的解釋。XAI的另一個團隊正在通過總結、擴展和應用心理解釋理論來解決第三個挑戰,以幫助XAI評估人員定義一個合適的評估框架,開發團隊將使用這個框架來測試他們的系統。XAI團隊于2018年5月完成了第一個為期4年的項目。在一系列正在進行的評估中,開發人員團隊正在評估他們的XAM系統的解釋在多大程度上改善了用戶理解、用戶信任和用戶任務性能。
【導讀】國際萬維網大會(The Web Conference,簡稱WWW會議)是由國際萬維網會議委員會發起主辦的國際頂級學術會議,創辦于1994年,每年舉辦一屆,是CCF-A類會議。WWW 2020將于2020年4月20日至4月24日在中國臺灣臺北舉行。本屆會議共收到了1129篇長文投稿,錄用217篇長文,錄用率為19.2%。這周會議已經召開。來自美國Linkedin、AWS等幾位學者共同給了關于在工業界中可解釋人工智能的報告,講述了XAI概念、方法以及面臨的挑戰和經驗教訓。
人工智能在我們的日常生活中扮演著越來越重要的角色。此外,隨著基于人工智能的解決方案在招聘、貸款、刑事司法、醫療和教育等領域的普及,人工智能對個人和職業的影響將是深遠的。人工智能模型在這些領域所起的主導作用已經導致人們越來越關注這些模型中的潛在偏見,以及對模型透明性和可解釋性的需求。此外,模型可解釋性是在需要可靠性和安全性的高風險領域(如醫療和自動化交通)以及具有重大經濟意義的關鍵工業應用(如預測維護、自然資源勘探和氣候變化建模)中建立信任和采用人工智能系統的先決條件。
因此,人工智能的研究人員和實踐者將他們的注意力集中在可解釋的人工智能上,以幫助他們更好地信任和理解大規模的模型。研究界面臨的挑戰包括 (i) 定義模型可解釋性,(ii) 為理解模型行為制定可解釋性任務,并為這些任務開發解決方案,最后 (iii)設計評估模型在可解釋性任務中的性能的措施。
在本教程中,我們將概述AI中的模型解譯性和可解釋性、關鍵規則/法律以及作為AI/ML系統的一部分提供可解釋性的技術/工具。然后,我們將關注可解釋性技術在工業中的應用,在此我們提出了有效使用可解釋性技術的實踐挑戰/指導方針,以及在幾個網絡規模的機器學習和數據挖掘應用中部署可解釋模型的經驗教訓。我們將介紹不同公司的案例研究,涉及的應用領域包括搜索和推薦系統、銷售、貸款和欺詐檢測。最后,根據我們在工業界的經驗,我們將確定數據挖掘/機器學習社區的開放問題和研究方向。
【導讀】可解釋人工智能(Explainable Artificial Intelligence)旨在于具備可為人類所理解的功能或運作機制,具備透明度, 是當前AI研究的熱點,是構建和諧人機協作世界必要的條件,是構建負責任人工智能的基礎。最近來自法國西班牙等8家機構12位學者共同發表了關于可解釋人工智能XAI最新進展的綜述論文《Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges toward Responsible AI》,共67頁pdf調研了402篇文獻,講解了最新可解釋人工智能的進展,集大成者,梳理了XAI的體系,并提出構建負責任人工智能的內涵,非常具有指引性。
在過去的幾年里,人工智能(AI)取得了顯著的發展勢頭,在不同領域的許多應用中它可能會帶來最好的預期。當這種情況發生時,整個社區都面臨可解釋性的障礙,這是人工智能技術的一個內在問題,它是由次象征主義(模型例如集成算法或深層神經網絡)帶來的,而這些在人工智能的最上一次高潮中是不存在的。這個問題背后的范例屬于所謂的可解釋AI (XAI)領域,它被認為是AI模型實際部署的一個關鍵特性。本文綜述了XAI領域的現有文獻,并對未來的研究方向進行了展望。我們總結了在機器學習中定義可解釋性的前期工作,建立了一個新的定義,它涵蓋了先前的概念命題,主要關注可解釋性所關心的受眾。然后,我們提出并討論了與不同機器學習模型的可解釋性相關的最近貢獻的分類,包括那些旨在建立第二種體系的深度學習方法。這篇文獻分析為XAI面臨的一系列挑戰提供了背景,比如數據融合和可解釋性之間的十字路口。我們構建了負責任的人工智能的概念,即一種以公平、模型可解釋性和問責性為核心的在真實組織中大規模實施人工智能方法的方法。最終目標是為XAI的新來者提供參考資料,以促進未來的研究進展,同時也鼓勵其他學科的專家和專業人員在他們的活動領域擁抱AI的好處,而不是因為它缺乏可解釋性而事先有任何偏見。
關鍵詞: 可解釋人工智能,機器學習,深度學習,數據融合,可解釋性,可理解性,透明性,隱私,公平性,可問責性,負責任的人工智能。
目錄
1. 引言
人工智能(AI)是許多采用新信息技術的活動領域的核心。人工智能的起源可以追溯到幾十年前,人們對于智能機器具有學習、推理和適應能力的重要性有著明確的共識。正是憑借這些能力,人工智能方法在學習解決日益復雜的計算任務時達到了前所未有的性能水平,這對人類社會[2]的未來發展至關重要。近來,人工智能系統的復雜程度已經提高到幾乎不需要人為干預來設計和部署它們。當來自這些系統的決策最終影響到人類的生活(例如,醫學、法律或國防)時,就有必要了解這些決策是如何由人工智能方法[3]提供的。
最早的人工智能系統是很容易解釋的,過去的幾年見證了不透明的決策系統的興起,比如深度神經網絡(DNNs)。深度學習(DL)模型(如DNNs)的經驗成功源于高效的學習算法及其巨大的參數空間的結合。后一個空間由數百層和數百萬個參數組成,這使得DNNs被認為是復雜的黑盒模型[4]。black-box-ness的反義詞是透明性,即以尋求對模型工作機理的直接理解。
隨著黑箱機器學習(ML)模型越來越多地被用于在關鍵環境中進行重要的預測,人工智能[6]的各個利益相關者對透明度的要求也越來越高。危險在于做出和使用的決策不合理、不合法,或者不允許對其行為進行詳細的解釋。支持模型輸出的解釋是至關重要的,例如,在精準醫療中,為了支持診斷[8],專家需要從模型中獲得遠比簡單的二進制預測多得多的信息。其他例子包括交通、安全、金融等領域的自動駕駛汽車。
一般來說,考慮到對合乎道德的人工智能[3]日益增長的需求,人類不愿采用不能直接解釋、處理和信任的[9]技術。習慣上認為,如果只關注性能,系統將變得越來越不透明。從模型的性能和它的透明性[10]之間的權衡來看,這是正確的。然而,對一個系統理解的提高可以導致對其缺陷的修正。在開發ML模型時,將可解釋性考慮為額外的設計驅動程序可以提高其可實現性,原因有三:
可解釋性有助于確保決策的公正性,即檢測并糾正訓練數據集中的偏差。
可解釋性通過強調可能改變預測的潛在對抗性擾動,促進了穩健性的提供。
可解釋性可以作為一種保證,即只有有意義的變量才能推斷出輸出,即,以確保模型推理中存在真實的因果關系。
這意味著,為了考慮實際,系統的解釋應該要么提供對模型機制和預測的理解,要么提供模型識別規則的可視化,要么提供可能擾亂模型[11]的提示。
為了避免限制當前一代人工智能系統的有效性,可解釋人工智能(XAI)[7]建議創建一套ML技術,1) 產生更多可解釋的模型,同時保持高水平的學習性能(如預測準確性),2) 使人類能夠理解、適當信任和有效管理新一代人工智能伙伴。XAI還借鑒了社會科學的[12],并考慮了解釋心理學。
圖1: 過去幾年中,標題、摘要和/或關鍵詞涉及XAI領域的出版物總數的變化。通過提交圖中所示的查詢從Scopus R數據庫檢索到的數據(2019年10月14日)。值得注意的是,隨著時間的推移,對可解釋的AI模型的潛在需求(這符合直覺,因為在許多場景中,可解釋性是一種要求),但直到2017年,解釋AI模型的技術興趣才滲透到整個研究領域。
這篇綜述的其余部分的結構如下:首先,第2節和其中的子節圍繞AI中的可解釋性和可解釋性展開了關于術語和概念的討論,最后得出前面提到的可解釋性的新定義(第2.1和2.2小節),以及從XAI的角度對ML模型進行分類和分析的一般標準。第3節和第4節回顧了ML模型(分別是透明模型和事后技術)的XAI的最新發現,它們構成了上述分類中的主要部分。同時,我們也回顧了這兩種方法的混合,以達到XAI。在第5節中討論了各種方法之間的協同作用的好處和注意事項,在這里,我們提出了對一般挑戰的展望和需要謹慎對待的一些后果。最后,第6節闡述了負責任的人工智能的概念。第7節總結了調查,目的是讓社區參與到這一充滿活力的研究領域中來,這一領域有可能影響社會,特別是那些逐漸將ML作為其活動核心技術的部門。
2. 可解釋性: 是什么,為什么,怎么做?
在繼續我們的文獻研究之前,我們可以先建立一個共同的觀點來理解在AI的可解釋性這個術語,更具體地說是ML中的含義。這確實是本節的目的,即暫停對這個概念的大量定義(什么?),討論為什么可解釋性在AI和ML中是一個重要的問題(為什么?目的何在?),并介紹XAI方法的一般分類,這將推動此后的文獻研究(如何?)。
2.1 術語說明
阻礙建立共同基礎的問題之一是interpretability 和explainability 在文獻中的互換誤用。這些概念之間存在著顯著的差異。首先,interpretability 是指一個模型的被動特性,指的是一個給定的模型對人類觀察者有意義的程度。這個特性也表示為透明性。相比之下,explainability 可以被看作是模型的主動特征,表示模型為了闡明或詳述其內部功能而采取的任何動作或過程。
為了總結最常用的命名法,在本節中,我們將闡明在倫理AI和XAI社區中常用的術語之間的區別和相似性。
Understandability(或等同地,intelligibility)指的是一個模型的特征,使人理解其功能——模型如何工作——而不需要解釋其內部結構或模型內部處理數據[18]的算法方法。
Comprehensibility: 在ML模型中,可理解性是指學習算法以人類可理解的方式表示其已學知識的能力[19,20,21]。這種模型可理解性的概念源于Michalski[22]的假設,即“計算機歸納的結果應該是對給定實體的符號描述,在語義和結構上類似于人類專家可能產生的觀察相同實體的結果。”這些描述的組成部分應作為單一的‘信息塊’可理解,可直接用自然語言解釋,并應以綜合方式將定量和定性概念聯系起來”。由于難以量化,可理解性通常與模型復雜度[17]的評估聯系在一起。
Interpretability可解釋性是指以可理解的語言向人類解釋或提供意義的能力。
Explainability可解釋性與作為人類和決策者之間的接口的解釋概念相關,同時,這也是決策者的準確代理,也是人類可以理解的[17]。
Transparency 透明度:如果一個模型本身是可以理解的,那么它就被認為是透明的。由于模型具有不同程度的可理解性,因此第3節中的透明模型分為三類: 可模擬模型、可分解模型和算法透明模型[5]。
2.2 什么?
雖然這可能被認為超出了本文的范圍,但值得注意的是在哲學領域[23]中圍繞一般解釋理論展開的討論。在這方面已經提出了許多建議,建議需要一種普遍的、統一的理論來近似解釋的結構和意圖。然而,在提出這樣一個普遍的理論時,沒有人經得起批評。就目前而言,最一致的想法是將不同的解釋方法從不同的知識學科中融合在一起。在處理人工智能的可解釋性時也發現了類似的問題。從文獻中似乎還沒有一個共同的觀點來理解什么是可解釋性或可解釋性。然而,許多貢獻聲稱是可解釋(interpretable)模型和技術的成就增強了可解釋性(explainability).
為了闡明這種缺乏共識的情況,我們不妨以D. Gunning在[7]中給出的可解釋人工智能(XAI)的定義作為參考起點:
“XAI將創造一套機器學習技術,使人類用戶能夠理解、適當信任并有效管理新一代人工智能合作伙伴。
這個定義結合了兩個需要提前處理的概念(理解和信任)。然而,它忽略了其他目的,如因果關系、可轉移性、信息性、公平性和信心等,從而激發了對可解釋AI模型的需求[5,24,25,26]。
進一步修正,我們給出explainable AI的定義:
給定一個受眾,一個可解釋的人工智能是一個產生細節或理由使其功能清晰或容易理解的人工智能。
這個定義在這里作為當前概述的第一個貢獻,隱含地假設XAI技術針對當前模型的易用性和清晰性在不同的應用目的上有所恢復,比如更好地讓用戶信任模型的輸出。
2.3 為什么?
如引言所述,可解釋性是人工智能在實際應用中面臨的主要障礙之一。無法解釋或完全理解最先進的ML算法表現得如此出色的原因是一個問題,它的根源有兩個不同的原因,如圖2所示。
圖2: 圖中顯示了在ML模型中由不同的用戶配置文件尋找的可解釋性的不同目的。它們有兩個目標:模型理解的需要和法規遵從性。
2.4 什么目標?
到目前為止,圍繞XAI的研究已經揭示出了不同的目標,以便從一個可解釋的模型的實現中得出結論。幾乎沒有一篇被調研的論文在描述一個可解釋的模型所要求的目標上是完全一致的。盡管如此,所有這些不同的目標都可能有助于區分特定的ML可解釋性的目的。不幸的是,很少有人試圖從概念的角度來界定這些目標[5、13、24、30]。我們現在綜合并列舉這些XAI目標的定義,以便為這篇綜述涵蓋的所有論文確定第一個分類標準:
圖3. 可解釋AI不同的度量維度
可信賴性Trustworthiness:一些作者同意將可信賴性作為可解釋AI模型的主要目標[31,32]。然而,根據模型誘導信任的能力將模型聲明為可解釋的可能并不完全符合模型可解釋性的要求。可信度可以被認為是一個模型在面對給定問題時是否會按預期行事的信心。雖然它肯定是任何可解釋模型的一個屬性,但它并不意味著每一個值得信任的模型都可以被認為是可解釋的,可信度也不是一個容易量化的屬性。信任可能遠遠不是可解釋模型的唯一目的,因為兩者之間的關系,如果達成一致,并不是相互的。在綜述的論文中,有一部分提到了信任的概念。但是,如表1所示,它們在最近與XAI相關的貢獻中所占的份額并不大。
因果關系Causality:可解釋性的另一個常見目標是發現數據變量之間的因果關系。一些作者認為,可解釋的模型可能簡化了尋找關系的任務,如果它們發生,可以進一步測試所涉及的變量之間更強的因果關系[159,160]。從觀測數據推斷因果關系是一個隨著時間的推移已經被廣泛研究的領域[161]。正如從事這一主題的社區所廣泛承認的那樣,因果關系需要一個廣泛的先驗知識框架來證明所觀察到的影響是因果關系。ML模型只發現它所學習的數據之間的相關性,因此可能不足以揭示因果關系。然而,因果關系涉及到相關性,所以一個可解釋的ML模型可以驗證因果推理技術提供的結果,或者在現有數據中提供可能的因果關系的第一直覺。同樣,表1顯示,如果我們關注那些將因果關系明確表述為目標的論文數量,因果關系就不是最重要的目標之一。
可轉移性Transferability: 模型總是受到一些約束,這些約束應該考慮到模型的無縫可轉移性。這就是為什么在處理ML問題時使用訓練-測試方法的主要原因[162,163]。可解釋性也是可轉移性的倡導者,因為它可以簡化闡明可能影響模型的邊界的任務,從而更好地理解和實現。類似地,僅僅理解模型中發生的內部關系有助于用戶在另一個問題中重用這些知識。在某些情況下,缺乏對模型的正確理解可能會將用戶推向錯誤的假設和致命的后果[44,164]。可轉移性也應該落在可解釋模型的結果屬性之間,但同樣,不是每個可轉讓性模型都應該被認為是可解釋的。正如在表1中所觀察到的,大量的論文指出,將一個模型描述為可解釋的是為了更好地理解復用它或提高它的性能所需要的概念,這是追求模型可解釋性的第二個最常用的理由。
信息性Informativeness: ML模型的最終目的是支持決策[92]。然而,不應該忘記的是,模型所解決的問題并不等于它的人類對手所面臨的問題。因此,為了能夠將用戶的決策與模型給出的解決方案聯系起來,并避免陷入誤解的陷阱,需要大量的信息。為此,可解釋的ML模型應該提供有關正在處理的問題的信息。在文獻綜述中發現的主要原因是為了提取模型內部關系的信息。幾乎所有的規則提取技術都證實了它們在尋找模型內部功能的更簡單理解方面的方法,說明知識(信息)可以用這些更簡單的代理來表示,它們認為這些代理可以解釋先行詞。這是在綜述的論文中發現的最常用的論點,用來支持他們所期望的可解釋模型。
置信度Confidence: 作為穩健性和穩定性的概括,置信度的評估應該始終基于一個預期可靠性的模型。在控制下保持信心的方法因模型的不同而不同。正如在[165,166,167]中所述,當從某個模型中提取解釋時,穩定性是必須具備的。可靠的解釋不應該由不穩定的模型產生。因此,一個可解釋的模型應該包含關于其工作機制可信度的信息。
公平性Fairness:從社會的角度來看,在ML模型中,可解釋性可以被認為是達到和保證公平性的能力。在一個特定的文獻鏈中,一個可解釋的ML模型建議對影響結果的關系進行清晰的可視化,允許對手頭的模型進行公平或倫理分析[3,100]。同樣,XAI的一個相關目標是強調模型所暴露的數據中的偏差[168,169]。在涉及人類生活的領域,對算法和模型的支持正在迅速增長,因此,可解釋性應被視為避免不公平或不道德地使用算法輸出的橋梁。
Accessibility可訪問性: 評審貢獻的認為可解釋性是允許最終用戶更多地參與改進和開發某個ML模型的過程的屬性[37,86]。顯然,可解釋的模型將減輕非技術或非專業用戶在處理乍一看似乎不可理解的算法時的負擔。這一概念在被調查的文獻中被認為是第三個最重要的目標。
交互性Interactivity: 一些貢獻[50,59]包括模型與用戶交互的能力,這是可解釋的ML模型的目標之一。同樣,這個目標與最終用戶非常重要的領域相關,他們調整模型并與之交互的能力是確保成功的關鍵。
隱私意識Privacy awareness: 在回顧的文獻中,幾乎被遺忘的是,ML模型中可解釋性的副產品之一是它評估隱私的能力。ML模型可能具有其所學習模式的復雜表示。無法理解模型[4]捕獲并存儲在其內部表示中的內容可能會導致隱私被破壞。相反,由未經授權的第三方解釋訓練過的模型的內部關系的能力也可能會損害數據來源的差異隱私。由于其在XAI預計將發揮關鍵作用的行業中的重要性,機密性和隱私問題將分別在第5.4和6.3小節中進一步討論。
本小節回顧了所調研論文的廣泛范圍內所涉及的目標。所有這些目標都清楚地隱藏在本節前面介紹的可解釋性概念的表面之下。為了總結之前對可解釋性概念的分析,最后一小節討論了社區為解決ML模型中的可解釋性所采取的不同策略。
2.5 怎么樣?
文獻明確區分了可以通過設計解釋的模型和可以通過外部XAI技術解釋的模型。這種雙重性也可以看作是可解釋模型與模型可解釋技術的區別;更廣泛接受的分類是透明模型和事后可解釋性。同樣的對偶性也出現在[17]的論文中,作者所做的區分是指解決透明盒設計問題的方法,而不是解釋黑盒子問題的方法。這項工作進一步擴展了透明模型之間的區別,包括考慮的不同透明度級別。
在透明性中,考慮了三個層次: 算法透明性、可分解性和可模擬性。在后設技術中,我們可以區分文本解釋、可視化、局部解釋、實例解釋、簡化解釋和特征關聯。在這種情況下,[24] 提出了一個更廣泛的區別: 1)區分不透明的系統,其中從輸入到輸出的映射對用戶來說是不可見的; 2)可解釋系統,用戶可以對映射進行數學分析; 3)可理解的系統,在這個系統中,模型應該輸出符號或規則以及它們的特定輸出,以幫助理解映射背后的基本原理。最后一個分類標準可以被認為包含在前面提出的分類標準中,因此本文將嘗試遵循更具體的分類標準。
圖4. 概念圖舉例透明度的不同層次描述M?毫升模型,與?表示模型的參數集的手:(一)可模擬性;(b)可分解性;(c)算法的透明度。
圖5. 概念圖顯示了不同的因果explainability方法可供M?毫升模型
3. 透明機器學習模型
前一節介紹了透明模型的概念。如果一個模型本身是可以理解的,那么它就被認為是透明的。本節調查的模型是一套透明模型,它可以屬于前面描述的模型透明性的一個或所有級別(即可模擬性、可分解性和算法透明性)。在接下來的部分中,我們提供了該語句的理由,并提供了圖6與圖7中所示支持。
圖6:ML模型可解釋性分類的總體情況
圖7: 本綜述中所考慮的不同ML模型的透明度水平的圖形說明:(a)線性回歸;(b)決策樹;(c)再鄰居;(d)基于規則的學習者;(e)廣義可加模型;(f)貝葉斯模型。
4. 機器學習模型的后解釋技術:分類法、淺層模型和深度學習
當ML模型不滿足宣布它們透明的任何標準時,必須設計一個單獨的方法并應用于模型來解釋它的決策。這就是事后可解釋性技術(也稱為建模后可解釋性)的目的,它的目的是交流關于已經開發的模型如何對任何給定輸入產生預測的可理解信息。在本節中,我們將對不同的算法方法進行分類和回顧,這些算法方法用于事后可解釋性,區別于1) 那些為應用于任何類型的ML模型而設計的算法方法; 2) 那些是為特定的ML模型設計的,因此,不能直接推斷到任何其他學習者。現在,我們詳細闡述了不同ML模型的事后可解釋性方面的趨勢,這些趨勢在圖8中以分層目錄的形式進行了說明,并在下面進行了總結:
用于事后解釋的模型無關技術(4.1小節),可以無縫地應用于任何ML模型,而不考慮其內部處理或內部表示。
專為解釋某些ML模型而定制或專門設計的事后解釋能力。我們將我們的文獻分析分為兩個主要的分支:淺層ML模型的事后可解釋性的貢獻,這些貢獻統稱為所有不依賴于神經處理單元的分層結構的ML模型(第4.2小節);以及為深度學習模型設計的技術,這些技術相應地表示神經網絡家族和相關變體,如卷積神經網絡、遞歸神經網絡(4.3小節)和包含深度神經網絡和透明模型的混合方案。對于每一個模型,我們都對研究界提出的最新的事后方法進行了徹底的審查,并確定了這些貢獻所遵循的趨勢。
我們以4.4小節結束了我們的文獻分析,在4.4小節中,我們提出了第二種分類法,通過對處理深度學習模型的事后解釋的貢獻進行分類,對圖6中更一般的分類進行了補充。為此,我們將重點關注與這類黑盒ML方法相關的特定方面,并展示它們如何鏈接到第一種分類法中使用的分類標準。
圖8. 綜述文獻的分類和與不同ML模型相關的可解釋性技術的趨勢。用藍色、綠色和紅色框起來的引用分別對應于使用圖像、文本或表格數據的XAI技術。為了建立這種分類法,對文獻進行了深入分析,以區分是否可以將后適應技術無縫地應用于任何ML模型,即使在其標題和/或摘要中明確提到了深度學習。
4.1 用于事后可解釋性的模型不可知技術
用于事后可解釋性的模型無關技術被設計成插入到任何模型,目的是從其預測過程中提取一些信息。有時,使用簡化技術來生成模仿其前身的代理,目的是為了獲得易于處理和降低復雜性的東西。其他時候,意圖集中在直接從模型中提取知識,或者簡單地將它們可視化,以簡化對其行為的解釋。根據第2節中介紹的分類法,與模型無關的技術可能依賴于模型簡化、特征相關性估計和可視化技術。
4.2 淺ML模型的事后解釋能力
Shallow ML覆蓋了多種監督學習模型。在這些模型中,有一些嚴格可解釋的(透明的)方法(如KNN和決策樹,已經在第3節中討論過)。考慮到它們在預測任務中的突出地位和顯著性能,本節將集中討論兩種流行的淺ML模型(樹集成和支持向量機,SVMs),它們需要采用事后可解釋性技術來解釋它們的決策
4.3 深度學習的可解釋性
事后局部解釋和特征相關技術正日益成為解釋DNNs的主要方法。本節回顧了最常用的DL模型,即多層神經網絡、卷積神經網絡(CNN)和遞歸神經網絡(RNN)的可解釋性研究。
圖9: 混合模型的圖示。一個被認為是黑箱的神經網絡可以通過將其與一個更具解釋性的模型相關聯來解釋,如決策樹[298]、一個(模糊的)基于規則的系統[19]或KNN[259]。
圖10:(a) 可選的深度學習特定分類擴展自[13]的分類;(b)它與圖6中的分類法的聯系。
5. XAI:機遇、挑戰和研究需求
現在,我們利用已完成的文獻回顧,對ML和數據融合模型的可解釋性領域的成就、趨勢和挑戰提出了批評。實際上,我們在討論到目前為止在這一領域取得的進展時,已經預見到了其中的一些挑戰。在本節中,我們將重新審視這些問題,并為XAI探索新的研究機會,找出可能的研究路徑,以便在未來幾年有效地解決這些問題:
在可解釋性和性能之間的權衡
可解釋性與性能的問題是一個隨著時間不斷重復的問題,但就像任何其他大命題一樣,它的周圍充滿了神話和誤解。
圖11: 模型可解釋性和性能之間的權衡,以及XAI技術和工具潛力所在的改進領域的表示
6. 走向負責任的人工智能:人工智能、公平、隱私和數據融合的原則
多年來,許多組織,無論是私人的還是公共的,都發布了指導方針,指出人工智能應該如何開發和使用。這些指導方針通常被稱為人工智能原則,它們處理與個人和整個社會潛在的人工智能威脅相關的問題。本節將介紹一些最重要和被廣泛認可的原則,以便將XAI(通常出現在它自己的原則中)與所有這些原則聯系起來。如果在實踐中尋求一個負責任的AI模型的實現和使用,我們公司聲稱XAI本身是不夠的。其他重要的人工智能原則,如隱私和公平,在實踐中必須謹慎處理。在接下來的章節中,我們將詳細闡述負責任人工智能的概念,以及XAI和數據融合在實現其假設原則中的含義。
6.1 人工智能原則 Principles of Artificial Intelligence
使用人工智能系統后的輸出不應導致在種族、宗教、性別、性取向、殘疾、種族、出身或任何其他個人條件方面對個人或集體產生任何形式的歧視。因此,在優化人工智能系統的結果時要考慮的一個基本標準不僅是它們在錯誤優化方面的輸出,而且是系統如何處理這些狀況。這定義了公平AI的原則。
人們應該知道什么時候與人交流,什么時候與人工智能系統交流。人們還應該知道他們的個人信息是否被人工智能系統使用,以及用于什么目的。確保對人工智能系統的決策有一定程度的理解是至關重要的。這可以通過使用XAI技術來實現。重要的是,生成的解釋要考慮將接收這些解釋的用戶的配置文件(根據小節2.2中給出的定義,所謂的受眾),以便調整透明度級別,如[45]中所示。這定義了透明和可解釋AI的原則。
人工智能產品和服務應始終與聯合國的可持續發展目標保持一致[375],并以積極和切實的方式為之做出貢獻。因此,人工智能應該總是為人類和公共利益帶來好處。這定義了以人為中心的人工智能的原則(也稱為社會公益的人工智能[376])。
人工智能系統,尤其是當它們由數據提供信息時,應該在其整個生命周期中始終考慮隱私和安全標準。這一原則并不排斥人工智能系統,因為它與許多其他軟件產品共享。因此,它可以從公司內部已經存在的流程中繼承。這通過設計定義了隱私和安全的原則,這也被認為是負責任的研究和創新范式下智能信息系統面臨的核心倫理和社會挑戰之一(RRI,[377])。RRI指的是一套方法學指南和建議,旨在從實驗室的角度考慮更廣泛的科學研究背景,以應對全球社會挑戰,如可持續性、公眾參與、倫理、科學教育、性別平等、開放獲取和治理。有趣的是,RRI還要求在遵循其原則的項目中確保開放性和透明度,這與前面提到的透明和可解釋的AI原則直接相關。
作者強調,所有這些原則都應該擴展到任何第三方(供應商、顧問、合作伙伴……)
6.2 公平和責任
如前一節所述,除了XAI之外,在過去十年中發布的不同AI原則指導方針中還包括許多關鍵方面。然而,這些方面并不是完全脫離了XAI;事實上,它們是交織在一起的。本節介紹了與人工智能原則指導具有巨大相關性的兩個關鍵組成部分,即公平性和可說明性。這也突出了它們與XAI的聯系。
6.3 隱私與數據融合
如今,幾乎所有領域的活動中都存在著越來越多的信息源,這就要求采用數據融合方法,同時利用這些信息源來解決學習任務。通過合并異構信息,數據融合已被證明可以在許多應用程序中提高ML模型的性能。本節通過數據融合技術的潛力進行推測,以豐富ML模型的可解釋性,并對從中學習ML模型的數據的私密性做出妥協。為此,我們簡要概述了不同的數據融合范式,并從數據隱私的角度進行了分析。我們稍后會講到,盡管XAI與負責任的人工智能相關,但在當前的研究主流中,XAI與數據融合是一個未知的研究領域。
圖12: 顯示可以執行數據融合的不同級別的關系圖:(a)數據級別;(b)模型;(c)知識水平;(d)大數據融合;(e)聯邦學習和(f)多視圖學習。
7. 結論和展望
這篇綜述圍繞著可解釋的人工智能(XAI)展開,它最近被認為是在現實應用中采用ML方法的最大需求。我們的研究首先闡明了模型可解釋性背后的不同概念,并展示了激發人們尋找更多可解釋的ML方法的各種目的。這些概念性的評注已經成為一個堅實的基礎,系統地回顧最近關于可解釋性的文獻,這些文獻從兩個不同的角度進行了探討:1) ML模型具有一定程度的透明性,因此可以在一定程度上自行解釋; 2) 后特設XAI技術的設計,使ML模型更容易解釋。這個文獻分析已經產生了一個由社區報告的不同提案的全球分類,在統一的標準下對它們進行分類。在深入研究深度學習模型可解釋性的貢獻越來越普遍的情況下,我們深入研究了有關這類模型的文獻,提出了一種可選擇的分類方法,可以更緊密地連接深度學習模型可解釋性的具體領域。
我們的討論已經超越了XAI領域目前所取得的成果,轉向了負責任的AI概念,即在實踐中實現AI模型時必須遵循的一系列AI原則,包括公平、透明和隱私。我們還討論了在數據融合的背景下采用XAI技術的含義,揭示了XAI在融合過程中可能會損害受保護數據的隱私。對XAI在公平方面的含義也進行了詳細的討論。
我們對XAI未來的思考,通過在整個論文中進行的討論,一致認為有必要對XAI技術的潛力和警告進行適當的理解。我們的設想是,模型的可解釋性必須與數據隱私、模型保密性、公平性和可靠性相關的需求和約束一起解決。只有聯合研究所有這些人工智能原則,才能保證在全世界的組織和機構中負責任地實施和使用人工智能方法。
參考文獻