人工智能在與人類生活息息相關的場景中自主決策時,正逐漸面臨法律或倫理的問題或風險.可信機器學習是建立安全人工智能系統的核心技術,是人工智能領域的熱門研究方向,而公平性是可信機器學習的重要考量.公平性旨在研究機器學習算法決策對個人或群體不存在因其固有或后天屬性所引起的偏見或偏愛.本文從公平表征、公平建模和公平決策三個角度出發,以典型案例中不公平問題及其危害為驅動,分析數據和算法中造成不公平的潛在原因,建立機器學習中的公平性抽象定義及其分類體系,進一步研究用于消除不公平的機制.可信機器學習中的公平性研究在人工智能多個領域中處于起步階段,如計算機視覺、自然語言處理、推薦系統、多智能體系統和聯邦學習等.建立具備公平決策能力的人工智能算法,是加速推廣人工智能落地的必要條件,且極具理論意義和應用價值.
人工智能和深度學習算法正在高速發展,這些新興技術在音視頻識別、自然語言處理等領域已經得到了廣泛應用。然而,近年來研究者發現,當前主流的人工智能模型中存在著諸多安全隱患,并且這些隱患會限制人工智能技術的進一步發展。因此,研究了人工智能模型中的數據安全與隱私保護問題。對于數據與隱私泄露問題,主要研究了基于模型輸出的數據泄露問題和基于模型更新的數據泄露問題。在基于模型輸出的數據泄露問題中,主要探討了模型竊取攻擊、模型逆向攻擊、成員推斷攻擊的原理和研究現狀;在基于模型更新的數據泄露問題中,探討了在分布式訓練過程中,攻擊者如何竊取隱私數據的相關研究。對于數據與隱私保護問題,主要研究了常用的3類防御方法,即模型結構防御,信息混淆防御,查詢控制防御。綜上,圍繞人工智能深度學習模型的數據安全與隱私保護領域中最前沿的研究成果,探討了人工智能深度學習模型的數據竊取和防御技術的理論基礎、重要成果以及相關應用。
深度學習作為人工智能技術的重要組成部分,被廣泛應用于計算機視覺和自然語言處理等領域。盡管深度學習在圖像分類和目標檢測等任務中取得了較好性能,但是對抗攻擊的存在對深度學習模型的安全應用構成了潛在威脅,進而影響了模型的安全性。在簡述對抗樣本的概念及其產生原因的基礎上,分析對抗攻擊的主要攻擊方式及目標,研究具有代表性的經典對抗樣本生成方法。描述對抗樣本的檢測與防御方法,并闡述對抗樣本在不同領域的應用實例。通過對對抗樣本攻擊與防御方法的分析與總結,展望對抗攻擊與防御領域未來的研究方向。
深度學習是當前機器學習和人工智能興起的核心。隨著深度學習在自動駕駛、門禁安檢、人臉支付等嚴苛的安全領域中廣泛應用,深度學習模型的安全問題逐漸成為新的研究熱點。深度模型的攻擊根據攻擊階段可分為中毒攻擊和對抗攻擊,其區別在于前者的攻擊發生在訓練階段,后者的攻擊發生在測試階段。本文首次綜述了深度學習中的中毒攻擊方法,回顧深度學習中的中毒攻擊,分析了此類攻擊存在的可能性,并研究了現有的針對這些攻擊的防御措施。最后,對未來中毒攻擊的研究發展方向進行了探討。
//jcs.iie.ac.cn/xxaqxb/ch/reader/view_abstract.aspx?file_no=20200403&flag=1
機器學習在許多部署的決策系統中發揮著作用,其方式通常是人類利益相關者難以理解或不可能理解的。以一種人類可以理解的方式解釋機器學習模型的輸入和輸出之間的關系,對于開發可信的基于機器學習的系統是至關重要的。一個新興的研究機構試圖定義機器學習的目標和解釋方法。在本文中,我們試圖對反事實解釋的研究進行回顧和分類,這是一種特殊類型的解釋,它提供了在模型輸入以特定方式改變時可能發生的事情之間的聯系。機器學習中反事實可解釋性的現代方法與許多國家的既定法律原則相聯系,這使它們吸引了金融和醫療等高影響力領域的實地系統。因此,我們設計了一個具有反事實解釋算法理想性質的準則,并對目前提出的所有反事實解釋算法進行了綜合評價。我們的標題便于比較和理解不同方法的優缺點,并介紹了該領域的主要研究主題。我們也指出了在反事實解釋空間的差距和討論了有前途的研究方向。
機器學習作為一種在許多領域實現大規模自動化的有效工具,正日益被人們所接受。算法能夠從數據中學習,以發現模式并支持決策,而不是手工設計的規則。這些決定可以并確實直接或間接地影響人類;備受關注的案例包括信貸貸款[99]、人才資源[97]、假釋[102]和醫療[46]的申請。在機器學習社區中,新生的公平、責任、透明度和倫理(命運)已經成為一個多學科的研究人員和行業從業人員的團體,他們感興趣的是開發技術來檢測機器學習模型中的偏見,開發算法來抵消這種偏見,為機器決策生成人類可理解的解釋,讓組織為不公平的決策負責,等等。
對于機器決策,人類可以理解的解釋在幾個方面都有優勢。例如,關注一個申請貸款的申請人的用例,好處包括:
對于生活受到該決定影響的申請人來說,解釋是有益的。例如,它幫助申請人理解他們的哪些因素是做出決定的關鍵因素。
此外,如果申請人覺得受到了不公平待遇,例如,如果一個人的種族在決定結果時至關重要,它還可以幫助申請人對決定提出質疑。這對于組織檢查其算法中的偏見也很有用。
在某些情況下,解釋為申請人提供了反饋,他們可以根據這些反饋采取行動,在未來的時間內獲得預期的結果。
解釋可以幫助機器學習模型開發人員識別、檢測和修復錯誤和其他性能問題。
解釋有助于遵守與機器生產決策相關的法律,如GDPR[10]。
機器學習中的可解釋性大體上是指使用固有的可解釋的透明模型或為不透明模型生成事后解釋。前者的例子包括線性/邏輯回歸、決策樹、規則集等。后者的例子包括隨機森林、支持向量機(SVMs)和神經網絡。
事后解釋方法既可以是模型特定的,也可以是模型不可知的。特征重要性解釋和模型簡化是兩種廣泛的特定于模型的方法。與模型無關的方法可以分為視覺解釋、局部解釋、特性重要性和模型簡化。
特征重要性(Feature importance)是指對模型的整體精度或某個特定決策最有影響的特征,例如SHAP[80]、QII[27]。模型簡化找到了一個可解釋的模型,該模型緊致地模仿了不透明模型。依存圖是一種常用的直觀解釋,如部分依存圖[51]、累積局部效應圖[14]、個體條件期望圖[53]。他們將模型預測的變化繪制成一個特征,或者多個特征被改變。局部解釋不同于其他解釋方法,因為它們只解釋一個預測。局部解釋可以進一步分為近似解釋和基于實例的解釋。近似方法在模型預測需要解釋的數據點附近抽取新的數據點(以下稱為explainee數據點),然后擬合線性模型(如LIME[92])或從中提取規則集(如錨[93])。基于實例的方法尋求在被解釋數據點附近找到數據點。它們要么以與被解釋數據點具有相同預測的數據點的形式提供解釋,要么以預測與被解釋數據點不同的數據點的形式提供解釋。請注意,后一種數據點仍然接近于被解釋的數據點,被稱為“反事實解釋”。
回想一下申請貸款的申請人的用例。對于貸款請求被拒絕的個人,反事實的解釋為他們提供反饋,幫助他們改變自己的特征,以過渡到決策邊界的理想一面,即獲得貸款。這樣的反饋被稱為可執行的。與其他幾種解釋技術不同,反事實解釋不能明確回答決策中的“為什么”部分;相反,他們提供建議以達到預期的結果。反事實解釋也適用于黑箱模型(只有模型的預測功能是可訪問的),因此不限制模型的復雜性,也不要求模型披露。它們也不一定能近似底層模型,從而產生準確的反饋。由于反事實解釋具有直覺性,因此也符合法律框架的規定(見附錄C)。
在這項工作中,我們收集、審查和分類了最近的39篇論文,提出了算法,以產生機器學習模型的反事實解釋。這些方法大多集中在表格或基于圖像的數據集上。我們在附錄b中描述了我們為這項調查收集論文的方法。我們描述了這個領域最近的研究主題,并將收集的論文按照有效的反事實解釋的固定需求進行分類(見表1)。
摘要: 深度學習作為人工智能技術的重要組成部分,被廣泛應用在計算機視覺、自然語言處理等領域。盡管深 度學習在圖像分類和目標檢測等方向上取得了較好性能,但研究表明,對抗攻擊的存在對深度學習模型的安全應 用造成了潛在威脅,進而影響模型的安全性。本文在簡述對抗樣本的概念及其產生原因的基礎上,分析對抗攻擊 的主要思路,研究具有代表性的經典對抗樣本生成方法。描述對抗樣本的檢測方法與防御方法,并從應用角度闡 述對抗樣本在不同領域的應用實例。通過對對抗樣本攻擊與防御方法的分析與總結,預測未來對抗攻擊與防御的 研究方向。
深度學習在很多人工智能應用領域中取得成功的關鍵原因在于,通過復雜的深層網絡模型從海量數據中學習豐富的知識。然而,深度學習模型內部高度的復雜性常導致人們難以理解模型的決策結果,造成深度學習模型的不可解釋性,從而限制了模型的實際部署。因此,亟需提高深度學習模型的可解釋性,使模型透明化,以推動人工智能領域研究的發展。本文旨在對深度學習模型可解釋性的研究進展進行系統性的調研,從可解釋性原理的角度對現有方法進行分類,并且結合可解釋性方法在人工智能領域的實際應用,分析目前可解釋性研究存在的問題,以及深度學習模型可解釋性的發展趨勢。為全面掌握模型可解釋性的研究進展以及未來的研究方向提供新的思路。
深度學習被廣泛應用于自然語言處理、計算機視覺和無人駕駛等領域,引領了新一輪的人工智能浪潮。然而,深度學習也被用于構建對國家安全、社會穩定和個人隱私等造成潛在威脅的技術,如近期在世界范圍內引起廣泛關注的深度偽造技術能夠生成逼真的虛假圖像及音視頻內容。本文介紹了深度偽造的背景及深度偽造內容生成原理,概述和分析了針對不同類型偽造內容(圖像、視頻、音頻等)的檢測方法和數據集,最后展望了深度偽造檢測和防御未來的研究方向和面臨的挑戰。
【導讀】可解釋人工智能(Explainable Artificial Intelligence)旨在于具備可為人類所理解的功能或運作機制,具備透明度, 是當前AI研究的熱點,是構建和諧人機協作世界必要的條件,是構建負責任人工智能的基礎。最近來自法國西班牙等8家機構12位學者共同發表了關于可解釋人工智能XAI最新進展的綜述論文《Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges toward Responsible AI》,共67頁pdf調研了402篇文獻,講解了最新可解釋人工智能的進展,集大成者,梳理了XAI的體系,并提出構建負責任人工智能的內涵,非常具有指引性。
在過去的幾年里,人工智能(AI)取得了顯著的發展勢頭,在不同領域的許多應用中它可能會帶來最好的預期。當這種情況發生時,整個社區都面臨可解釋性的障礙,這是人工智能技術的一個內在問題,它是由次象征主義(模型例如集成算法或深層神經網絡)帶來的,而這些在人工智能的最上一次高潮中是不存在的。這個問題背后的范例屬于所謂的可解釋AI (XAI)領域,它被認為是AI模型實際部署的一個關鍵特性。本文綜述了XAI領域的現有文獻,并對未來的研究方向進行了展望。我們總結了在機器學習中定義可解釋性的前期工作,建立了一個新的定義,它涵蓋了先前的概念命題,主要關注可解釋性所關心的受眾。然后,我們提出并討論了與不同機器學習模型的可解釋性相關的最近貢獻的分類,包括那些旨在建立第二種體系的深度學習方法。這篇文獻分析為XAI面臨的一系列挑戰提供了背景,比如數據融合和可解釋性之間的十字路口。我們構建了負責任的人工智能的概念,即一種以公平、模型可解釋性和問責性為核心的在真實組織中大規模實施人工智能方法的方法。最終目標是為XAI的新來者提供參考資料,以促進未來的研究進展,同時也鼓勵其他學科的專家和專業人員在他們的活動領域擁抱AI的好處,而不是因為它缺乏可解釋性而事先有任何偏見。
關鍵詞: 可解釋人工智能,機器學習,深度學習,數據融合,可解釋性,可理解性,透明性,隱私,公平性,可問責性,負責任的人工智能。
目錄
1. 引言
人工智能(AI)是許多采用新信息技術的活動領域的核心。人工智能的起源可以追溯到幾十年前,人們對于智能機器具有學習、推理和適應能力的重要性有著明確的共識。正是憑借這些能力,人工智能方法在學習解決日益復雜的計算任務時達到了前所未有的性能水平,這對人類社會[2]的未來發展至關重要。近來,人工智能系統的復雜程度已經提高到幾乎不需要人為干預來設計和部署它們。當來自這些系統的決策最終影響到人類的生活(例如,醫學、法律或國防)時,就有必要了解這些決策是如何由人工智能方法[3]提供的。
最早的人工智能系統是很容易解釋的,過去的幾年見證了不透明的決策系統的興起,比如深度神經網絡(DNNs)。深度學習(DL)模型(如DNNs)的經驗成功源于高效的學習算法及其巨大的參數空間的結合。后一個空間由數百層和數百萬個參數組成,這使得DNNs被認為是復雜的黑盒模型[4]。black-box-ness的反義詞是透明性,即以尋求對模型工作機理的直接理解。
隨著黑箱機器學習(ML)模型越來越多地被用于在關鍵環境中進行重要的預測,人工智能[6]的各個利益相關者對透明度的要求也越來越高。危險在于做出和使用的決策不合理、不合法,或者不允許對其行為進行詳細的解釋。支持模型輸出的解釋是至關重要的,例如,在精準醫療中,為了支持診斷[8],專家需要從模型中獲得遠比簡單的二進制預測多得多的信息。其他例子包括交通、安全、金融等領域的自動駕駛汽車。
一般來說,考慮到對合乎道德的人工智能[3]日益增長的需求,人類不愿采用不能直接解釋、處理和信任的[9]技術。習慣上認為,如果只關注性能,系統將變得越來越不透明。從模型的性能和它的透明性[10]之間的權衡來看,這是正確的。然而,對一個系統理解的提高可以導致對其缺陷的修正。在開發ML模型時,將可解釋性考慮為額外的設計驅動程序可以提高其可實現性,原因有三:
可解釋性有助于確保決策的公正性,即檢測并糾正訓練數據集中的偏差。
可解釋性通過強調可能改變預測的潛在對抗性擾動,促進了穩健性的提供。
可解釋性可以作為一種保證,即只有有意義的變量才能推斷出輸出,即,以確保模型推理中存在真實的因果關系。
這意味著,為了考慮實際,系統的解釋應該要么提供對模型機制和預測的理解,要么提供模型識別規則的可視化,要么提供可能擾亂模型[11]的提示。
為了避免限制當前一代人工智能系統的有效性,可解釋人工智能(XAI)[7]建議創建一套ML技術,1) 產生更多可解釋的模型,同時保持高水平的學習性能(如預測準確性),2) 使人類能夠理解、適當信任和有效管理新一代人工智能伙伴。XAI還借鑒了社會科學的[12],并考慮了解釋心理學。
圖1: 過去幾年中,標題、摘要和/或關鍵詞涉及XAI領域的出版物總數的變化。通過提交圖中所示的查詢從Scopus R數據庫檢索到的數據(2019年10月14日)。值得注意的是,隨著時間的推移,對可解釋的AI模型的潛在需求(這符合直覺,因為在許多場景中,可解釋性是一種要求),但直到2017年,解釋AI模型的技術興趣才滲透到整個研究領域。
這篇綜述的其余部分的結構如下:首先,第2節和其中的子節圍繞AI中的可解釋性和可解釋性展開了關于術語和概念的討論,最后得出前面提到的可解釋性的新定義(第2.1和2.2小節),以及從XAI的角度對ML模型進行分類和分析的一般標準。第3節和第4節回顧了ML模型(分別是透明模型和事后技術)的XAI的最新發現,它們構成了上述分類中的主要部分。同時,我們也回顧了這兩種方法的混合,以達到XAI。在第5節中討論了各種方法之間的協同作用的好處和注意事項,在這里,我們提出了對一般挑戰的展望和需要謹慎對待的一些后果。最后,第6節闡述了負責任的人工智能的概念。第7節總結了調查,目的是讓社區參與到這一充滿活力的研究領域中來,這一領域有可能影響社會,特別是那些逐漸將ML作為其活動核心技術的部門。
2. 可解釋性: 是什么,為什么,怎么做?
在繼續我們的文獻研究之前,我們可以先建立一個共同的觀點來理解在AI的可解釋性這個術語,更具體地說是ML中的含義。這確實是本節的目的,即暫停對這個概念的大量定義(什么?),討論為什么可解釋性在AI和ML中是一個重要的問題(為什么?目的何在?),并介紹XAI方法的一般分類,這將推動此后的文獻研究(如何?)。
2.1 術語說明
阻礙建立共同基礎的問題之一是interpretability 和explainability 在文獻中的互換誤用。這些概念之間存在著顯著的差異。首先,interpretability 是指一個模型的被動特性,指的是一個給定的模型對人類觀察者有意義的程度。這個特性也表示為透明性。相比之下,explainability 可以被看作是模型的主動特征,表示模型為了闡明或詳述其內部功能而采取的任何動作或過程。
為了總結最常用的命名法,在本節中,我們將闡明在倫理AI和XAI社區中常用的術語之間的區別和相似性。
Understandability(或等同地,intelligibility)指的是一個模型的特征,使人理解其功能——模型如何工作——而不需要解釋其內部結構或模型內部處理數據[18]的算法方法。
Comprehensibility: 在ML模型中,可理解性是指學習算法以人類可理解的方式表示其已學知識的能力[19,20,21]。這種模型可理解性的概念源于Michalski[22]的假設,即“計算機歸納的結果應該是對給定實體的符號描述,在語義和結構上類似于人類專家可能產生的觀察相同實體的結果。”這些描述的組成部分應作為單一的‘信息塊’可理解,可直接用自然語言解釋,并應以綜合方式將定量和定性概念聯系起來”。由于難以量化,可理解性通常與模型復雜度[17]的評估聯系在一起。
Interpretability可解釋性是指以可理解的語言向人類解釋或提供意義的能力。
Explainability可解釋性與作為人類和決策者之間的接口的解釋概念相關,同時,這也是決策者的準確代理,也是人類可以理解的[17]。
Transparency 透明度:如果一個模型本身是可以理解的,那么它就被認為是透明的。由于模型具有不同程度的可理解性,因此第3節中的透明模型分為三類: 可模擬模型、可分解模型和算法透明模型[5]。
2.2 什么?
雖然這可能被認為超出了本文的范圍,但值得注意的是在哲學領域[23]中圍繞一般解釋理論展開的討論。在這方面已經提出了許多建議,建議需要一種普遍的、統一的理論來近似解釋的結構和意圖。然而,在提出這樣一個普遍的理論時,沒有人經得起批評。就目前而言,最一致的想法是將不同的解釋方法從不同的知識學科中融合在一起。在處理人工智能的可解釋性時也發現了類似的問題。從文獻中似乎還沒有一個共同的觀點來理解什么是可解釋性或可解釋性。然而,許多貢獻聲稱是可解釋(interpretable)模型和技術的成就增強了可解釋性(explainability).
為了闡明這種缺乏共識的情況,我們不妨以D. Gunning在[7]中給出的可解釋人工智能(XAI)的定義作為參考起點:
“XAI將創造一套機器學習技術,使人類用戶能夠理解、適當信任并有效管理新一代人工智能合作伙伴。
這個定義結合了兩個需要提前處理的概念(理解和信任)。然而,它忽略了其他目的,如因果關系、可轉移性、信息性、公平性和信心等,從而激發了對可解釋AI模型的需求[5,24,25,26]。
進一步修正,我們給出explainable AI的定義:
給定一個受眾,一個可解釋的人工智能是一個產生細節或理由使其功能清晰或容易理解的人工智能。
這個定義在這里作為當前概述的第一個貢獻,隱含地假設XAI技術針對當前模型的易用性和清晰性在不同的應用目的上有所恢復,比如更好地讓用戶信任模型的輸出。
2.3 為什么?
如引言所述,可解釋性是人工智能在實際應用中面臨的主要障礙之一。無法解釋或完全理解最先進的ML算法表現得如此出色的原因是一個問題,它的根源有兩個不同的原因,如圖2所示。
圖2: 圖中顯示了在ML模型中由不同的用戶配置文件尋找的可解釋性的不同目的。它們有兩個目標:模型理解的需要和法規遵從性。
2.4 什么目標?
到目前為止,圍繞XAI的研究已經揭示出了不同的目標,以便從一個可解釋的模型的實現中得出結論。幾乎沒有一篇被調研的論文在描述一個可解釋的模型所要求的目標上是完全一致的。盡管如此,所有這些不同的目標都可能有助于區分特定的ML可解釋性的目的。不幸的是,很少有人試圖從概念的角度來界定這些目標[5、13、24、30]。我們現在綜合并列舉這些XAI目標的定義,以便為這篇綜述涵蓋的所有論文確定第一個分類標準:
圖3. 可解釋AI不同的度量維度
可信賴性Trustworthiness:一些作者同意將可信賴性作為可解釋AI模型的主要目標[31,32]。然而,根據模型誘導信任的能力將模型聲明為可解釋的可能并不完全符合模型可解釋性的要求。可信度可以被認為是一個模型在面對給定問題時是否會按預期行事的信心。雖然它肯定是任何可解釋模型的一個屬性,但它并不意味著每一個值得信任的模型都可以被認為是可解釋的,可信度也不是一個容易量化的屬性。信任可能遠遠不是可解釋模型的唯一目的,因為兩者之間的關系,如果達成一致,并不是相互的。在綜述的論文中,有一部分提到了信任的概念。但是,如表1所示,它們在最近與XAI相關的貢獻中所占的份額并不大。
因果關系Causality:可解釋性的另一個常見目標是發現數據變量之間的因果關系。一些作者認為,可解釋的模型可能簡化了尋找關系的任務,如果它們發生,可以進一步測試所涉及的變量之間更強的因果關系[159,160]。從觀測數據推斷因果關系是一個隨著時間的推移已經被廣泛研究的領域[161]。正如從事這一主題的社區所廣泛承認的那樣,因果關系需要一個廣泛的先驗知識框架來證明所觀察到的影響是因果關系。ML模型只發現它所學習的數據之間的相關性,因此可能不足以揭示因果關系。然而,因果關系涉及到相關性,所以一個可解釋的ML模型可以驗證因果推理技術提供的結果,或者在現有數據中提供可能的因果關系的第一直覺。同樣,表1顯示,如果我們關注那些將因果關系明確表述為目標的論文數量,因果關系就不是最重要的目標之一。
可轉移性Transferability: 模型總是受到一些約束,這些約束應該考慮到模型的無縫可轉移性。這就是為什么在處理ML問題時使用訓練-測試方法的主要原因[162,163]。可解釋性也是可轉移性的倡導者,因為它可以簡化闡明可能影響模型的邊界的任務,從而更好地理解和實現。類似地,僅僅理解模型中發生的內部關系有助于用戶在另一個問題中重用這些知識。在某些情況下,缺乏對模型的正確理解可能會將用戶推向錯誤的假設和致命的后果[44,164]。可轉移性也應該落在可解釋模型的結果屬性之間,但同樣,不是每個可轉讓性模型都應該被認為是可解釋的。正如在表1中所觀察到的,大量的論文指出,將一個模型描述為可解釋的是為了更好地理解復用它或提高它的性能所需要的概念,這是追求模型可解釋性的第二個最常用的理由。
信息性Informativeness: ML模型的最終目的是支持決策[92]。然而,不應該忘記的是,模型所解決的問題并不等于它的人類對手所面臨的問題。因此,為了能夠將用戶的決策與模型給出的解決方案聯系起來,并避免陷入誤解的陷阱,需要大量的信息。為此,可解釋的ML模型應該提供有關正在處理的問題的信息。在文獻綜述中發現的主要原因是為了提取模型內部關系的信息。幾乎所有的規則提取技術都證實了它們在尋找模型內部功能的更簡單理解方面的方法,說明知識(信息)可以用這些更簡單的代理來表示,它們認為這些代理可以解釋先行詞。這是在綜述的論文中發現的最常用的論點,用來支持他們所期望的可解釋模型。
置信度Confidence: 作為穩健性和穩定性的概括,置信度的評估應該始終基于一個預期可靠性的模型。在控制下保持信心的方法因模型的不同而不同。正如在[165,166,167]中所述,當從某個模型中提取解釋時,穩定性是必須具備的。可靠的解釋不應該由不穩定的模型產生。因此,一個可解釋的模型應該包含關于其工作機制可信度的信息。
公平性Fairness:從社會的角度來看,在ML模型中,可解釋性可以被認為是達到和保證公平性的能力。在一個特定的文獻鏈中,一個可解釋的ML模型建議對影響結果的關系進行清晰的可視化,允許對手頭的模型進行公平或倫理分析[3,100]。同樣,XAI的一個相關目標是強調模型所暴露的數據中的偏差[168,169]。在涉及人類生活的領域,對算法和模型的支持正在迅速增長,因此,可解釋性應被視為避免不公平或不道德地使用算法輸出的橋梁。
Accessibility可訪問性: 評審貢獻的認為可解釋性是允許最終用戶更多地參與改進和開發某個ML模型的過程的屬性[37,86]。顯然,可解釋的模型將減輕非技術或非專業用戶在處理乍一看似乎不可理解的算法時的負擔。這一概念在被調查的文獻中被認為是第三個最重要的目標。
交互性Interactivity: 一些貢獻[50,59]包括模型與用戶交互的能力,這是可解釋的ML模型的目標之一。同樣,這個目標與最終用戶非常重要的領域相關,他們調整模型并與之交互的能力是確保成功的關鍵。
隱私意識Privacy awareness: 在回顧的文獻中,幾乎被遺忘的是,ML模型中可解釋性的副產品之一是它評估隱私的能力。ML模型可能具有其所學習模式的復雜表示。無法理解模型[4]捕獲并存儲在其內部表示中的內容可能會導致隱私被破壞。相反,由未經授權的第三方解釋訓練過的模型的內部關系的能力也可能會損害數據來源的差異隱私。由于其在XAI預計將發揮關鍵作用的行業中的重要性,機密性和隱私問題將分別在第5.4和6.3小節中進一步討論。
本小節回顧了所調研論文的廣泛范圍內所涉及的目標。所有這些目標都清楚地隱藏在本節前面介紹的可解釋性概念的表面之下。為了總結之前對可解釋性概念的分析,最后一小節討論了社區為解決ML模型中的可解釋性所采取的不同策略。
2.5 怎么樣?
文獻明確區分了可以通過設計解釋的模型和可以通過外部XAI技術解釋的模型。這種雙重性也可以看作是可解釋模型與模型可解釋技術的區別;更廣泛接受的分類是透明模型和事后可解釋性。同樣的對偶性也出現在[17]的論文中,作者所做的區分是指解決透明盒設計問題的方法,而不是解釋黑盒子問題的方法。這項工作進一步擴展了透明模型之間的區別,包括考慮的不同透明度級別。
在透明性中,考慮了三個層次: 算法透明性、可分解性和可模擬性。在后設技術中,我們可以區分文本解釋、可視化、局部解釋、實例解釋、簡化解釋和特征關聯。在這種情況下,[24] 提出了一個更廣泛的區別: 1)區分不透明的系統,其中從輸入到輸出的映射對用戶來說是不可見的; 2)可解釋系統,用戶可以對映射進行數學分析; 3)可理解的系統,在這個系統中,模型應該輸出符號或規則以及它們的特定輸出,以幫助理解映射背后的基本原理。最后一個分類標準可以被認為包含在前面提出的分類標準中,因此本文將嘗試遵循更具體的分類標準。
圖4. 概念圖舉例透明度的不同層次描述M?毫升模型,與?表示模型的參數集的手:(一)可模擬性;(b)可分解性;(c)算法的透明度。
圖5. 概念圖顯示了不同的因果explainability方法可供M?毫升模型
3. 透明機器學習模型
前一節介紹了透明模型的概念。如果一個模型本身是可以理解的,那么它就被認為是透明的。本節調查的模型是一套透明模型,它可以屬于前面描述的模型透明性的一個或所有級別(即可模擬性、可分解性和算法透明性)。在接下來的部分中,我們提供了該語句的理由,并提供了圖6與圖7中所示支持。
圖6:ML模型可解釋性分類的總體情況
圖7: 本綜述中所考慮的不同ML模型的透明度水平的圖形說明:(a)線性回歸;(b)決策樹;(c)再鄰居;(d)基于規則的學習者;(e)廣義可加模型;(f)貝葉斯模型。
4. 機器學習模型的后解釋技術:分類法、淺層模型和深度學習
當ML模型不滿足宣布它們透明的任何標準時,必須設計一個單獨的方法并應用于模型來解釋它的決策。這就是事后可解釋性技術(也稱為建模后可解釋性)的目的,它的目的是交流關于已經開發的模型如何對任何給定輸入產生預測的可理解信息。在本節中,我們將對不同的算法方法進行分類和回顧,這些算法方法用于事后可解釋性,區別于1) 那些為應用于任何類型的ML模型而設計的算法方法; 2) 那些是為特定的ML模型設計的,因此,不能直接推斷到任何其他學習者。現在,我們詳細闡述了不同ML模型的事后可解釋性方面的趨勢,這些趨勢在圖8中以分層目錄的形式進行了說明,并在下面進行了總結:
用于事后解釋的模型無關技術(4.1小節),可以無縫地應用于任何ML模型,而不考慮其內部處理或內部表示。
專為解釋某些ML模型而定制或專門設計的事后解釋能力。我們將我們的文獻分析分為兩個主要的分支:淺層ML模型的事后可解釋性的貢獻,這些貢獻統稱為所有不依賴于神經處理單元的分層結構的ML模型(第4.2小節);以及為深度學習模型設計的技術,這些技術相應地表示神經網絡家族和相關變體,如卷積神經網絡、遞歸神經網絡(4.3小節)和包含深度神經網絡和透明模型的混合方案。對于每一個模型,我們都對研究界提出的最新的事后方法進行了徹底的審查,并確定了這些貢獻所遵循的趨勢。
我們以4.4小節結束了我們的文獻分析,在4.4小節中,我們提出了第二種分類法,通過對處理深度學習模型的事后解釋的貢獻進行分類,對圖6中更一般的分類進行了補充。為此,我們將重點關注與這類黑盒ML方法相關的特定方面,并展示它們如何鏈接到第一種分類法中使用的分類標準。
圖8. 綜述文獻的分類和與不同ML模型相關的可解釋性技術的趨勢。用藍色、綠色和紅色框起來的引用分別對應于使用圖像、文本或表格數據的XAI技術。為了建立這種分類法,對文獻進行了深入分析,以區分是否可以將后適應技術無縫地應用于任何ML模型,即使在其標題和/或摘要中明確提到了深度學習。
4.1 用于事后可解釋性的模型不可知技術
用于事后可解釋性的模型無關技術被設計成插入到任何模型,目的是從其預測過程中提取一些信息。有時,使用簡化技術來生成模仿其前身的代理,目的是為了獲得易于處理和降低復雜性的東西。其他時候,意圖集中在直接從模型中提取知識,或者簡單地將它們可視化,以簡化對其行為的解釋。根據第2節中介紹的分類法,與模型無關的技術可能依賴于模型簡化、特征相關性估計和可視化技術。
4.2 淺ML模型的事后解釋能力
Shallow ML覆蓋了多種監督學習模型。在這些模型中,有一些嚴格可解釋的(透明的)方法(如KNN和決策樹,已經在第3節中討論過)。考慮到它們在預測任務中的突出地位和顯著性能,本節將集中討論兩種流行的淺ML模型(樹集成和支持向量機,SVMs),它們需要采用事后可解釋性技術來解釋它們的決策
4.3 深度學習的可解釋性
事后局部解釋和特征相關技術正日益成為解釋DNNs的主要方法。本節回顧了最常用的DL模型,即多層神經網絡、卷積神經網絡(CNN)和遞歸神經網絡(RNN)的可解釋性研究。
圖9: 混合模型的圖示。一個被認為是黑箱的神經網絡可以通過將其與一個更具解釋性的模型相關聯來解釋,如決策樹[298]、一個(模糊的)基于規則的系統[19]或KNN[259]。
圖10:(a) 可選的深度學習特定分類擴展自[13]的分類;(b)它與圖6中的分類法的聯系。
5. XAI:機遇、挑戰和研究需求
現在,我們利用已完成的文獻回顧,對ML和數據融合模型的可解釋性領域的成就、趨勢和挑戰提出了批評。實際上,我們在討論到目前為止在這一領域取得的進展時,已經預見到了其中的一些挑戰。在本節中,我們將重新審視這些問題,并為XAI探索新的研究機會,找出可能的研究路徑,以便在未來幾年有效地解決這些問題:
在可解釋性和性能之間的權衡
可解釋性與性能的問題是一個隨著時間不斷重復的問題,但就像任何其他大命題一樣,它的周圍充滿了神話和誤解。
圖11: 模型可解釋性和性能之間的權衡,以及XAI技術和工具潛力所在的改進領域的表示
6. 走向負責任的人工智能:人工智能、公平、隱私和數據融合的原則
多年來,許多組織,無論是私人的還是公共的,都發布了指導方針,指出人工智能應該如何開發和使用。這些指導方針通常被稱為人工智能原則,它們處理與個人和整個社會潛在的人工智能威脅相關的問題。本節將介紹一些最重要和被廣泛認可的原則,以便將XAI(通常出現在它自己的原則中)與所有這些原則聯系起來。如果在實踐中尋求一個負責任的AI模型的實現和使用,我們公司聲稱XAI本身是不夠的。其他重要的人工智能原則,如隱私和公平,在實踐中必須謹慎處理。在接下來的章節中,我們將詳細闡述負責任人工智能的概念,以及XAI和數據融合在實現其假設原則中的含義。
6.1 人工智能原則 Principles of Artificial Intelligence
使用人工智能系統后的輸出不應導致在種族、宗教、性別、性取向、殘疾、種族、出身或任何其他個人條件方面對個人或集體產生任何形式的歧視。因此,在優化人工智能系統的結果時要考慮的一個基本標準不僅是它們在錯誤優化方面的輸出,而且是系統如何處理這些狀況。這定義了公平AI的原則。
人們應該知道什么時候與人交流,什么時候與人工智能系統交流。人們還應該知道他們的個人信息是否被人工智能系統使用,以及用于什么目的。確保對人工智能系統的決策有一定程度的理解是至關重要的。這可以通過使用XAI技術來實現。重要的是,生成的解釋要考慮將接收這些解釋的用戶的配置文件(根據小節2.2中給出的定義,所謂的受眾),以便調整透明度級別,如[45]中所示。這定義了透明和可解釋AI的原則。
人工智能產品和服務應始終與聯合國的可持續發展目標保持一致[375],并以積極和切實的方式為之做出貢獻。因此,人工智能應該總是為人類和公共利益帶來好處。這定義了以人為中心的人工智能的原則(也稱為社會公益的人工智能[376])。
人工智能系統,尤其是當它們由數據提供信息時,應該在其整個生命周期中始終考慮隱私和安全標準。這一原則并不排斥人工智能系統,因為它與許多其他軟件產品共享。因此,它可以從公司內部已經存在的流程中繼承。這通過設計定義了隱私和安全的原則,這也被認為是負責任的研究和創新范式下智能信息系統面臨的核心倫理和社會挑戰之一(RRI,[377])。RRI指的是一套方法學指南和建議,旨在從實驗室的角度考慮更廣泛的科學研究背景,以應對全球社會挑戰,如可持續性、公眾參與、倫理、科學教育、性別平等、開放獲取和治理。有趣的是,RRI還要求在遵循其原則的項目中確保開放性和透明度,這與前面提到的透明和可解釋的AI原則直接相關。
作者強調,所有這些原則都應該擴展到任何第三方(供應商、顧問、合作伙伴……)
6.2 公平和責任
如前一節所述,除了XAI之外,在過去十年中發布的不同AI原則指導方針中還包括許多關鍵方面。然而,這些方面并不是完全脫離了XAI;事實上,它們是交織在一起的。本節介紹了與人工智能原則指導具有巨大相關性的兩個關鍵組成部分,即公平性和可說明性。這也突出了它們與XAI的聯系。
6.3 隱私與數據融合
如今,幾乎所有領域的活動中都存在著越來越多的信息源,這就要求采用數據融合方法,同時利用這些信息源來解決學習任務。通過合并異構信息,數據融合已被證明可以在許多應用程序中提高ML模型的性能。本節通過數據融合技術的潛力進行推測,以豐富ML模型的可解釋性,并對從中學習ML模型的數據的私密性做出妥協。為此,我們簡要概述了不同的數據融合范式,并從數據隱私的角度進行了分析。我們稍后會講到,盡管XAI與負責任的人工智能相關,但在當前的研究主流中,XAI與數據融合是一個未知的研究領域。
圖12: 顯示可以執行數據融合的不同級別的關系圖:(a)數據級別;(b)模型;(c)知識水平;(d)大數據融合;(e)聯邦學習和(f)多視圖學習。
7. 結論和展望
這篇綜述圍繞著可解釋的人工智能(XAI)展開,它最近被認為是在現實應用中采用ML方法的最大需求。我們的研究首先闡明了模型可解釋性背后的不同概念,并展示了激發人們尋找更多可解釋的ML方法的各種目的。這些概念性的評注已經成為一個堅實的基礎,系統地回顧最近關于可解釋性的文獻,這些文獻從兩個不同的角度進行了探討:1) ML模型具有一定程度的透明性,因此可以在一定程度上自行解釋; 2) 后特設XAI技術的設計,使ML模型更容易解釋。這個文獻分析已經產生了一個由社區報告的不同提案的全球分類,在統一的標準下對它們進行分類。在深入研究深度學習模型可解釋性的貢獻越來越普遍的情況下,我們深入研究了有關這類模型的文獻,提出了一種可選擇的分類方法,可以更緊密地連接深度學習模型可解釋性的具體領域。
我們的討論已經超越了XAI領域目前所取得的成果,轉向了負責任的AI概念,即在實踐中實現AI模型時必須遵循的一系列AI原則,包括公平、透明和隱私。我們還討論了在數據融合的背景下采用XAI技術的含義,揭示了XAI在融合過程中可能會損害受保護數據的隱私。對XAI在公平方面的含義也進行了詳細的討論。
我們對XAI未來的思考,通過在整個論文中進行的討論,一致認為有必要對XAI技術的潛力和警告進行適當的理解。我們的設想是,模型的可解釋性必須與數據隱私、模型保密性、公平性和可靠性相關的需求和約束一起解決。只有聯合研究所有這些人工智能原則,才能保證在全世界的組織和機構中負責任地實施和使用人工智能方法。
參考文獻