在優化和決策過程中,不確定性量化(UQ)在減少不確定性方面起著至關重要的作用。它可以應用于解決科學和工程中的各種實際應用。貝葉斯逼近和集成學習技術是目前文獻中使用最廣泛的兩種UQ方法。在這方面,研究者們提出了不同的UQ方法,并在計算機視覺(如自動駕駛汽車和目標檢測)、圖像處理(如圖像恢復)、醫學圖像分析(如醫學圖像分類和分割)、自然語言處理(如文本分類、社交媒體文本和再犯風險評分)、生物信息學得到廣泛應用。本研究綜述了UQ方法在深度學習中的最新進展。此外,我們還研究了這些方法在強化學習(RL)中的應用。然后,我們概述了UQ方法的幾個重要應用。最后,我們簡要地強調了UQ方法面臨的基本研究挑戰,并討論了該領域的未來研究方向。
摘要:
在日常情景中,我們處理很多領域的不確定性,從投資機會和醫療診斷到體育比賽和天氣預報,目的是根據收集的觀察和不確定的領域知識進行決策。現在,我們可以依靠使用機器和深度學習技術開發的模型來量化不確定性來完成統計推斷[1]。在人工智能(AI)系統使用[2]之前,對其效能進行評估是非常重要的。這種模型的預測具有不確定性,除了存在不確定性的歸納假設外,還容易出現噪聲和錯誤的模型推斷。因此,在任何基于人工智能的系統中,以一種值得信賴的方式表示不確定性是非常可取的。通過有效地處理不確定性,這樣的自動化系統應該能夠準確地執行。不確定性因素在人工智能中扮演著重要的角色
不確定性的來源是當測試和訓練數據不匹配,由于類重疊或由于數據[6]中存在噪聲而產生的不確定性。估計知識的不確定性要比數據的不確定性困難得多,數據的不確定性自然是通過極大似然訓練來度量的。預測中的不確定性來源對于解決不確定性估計問題[7]至關重要。不確定性有兩個主要來源,在概念上稱為aleatoric和epistemic不確定性8。
數據中的不可約不確定性導致預測中的不確定性是一種可選不確定性(也稱為數據不確定性)。這種類型的不確定性不是模型的屬性,而是數據分布的固有屬性;因此它是不可約的。不確定性的另一種類型是認知不確定性(也稱為知識不確定性),它是由于知識和數據的不足而產生的。人們可以定義模型來回答基于模型預測中的不同人類問題。在數據豐富的情況下,有大量的數據收集,但它可能是信息差的[10]。在這種情況下,可以使用基于人工智能的方法定義有效的模型,表征數據特征。通常這些數據是不完整的,有噪聲的,不一致的和多模態的[1]。
不確定性量化(UQ)是當今許多關鍵決策的基礎。沒有UQ的預測通常是不可靠和不準確的。為了理解深度學習(DL)[11],[12]過程生命周期,我們需要理解UQ在DL中的作用。DL模型首先收集可用于決策過程的最全面和潛在相關的數據集。DL場景的設計是為了滿足某些性能目標,以便在使用標記數據訓練模型之后選擇最合適的DL架構。迭代訓練過程優化不同的學習參數,這些參數將被“調整”,直到網絡提供令人滿意的性能水平。
在涉及的步驟中,有幾個不確定因素需要加以量化。很明顯的不確定性這些步驟如下:(i)選擇和訓練數據的集合,(ii)訓練數據的完整性和準確性,(3)理解DL(或傳統機器學習)模型與性能范圍及其局限性,和(iv)不確定性對應基于操作數據的性能模型[13]。數據驅動的方法,如與UQ相關的DL提出了至少四組重疊的挑戰:(1)缺乏理論,(2)缺乏臨時模型,(3)對不完美數據的敏感性,以及(4)計算費用。為了緩解這些挑戰,有時會采用模型變異性研究和敏感性分析等特殊解決方案。不確定性估計和量化在數字學習和傳統機器學習中得到了廣泛的研究。在下面,我們提供一些最近的研究的簡要總結,這些研究檢驗了處理不確定性的各種方法的有效性。
圖2給出了三種不同不確定度模型[9](MC dropout, Boostrap模型和GMM模型)的示意圖比較。此外,不確定性感知模型(BNN)與OoD分類器的兩種圖形表示如圖3所示。
在大數據時代,ML和DL,智能使用不同的原始數據有巨大的潛力,造福于廣泛的領域。然而,UQ在不同的ML和DL方法可以顯著提高其結果的可靠性。Ning等人總結并分類了不確定性下數據驅動優化范式的主要貢獻。可以看出,本文只回顧了數據驅動的優化。在另一項研究中,Kabir等人[16]回顧了基于神經網絡的UQ。作者關注概率預測和預測區間(pi),因為它們是UQ文獻中最廣泛使用的技術之一。
我們注意到,從2010年到2020年(6月底),在各個領域(如計算機視覺、圖像處理、醫學圖像分析、信號處理、自然語言處理等)發表了超過2500篇關于AI中UQ的論文。與以往UQ領域的文獻綜述不同,本研究回顧了最近發表的使用不同方法定量AI (ML和DL)不確定性的文章。另外,我們很想知道UQ如何影響真實案例,解決AI中的不確定性有助于獲得可靠的結果。與此同時,在現有的研究方法中尋找重要的談話是一種很好的方式,為未來的研究指明方向。在這方面,本文將為ML和DL中UQ的未來研究人員提供更多的建議。我們調查了UQ領域應用于ML和DL方法的最新研究。因此,我們總結了ML和DL中UQ的一些現有研究。值得一提的是,本研究的主要目的并不是比較提出的不同UQ方法的性能,因為這些方法是針對不同的數據和特定的任務引入的。由于這個原因,我們認為比較所有方法的性能超出了本研究的范圍。因此,本研究主要關注DL、ML和強化學習(RL)等重要領域。因此,本研究的主要貢獻如下:
通過人工神經網絡等獲得的預測具有很高的準確性,但人類經常將這些模型視為黑盒子。對于人類來說,關于決策制定的洞察大多是不透明的。在醫療保健或金融等高度敏感領域,對決策的理解至關重要。黑盒子背后的決策要求它對人類來說更加透明、可問責和可理解。這篇綜述論文提供了基本的定義,概述了可解釋監督機器學習(SML)的不同原理和方法。我們進行了最先進的綜述,回顧過去和最近可解釋的SML方法,并根據介紹的定義對它們進行分類。最后,我們通過一個解釋性的案例研究來說明原則,并討論未來的重要方向。
//www.zhuanzhi.ai/paper/d34a1111c1ab9ea312570ae8e011903c
目前人工智能(AI)模型的準確性是顯著的,但準確性并不是最重要的唯一方面。對于高風險的領域,對模型和輸出的詳細理解也很重要。底層的機器學習和深度學習算法構建的復雜模型對人類來說是不透明的。Holzinger等人(2019b)指出,醫學領域是人工智能面臨的最大挑戰之一。對于像醫療這樣的領域,深刻理解人工智能的應用是至關重要的,對可解釋人工智能(XAI)的需求是顯而易見的。
可解釋性在許多領域很重要,但不是在所有領域。我們已經提到了可解釋性很重要的領域,例如衛生保健。在其他領域,比如飛機碰撞避免,算法多年來一直在沒有人工交互的情況下運行,也沒有給出解釋。當存在某種程度的不完整時,需要可解釋性。可以肯定的是,不完整性不能與不確定性混淆。不確定性指的是可以通過數學模型形式化和處理的東西。另一方面,不完全性意味著關于問題的某些東西不能充分編碼到模型中(Doshi-Velez和Kim(2017))。例如,刑事風險評估工具應該是公正的,它也應該符合人類的公平和道德觀念。但倫理學是一個很寬泛的領域,它是主觀的,很難正式化。相比之下,飛機避免碰撞是一個很容易理解的問題,也可以被精確地描述。如果一個系統能夠很好地避免碰撞,就不用再擔心它了。不需要解釋。
本文詳細介紹了可解釋SML的定義,并為該領域中各種方法的分類奠定了基礎。我們區分了各種問題定義,將可解釋監督學習領域分為可解釋模型、代理模型擬合和解釋生成。可解釋模型的定義關注于自然實現的或通過使用設計原則強制實現的整個模型理解。代理模型擬合方法近似基于黑盒的局部或全局可解釋模型。解釋生成過程直接產生一種解釋,區分局部解釋和全局解釋。
綜上所述,本文的貢獻如下:
序列標記是一個基礎性研究問題,涉及詞性標記、命名實體識別、文本分塊等多種任務。盡管在許多下游應用(如信息檢索、問題回答和知識圖譜嵌入)中普遍和有效,傳統的序列標記方法嚴重依賴于手工制作或特定語言的特征。最近,深度學習已經被用于序列標記任務,因為它在自動學習實例的復雜特征和有效地產生藝術表現的強大能力。在本文中,我們旨在全面回顧現有的基于深度學習的序列標記模型,這些模型包括三個相關的任務,如詞性標記、命名實體識別和文本組塊。然后,在科學分類的基礎上,結合SL領域中廣泛使用的實驗數據集和常用的評價指標,系統地介紹了現有的方法。此外,我們還對不同的SL模型進行了深入分析,分析了可能影響SL領域性能和未來發展方向的因素。
序列標記是自然語言處理(NLP)中重要的一種模式識別任務。從語言學的角度來看,語言中最小的意義單位通常被認為是語素,因此每句話都可以看作是語素構成的序列。相應的,NLP領域中的序列標記問題可以將其表述為一種任務,目的是為一類在句子語法結構中通常具有相似角色和相似語法屬性的語素分配標簽,所分配標簽的意義通常取決于特定任務的類型,經典任務的例子有詞性標注[71]、命名實體識別(NER)[52]、文本分塊[65]等,在自然語言理解中起著至關重要的作用,有利于各種下游應用,如句法解析[81]、關系提取[64]和實體共指解析[78]等,并因此迅速得到廣泛關注。
通常,傳統的序列標記方法通常基于經典的機器學習技術,如隱馬爾科夫模型(HMM)[3]和條件隨機字段(CRFs)[51],這些技術通常嚴重依賴于手工制作的特征(如一個單詞是否大寫)或特定于語言的資源(如地名詞典)。盡管實現了卓越的性能,但對大量領域知識的需求和對特征工程的努力使得它們極難擴展到新的領域。在過去的十年中,深度學習(DL)由于其在自動學習復雜數據特征方面的強大能力而取得了巨大的成功。因此,對于如何利用深度神經網絡的表示學習能力來增強序列標記任務的研究已經有了很多,其中很多方法已經陸續取得了[8],[1],[19]的先進性能。這一趨勢促使我們對深度學習技術在序列標記領域的現狀進行了全面的綜述。通過比較不同深度學習架構的選擇,我們的目標是識別對模型性能的影響,以便后續研究人員更好地了解這些模型的優缺點。
本綜述的目的是全面回顧深度學習在序列標記(SL)領域的最新應用技術,并提供一個全景,以啟發和指導SL研究社區的研究人員和從業者快速理解和進入該領域。具體來說,我們對基于深度學習的SL技術進行了全面的調研,并按照嵌入模塊、上下文編碼器模塊和推理模塊三個軸進行了科學的分類,系統地總結了目前的研究現狀。此外,我們還概述了序列標記領域中常用任務的實驗設置(即數據集或評價指標)。此外,我們討論和比較了最具代表性的模型給出的結果,以分析不同因素和建筑的影響。最后,我們向讀者展示了當前基于dll的序列標記方法所面臨的挑戰和開放問題,并概述了該領域的未來發展方向。
本綜述旨在全面回顧深度學習技術在序列標注中的應用,并提供一個全景視圖,以便讀者對這一領域有一個全面的了解。我們以科學的分類學對文獻進行了總結。此外,我們提供了一般研究的序列標記問題的數據集和評價指標的概述。此外,我們還討論和比較了不同模型的結果,并分析了影響性能的因素和不同架構。最后,我們向讀者展示了當前方法面臨的挑戰和開放問題,并確定了該領域的未來方向。我們希望這項調查能對序列標記感興趣的研究者、從業者和教育者有所啟發和指導。
視頻中的異常檢測是一個研究了十多年的問題。這一領域因其廣泛的適用性而引起了研究者的興趣。正因為如此,多年來出現了一系列廣泛的方法,這些方法從基于統計的方法到基于機器學習的方法。在這一領域已經進行了大量的綜述,但本文著重介紹了使用深度學習進行異常檢測領域的最新進展。深度學習已成功應用于人工智能的許多領域,如計算機視覺、自然語言處理等。然而,這項調查關注的是深度學習是如何改進的,并為視頻異常檢測領域提供了更多的見解。本文針對不同的深度學習方法提供了一個分類。此外,還討論了常用的數據集以及常用的評價指標。然后,對最近的研究方法進行了綜合討論,以提供未來研究的方向和可能的領域。
當前的深度學習研究以基準評價為主。如果一種方法在專門的測試集上有良好的經驗表現,那么它就被認為是有利的。這種心態無縫地反映在連續學習的重現領域,在這里研究的是持續到達的基準數據集。核心挑戰是如何保護之前獲得的表示,以免由于迭代參數更新而出現災難性地遺忘的情況。然而,各個方法的比較是與現實應用程序隔離的,通常通過監視累積的測試集性能來判斷。封閉世界的假設仍然占主導地位。假設在部署過程中,一個模型保證會遇到來自與用于訓練的相同分布的數據。這帶來了一個巨大的挑戰,因為眾所周知,神經網絡會對未知的實例提供過于自信的錯誤預測,并在數據損壞的情況下崩潰。在這個工作我們認為值得注意的教訓來自開放數據集識別,識別的統計偏差以外的數據觀測數據集,和相鄰的主動學習領域,數據增量查詢等預期的性能收益最大化,這些常常在深度學習的時代被忽略。基于這些遺忘的教訓,我們提出了一個統一的觀點,以搭建持續學習,主動學習和開放集識別在深度神經網絡的橋梁。我們的結果表明,這不僅有利于每個個體范式,而且突出了在一個共同框架中的自然協同作用。我們從經驗上證明了在減輕災難性遺忘、主動學習中查詢數據、選擇任務順序等方面的改進,同時在以前提出的方法失敗的地方展示了強大的開放世界應用。****
在海量大數據的幫助下,深度學習在許多領域都取得了顯著的成功。但是,數據標簽的質量是一個問題,因為在許多現實場景中缺乏高質量的標簽。由于帶噪標簽嚴重降低了深度神經網絡的泛化性能,從帶噪標簽中學習(魯棒訓練)已成為現代深度學習應用的一項重要任務。在這個綜述中,我們首先從監督學習的角度來描述標簽噪聲的學習問題。接下來,我們提供了對46種最先進的魯棒訓練方法的全面回顧,所有這些方法根據其方法上的差異被歸類為7組,然后系統地比較用于評價其優越性的6種屬性。然后,總結了常用的評價方法,包括公共噪聲數據集和評價指標。最后,我們提出了幾個有前景的研究方向,可以作為未來研究的指導。
摘要
一個綜合的人工智能系統不僅需要用不同的感官(如視覺和聽覺)感知環境,還需要推斷世界的條件(甚至因果)關系和相應的不確定性。在過去的十年里,我們看到了許多感知任務的重大進展,比如視覺對象識別和使用深度學習模型的語音識別。然而,對于更高層次的推理,具有貝葉斯特性的概率圖模型仍然更加強大和靈活。近年來,貝葉斯深度學習作為一種將深度學習與貝葉斯模型緊密結合的統一的概率框架出現了。在這個總體框架中,利用深度學習對文本或圖像的感知可以提高更高層次推理的性能,推理過程的反饋也可以增強文本或圖像的感知。本文對貝葉斯深度學習進行了全面的介紹,并對其在推薦系統、主題模型、控制等方面的最新應用進行了綜述。此外,我們還討論了貝葉斯深度學習與其他相關課題如神經網絡的貝葉斯處理之間的關系和區別。
介紹
在過去的十年中,深度學習在許多流行的感知任務中取得了顯著的成功,包括視覺對象識別、文本理解和語音識別。這些任務對應于人工智能(AI)系統的看、讀、聽能力,它們無疑是人工智能有效感知環境所必不可少的。然而,要建立一個實用的、全面的人工智能系統,僅僅有感知能力是遠遠不夠的。首先,它應該具備思維能力。
一個典型的例子是醫學診斷,它遠遠超出了簡單的感知:除了看到可見的癥狀(或CT上的醫學圖像)和聽到患者的描述,醫生還必須尋找所有癥狀之間的關系,最好推斷出它們的病因。只有在那之后,醫生才能給病人提供醫療建議。在這個例子中,雖然視覺和聽覺的能力讓醫生能夠從病人那里獲得信息,但醫生的思維能力才是關鍵。具體來說,這里的思維能力包括識別條件依賴、因果推理、邏輯演繹、處理不確定性等,顯然超出了傳統深度學習方法的能力。幸運的是,另一種機器學習范式,概率圖形模型(PGM),在概率或因果推理和處理不確定性方面表現出色。問題在于,PGM在感知任務上不如深度學習模型好,而感知任務通常涉及大規模和高維信號(如圖像和視頻)。為了解決這個問題,將深度學習和PGM統一到一個有原則的概率框架中是一個自然的選擇,在本文中我們稱之為貝葉斯深度學習(BDL)。 在上面的例子中,感知任務包括感知病人的癥狀(例如,通過看到醫學圖像),而推理任務包括處理條件依賴性、因果推理、邏輯推理和不確定性。通過貝葉斯深度學習中有原則的整合,將感知任務和推理任務視為一個整體,可以相互借鑒。具體來說,能夠看到醫學圖像有助于醫生的診斷和推斷。另一方面,診斷和推斷反過來有助于理解醫學圖像。假設醫生可能不確定醫學圖像中的黑點是什么,但如果她能夠推斷出癥狀和疾病的病因,就可以幫助她更好地判斷黑點是不是腫瘤。 再以推薦系統為例。一個高精度的推薦系統需要(1)深入了解條目內容(如文檔和電影中的內容),(2)仔細分析用戶檔案/偏好,(3)正確評價用戶之間的相似度。深度學習的能力有效地處理密集的高維數據,如電影內容擅長第一子任務,而PGM專攻建模條件用戶之間的依賴關系,項目和評分(參見圖7為例,u, v,和R是用戶潛在的向量,項目潛在的向量,和評級,分別)擅長其他兩個。因此,將兩者統一在一個統一的概率原則框架中,可以使我們在兩個世界中都得到最好的結果。這種集成還帶來了額外的好處,可以優雅地處理推薦過程中的不確定性。更重要的是,我們還可以推導出具體模型的貝葉斯處理方法,從而得到更具有魯棒性的預測。
作為第三個例子,考慮根據從攝像機接收到的實時視頻流來控制一個復雜的動態系統。該問題可以轉化為迭代執行兩項任務:對原始圖像的感知和基于動態模型的控制。處理原始圖像的感知任務可以通過深度學習來處理,而控制任務通常需要更復雜的模型,如隱馬爾科夫模型和卡爾曼濾波器。由控制模型選擇的動作可以依次影響接收的視頻流,從而完成反饋回路。為了在感知任務和控制任務之間實現有效的迭代過程,我們需要信息在它們之間來回流動。感知組件將是控制組件估計其狀態的基礎,而帶有動態模型的控制組件將能夠預測未來的軌跡(圖像)。因此,貝葉斯深度學習是解決這一問題的合適選擇。值得注意的是,與推薦系統的例子類似,來自原始圖像的噪聲和控制過程中的不確定性都可以在這樣的概率框架下自然地處理。 以上例子說明了BDL作為一種統一深度學習和PGM的原則方式的主要優勢:感知任務與推理任務之間的信息交換、對高維數據的條件依賴以及對不確定性的有效建模。關于不確定性,值得注意的是,當BDL應用于復雜任務時,需要考慮三種參數不確定性:
通過使用分布代替點估計來表示未知參數,BDL提供了一個很有前途的框架,以統一的方式處理這三種不確定性。值得注意的是,第三種不確定性只能在BDL這樣的統一框架下處理;分別訓練感知部分和任務特定部分相當于假設它們之間交換信息時沒有不確定性。注意,神經網絡通常是過參數化的,因此在有效處理如此大的參數空間中的不確定性時提出了額外的挑戰。另一方面,圖形模型往往更簡潔,參數空間更小,提供了更好的可解釋性。
除了上述優點之外,BDL內建的隱式正則化還帶來了另一個好處。通過在隱藏單元、定義神經網絡的參數或指定條件依賴性的模型參數上施加先驗,BDL可以在一定程度上避免過擬合,尤其是在數據不足的情況下。通常,BDL模型由兩個組件組成,一個是感知組件,它是某種類型神經網絡的貝葉斯公式,另一個是任務特定組件,使用PGM描述不同隱藏或觀察變量之間的關系。正則化對它們都很重要。神經網絡通常過度參數化,因此需要適當地正則化。正則化技術如權值衰減和丟失被證明是有效地改善神經網絡的性能,他們都有貝葉斯解釋。在任務特定組件方面,專家知識或先驗信息作為一種正規化,可以在數據缺乏時通過施加先驗來指導模型。 在將BDL應用于實際任務時,也存在一些挑戰。(1)首先,設計一個具有合理時間復雜度的高效的神經網絡貝葉斯公式并非易事。這一行是由[42,72,80]開創的,但是由于缺乏可伸縮性,它沒有被廣泛采用。幸運的是,這個方向的一些最新進展似乎為貝葉斯神經網絡的實際應用提供了一些啟示。(2)第二個挑戰是如何確保感知組件和任務特定組件之間有效的信息交換。理想情況下,一階和二階信息(例如,平均值和方差)應該能夠在兩個組件之間來回流動。一種自然的方法是將感知組件表示為PGM,并將其與特定任務的PGM無縫連接,如[24,118,121]中所做的那樣。 本綜述提供了對BDL的全面概述,以及各種應用程序的具體模型。綜述的其余部分組織如下:在第2節中,我們將回顧一些基本的深度學習模型。第3節介紹PGM的主要概念和技術。這兩部分作為BDL的基礎,下一節第4節將演示統一BDL框架的基本原理,并詳細說明實現其感知組件和特定于任務的組件的各種選擇。第5節回顧了應用于不同領域的BDL模型,如推薦系統、主題模型和控制,分別展示了BDL在監督學習、非監督學習和一般表示學習中的工作方式。第6部分討論了未來的研究問題,并對全文進行了總結。
結論和未來工作
BDL致力于將PGM和NN的優點有機地整合在一個原則概率框架中。在這項綜述中,我們確定了這種趨勢,并回顧了最近的工作。BDL模型由感知組件和任務特定組件組成;因此,我們分別描述了過去幾年開發的兩個組件的不同實例,并詳細討論了不同的變體。為了學習BDL中的參數,人們提出了從塊坐標下降、貝葉斯條件密度濾波、隨機梯度恒溫器到隨機梯度變分貝葉斯等多種類型的算法。 BDL從PGM的成功和最近在深度學習方面有前景的進展中獲得了靈感和人氣。由于許多現實世界的任務既涉及高維信號(如圖像和視頻)的有效感知,又涉及隨機變量的概率推理,因此BDL成為利用神經網絡的感知能力和PGM的(條件和因果)推理能力的自然選擇。在過去的幾年中,BDL在推薦系統、主題模型、隨機最優控制、計算機視覺、自然語言處理、醫療保健等各個領域都有成功的應用。在未來,我們不僅可以對現有的應用進行更深入的研究,還可以對更復雜的任務進行探索。此外,最近在高效BNN (BDL的感知組件)方面的進展也為進一步提高BDL的可擴展性奠定了基礎。
目前,深度神經網絡廣泛應用于醫療、自動駕駛汽車、軍事等直接影響人類生活的關鍵任務系統。然而,深度神經網絡的黑箱特性對其在關鍵任務應用中的應用提出了挑戰,引發了道德和司法方面的擔憂,導致信任缺失。可解釋人工智能(XAI)是人工智能(AI)的一個領域,它促進了一套工具、技術和算法,可以生成高質量的可解釋的、直觀的、人類可以理解的人工智能決策解釋。除了在深度學習中提供當前XAI景觀的整體視圖外,本文還提供了開創性工作的數學總結。首先,我們根據XAI技術的解釋范圍、算法背后的方法論以及有助于構建可信、可解釋和自解釋的深度學習模型的解釋級別或用法,提出了一種分類和分類方法。然后,我們描述了在XAI研究中使用的主要原則,并給出了2007年至2020年XAI里程碑式研究的歷史時間表。在詳細解釋了每一類算法和方法之后,我們對8種XAI算法在圖像數據上生成的解釋圖進行了評估,討論了該方法的局限性,并為進一步改進XAI評估提供了潛在的方向。
基于人工智能(AI)的算法,尤其是使用深度神經網絡的算法,正在改變人類完成現實任務的方式。近年來,機器學習(ML)算法在科學、商業和社會工作流的各個方面的自動化應用出現了激增。這種激增的部分原因是ML領域(被稱為深度學習(DL))研究的增加,在深度學習中,數千(甚至數十億)個神經元參數被訓練用于泛化執行特定任務。成功使用DL算法在醫療(Torres2018, Lee2019, Chen2020)、眼科(Sayres2019、Das2019 Son2020],發育障礙(MohammadianRad2018、Heinsfeld2018 Silva2020Temporal],在自主機器人和車輛(You2019、Grigorescu2019 Feng2020],在圖像處理的分類和檢測[Sahba2018 Bendre2020Human], 在語音和音頻處理(Boles2017, Panwar2017),網絡安全(Parra2020Detecting, Chacon2019Deep), 還有更多DL算法在我們日常生活中被成功應用。
深度神經網絡中大量的參數使其理解復雜,不可否認地更難解釋。不管交叉驗證的準確性或其他可能表明良好學習性能的評估參數如何,深度學習(DL)模型可能天生就能從人們認為重要的數據中學習表示,也可能無法從這些數據中學習表示。解釋DNNs所做的決策需要了解DNNs的內部運作,而非人工智能專家和更專注于獲得準確解決方案的最終用戶則缺乏這些知識。因此,解釋人工智能決策的能力往往被認為是次要的,以達到最先進的結果或超越人類水平的準確性。
對XAI的興趣,甚至來自各國政府,特別是歐洲通用數據保護條例(GDPR) [AIHLEG2019]的規定,顯示出AI的倫理[Cath2017, Keskinbora2019, Etzioni2017, Bostrom2014, stahl2018ethics], trust [Weld2019, Lui2018, Hengstler2016], bias [Chen2019Hidden, Challen2019, Sinz2019, Osoba2017]的重要實現,以及對抗性例子[Kurakin2016, Goodfellow2015, Su2019, Huang2017]在欺騙分類器決策方面的影響。在[Miller2019], Miller等人描述了好奇心是人們要求解釋具體決策的主要原因之一。另一個原因可能是為了促進更好的學習——重塑模型設計并產生更好的結果。每種解釋都應該在相似的數據點上保持一致,并且隨著時間的推移對同一數據點產生穩定或相似的解釋[Sokol2020]。解釋應該使人工智能算法表達,以提高人類的理解能力,提高決策的信心,并促進公正和公正的決策。因此,為了在ML決策過程中保持透明度、信任和公平性,ML系統需要一個解釋或可解釋的解決方案。
解釋是一種驗證人工智能代理或算法的輸出決策的方法。對于一個使用顯微圖像的癌癥檢測模型,解釋可能意味著一個輸入像素的地圖,這有助于模型輸出。對于語音識別模型,解釋可能是特定時間內的功率譜信息對當前輸出決策的貢獻較大。解釋也可以基于參數或激活的訓練模型解釋或使用代理,如決策樹或使用梯度或其他方法。在強化學習算法的背景下,一個解釋可能會給出為什么一個代理做了一個特定的決定。然而,可解釋和可解釋的人工智能的定義通常是通用的,可能會引起誤解[Rudin2019],應該整合某種形式的推理[Doran2018]。
AI模型的集合,比如決策樹和基于規則的模型,本質上是可解釋的。但是,與深度學習模型相比,存在可解釋性與準確性權衡的缺點。本文討論了研究人員解決深度學習算法可解釋性問題的不同方法和觀點。如果模型參數和體系結構是已知的,方法可以被有效地使用。然而,現代基于api的人工智能服務帶來了更多的挑戰,因為該問題的相對“黑箱”(Castelvecchi2016)性質,即終端用戶只掌握提供給深度學習模型的輸入信息,而不是模型本身。
在這個綜述中,我們提供了一個可解釋算法的全面概述,并將重要事件的時間軸和研究出版物劃分為三個定義完好的分類,如圖1所示。不像許多其他的綜述,只分類和總結在一個高水平上發表的研究,我們提供額外的數學概述和算法的重大工作在XAI領域。調查中提出的算法被分成三個定義明確的類別,下面將詳細描述。文獻中提出的各種評價XAI的技術也進行了討論,并討論了這些方法的局限性和未來的發展方向。
我們的貢獻可以概括如下:
為了系統地分析深度學習中可解釋和可解釋的算法,我們將XAI分類為三個定義明確的類別,以提高方法的清晰度和可訪問性。
我們審查,總結和分類的核心數學模型和算法,最近XAI研究提出的分類,并討論重要工作的時間。
我們生成并比較了八種不同XAI算法的解釋圖,概述了這種方法的局限性,并討論了使用深度神經網絡解釋來提高信任、透明度、偏差和公平的未來可能的方向。
自動駕駛一直是人工智能應用中最活躍的領域。幾乎在同一時間,深度學習的幾位先驅取得了突破,其中三位(也被稱為深度學習之父)Hinton、Bengio和LeCun獲得了2019年ACM圖靈獎。這是一項關于采用深度學習方法的自動駕駛技術的綜述。我們研究了自動駕駛系統的主要領域,如感知、地圖和定位、預測、規劃和控制、仿真、V2X和安全等。由于篇幅有限,我們將重點分析幾個關鍵領域,即感知中的二維/三維物體檢測、攝像機深度估計、數據、特征和任務級的多傳感器融合、車輛行駛和行人軌跡的行為建模和預測。