亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

深度學習,特別是神經網絡(NN),在過去十年中受到了極大的歡迎。它們在自動駕駛、醫療診斷和自然語言處理等通常對安全至關重要的決策系統中得到了越來越多的應用。因此,迫切需要一些方法來幫助開發基于人工智能的系統。在這篇論文中,我們研究了可解釋性和不確定性在為基于神經網絡的人工智能應用提供安全保證方面的作用

我們的第一個貢獻,主要研究基于神經網絡模型的決策,是一種獲得具有可證明的魯棒性和最優性保證的局部解釋的方法,稱為最優魯棒解釋(OREs)。ORE隱含模型預測,為模型決策提供了充分的理由。我們開發了一種提取礦石的算法,該算法使用神經網絡驗證工具Marabou或Neurify作為黑箱求解器。我們展示了ORE在模型開發和安全保證任務中的有用性,如模型調試、偏差評估和修復由非形式解釋者(如anchor)提供的解釋。

我們的第二篇文章關注的是一個自動駕駛場景,該場景由基于Carla模擬器數據訓練的端到端貝葉斯神經網絡(BNN)控制器實現。BNN能夠捕捉學習模型中的不確定性,同時保留神經網絡固有的主要優勢。我們提出了兩種方法來評估在離線和在線設置中存在不確定性的BNN控制器的決策安全性。我們開發了一種技術,在給定的標準下近似整個系統的安全邊界,具有高概率和先驗統計保證。我們最后的貢獻是結合貝葉斯神經網絡的不確定性信息和局部解釋方法的方法集合。展示了如何制定現有特征評分解釋方法的貝葉斯版本,以及礦石的貝葉斯版本,稱為貝葉斯最優魯棒解釋(B-OREs)。我們定義了一個覆蓋解釋,它將由多個BNN后驗樣本產生的信息濃縮為一個單一的解釋,該解釋的可能性是一個隨機樣本的解釋。在貝葉斯最優魯棒覆蓋解釋的情況下,我們獲得了解釋暗示預測的可能性的概率。我們將貝葉斯覆蓋解釋與特征不確定性的概念結合起來,對覆蓋解釋中出現的每個特征進行重要性排序,并表明特征不確定性可以用于提供模型與每個類關聯最多的輸入特征的全局概述。

引言

深度學習,特別是神經網絡(NNs),在過去十年中迅速流行起來。網絡神經網絡在現實世界中越來越普遍,通常是對安全至關重要的決策系統,如自動駕駛、自然語言處理和醫療診斷。因此,人工智能的安全性已經成為一個核心問題,因為我們試圖用可理解的解釋和嚴格的安全保證來補充這種高度準確但不透明的模型

目前,由于安全保證很少,我們已經看到了錯誤的邊例行為。這種行為的一個顯著例子發生在人工智能系統應用于自動駕駛的過程中。2016年,一輛特斯拉Model S(以自動駕駛模式著稱的汽車品牌和型號)未能在明亮的天空中分辨出一輛白色拖車,導致致命事故[132]。因此,迫切需要能夠準確檢測、分析和診斷這種錯誤行為的方法。

解釋一個決定背后的原因對于確保人工智能的安全同樣重要,在世界上一些地區甚至是法律要求的[24]。例如,圖1.1所示的交通標志。通過對標識進行分類的模型檢查圖像的哪些部分影響決策,人工解釋器可以驗證使用了適當的相關信息(例如,我們可能要求模型基于標識本身而不是可能表明錯誤決策的背景進行分類)。模型開發人員也從解釋中受益,因為解釋有助于模型調試和偏差評估。例如,從推特[43]中提取情緒分析數據集,考慮以下推文:“我真的很想聽一些泰勒斯威夫特的歌,但我找不到CD,我不想在電腦上播放它,CD聽起來更好。”這條推特含有負面情緒,但作為研究的一部分,一個簡單的神經網絡將其歸類為積極情緒。通過檢查分類背后的解釋,我們可以確定積極的分類是否可以完全歸因于流行創作型歌手泰勒·斯威夫特的名字的存在,即這是否是一個有偏見或不合理的決定。

神經網絡的一種變體,稱為貝葉斯神經網絡(BNNs),能夠捕捉學習模型中的不確定性,同時保留神經網絡固有的主要優勢[83]。因此,它們對安全關鍵應用特別有吸引力,如自動駕駛,其中不確定性估計可以通過決策管道傳播,以實現安全決策[85]。直觀地說,如果模型的不確定性很高,我們可能想要更嚴格地檢查它的預測,或者進行干預。例如,一輛自動駕駛汽車在行駛過程中發現路中間有一個障礙。在每個時間步中,控制器可能不確定轉向的角度,為了避免障礙,可以選擇使汽車向右或向左轉彎的角度,其概率相等。BNN控制器能夠指示這種不確定性,不像NN控制器可能會沿著一條直線朝著障礙物擺動(選擇左、右、左等等的結果)。擁有BNN不確定度的精確定量測量有助于發現和解決這種模糊情況。

此外,在面對決策過程中的不確定性時,解釋保持魯棒和有用是很重要的,因為對于非常相似的決策的高度可變的復雜解釋不能為人類解釋器提供良好或有用的反饋。保證對對抗擾動的魯棒性保證了解釋的穩定性,并且可以使用用戶定義的代價函數來收集有用的解釋(以確保得到的解釋是相關的和有用的)。目前,在確保人工智能安全方面,缺乏探索不確定性信息和解釋之間相互作用的技術。

付費5元查看完整內容

相關內容

是一所英國研究型大學,也是羅素大學集團、英國“G5超級精英大學”,歐洲頂尖大學科英布拉集團、歐洲研究型大學聯盟的核心成員。牛津大學培養了眾多社會名人,包括了27位英國首相、60位諾貝爾獎得主以及數十位世界各國的皇室成員和政治領袖。2016年9月,泰晤士高等教育發布了2016-2017年度世界大學排名,其中牛津大學排名第一。

本文提出了計算概率神經網絡局部魯棒性的方法,特別是由貝葉斯推理得到的魯棒性。從理論上講,將貝葉斯推理應用到神經網絡參數的學習中,有望解決頻繁主義學習范式下出現的許多實際困擾問題。特別是,貝葉斯學習允許有原則的架構比較和選擇,先驗知識的編碼,以及預測不確定性的校準。最近的研究表明,貝葉斯學習可以導致更多的對抗魯棒預測。雖然從理論上講是這樣的,并且在具體實例中已經證明了這一點,但提高魯棒性的軼事證據并不能為那些希望在安全關鍵環境中部署貝葉斯深度學習的人提供足夠的保證。雖然有方法可以保證確定性神經網絡的魯棒性,但貝葉斯神經網絡權重的概率性質使這些方法不可操作。本文研究了貝葉斯神經網絡的魯棒性概念,允許同時考慮模型的隨機性和模型決策的魯棒性保證。本文提供了一種方法,可以為給定的貝葉斯神經網絡計算這些數量,這些方法要么對估計的精度有先驗的統計保證,要么有可靠的概率上下界。最后,我們將魯棒性作為神經網絡參數貝葉斯推斷的主要要求,并演示了如何修改似然,以推斷出具有良好魯棒性的后驗分布。對似然的修正使我們的方法對貝葉斯神經網絡的近似推理技術是透明的。

我們使用貝葉斯神經網絡來評估我們提出的方法的實用性,這些神經網絡訓練了幾個真實的數據集,包括空中碰撞避免和交通標志識別。此外,我們評估了使用五種不同近似推理方法近似推斷的貝葉斯后驗分布的魯棒性。我們發現,我們的方法為貝葉斯神經網絡提供了第一個可證明的魯棒性保證,從而使它們能夠部署在安全關鍵場景中。此外,我們提出的神經網絡參數的魯棒貝葉斯推理方法使我們能夠推斷出后驗分布,這大大提高了可證明的魯棒性,即使是在全色圖像上。概述經典計算機科學關注的是如何創建解決給定問題的程序。相應地,經典程序驗證是確保(通常通過形式證明)給定程序在每個實例[6]中正確解決給定問題的任務。近年來,計算機科學家們已經將他們想要解決的問題的類別擴大到那些過于復雜或定義欠佳而無法用經典編程范式處理的任務。在程序不能再由人類設計的地方,它們可以通過示例[57]學習。隨著學習到的解決方案變得比手工編碼的解決方案好得多,它們所應用的領域也變得更加復雜。學習具有最大潛在影響的領域也具有最大的危害風險,這并不奇怪[1,10]。針對這類任務(包括醫療診斷和自動駕駛汽車)的學習解決方案,在部署和獲得公眾信任之前,必須保證其安全性。不幸的是,為這些任務編寫經典程序的障礙也阻礙了它們的正式驗證[79]。此外,檢驗習得解的基本穩定性的初步嘗試揭示了它們顯著的脆弱性[136]。這種脆弱性表現為過度自信、不正確的預測,幾乎對學習算法的每個輸入都可能產生這種預測。

因此,如果我們想要利用機器學習算法的光明未來,我們必須確保它們在部署之前是安全的在這篇論文中,我們將關注到目前為止最流行和最強大的學習算法:深度神經網絡神經網絡是功能強大的函數逼近器,它有望在廣泛的任務中對先進性能的進步做出持續和重要的貢獻。神經網絡已經在諸如醫療診斷和病理以及控制和規劃等安全關鍵領域取得了顯著的強大性能。然而,在這些領域采用神經網絡的主要障礙是它們的預測缺乏可解釋性和可靠性[1]。我們將使用兩個主要漏洞來激發貝葉斯神經網絡(BNNs)的魯棒性研究,BNNs是由貝葉斯規則推斷的參數分布的神經網絡。第一個潛在的漏洞是確定性神經網絡(DNNs)缺乏校準的不確定性,即知道自己不知道什么[81]。當確定性神經網絡用于對統計上偏離訓練數據的數據點進行推斷時,這是一個特別的挑戰。在這種情況下,DNN經常會做出高度自信、不正確的預測,如果依賴這些預測,可能會導致糟糕的行為[104]。第二個弱點是對抗性的例子[136]。一個對抗性的例子是一個輸入,它被精心設計成與自然發生的輸入無法區分,但這會導致神經網絡在輸出中做出錯誤的分類或不安全的更改。在醫學診斷中,這可能是由于病理幻燈片色調的輕微變化而預測患者患有癌癥,或者在自主導航中,這可能是基于照明條件的輕微變化而預測轉向角度的較大變化[105]。對抗攻擊已被證明不僅在圖像分類[58]中存在安全隱患,在音頻識別[163]、惡意軟件識別[126]和自然語言處理[41]中也存在安全隱患。這些對安全性和安全性關鍵型應用程序構成了巨大的安全風險。當然,證明對抗實例的安全性是在安全關鍵環境下部署任何神經網絡的先決條件。

在過去幾年里,證明神經網絡預測的安全性一直是一個重要而活躍的研究領域,并且在有效證明對抗例子不存在方面取得了巨大進展[79,22,152]。雖然這滿足了我們的一個愿望(缺乏對抗性的例子),但確定性神經網絡在校準不確定性方面仍然提供很少的東西。特別是,給定一個確定性神經網絡和一個我們想要分類的輸入,通常的情況是,如果一個對抗的例子存在,那么它被錯誤地分類,置信度非常高[58]。這意味著,基于輸出,無法推斷輸入是否可能不正確或損壞。此外,有關于確定性神經網絡的研究表明,對于許多任務來說,對抗實例的存在是不可避免的[47,46],進一步說,魯棒確定性學習是不可能的[59]。雖然合理的局部驗證(證明不存在對抗性例子)對于向用戶保證在特定情況下的正確性能是必要的,但貝葉斯學習范式提供了一種系統的方法,可以在更一般的水平上減輕這些不可能結果的擔憂。通過引入校準的不確定性,貝葉斯神經網絡在理論和經驗上都被證明對對抗性例子具有更強的魯棒性,并且可以潛在地削弱或擊敗確定性網絡的不可能結果[53,23,7]。因此,在需要安全性和魯棒性證明的安全關鍵場景中,貝葉斯神經網絡似乎是一種自然和可行的部署方案。

盡管貝葉斯神經網絡有許多吸引人的特性,但無法用確定性神經網絡開發的技術直接分析貝葉斯神經網絡[168]。貝葉斯網絡與確定性網絡的主要區別在于前者的參數值具有后驗分布。為了驗證這種模型的魯棒性,必須找到一種方法來執行確定性神經網絡可用的正確性分析,同時以合理的方式考慮到范圍或可能的參數值。這樣做是在安全關鍵場景中安全部署貝葉斯神經網絡的必要前提。在這篇論文中,我們開發了一些工具,允許我們在貝葉斯環境下利用確定性神經網絡的魯棒性量化方面的進展。特別地,我們研究了貝葉斯神經網絡魯棒性的兩個概念,這允許從業者在給定貝葉斯神經網絡部署之前量化其最壞情況的行為。貝葉斯神經網絡魯棒性的第一個概念是概率魯棒性(在第4章中定義)。這允許從業者理解模型固有的隨機性及其對抗魯棒性之間的相互作用,也可以被視為不確定性的最壞情況度量。魯棒性的第二個概念是貝葉斯決策魯棒性。貝葉斯神經網絡除了在其權重上有一個分布之外,還與確定性神經網絡不同,因為我們必須對其預測分布和錯誤決策的風險或損失進行推理,以便做出預測。決策魯棒性考慮了考慮中的貝葉斯模型的決策過程,并允許我們證明即使在對手存在的情況下,也會發布正確的決策。這些定義允許我們量化貝葉斯神經網絡的概率正確性。

付費5元查看完整內容

設計具有不確定性的深度學習模型,使其能夠在預測的同時提供合理的不確定性,一直是部分機器學習社區的目標。從業者也經常需要這樣的模型。最普遍和最明顯的方法是采用現有的深層架構,并嘗試將現有的貝葉斯技術應用于它們,例如,將神經網絡的權重作為貝葉斯框架中的隨機變量處理。本文試圖回答這個問題: 現有的神經網絡架構是獲得合理不確定性的最佳方式嗎?在本文的第一部分,我們提出了在對抗環境下貝葉斯神經網絡的不確定性行為的研究,這表明,雖然貝葉斯方法在數據分布附近的確定性網絡上有顯著的改進,但外推行為是不受歡迎的,因為標準神經網絡架構在結構上偏向于自信外推。基于此,我們探索了兩種標準深度學習架構的替代方案,試圖解決這一問題。首先,我們描述了一種新的膠囊網絡生成公式,它試圖通過對場景結構的強假設來將結構強加到學習任務中。然后,我們使用這個生成模型來檢查這些潛在的假設是否有用,并論證它們實際上存在重大缺陷。其次,我們探索了bilipschitz模型,這是一種解決深度神經網絡中確保先驗回歸這一更有限目標的體系結構。這些方法基于深度核學習,試圖通過使用最終分類層來控制神經網絡的行為,當與支持向量集的距離增加時,分類層會恢復到先驗值。為了在使用神經特征提取器的同時保持這一特性,我們為這些模型描述了一種新的“bilipschitz”正則化方案,該方案基于通過施加由可逆網絡上的工作激發的約束來防止特征崩潰。我們描述了這些模型的各種有用的應用,并分析了為什么這種正則化方案似乎仍然有效,即使它背后的原始動機不再成立,特別是在特征維度低于輸入的情況下。我們的結論是,雖然膠囊網絡可能不是一個有前途的方向,但本文最后部分討論的模型是未來研究的一個富有成果的領域,在許多應用中作為標準貝葉斯深度學習方法的一個有前途的潛在替代方案。

付費5元查看完整內容

自然智能具有從環境中不斷學習的能力,環境是不斷變化的,因此產生了需要應對的不確定性,以確保生存。相比之下,人工智能(AI)通常只在特定的訓練階段從數據中學習一次,很少明確表示或利用不確定性。在這篇論文中,我們通過設計和理解基于神經網絡的模型,在這些方面為改進人工智能做出貢獻,這些模型可以持續學習,并明確表示幾種不確定性來源,最終目標是獲得有用、可靠和實用的模型。

我們首先將這項研究置于一個更廣泛的背景下,并提供對不確定性估計和持續學習領域的介紹。對于那些有興趣熟悉這些主題的人來說,這個詳細的回顧可以成為一個入門點。在奠定這個基礎之后,我們將深入研究如何持續學習一組任務的具體問題,并提出我們基于神經網絡系統解決這一問題的方法。更具體地說,我們訓練一個元網絡為推理模型生成特定于任務的參數,并表明,在這種設置下,可以在元級別使用簡單的正則化來防止遺忘。由于任務特定解決方案的存在,出現了必須推斷不可見輸入所屬的任務的問題。我們研究了解決這一任務推理問題的兩種主要方法:(i)基于重玩的方法和(ii)基于不確定性的方法。盡管基于重放的任務推理在簡單的基準測試中表現出了顯著的性能,但我們的這種方法的實現依賴于生成建模,隨著任務復雜性的增加,這變得不成比例地困難。另一方面,基于不確定性的任務推理不依賴外部模型,更容易擴展到復雜的場景。因為校準任務推斷所需的不確定性是困難的,在實踐中,人們經常求助于應該知道他們不知道的東西的模型。這在理論上可以通過對模型參數的貝葉斯處理來實現。然而,由于對基于神經網絡的模型的先驗知識的難以解釋,也就很難解釋模型知道什么是不知道的。這種認識的意義超越了持續學習,更普遍地影響了當前機器學習模型如何處理看不見的輸入。我們討論了神經網絡中與選擇先驗知識相關的復雜性,并表明常見的選擇往往導致不確定性,這些不確定性在本質上不能反映特定的需求數據,如檢測模型不應推廣到的看不出的輸入。

總體而言,本文對當前深度學習研究中的兩個重要課題——不確定性估計和持續學習進行了總結和貢獻,同時揭示了現有的挑戰,評估了新的方法,并確定了未來研究的有前途的途徑。


付費5元查看完整內容

我們周圍的物質世界極其復雜,幾個世紀以來,我們一直試圖對其運作方式有更深入的了解。因此,建立能夠預測多物理系統(如復雜血流、混沌振蕩器和量子力學系統)長期動力學的模型仍然是科學領域的一個關鍵挑戰。雖然傳統和計算工具在解決這一開放問題方面有了顯著的改進,但它們仍面臨許多挑戰,計算資源仍然密集,而且容易產生嚴重的錯誤積累。現在,現代機器學習技術,加上大量的傳感器數據,正在推動這個方向取得重大進展,幫助我們從潛在的物理過程中發現復雜的關系。該領域的一個新興領域是混合物理信息機器學習,將物理系統的部分先驗知識集成到機器學習管道中,以提高預測性能和數據效率。在這篇論文中,我們研究了如何使用現有的關于物理世界的知識來改進和增強神經網絡的預測性能。首先,我們展示了旨在保持結構、連通性和能量(如圖、積分器和哈密頓量)的學習偏差可以有效地結合起來,從稀疏、噪聲數據中學習復雜多體節能系統的動力學。其次,通過在神經網絡中嵌入廣義的port- hamilton形式,從數據中準確地恢復不可逆物理系統的動力學。此外,我們強調了我們的模型如何通過設計從稀疏數據中發現潛在的力和阻尼項,以及重建混沌系統的Poincaré部分。最后,我們展示了基于物理的神經網絡可以有效地用于高效和準確的遷移學習——在大量研究良好的微分方程上保持高保真的同時,實現數量級的加速。總的來說,這些創新展示了科學機器學習的一個新方向——將現有知識與機器學習方法相結合。由此自然產生了許多好處,包括(1)準確的學習和長期預測(2)數據效率(3)可靠性和(4)可伸縮性。這種混合模型對于開發能夠建模和預測復雜的多保真度、多尺度物理過程的魯棒機器學習方法至關重要。

付費5元查看完整內容

在許多現實世界的應用中,多主體決策是一個普遍存在的問題,如自動駕駛、多人視頻游戲和機器人團隊運動。多智能體學習的主要挑戰包括其他智能體行為的不確定性,以及由聯合觀察、行動和策略空間的高維性導致的維數災難。由于未知的智能體意圖和意外的、可能的對抗性行為,這些挑戰在對抗性場景中進一步加劇。本文提出了魯棒和可擴展的多智能體學習方法,目標是高效地構建可以在對抗性場景中魯棒運行的自主智能體。通過觀察智能體的行為準確推斷其意圖的能力是魯棒決策的關鍵。在這種情況下,一個挑戰是對手實際行為的高度不確定性,包括潛在的欺騙,這可能與先驗行為模型有很大的不同。捕捉自我主體和對手之間的交互以及對雙方主體可用信息的推理,對于建模這種欺騙行為至關重要。本文采用博弈論對手建模方法解決了這一意圖識別問題,該方法基于一種新的多樣性驅動的信念空間集合訓練技術,用于實現對欺騙的魯棒性**。為了將集成方法擴展到具有多個智能體的場景,本文提出了一種可擴展的多智能體學習技術,該技術通過稀疏注意力機制促進了接近最優的聯合策略學習。該機制的結果是集中的參數更新,這大大提高了采樣效率**。此外,本文還提出了一種新的隱式集成訓練方法,該方法利用多任務學習和深度生成策略分布,以較低的計算和內存成本獲得更好的魯棒性。將魯棒的意圖識別和可擴展的多智能體學習結合起來,可以實現魯棒的、可擴展的離線策略學習。然而,完全自主的智能體還需要能夠不斷地從新的環境和對等智能體中學習(并適應)。因此,本文還提出了一種安全的適應方法,既能適應新的對手,又能在對抗場景中對任何可能的對手剝削保持低可利用性。本文的貢獻有助于構建自主代理,使其能夠在具有不確定性的競爭多智能體場景下做出魯棒的決策,并通過計算效率學習安全地適應以前未見的對等智能體。

付費5元查看完整內容

本文介紹了在一系列背景下進行因果參數推理的程序,包括觀察性研究、完全隨機化設計、配對實驗和協變量自適應設計。首先,我們討論了凸優化在匹配觀測研究中進行方向推斷和靈敏度分析的應用。我們設計了一種算法,使信噪比最大化,同時考慮了未觀察到的混雜。我們分析算法輸出的漸近分布行為,以發展因果效應的漸近有效假設檢驗。由此產生的程序在廣泛的程序類上達到最大的設計靈敏度。其次,我們研究了特征信息在完全隨機實驗中對效應進行高精度推斷的作用。本文構建了一種基于線性回歸的校正技術,該技術構造了估計量的漸近方差的上界。該校準程序適用于任何可能是半參數有效的填補估計器,并自動證明所產生的非線性回歸調整估計器至少與均值之差一樣漸近精確;在模型錯誤規范下,非線性回歸調整估計器先前沒有保證的一個特性。第三,我們引入了高斯預軸:一種構建檢驗統計量的算法技術,即使在零中違反隨機化假設的對稱性時,隨機化推理仍保持漸近有效。我們證明了基于預軸統計量的隨機化檢驗在銳利的零值下是有限樣本精確的,而在弱零值下它們漸近地控制了錯誤拒絕的概率。這允許形成具有同聲傳譯的處理效應的置信區域,作為齊次相加處理效應的精確置信區域和異質相加處理效應的漸近置信區域;從而統一費雪和內曼推理的許多實驗設計,包括重隨機實驗。第四,我們構建了重采樣算法的嵌套層次結構,該算法利用了超總體、固定協變量和有限總體模型中的概率結構,以促進完全隨機設計中各種統計數據的非參數推斷。重采樣算法通過利用回歸調整和最優傳輸的現代結果擴展了經典的自舉范例,在固定協變量和有限人口模型下實現了顯著的增益。

付費5元查看完整內容

來自MIT等最新《可解釋AI: 深度神經網絡內部結構解釋》綜述論文, (1)為現有的內在可解釋性方法提供一個全面的參考資源,(2)為持續的、以安全為重點的研究提供指導方向

在過去的十年里,機器學習的規模和能力都有了巨大的增長,深度神經網絡(DNNs)正在越來越多地應用于廣泛的領域。然而,DNN的內部工作原理通常很難理解,這引起了人們對使用這些系統的安全性的擔憂,因為他們沒有嚴格了解它們的功能。在這項綜述中,我們回顧了解釋DNN內部成分的技術,我們稱之為內部可解釋方法。具體而言,我們回顧了解釋權重、神經元、子網和潛在表示的方法,重點關注這些技術如何與設計更安全、更值得信賴的AI系統的目標相關聯。我們還強調了可解釋性與模塊化、對抗魯棒性、持續學習、網絡壓縮和人類視覺系統研究之間的聯系。最后,我們討論了關鍵的挑戰,并討論了未來在人工智能安全可解釋性方面的工作,重點是診斷、基準測試和魯棒性。

//www.zhuanzhi.ai/paper/c6db46946cd96a10ab425120dacad09a

過去十年深度學習的一個顯著特征是規模和能力的急劇增長[124],[228],從2010年到2022年,機器學習系統的訓練計算增長了100億倍[227]。與此同時,深度神經網絡(DNNs)越來越多地用于安全、可預測的行為至關重要的環境中。如果繼續快速發展,自動化的寬領域智能有可能對社會產生高度影響[33],[51],[179],[195],[210],[239]。考慮到這些發展,從業者能夠理解AI系統如何做出決策,特別是它們的失敗模式是至關重要的。人工智能系統最典型的評估標準是它們在特定任務測試集上的表現。這引起了關注,因為在測試集中表現良好的黑盒并不意味著學習到的解決方案就足夠了。例如,部署分布可能不同于測試分布,并且/或者任務目標的規范可能導致意外行為(例如[135],[147])。即使用戶意識到不足之處,系統的黑盒特性也會使修復缺陷變得困難。因此,建立安全可靠的人工智能系統的一個重要步驟是擁有檢測和解決這些缺陷的技術。為此,擁有一套多樣的嚴格解釋AI系統的技術將是有價值的(見I-A)。

我們將可解釋性方法定義為可以用人類可以理解的術語描述系統行為的任何過程。這包含了DNN文獻中廣泛的技術,所以在本文中,我們特別關注對理解內部結構和表示有用的方法。我們稱之為內部可解釋方法。我們討論了這些方法的分類,提供了文獻綜述,討論了可解釋性和深度學習中的其他主題之間的關鍵聯系,并總結了繼續工作的方向。我們的中心目標有兩方面: (1)為現有的內在可解釋性方法提供一個全面的參考資源,(2)為持續的、以安全為重點的研究提供指導方向

可解釋性技術的一個主要動機是理解模型的潛在問題。因此,可解釋性方法將與構建更安全、更值得信賴的人工智能系統高度相關。

可解釋性技術應通過其產生新穎、有效和可操作見解的能力來評估。這可能是困難的,而且在文獻中評估常常做得很差。需要嚴格的測試和基準來評估解釋,應該包括重新發現DNN的已知缺陷。

可解釋性、模塊化、對抗魯棒性、持續學習、網絡壓縮和與人類視覺系統的相似性之間有許多豐富的聯系。

未來工作的引人注目的方向包括使用人類輸入的可擴展方法、逆向工程系統、檢測潛在知識、基準測試和研究技術之間的交互。

可解釋性對更安全人工智能的重要性

對于AI系統來說,它們需要正確的目標,并且需要有效地優化這些目標。主要是第二個需求,可解釋性技術為構建更值得信賴的AI提供了優勢[115],[180]。我們在此概述主要動機。

展示失敗: 揭示為什么一個模型不能產生正確的輸出,讓研究人員能夠洞察失敗是什么樣子的,以及如何檢測它們。這些信息可以幫助研究人員避免這些問題,并幫助監管機構為部署的系統建立適當的規則。

修復bug:通過理解故障和/或生成利用它的例子,可以重新設計、微調和/或對抗性訓練網絡,使其更好地與用戶的目標保持一致。

提高基本理解: 通過向用戶提供更多關于DNN如何學習的知識,可解釋性技術可以開發改進的模型或更好地預測人工智能的進展。

確定責任:具有描述失敗的能力對于在誤用或部署失敗的情況下確定責任是至關重要的。

“顯微鏡式”AI: 嚴格理解AI系統如何完成任務可以提供額外的領域知識。這一目標被稱為“顯微鏡”AI[115],它可以允許對更容易理解的模型進行逆向工程。這對于研究在某些領域具有超人性能的系統尤其有價值。

對于實現上述目標的可解釋性技術,它們應該滿足某些需求

準確性-驗證,而不是說服: 可解釋性技術應該給出模型正在執行的計算的正確圖像,而不僅僅是看似合理地這樣做。給用戶錯誤的安全感是非常有害的。一個常見的例子是輸入歸因方法,它經常對模型[4]的決策提供誤導性的解釋[64]。此外,解釋應該伴隨著不確定性估計。

人類的可理解性: 另一方面,由可解釋技術產生的解釋應該易于人類理解。從某種意義上說,對模型最準確的“解釋”就是返回它的參數,但這對人類來說幾乎總是難以理解的。因此,準確性應該與可理解性相平衡。

深度: 內部可解釋性技術的“深度”指的是它解釋復雜子流程的能力。很可能DNN中的某些特征或計算比其他特征更容易被人類自然理解,這就增加了對模型理解過于簡單的可能性。解釋不應該偏向于模型中容易解釋的部分。

泛化性: 解釋應該能夠概括到不同的例子。這可以讓他們幫助診斷發生在訓練/驗證分發之外的故障。

競爭力 :可解釋性技術不應導致競爭力的顯著下降,如性能下降、計算需求增加或難以在現代深度學習框架中使用。競爭缺陷也可能導致“價值侵蝕”,即不采用更安全的人工智能實踐,而采用更具競爭力的模型。

產生可操作的見解:可解釋性方法的最終目標應該是產生有用的見解。關鍵是解釋可以用來對模型做出和驗證可測試的預測。有兩種方法可以做到這一點:使用解釋來指導新的對手的設計,或者手動微調模型來誘導可預測的變化。這與準確性密切相關;可解釋性方法的結果應該能夠明確地洞察模型的行為。在第VI節中,我們討論了可操作的見解的重要性,以及現有的工作如何典型地無法證明它們。

我們的重點是DNN的內部可解釋性方法。值得注意的是,模型無關技術、黑箱技術、輸入歸因方法、神經符號方法和“優秀的老式AI”超出了本次綜述的范圍。這并不是說它們在構建安全人工智能方面的價值低于我們所關注的方法——我們相信多樣化的技術是至關重要的。然而,我們專注于內部可解釋性方法(1),因為該綜述的可跟蹤范圍,(2) 因為它們對某些目標(如理解如何修改模型、反向工程解決方案,以及檢測通常不會出現在系統部署行為中的潛在知識)有很好的裝備。也請參閱之前對可解釋性工作的一些調查和評論,它們與我們的[3],[58],[60],[68],[95],[118],[136],[173]-[175],[208],[215],[218],[219]有重疊。然而,這項綜述的不同之處在于其對內部可解釋性、人工智能安全以及可解釋性和其他幾個研究范式之間的交叉的關注。參見我們在第VI節的討論。在接下來的章節中,我們根據DNN的計算圖解釋的部分來組織我們對技術的討論: 權重、神經元、電路或表示。圖1描述了內部方法是如何這樣組織的。除了這種分解,可解釋性技術還可以按照它們是在模型訓練期間使用還是在模型訓練之后使用來劃分。內在可解釋性技術包括訓練模型,使其更容易學習或具有自然的解釋。Post hoc技術的目的是在模型經過訓練后對其進行解釋。我們在分段層次上根據方法是內在的還是事后的來劃分方法。這兩種方法并不相互排斥。

付費5元查看完整內容

在過去的十年里,人們對人工智能和機器學習的興趣有了相當大的增長。從最廣泛的意義上說,這些領域旨在“學習一些有用的東西”,了解生物體所處的環境。如何處理收集到的信息導致了算法的發展——如何處理高維數據和處理不確定性。在機器學習和相關領域的早期研究階段,類似的技術在相對孤立的研究社區中被發現。雖然不是所有的技術都有概率論的自然描述,但許多都有,它是圖模型的框架(圖和概率論的結合),使從統計物理、統計、機器學習和信息理論的想法的理解和轉移。在這種程度上,現在有理由期待機器學習研究人員熟悉統計建模技術的基礎知識。這本書集中在信息處理和機器學習的概率方面。當然,沒有人說這種方法是正確的,也沒有人說這是唯一有用的方法。事實上,有人可能會反駁說,這是沒有必要的,因為“生物有機體不使用概率論”。無論情況是否如此,不可否認的是,圖模型和概率框架幫助機器學習領域出現了新算法和模型的爆炸式增長。我們還應該清楚,貝葉斯觀點并不是描述機器學習和信息處理的唯一方法。貝葉斯和概率技術在需要考慮不確定性的領域中發揮了自己的作用。

//www0.cs.ucl.ac.uk/staff/d.barber/brml/

本書結構

本書第一部分的目的之一是鼓勵計算機科學專業的學生進入這一領域。許多現代學生面臨的一個特別困難是有限的正規微積分和線性代數訓練,這意味著連續和高維分布的細節可能會讓他們離開。在以概率作為推理系統的一種形式開始時,我們希望向讀者展示他們可能更熟悉的邏輯推理和動態規劃的想法如何在概率環境中有自然的相似之處。特別是,計算機科學的學生熟悉的概念,算法為核心。然而,在機器學習中更常見的做法是將模型視為核心,而如何實現則是次要的。從這個角度來看,理解如何將一個數學模型轉換成一段計算機代碼是核心。

第二部分介紹了理解連續分布所需的統計背景,以及如何從概率框架來看待學習。第三部分討論機器學習的主題。當然,當一些讀者看到他們最喜歡的統計話題被列在機器學習下面時,他們會感到驚訝。統計學和機器學習之間的一個不同觀點是,我們最終希望構建什么樣的系統(能夠完成“人類/生物信息處理任務的機器),而不是某些技術。因此,我認為這本書的這一部分對機器學習者來說是有用的。第四部分討論了明確考慮時間的動態模型。特別是卡爾曼濾波器被視為圖模型的一種形式,這有助于強調模型是什么,而不是像工程文獻中更傳統的那樣把它作為一個“過濾器”。第五部分簡要介紹了近似推理技術,包括隨機(蒙特卡羅)和確定性(變分)技術。

付費5元查看完整內容

通過人工神經網絡等獲得的預測具有很高的準確性,但人類經常將這些模型視為黑盒子。對于人類來說,關于決策制定的洞察大多是不透明的。在醫療保健或金融等高度敏感領域,對決策的理解至關重要。黑盒子背后的決策要求它對人類來說更加透明、可問責和可理解。這篇綜述論文提供了基本的定義,概述了可解釋監督機器學習(SML)的不同原理和方法。我們進行了最先進的綜述,回顧過去和最近可解釋的SML方法,并根據介紹的定義對它們進行分類。最后,我們通過一個解釋性的案例研究來說明原則,并討論未來的重要方向。

//www.zhuanzhi.ai/paper/d34a1111c1ab9ea312570ae8e011903c

目前人工智能(AI)模型的準確性是顯著的,但準確性并不是最重要的唯一方面。對于高風險的領域,對模型和輸出的詳細理解也很重要。底層的機器學習和深度學習算法構建的復雜模型對人類來說是不透明的。Holzinger等人(2019b)指出,醫學領域是人工智能面臨的最大挑戰之一。對于像醫療這樣的領域,深刻理解人工智能的應用是至關重要的,對可解釋人工智能(XAI)的需求是顯而易見的。

可解釋性在許多領域很重要,但不是在所有領域。我們已經提到了可解釋性很重要的領域,例如衛生保健。在其他領域,比如飛機碰撞避免,算法多年來一直在沒有人工交互的情況下運行,也沒有給出解釋。當存在某種程度的不完整時,需要可解釋性。可以肯定的是,不完整性不能與不確定性混淆。不確定性指的是可以通過數學模型形式化和處理的東西。另一方面,不完全性意味著關于問題的某些東西不能充分編碼到模型中(Doshi-Velez和Kim(2017))。例如,刑事風險評估工具應該是公正的,它也應該符合人類的公平和道德觀念。但倫理學是一個很寬泛的領域,它是主觀的,很難正式化。相比之下,飛機避免碰撞是一個很容易理解的問題,也可以被精確地描述。如果一個系統能夠很好地避免碰撞,就不用再擔心它了。不需要解釋。

本文詳細介紹了可解釋SML的定義,并為該領域中各種方法的分類奠定了基礎。我們區分了各種問題定義,將可解釋監督學習領域分為可解釋模型、代理模型擬合和解釋生成。可解釋模型的定義關注于自然實現的或通過使用設計原則強制實現的整個模型理解。代理模型擬合方法近似基于黑盒的局部或全局可解釋模型。解釋生成過程直接產生一種解釋,區分局部解釋和全局解釋。

綜上所述,本文的貢獻如下:

  • 對五種不同的解釋方法進行形式化,并對整個解釋鏈的相應文獻(分類和回歸)進行回顧。
  • 可解釋性的原因,審查重要領域和可解釋性的評估
  • 這一章僅僅強調了圍繞數據和可解釋性主題的各個方面,比如數據質量和本體
  • 支持理解不同解釋方法的連續用例
  • 回顧重要的未來方向和討論

付費5元查看完整內容
北京阿比特科技有限公司