機器學習正在成為現代世界運行中不可或缺的一部分。隨著數字技術的進步,數據的收集量呈指數級增長,機器學習的力量也在不斷發展。機器學習模型從這些現在可用的巨大數據庫中學習和改進。模型變得越來越強大,在許多情況下,它們執行任務的效率和效率比人類同行更高。隨著越來越多的組織和企業采用機器學習技術,可解釋性變得越來越重要。
模型被用于自動化任務和發現數據中的新趨勢和模式。這些算法直接從數據中學習,而不是由人類開發人員創建。這意味著系統將在沒有直接人類互動的情況下進化和發展。因此,理解模型為什么會做出決策在最初可能是不清楚的,特別是對于沒有數據科學經驗的涉眾來說。對于深度學習等更復雜的機器學習技術來說,這可能尤其困難。深度學習模型的多層神經結構使得決策的透明度變得更加復雜。
與組織中的任何決策工具一樣,一定程度的問責制是必要的。機器學習模型已經被用于自動化資源密集型的管理工作和做出復雜的業務決策。在決策將受到審查的領域,解釋機器學習模型做出決策的原因的能力至關重要。例如,機器學習在金融領域的應用方式多種多樣。算法可以用來自動化和簡化貸款決策,甚至可以根據市場波動自動化股票訓練。在這兩個例子中,可解釋性都是整個過程的組成部分。
本指南探討了機器學習中的可解釋性主題,包括它是什么,為什么它是重要的,以及實現模型可解釋性的不同技術。
自動化機器學習為非機器學習專家提供了機器學習的方法和過程,以提高機器學習的效率和加速機器學習的研究。
機器學習(ML)近年來取得了相當大的成功,越來越多的學科依賴于它。然而,這一成功關鍵依賴于人類機器學習專家執行以下任務:
對數據進行預處理和清理。 選擇并構建適當的特性 選擇一個合適的模型族。 hyperparameters優化模型。 設計神經網絡的拓撲結構(如果使用深度學習)。 后處理機器學習模型。 嚴格分析得到的結果。
由于這些任務的復雜性往往超出了非ml專家的能力,機器學習應用程序的快速增長創造了對現成的機器學習方法的需求,這些方法可以輕松使用,不需要專家知識。我們將這一以漸進機器學習自動化為目標的研究領域稱為AutoML
**《自動機器學習》書籍
這本書對自動化機器學習(AutoML)的一般化方法進行了全面的闡述,并且收集了以這些方法為基礎的系統的描述和一系列關于自動化機器學習系統領域的挑戰。最近,機器學習在商業領域取得的成就和該領域的快速增長對機器學習產生了大量的需求,尤其是可以很容易地使用,并且不需要專家知識的機器學習方法。然而,當前許多表現優異的機器學習方法的大多都依賴人類專家去手動選擇適當的機器學習架構以及模型的超參數(深度學習架構或者更加傳統的機器學習方法)。為了克服這個問題,AutoML基于優化原理和機器學習本身去逐步實現機器學習的自動化。這本書可以為為研究人員和高年級學生提供一個進入這個快速發展的領域的切入點,同時也為打算在工作中使用AutoML的從業者提供參考。 第一部分 自動機器學習方法 每個機器學習系統都有超參數,而自動化機器學習最基本的任務就是自動設置這些超參數來優化性能。尤其是最近的深度神經網絡嚴重依賴對于神經網絡的結構、正則化和優化等超參數的選擇。自動優化超參數(HPO)有幾個重要的用例:
第二部分 自動化機器學習系統
越來越多的非領域專家開始學習使用機器學習工具,他們需要非獨立的解決方案。機器學習社區通過開源代碼為這些用戶提供了大量復雜的學習算法和特征選擇方法,比如WEKA和mlr。這些開源包需要使用者做出兩種選擇:選擇一種學習算法,并通過設置超參數對其進行定制。然而想要一次性做出正確的選擇是非常具有挑戰性的,這使得許多用戶不得不通過算法的聲譽或直覺來進行選擇,并將超參數設置為默認值。當然,采用這種方法所獲得的性能要比最佳方法進行超參數設置差得多。
第三部分 自動化機器學習面臨的挑戰
直到十年之前,機器學習還是一門鮮為人知的學科。對于機器學習領域的科學家們來說,這是一個“賣方市場”:他們研究產出了大量的算法,并不斷地尋找新的有趣的數據集。大的互聯網公司積累了大量的數據,如谷歌,Facebook,微軟和亞馬遜已經上線了基于機器學習的應用,數據科學競賽也吸引了新一代的年輕科學家。如今,隨著開放性數據的增加,政府和企業不斷發掘機器學習的新的應用領域。然而,不幸的是機器學習并不是全自動的:依舊很難確定哪個算法一定適用于哪種問題和如何選擇超參數。完全自動化是一個無界的問題,因為總是有一些從未遇到過的新設置。AutoML面臨的挑戰包括但不限于: * 監督學習問題(分類和回歸) 特征向量表示問題 數據集特征分布問題(訓練集,驗證集和測試集分布相同) 小于200兆字節的中型數據集 有限的計算資源
**可解釋性AI是打開AI黑盒的解釋性技術的實踐指南。**本實用指南將前沿研究簡化為透明和可解釋的AI,提供實用的方法,您可以輕松地用Python和開源庫實現。從所有主要的機器學習方法的例子,這本書演示了為什么AI的一些方法是如此的不透明,教你識別你的模型已經學習的模式,并提出了建立公平和公正的模型的最佳實踐。當你完成這一任務時,你將能夠提高你的AI在訓練中的表現,并構建魯棒系統來抵消偏差、數據泄漏和概念漂移帶來的錯誤。
//www.manning.com/books/interpretable-ai
**隨著圖像識別、自然語言理解和桌面游戲等領域的突破,人工智能和機器學習正在徹底改變醫療、制造、零售和金融等各個行業。**隨著復雜的機器學習模型被部署到生產中,理解它們變得非常重要。缺乏深刻的理解會導致模型傳播偏見,我們在刑事司法、政治、零售、面部識別和語言理解中都見過這樣的例子。所有這些都對信任產生不利影響,從我的經驗來看,這是企業抵制在整個企業部署人工智能的主要原因之一。解釋人工智能是研究和行業的一個熱門話題,因為現代機器學習算法是黑盒,沒有人真正了解它們是如何工作的。此外,在GDPR的“解釋權”下,歐盟現在有解釋人工智能的規定。因此,對于人工智能從業者來說,可解釋性人工智能是一個非常重要的話題。有一些資源可以與這個活躍的研究領域保持同步,如調研論文、博客文章和一些書籍,但沒有一個單一的資源涵蓋所有對實踐者有價值的重要技術。也沒有關于如何實現這些尖端技術的實用指南。本書旨在通過提供對可解釋性技術的簡化解釋,以及如何在Python中使用開放的公共數據集和庫實現這些技術的實用指南,來填補這一空白。本書將展示代碼片段,并分享源代碼,以便您跟隨和再現書中的圖形和視覺效果。這本書旨在為您提供實現和部署最先進的可解釋性技術的實用技巧。具備概率論、統計學、線性代數、機器學習和Python的基本知識。
本書共分四部分,共九章。第一部分向你介紹可解釋AI的世界:
第2部分關注黑盒模型,并理解模型如何處理輸入并達到最終預測:
第3部分繼續關注黑盒模型,但轉向理解它們學到了什么特征或表示:
第四部分關注公平和偏見,為可解釋AI鋪平道路:
葡萄牙貝拉內大學最新《醫學診斷中可解釋深度學習方法》綜述,值得關注!
深度學習的顯著成功引發了人們對其在醫學診斷中的應用的興趣。即使最先進的深度學習模型在對不同類型的醫療數據進行分類時達到了人類水平的準確性,但這些模型在臨床工作流程中很難被采用,主要是因為它們缺乏可解釋性。深度學習模型的黑盒性提出了設計策略來解釋這些模型的決策過程的需要,這導致了可解釋人工智能(XAI)這個話題的產生。在此背景下,我們提供了XAI應用于醫療診斷的全面綜述,包括可視化、文本和基于示例的解釋方法。此外,這項工作回顧了現有的醫學成像數據集和現有的指標,以評估解釋的質量。作為對大多數現有綜述的補充,我們包含了一組基于報告生成方法之間的性能比較。最后,還討論了XAI在醫學影像應用中的主要挑戰。 //www.zhuanzhi.ai/paper/f6e90091666dbcaa5b40c1ab82e9703b
人工智能(AI)領域在過去十年取得的進展,支持了大多數計算機視覺應用的準確性的顯著提高。醫學圖像分析是在對不同類型的醫學數據(如胸部X光片[80]、角膜圖像[147])進行分類時取得人類水平精確度的應用之一。然而,盡管有這些進展,自動化醫學成像在臨床實踐中很少被采用。Zachary Lipton[69]認為,對這一明顯的悖論的解釋很簡單,醫生在不了解決策過程的情況下,永遠不會相信算法的決策。這一事實提出了產生能夠解釋人工智能算法的決策過程的策略的必要性,隨后導致了一個新的研究主題的創建,稱為可解釋人工智能(XAI)。根據DARPA[41]的說法,XAI的目標是“在保持高水平的學習性能(預測精度)的同時,產生更多可解釋的模型;并使人類用戶能夠理解、適當、信任和有效地管理新一代人工智能伙伴”。盡管XAI具有普遍適用性,但它在高風險決策(如臨床工作流程)中尤其重要,在這種情況下,錯誤決策的后果可能導致人類死亡。這也得到了歐盟通用數據保護條例(GDPR)法律的證明,該法律要求解釋算法的決策過程,使其透明,然后才能用于患者護理[37]。
因此,在將深度學習方法應用于臨床實踐之前,投資研究新的策略以提高其可解釋性是至關重要的。近年來,對這一課題的研究主要集中在設計間接分析預建模型決策過程的方法。這些方法要么分析輸入圖像的特定區域對最終預測的影響(基于擾動的方法[77;101]和基于遮擋的方法[151])或檢查網絡激活(顯著性方法[112;153])。這些方法可以應用于任意網絡架構,而不需要對模型進行額外的定制,這一事實支持了它們在XAI早期的流行。然而,最近的研究表明,事后策略在解釋的重要性方面存在一些缺陷[2;105]。因此,研究人員將他們的注意力集中在能夠解釋其決策過程本身的模型/架構的設計上。現有的可解釋模型被認為在醫學成像中特別有用[105],證明了最近集中于這一范式而不是傳統的后特殊策略的醫學成像作品數量的增長是合理的[53;144]。盡管近年來固有可解釋模型的流行,但現有的關于深度學習應用于醫學成像的可解釋性的研究并沒有全面回顧這一新的研究趨勢的進展。此外,專注于解釋應用于醫學成像的深度學習決策過程的著作數量顯著增加,因此有必要對最近一次關于該主題的綜述未涵蓋的最新方法進行更新調研。
**為了解決這些問題,我們全面回顧了可解釋深度學習應用于醫學診斷的最新進展。特別是,這項綜述提供了以下貢獻: **
回顧最近關于醫學成像中可解釋深度學習主題的調研,包括從每個工作中得出的主要結論,以及對我們調研的比較分析。 用于醫學成像的深度學習方法可解釋性研究中常用的數據集的詳盡列表。 全面調研最先進的可解釋醫學成像方法,包括事后模型和固有的可解釋模型。 對基準可解釋性方法常用的度量標準的完整描述,無論是可視化的還是文本的解釋。關于文本解釋質量的可解釋醫學成像方法的基準。 醫學影像中可解釋深度學習的未來研究方向
基于文獻綜述,XAI方法可以根據三個標準進行分類: (i) 模型無關性vs模型具體; (ii)全局可釋性與局部可釋性; (iii)事后對內在。圖1說明了XAI方法的分類法,
正如前面提到的,深度學習模型在部署到現實場景時必須具有透明性和可信賴性。此外,這一要求在臨床實踐中尤其相關,在臨床實踐中,不知情的決定可能會將患者的生命置于危險之中。在綜述的文獻中,已經提出了幾種方法來賦予應用于醫學診斷的深度學習方法解釋性。以下部分總結和分類了應用于醫學診斷的可解釋模型范圍內最相關的工作。此外,我們特別關注內在可解釋的神經網絡及其在醫學成像中的適用性。我們根據解釋方式將這些方法分為:(i)特征歸因解釋,(ii)文本解釋,(iii)實例解釋,(iv)概念解釋,(v)其他解釋;受[86]提出的分類學啟發。根據所使用的算法、圖像形態和數據集分類的綜述方法列表見表4。
可解釋性AI是打開AI黑盒的解釋性技術的實踐指南。本實用指南將前沿研究簡化為透明和可解釋的AI,提供實用的方法,您可以輕松地用Python和開源庫實現。從所有主要的機器學習方法的例子,這本書演示了為什么AI的一些方法是如此的不透明,教你識別你的模型已經學習的模式,并提出了建立公平和公正的模型的最佳實踐。當你完成這一任務時,你將能夠提高你的AI在訓練中的表現,并構建魯棒系統來抵消偏差、數據泄漏和概念漂移帶來的錯誤。
//www.manning.com/books/interpretable-ai
隨著圖像識別、自然語言理解和桌面游戲等領域的突破,人工智能和機器學習正在徹底改變醫療、制造、零售和金融等各個行業。隨著復雜的機器學習模型被部署到生產中,理解它們變得非常重要。缺乏深刻的理解會導致模型傳播偏見,我們在刑事司法、政治、零售、面部識別和語言理解中都見過這樣的例子。所有這些都對信任產生不利影響,從我的經驗來看,這是企業抵制在整個企業部署人工智能的主要原因之一。解釋人工智能是研究和行業的一個熱門話題,因為現代機器學習算法是黑盒,沒有人真正了解它們是如何工作的。此外,在GDPR的“解釋權”下,歐盟現在有解釋人工智能的規定。因此,對于人工智能從業者來說,可解釋性人工智能是一個非常重要的話題。有一些資源可以與這個活躍的研究領域保持同步,如調研論文、博客文章和一些書籍,但沒有一個單一的資源涵蓋所有對實踐者有價值的重要技術。也沒有關于如何實現這些尖端技術的實用指南。本書旨在通過提供對可解釋性技術的簡化解釋,以及如何在Python中使用開放的公共數據集和庫實現這些技術的實用指南,來填補這一空白。本書將展示代碼片段,并分享源代碼,以便您跟隨和再現書中的圖形和視覺效果。這本書旨在為您提供實現和部署最先進的可解釋性技術的實用技巧。具備概率論、統計學、線性代數、機器學習和Python的基本知識。
《2021年人工智能全景報告》目前已進入第四年,由行業和研究領域的人工智能從業者進行評審,并邀請了一系列知名和嶄露頭角的公司和研究團體做出貢獻。本報告考慮了以下主要方面:
研究方向: 技術突破和能力。 人才: 人工智能人才的供給、需求和集中度。 所屬行業: 人工智能商業應用領域及其商業影響。 政治: 人工智能的監管、其經濟影響和正在興起的人工智能地緣政治。 預測: 我們認為會發生什么,以及讓我們保持誠實的業績評估。
今年,我們看到人工智能在從藥物研發到電網等關鍵任務基礎設施等各個領域取得突破方面變得越來越關鍵。
我和我的朋友Ian Hogarth合作制作了今年的人工智能全景報告,它指出了我們在過去12個月里在NLP、計算機視覺和生物學方面看到的現實世界的性能突破。
雖然人工智能對社會和經濟的影響越來越明顯,但我們的報告強調,對人工智能安全性和影響的研究仍落后于其快速的商業、民用和軍事部署。這一點,以及其他突出的偏見問題,讓我們有理由思考如何最好地繪制能力迅速提升的人工智能系統的進展。
今年的報告特別關注了Transformer 技術的出現,這種技術將機器學習算法聚焦于數據點之間的重要關系,以更全面地提取意義,以便更好地預測,最終幫助解鎖了我們一直強調的許多關鍵突破。
該報告還闡明了生物學領域的一個分水嶺,在這個分水嶺上,人工智能優先方法繼續顯示出它們完全改變藥物發現和醫療保健的潛力。我個人很期待在蛋白質折疊和RNA分子結構方面的重大突破之后,接下來會發生什么。
關鍵的信息。我們希望這份報告對從人工智能研究到政治的所有人都有意義:
人工智能正在以更具體的方式發展:人工智能正越來越多地應用于關鍵任務基礎設施,如國家電網和流行病期間超市倉儲自動化計算。然而,對于該行業的成熟是否已經趕上其日益增長的部署規模,仍存在疑問。人工智能正日益以數據為中心,而不是以模型為中心。
人工智能優先的方法已經席卷了生物學領域: 人工智能能夠更快地模擬人類的細胞機制(蛋白質和RNA),這有可能改變藥物發現和醫療保健。
Transformers已經成為機器學習的通用架構: 在包括自然語言處理(NLP)、計算機視覺甚至蛋白質結構預測在內的許多領域擊敗了最先進的技術。
投資者已經注意到: 今年,我們看到人工智能初創企業獲得了創紀錄的融資,以人工智能為先導的藥物研發公司進行了兩次首次公開募股(ipo),數據基礎設施和網絡安全公司的ipo也引起了轟動,這些公司幫助企業重組以適應人工智能時代。
中國在研究質量上的提升是值得注意的: 中國的大學從1980年沒有發表人工智能研究成果,迅速發展到今天發表了數量最多的高質量人工智能研究成果。
隨著機器學習黑盒越來越多地部署在醫療保健和刑事司法等領域,人們越來越重視構建工具和技術,以事后方式解釋這些黑盒。這些解釋正被領域專家用來診斷系統性錯誤和黑盒的潛在偏見。然而,最近的研究揭示了流行的事后解釋技術的弱點。在本教程中,我將簡要概述事后解釋方法,特別強調特征歸因方法,如LIME和SHAP。然后,我將討論最近的研究,這些研究表明,這些方法是脆弱的,不穩定的,并容易受到各種對抗性攻擊。最后,我將提出兩種解決方案,以解決這些方法的一些漏洞:(I)一個基于對抗性訓練的通用框架,旨在使事后解釋更穩定,更魯棒,以應對底層數據的變化,(ii) 貝葉斯框架,捕獲與事后解釋相關的不確定性,從而允許我們生成滿足用戶指定的置信水平的可靠解釋。總的來說,本教程將提供可解釋機器學習這一新興領域的最新技術的概述。
人工智能(AI)為改善私人和公共生活提供了很多機會,以自動化的方式在大型數據中發現模式和結構是數據科學的核心組件,目前驅動著計算生物學、法律和金融等不同領域的應用發展。然而,這種高度積極的影響也伴隨著重大的挑戰:我們如何理解這些系統所建議的決策,以便我們能夠信任它們?在這個報告中,我們特別關注數據驅動的方法——特別是機器學習(ML)和模式識別模型——以便調查和提取結果和文獻觀察。通過注意到ML模型越來越多地部署在廣泛的業務中,可以特別理解本報告的目的。然而,隨著方法的日益普及和復雜性,業務涉眾對模型的缺陷、特定數據的偏差等越來越關注。類似地,數據科學從業者通常不知道來自學術文獻的方法,或者可能很難理解不同方法之間的差異,所以最終使用行業標準,比如SHAP。在這里,我們進行了一項調查,以幫助行業從業者(以及更廣泛的數據科學家)更好地理解可解釋機器學習領域,并應用正確的工具。我們后面的章節將圍繞一位公認的數據科學家展開敘述,并討論她如何通過提出正確的問題來解釋模型。