本書對深度學習模型可解釋性的最新研究工具進行了全面的策劃、闡述和說明性討論,重點是神經網絡架構。此外,還包括計算機視覺、光學和機器學習相關主題的應用導向型文章中的若干案例研究。
這本書可以作為深度學習中涵蓋最新主題的可解釋性的專題論文,也可以作為研究生的教科書。負責研究、開發和應用的科學家從它的系統闡述中受益。
本書的動機是深度學習架構的黑箱性質與其編碼的知識模型的人類可解釋性之間的巨大差距。人工智能模型的準確性和可理解性對于人工智能和人類智能的共存和協作變得越來越重要。在某些危及生命的應用中,可解釋性對于根本原因分析和人類決策至關重要。本書側重于對深度學習模型可解釋性的最新研究工具進行全面的策劃、闡述和說明性討論,重點是神經網絡架構。其中很大一部分工作補充了現有的深度學習和神經網絡教科書,并以過去十年的工作為基礎,其中重點是網絡中編碼的知識的可視化和可解釋性。這些工作來自計算機視覺、模式識別和深度學習領域的領先會議和期刊。此外,還包括來自不同領域的面向應用文章的幾個案例研究,包括計算機視覺、光學和自然語言處理。在目前與深度學習、機器學習和神經網絡相關的研究生課程中,缺乏處理可解釋性主題的教學材料。這主要是因為機器學習社區之前的重點是精度,而可解釋性的問題是一個新興的話題。然而,隨著書籍[81]、[428]、課堂講稿[532]、新課程以及觀點[520]的出版,它作為越來越相關的主題正在獲得吸引力。然而,這些工作中對通用機器學習的關注意味著,深度學習中的可解釋性問題目前仍然沒有得到足夠的深度解決,深度學習現在在各種機器學習應用中廣泛使用。因此,這本教科書將是致力于這一主題的先驅教科書之一。這可能會導致設立關于這一主題的專門研究生課程,因為人們認為需要這類課程,但缺乏關于這一主題的有組織的材料是一個突出的障礙。
在第一章中,我們介紹了本書的背景和動機,幫助讀者設定對本書的期望并理解材料的范圍。我們還通過總結深度學習的演變提供了一個簡短的歷史。在此過程中,我們也闡明了這種演變如何導致知識抽象化的增加,從而形成了眾所周知的黑箱模型,它編碼了知識但并未解釋知識。我們自然地將這個討論引向可解釋性的問題,確定了其必要性以及所面臨的挑戰。我們也澄清了本書的重點是解決現有深度學習架構中的可解釋性,而將新的天然可解釋的深度學習架構的設計主題委托給最后一章的一個小節(并可能在未來的本書第二卷中)。
在第二章中,我們介紹了深度學習的各種現代主題,包括傳統的神經網絡架構、學習機制以及深度學習的挑戰。本章的目標是介紹背景概念并為后續章節的技術闡述做準備。特別地,我們將會覆蓋卷積神經網絡、自編碼器、對抗神經網絡、圖神經網絡和神經模糊網絡,因為在接下來的章節中將詳細探討這些范式的可解釋性機制。同樣,具體的學習機制將會被解釋,以便在后續章節中識別可解釋性的損失或機會。出于全面性的考慮,我們還將包含一節關于其他類型的深度學習方法,即使在其他章節中并未詳述它們的可解釋性。
在第三章中,我們開始全面處理可解釋性。具體來說,我們在深度學習方法的一般特性的背景下討論可解釋性的概念。我們從討論神經元和特征級別的抽象知識編碼開始,然后討論抽象編碼的可解釋性和可視化。從理解概念、優點和缺點的角度出發,我們討論了諸如激活圖、顯著性、注意力模型等常規技術。然后,我們分析了在優化或學習過程中知識如何傳播,作為深入了解如何解釋使用深度學習模型學習的知識的挑戰和機會。神經網絡通過連續的非線性激活提取特征,這使得知識表示變得困難,同時對噪聲和不完整數據區域敏感。我們使用一個案例研究討論了知識與性能的關系。最后,我們討論了深度編碼與淺層編碼的解釋,這兩者的性能存在競爭。因此,本章涵蓋了一系列普遍適用于任何深度學習架構的可解釋性主題。
第四章專門介紹針對特定單一架構的可解釋性方法。本章選擇的架構有卷積神經網絡、自編碼器網絡、對抗網絡和圖學習技術。我們包括了與這些架構相關的相對較新的主題,例如卷積神經網絡的新概念“卷積追蹤”,自編碼器網絡潛在空間中抽象特征的可解釋性,對抗網絡中判別模型的可解釋性,以及圖神經網絡的圖嵌入解釋性。我們為每種架構給出了至少一個案例研究,包括來自各種應用領域的案例。我們也簡要地參考了注意力網絡,這種網絡在設計中固有地包含了某種可解釋性。
第五章專門討論模糊深度學習。這種方法與以神經網絡為中心的深度學習略有不同,因為模糊邏輯和基于規則的推理是這類網絡設計的核心。對解釋的需求導致了對基于規則的系統的再度關注。這也是一個被獨立研究的主題,很少在深度學習和可解釋性的特定背景下研究。我們通過闡述模糊深度學習的主題和相關的.
神經網絡模型性能日益強大, 被廣泛應用于解決各類計算機相關任務, 并表現出非常優秀的能力, 但人類 對神經網絡模型的運行機制卻并不完全理解. 針對神經網絡可解釋性的研究進行了梳理和匯總, 就模型可解釋性 研究的定義、必要性、分類、評估等方面進行了詳細的討論. 從解釋算法的關注點出發, 提出一種神經網絡可解 釋算法的新型分類方法, 為理解神經網絡提供一個全新的視角. 根據提出的新型分類方法對當前卷積神經網絡的 可解釋方法進行梳理, 并對不同類別解釋算法的特點進行分析和比較. 同時, 介紹了常見可解釋算法的評估原則和 評估方法. 對可解釋神經網絡的研究方向與應用進行概述. 就可解釋神經網絡面臨的挑戰進行闡述, 并針對這些挑 戰給出可能的解決方向.近年來, 人工智能 (artificial intelligence, AI) 成為最重要的科學研究領域之一, 具有巨大的社會影響力, AI 技 術被廣泛應用于各個領域[1,2] . 隨著可擴展的高性能基礎設施的發展, AI 系統在許多領域已成為不可或缺的工具, 甚至在越來越多的復雜任務上完成度超過了人類水平[3,4] . 然而, AI 系統在預測、推薦和決策支持方面的出色表現通常是通過采用復雜的神經網絡模型來實現的, 這些 模型隱藏了內部流程的邏輯, 此類模型通常被稱為黑盒模型[5–7] . 神經網絡模型通過非線性、非單調和非多項式函 數來近似數據集中變量之間的關系, 這使得內部運行原理高度不透明. 神經網絡模型經常因為錯誤的原因在訓練 集中得到正確的預測結果, 導致模型在訓練中表現出色, 但在實踐中表現不佳[8–11] . 因此, 神經網絡的黑盒特性使 得人類難以完全相信神經網絡模型的決策. 人類有進一步了解神經網絡模型的意愿. 對于決策能力較人類更差的模型, 希望可以在深度了解模型后發現 問題并解決問題, 從而幫助模型改善性能. 對于決策能力與人類相似的模型, 希望可以解釋決策結果, 從而使人類 信任模型, 應用模型. 對于決策能力較人類更好的模型, 希望可以分析其決策機制, 幫助人類更好更深入地理解需 要解決的問題. 可解釋人工智能 (explainable AI, XAI)[12]研究致力于以人類可理解的方式解釋人工智能模型[13] , 使得人類能 夠理解模型的內部運行邏輯和決策結果, 為模型的故障排除和廣泛使用提供方便. 可視化和解釋神經網絡模型的 研究工作引起了越來越多的關注. 2018 年, 歐洲議會在通用數據保護條例 (general data protection regulation, GDPR) 中引入關于自動化決策的條款, 規定數據主體有獲得自動化決策中涉及的相關解釋信息的權利. 此外, 在 2019 年, 人工智能高級專家組提出了可信賴人工智能的道德準則. 盡管法律上對這些條款存在不同意見[14,15] , 但 普遍認同實施這樣一個原則的必要性和緊迫性. 美國國家標準與技術研究院 (National Institute of Standards and Technology, NIST) 于 2020 年 8 月發布關于 XAI 的 4 項原則[16] : 可證明性 (解釋結果可以被證據證明)、可用性 (解釋結果能夠被模型使用用戶理解并對用戶有意義)、準確性 (解釋結果必須準確反映模型運行機制)、限制性 (解釋結果能識別出不適合其自身運行的情況). 本文主要對卷積神經網絡的可解釋算法進行回顧和總結, 第 1 節主要針對模型可解釋的定義和研究必要性進 行討論, 歸納受到了廣泛認可的可解釋定義和該領域內的常見詞匯定義, 并從解決倫理問題、加強模型可靠性和 優化模型性能等幾個方面, 介紹對模型進行解釋的必要性. 第 2 節對近年來模型可解釋的相關研究進行簡要分析, 首先對可解釋研究具有代表性的研究和發展脈絡進行梳理, 隨后介紹目前已有的可解釋算法的分類方法, 并總結 現有分類方法普遍存在的問題. 第 3 節提出一種對神經網絡可解釋算法進行分類的新方法, 為理解可解釋算法提 供新角度. 依據新的分類方法, 對當前卷積神經網絡的可解釋方法進行梳理, 并對不同類別解釋算法的特點進行分 析和比較. 第 4 節中介紹常見的可解釋算法的評估原則和評估方法. 第 5 節討論可解釋神經網絡的研究方向、實 際應用和當前面臨的挑戰, 對解釋算法的目標和應用任務等與可解釋性研究密切相關的內容進行闡述, 并就神經 網絡解釋模型當前面臨的問題進行簡述, 針對這些挑戰給出可能的解決方向. 第 6 節對全文進行總結.
深度學習是人工智能的重要組成部分,特別是在圖像分類等應用中,各種神經網絡架構(例如,卷積神經網絡)已經產生了可靠的結果。這本書介紹了用于時間序列分析的深度學習,特別是對于周期性時間序列。它詳細闡述了在其架構深層次進行時間序列分析所采用的方法。周期性時間序列通常具有可以用于更好的分類性能的特殊特征。本書對此進行了討論。處理周期性時間序列也在本書中有所覆蓋。分類隨機時間序列的一個重要因素是與分類方法架構相關的結構風險。本書解決并構建了結構風險,以及為分類方法定義的學習能力。這些公式和數學推導將幫助研究者理解方法,并以客觀的數學方式表達他們的方法。本書設計成為具有不同機器學習背景和理解水平的讀者(包括學生,工程師,研究者和這個領域的科學家)的自學教材。書中提供的大量信息豐富的插圖將引導讀者對時間序列分析的深度學習方法有深入的理解。
大部分科學研究,包括計算機科學,都將學習視為發展的重要元素,其中深度機器學習最近被視為一個新興的領域。深度機器學習方法的應用在過去的五年中受到了研究人員和工程師的熱烈歡迎,當時時間序列分析在生物醫學工程等不同的領域中越來越被視為一個重要的主題。盡管強大的深度學習方法的實施工具的發展在計算機科學和工程領域創造了突破,但是,向這個領域內的抽象理解的轉變明顯可見,尤其在年輕的開發人員中。這可能會在深度學習的一般觀念上留下負面的印象,反過來又會被視為這種進步的缺點。如今,各種深度學習方法被大量開發并發布在高度知名的參考資料中,然而,只有極少數的方法包含足夠的質量,能對相關社區產生真正的影響。原因之一可能是對理論基礎以及實施知識的深入了解不足。這促使作者準備了一本關于深度學習方法的教科書,專為時間序列分析設計,以提出該領域的基本概念以及實施的算法。
這本書專注于一般學習過程,尤其是深度學習的深層概念,更多地關注傳統方法和現代時間序列分析的基本要素。盡管圖像處理被認為是深度學習的重要主題,但作者們決定將此主題從本書中排除,將其分配給未來的單獨出版物。得出這個結論的主要理由是為了避免過多的多樣性和失去核心關注。本書從基本定義和推測平穩過渡到方法構建。書的內容以一種能夠培養和鞏固時間序列分析基本要素的方式進行了教學組織。這種表示方式旨在擴大讀者從科學到工程方面的視野。書中也考慮引出了一些深度學習方法在時間序列分析中的實際示例,隨著生物醫學工程和醫學信息學應用的興起。同時,本書以數學的方式表示深度學習方法,以幫助研究者和開發者以數學方式構建他們自己的方法。顯然,新方法的數學表示相比描述性表示有更好的可讀性。可以看出,新學生更傾向于使用塊狀圖和描述性方法來學習深度學習的概念。沉迷于這種學習方式可能會使他們在數學表示的基本能力上產生誤導,這可能對學習深度學習方法起到退化的作用。此外,在許多情況下都沒有看到一致的圖形表示。這本書也介紹了人工智能中的一些新想法。引入了A-Test驗證方法,并與其他傳統方法進行了比較。讀者可以輕松找到這種方法在提供與其他兩種替代方案相比更為現實的驗證中的詳細闡述。在學習模型方面,周期性時間序列和周期性學習是本書提出的另外兩個新概念,也引入了一些學習方法,如時間增長神經網絡,用于學習周期性時間序列。本書未涉及時間序列分析的生成模型。這些模型很適合納入預測類別,這被視為未來工作的一部分。
人工智能(AI)技術,特別是那些基于深度學習(DL)的技術,已經在各種各樣的任務上變得非常有效,有時甚至表現得比人類專家更好。然而,它們也有一些問題:它們通常以不透明和/或棘手的方式運行,它們的非常好的性能僅是統計上的,即使在明顯的情況下也可能失敗,它們可能做出有偏見的決定,它們很容易通過對抗性攻擊進行操作,舉幾個例子。這些限制阻礙了它們在具有重大經濟或社會利益的應用中被采用,特別是在關鍵或明智的應用中,如自動駕駛、醫療診斷或貸款批準。
考慮到這一點,為了增加基于深度學習的人工智能系統的可信性,通過為這些系統所做的決策提供人類用戶可以理解的解釋,進行了大量的研究。本書的目的是為專家或外行人用戶介紹可解釋深度學習領域的主要方法的最新和原始貢獻。提出了兩種主要類型的方法:“事后”或“模型不可知”的方法,其中對一個已經可用的“黑盒”系統的操作進行建模和解釋,以及內在的方法,其中系統被專門設計為具有可解釋的操作模式的“白盒”。本書是我們在ICPR’2020 IAPR和IEEE會議上組織的一個非常成功的研討會“Explainable Deep Learning-AI”的后續工作,該研討會對該領域正在進行的研究進行了大規模的參觀。可解釋性的問題在許多媒體領域都得到了解決,包括圖像、文本、時間序列和表格數據。兩章具體論述了解釋方法評價的難點和重要問題。最后,在結語部分提出了仍然存在的挑戰。
//www.elsevier.com/books/explainable-deep-learning-ai/benois-pineau/978-0-323-96098-4
生物、醫學和生物化學已經成為以數據為中心的領域,深度學習方法正在為這些領域帶來突破性的成果。這本《深度學習生物醫學》,從機器學習從業者和數據科學家尋求方法知識,以解決生物醫學應用。
隨著國際知名專家的貢獻,本書涵蓋了廣泛的生命科學應用的基本方法,包括電子健康記錄處理,診斷成像,文本處理,以及組學數據處理。本書包括化學信息學和生物醫學交互網絡分析。在生命科學中使用數據驅動的方法,還需要仔細考慮相關的社會、倫理、法律和透明度挑戰,這在本書的最后章節中有介紹。
//www.worldscientific.com/worldscibooks/10.1142/q0322#t=aboutBook
這本書的組織遵循應用智能信息處理系統到生物醫學問題的進展,到在現代機器學習和生命科學之間的十字路口的更近期的研究主題。最后,我們將討論擴展到在生物和醫學中采用深度學習技術的社會、倫理和法律影響,這些技術通常在可信人工智能的統一術語下進行討論。
第二章通過介紹文獻中考慮的一般深度學習策略的分類,對醫學影像的深度學習領域進行了全面的介紹。對腦成像應用的詳細分析補充了這一廣泛的討論,對該領域中最相關的工作進行了廣泛的回顧,并對相關數據集進行了清晰組織的索引。最后,它確定了要解決的關鍵挑戰,以便在臨床實踐中簡化深度成像方法的適用性。
第三章重點討論了深度學習時代挖掘電子健康記錄的演變,討論了它們作為構建真正個性化診斷、治療和護理的跳板的關鍵作用。電子健康病歷(EHR)記錄了人們健康信息,積累在海量的結構化和非結構化數據倉庫中,這不僅為利用深度學習模型構建的預測和探索性技術提供了無與倫比的機會,也帶來了挑戰。本章從調研EHR的起源和演變到它們的現狀。然后,對深度學習的主要應用進行了分析,考慮到廣泛類別的監督和無監督任務,包括疾病預測、疾病表型、患者分層和臨床記錄理解。
第四章通過逐步介紹自然語言技術在生物醫學領域的使用,擴展了理解人類語言的主題。這一章首先介紹了自然語言處理(NLP)領域的主要概念和方法。然后深入探討NLP在生命科學中的應用。方法論的調研很好地補充了可用資源的準確索引,包括語言語料庫,軟件庫,以及預訓練的語言模型,包括通用和特定領域。
第五章采用垂直路線,介紹一種方法,代謝驅動的潛在空間學習基因表達數據。這一章討論了深度生成模型如何提供一個有效的無監督的方法,以獲得新的洞察到基因表達數據的結構。特別地,它關注的是如何通過模型學習的神經表示可以基于在代謝模型形式下可用的先驗知識加以約束。
第六章集中在化學信息學的深度學習,并解決了在計算機科學和化學之間的十字路口的長期研究領域。它討論了化合物如何找到它們的自然計算表示為圖形結構的數據,其中原子和它們的屬性是由分子圖的頂點編碼的,而邊表示原子鍵和它們的特征。通過構建這樣的表示,本章介紹了結構化數據自適應處理的深度學習的生動領域,它包含了能夠在其豐富的結構化表示中處理信息的學習模型。然后,它移動到分析化學信息學領域的兩個相關應用:從分子結構的性質預測和生成式深度學習模型的從頭設計藥物。
第七章重點介紹了網絡生物學的深度學習方法,在某種意義上,通過引入更大尺度的圖(即網絡)來建模生物過程中交互的復雜性,這自然補充了第6章中關于結構化數據分析的討論。
第八章將重點從應用驅動的挑戰轉向以人為中心的視角,詳細闡述了醫學和醫療健康中可解釋的深度學習的需求。
第九章總結了這本書的道德,社會和法律問題在醫療保健的深度學習的批判性分析。這一章不僅贊揚了人工智能倫理的重要性,而且從實踐的角度審視了這一主題,分析了醫療領域深度學習的倫理和法律指導方針的含義。特別關注歐洲關于可信AI的指南,以及相關AI應用生命周期的實現。本章最后對深度學習中的偏見、公平和隱私進行了技術上的深入探討。
圖像分類、目標檢測與跟蹤、姿態估計、人臉識別和情感估計在解決計算機視覺問題中都起著重要的作用。
本書將重點介紹這些和其他深度學習架構和技術,以幫助您創建使用Keras和TensorFlow庫的解決方案。您還將回顧多種神經網絡架構,包括LeNet、AlexNet、VGG、Inception、R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN、YOLO和SqueezeNet,并通過最佳實踐、技巧、捷徑和陷阱了解它們如何與Python代碼一起工作。所有代碼片段都將被分解并進行詳細討論,以便您可以在各自的環境中實現相同的原則。
使用深度學習的計算機視覺提供了一個全面而簡潔的指南,將DL和CV結合在一起,實現自動化操作,減少人工干預,提高能力,并降低成本。
你會:
不久前,計算機視覺還只是科幻小說的專屬內容,但現在,即使不是在整個社會,也正迅速成為各行各業的普遍現象。人類視覺是人類感官中最珍貴的一種,在模仿人類視覺這一領域取得的進展令人驚嘆。直到1957年,拉塞爾·基爾希才掃描出了世界上第一張照片——他兒子的黑白照片。到20世紀80年代末,西羅維奇和柯比的工作幫助人臉識別成為一種可行的生物識別技術。盡管存在隱私問題和法律挑戰,但Facebook在2010年將人臉識別技術納入其社交媒體平臺時,使這項技術無處不在。
這本書試圖解釋計算機視覺問題的深度學習和神經網絡的概念。我們正在詳細研究卷積神經網絡,以及它們的各個組成部分和屬性。我們正在探索各種神經網絡架構,如LeNet, AlexNet, VGG, R-CNN, Fast R-CNN, Faster R-CNN, SSD, YOLO, ResNet, Inception, DeepFace,和FaceNet的細節。我們還在開發實用的解決方案,以解決二值圖像分類、多類圖像分類、目標檢測、人臉識別和視頻分析的用例。我們將使用Python和Keras作為解決方案。所有的代碼和數據集被檢入GitHub repo快速訪問。在最后一章中,我們將學習深度學習項目中的所有步驟——從定義業務問題到部署。我們還在處理在制定解決方案時面臨的重大錯誤和問題。在這本書中,我們提供了訓練更好的算法的技巧和技巧,減少訓練時間,監測結果,并改進解決方案。我們也分享代表性的研究論文和數據集,你應該使用它們來獲得進一步的知識。
這本書把這個主題分成三部分。在第1章到第4章,本書描述了神經網絡的本質和揭秘他們如何學習。并指出了不同的架構及其歷史意義。實踐者在擁有所有所需資源的情況下,可以體驗到LeNet優雅的簡單性、AlexNet提高的效率以及流行的VGG Net。在第5至7章,從業人員運用簡單而強大的計算機視覺應用,如訓練算法來檢測物體和識別人臉。在進行視頻分析時,我們遇到了漸變消失和爆炸的困擾問題,以及如何在ResNet架構中使用跳過連接來克服它。最后,在第8章中,我們回顧了完整的模型開發過程,從正確定義的業務問題開始,系統地推進,直到模型在生產環境中部署和維護。
近年來,自然語言處理的研究方法取得了一些突破。這些突破來源于兩個新的建模框架以及在計算和詞匯資源的可用性的改進。在這個研討會小冊子中,我們將回顧這些框架,以一種可以被視為現代自然語言處理開端的方法論開始:詞嵌入。我們將進一步討論將嵌入式集成到端到端可訓練方法中,即卷積神經網絡和遞歸神經網絡。這本小冊子的第二章將討論基于注意力的模型的影響,因為它們是最近大多數最先進的架構的基礎。因此,我們也將在本章中花很大一部分時間討論遷移學習方法在現代自然語言處理中的應用。最后一章將會是一個關于自然語言生成的說明性用例,用于評估最先進的模型的訓練前資源和基準任務/數據集。
//compstat-lmu.github.io/seminar_nlp_ss20/
在過去的幾十年里,人工智能技術的重要性和應用不斷得到關注。在當今時代,它已經與構成人類塑造環境的大部分環境密不可分。因此,商業、研究和開發、信息服務、工程、社會服務和醫學等無數部門已經不可逆轉地受到人工智能能力的影響。人工智能有三個主要領域組成了這項技術:語音識別、計算機視覺和自然語言處理(見Yeung (2020))。在這本書中,我們將仔細研究自然語言處理(NLP)的現代方法。
這本小冊子詳細介紹了用于自然語言處理的現代方法,如深度學習和遷移學習。此外,本研究亦會研究可用于訓練自然語言處理任務的資源,并會展示一個將自然語言處理應用于自然語言生成的用例。
為了分析和理解人類語言,自然語言處理程序需要從單詞和句子中提取信息。由于神經網絡和其他機器學習算法需要數字輸入來進行訓練,因此應用了使用密集向量表示單詞的詞嵌入。這些通常是通過有多個隱藏層的神經網絡學習的,深度神經網絡。為了解決容易的任務,可以應用簡單的結構神經網絡。為了克服這些簡單結構的局限性,采用了遞歸和卷積神經網絡。因此,遞歸神經網絡用于學習不需要預先定義最佳固定維數的序列的模型,卷積神經網絡用于句子分類。第二章簡要介紹了NLP中的深度學習。第三章將介紹現代自然語言處理的基礎和應用。在第四章和第五章中,將解釋和討論遞歸神經網絡和卷積神經網絡及其在自然語言處理中的應用。
遷移學習是每個任務或領域的學習模型的替代選擇。在這里,可以使用相關任務或領域的現有標記數據來訓練模型,并將其應用到感興趣的任務或領域。這種方法的優點是不需要在目標域中進行長時間的訓練,并且可以節省訓練模型的時間,同時仍然可以(在很大程度上)獲得更好的性能。遷移學習中使用的一個概念是注意力,它使解碼器能夠注意到整個輸入序列,或自注意,它允許一個Transformer 模型處理所有輸入單詞,并建模一個句子中所有單詞之間的關系,這使得快速建模一個句子中的長期依賴性成為可能。遷移學習的概念將在小冊子的第6章簡要介紹。第七章將通過ELMo、ULMFiT和GPT模型來描述遷移學習和LSTMs。第八章將詳細闡述注意力和自注意力的概念。第九章將遷移學習與自注意力相結合,介紹了BERT模型、GTP2模型和XLNet模型。
為NLP建模,需要資源。為了找到任務的最佳模型,可以使用基準測試。為了在基準實驗中比較不同的模型,需要諸如精確匹配、Fscore、困惑度或雙語評估替補學習或準確性等指標。小冊子的第十章簡要介紹了自然語言處理的資源及其使用方法。第11章將解釋不同的指標,深入了解基準數據集SQuAD、CoQa、GLUE和SuperGLUE、AQuA-Rat、SNLI和LAMBADA,以及可以找到資源的預訓練模型和數據庫,如“帶代碼的論文”和“大壞的NLP數據庫”。
在小冊子的最后一章中,介紹了生成性NLP處理自然語言生成,從而在人類語言中生成可理解的文本。因此,不同的算法將被描述,聊天機器人和圖像字幕將被展示,以說明應用的可能性。
本文對自然語言處理中各種方法的介紹是接下來討論的基礎。小冊子的各個章節將介紹現代的NLP方法,并提供了一個更詳細的討論,以及各種示例的潛力和限制。
通過人工神經網絡等獲得的預測具有很高的準確性,但人類經常將這些模型視為黑盒子。對于人類來說,關于決策制定的洞察大多是不透明的。在醫療保健或金融等高度敏感領域,對決策的理解至關重要。黑盒子背后的決策要求它對人類來說更加透明、可問責和可理解。這篇綜述論文提供了基本的定義,概述了可解釋監督機器學習(SML)的不同原理和方法。我們進行了最先進的綜述,回顧過去和最近可解釋的SML方法,并根據介紹的定義對它們進行分類。最后,我們通過一個解釋性的案例研究來說明原則,并討論未來的重要方向。
//www.zhuanzhi.ai/paper/d34a1111c1ab9ea312570ae8e011903c
目前人工智能(AI)模型的準確性是顯著的,但準確性并不是最重要的唯一方面。對于高風險的領域,對模型和輸出的詳細理解也很重要。底層的機器學習和深度學習算法構建的復雜模型對人類來說是不透明的。Holzinger等人(2019b)指出,醫學領域是人工智能面臨的最大挑戰之一。對于像醫療這樣的領域,深刻理解人工智能的應用是至關重要的,對可解釋人工智能(XAI)的需求是顯而易見的。
可解釋性在許多領域很重要,但不是在所有領域。我們已經提到了可解釋性很重要的領域,例如衛生保健。在其他領域,比如飛機碰撞避免,算法多年來一直在沒有人工交互的情況下運行,也沒有給出解釋。當存在某種程度的不完整時,需要可解釋性。可以肯定的是,不完整性不能與不確定性混淆。不確定性指的是可以通過數學模型形式化和處理的東西。另一方面,不完全性意味著關于問題的某些東西不能充分編碼到模型中(Doshi-Velez和Kim(2017))。例如,刑事風險評估工具應該是公正的,它也應該符合人類的公平和道德觀念。但倫理學是一個很寬泛的領域,它是主觀的,很難正式化。相比之下,飛機避免碰撞是一個很容易理解的問題,也可以被精確地描述。如果一個系統能夠很好地避免碰撞,就不用再擔心它了。不需要解釋。
本文詳細介紹了可解釋SML的定義,并為該領域中各種方法的分類奠定了基礎。我們區分了各種問題定義,將可解釋監督學習領域分為可解釋模型、代理模型擬合和解釋生成。可解釋模型的定義關注于自然實現的或通過使用設計原則強制實現的整個模型理解。代理模型擬合方法近似基于黑盒的局部或全局可解釋模型。解釋生成過程直接產生一種解釋,區分局部解釋和全局解釋。
綜上所述,本文的貢獻如下:
當看到這些材料時,一個明顯的問題可能會出現:“為什么還要寫一本深度學習和自然語言處理的書呢?”一些優秀的論文已經出版,涵蓋了深度學習的理論和實踐方面,以及它在語言處理中的應用。然而,從我教授自然語言處理課程的經驗來看,我認為,盡管這些書的質量非常好,但大多數都不是針對最有可能的讀者。本書的目標讀者是那些在機器學習和自然語言處理之外的領域有經驗的人,并且他們的工作至少部分地依賴于對大量數據,特別是文本數據的自動化分析。這些專家可能包括社會科學家、政治科學家、生物醫學科學家,甚至是對機器學習接觸有限的計算機科學家和計算語言學家。
現有的深度學習和自然語言處理書籍通常分為兩大陣營。第一個陣營專注于深度學習的理論基礎。這對前面提到的讀者肯定是有用的,因為在使用工具之前應該了解它的理論方面。然而,這些書傾向于假設一個典型的機器學習研究者的背景,因此,我經常看到沒有這種背景的學生很快就迷失在這樣的材料中。為了緩解這個問題,目前存在的第二種類型的書集中在機器學習從業者;也就是說,如何使用深度學習軟件,而很少關注理論方面。我認為,關注實際方面同樣是必要的,但還不夠。考慮到深度學習框架和庫已經變得相當復雜,由于理論上的誤解而濫用它們的可能性很高。這個問題在我的課程中也很常見。
因此,本書旨在為自然語言處理的深度學習搭建理論和實踐的橋梁。我涵蓋了必要的理論背景,并假設讀者有最少的機器學習背景。我的目標是讓任何上過線性代數和微積分課程的人都能跟上理論材料。為了解決實際問題,本書包含了用于討論的較簡單算法的偽代碼,以及用于較復雜體系結構的實際Python代碼。任何上過Python編程課程的人都應該能夠理解這些代碼。讀完這本書后,我希望讀者能有必要的基礎,立即開始構建真實世界的、實用的自然語言處理系統,并通過閱讀有關這些主題的研究出版物來擴展他們的知識。
//clulab.cs.arizona.edu/gentlenlp/gentlenlp-book-05172020.pdf
這本書是關于運用機器和深度學習來解決石油和天然氣行業的一些挑戰。這本書開篇簡要討論石油和天然氣勘探和生產生命周期中不同階段的數據流工業操作。這導致了對一些有趣問題的調查,這些問題很適合應用機器和深度學習方法。最初的章節提供了Python編程語言的基礎知識,該語言用于實現算法;接下來是監督和非監督機器學習概念的概述。作者提供了使用開源數據集的行業示例以及對算法的實際解釋,但沒有深入研究所使用算法的理論方面。石油和天然氣行業中的機器學習涵蓋了包括地球物理(地震解釋)、地質建模、油藏工程和生產工程在內的各種行業主題。
在本書中,重點在于提供一種實用的方法,提供用于實現機器的逐步解釋和代碼示例,以及用于解決油氣行業現實問題的深度學習算法。
你將學到什么
這本書是給誰的