簡介:
深度學習被認為是一種無模型,端到端和黑盒子的方法。它需要大量數據樣本,而不是目標領域的專家知識。因此,它沒有指定決策的機制和原因。這方面被認為是深度學習的關鍵限制。本文介紹了另一種觀點,即貝葉斯深度學習。深度學習可以應用在任何框架中,例如貝葉斯網絡和強化學習。隨后,專家可以將知識實現為圖結構,加快學習速度,并獲得目標域上的新知識。該框架被稱為深度生成模型。相反,我們可以將貝葉斯建模方法直接引入深度學習。隨后,有可能通過不確定性量化輸出來探究關于其決策確定性的深度學習,并檢測錯誤的決策或異常輸入。使用上述方法,可以調整深度學習的“brightness”。
摘要
一個綜合的人工智能系統不僅需要用不同的感官(如視覺和聽覺)感知環境,還需要推斷世界的條件(甚至因果)關系和相應的不確定性。在過去的十年里,我們看到了許多感知任務的重大進展,比如視覺對象識別和使用深度學習模型的語音識別。然而,對于更高層次的推理,具有貝葉斯特性的概率圖模型仍然更加強大和靈活。近年來,貝葉斯深度學習作為一種將深度學習與貝葉斯模型緊密結合的統一的概率框架出現了。在這個總體框架中,利用深度學習對文本或圖像的感知可以提高更高層次推理的性能,推理過程的反饋也可以增強文本或圖像的感知。本文對貝葉斯深度學習進行了全面的介紹,并對其在推薦系統、主題模型、控制等方面的最新應用進行了綜述。此外,我們還討論了貝葉斯深度學習與其他相關課題如神經網絡的貝葉斯處理之間的關系和區別。
介紹
在過去的十年中,深度學習在許多流行的感知任務中取得了顯著的成功,包括視覺對象識別、文本理解和語音識別。這些任務對應于人工智能(AI)系統的看、讀、聽能力,它們無疑是人工智能有效感知環境所必不可少的。然而,要建立一個實用的、全面的人工智能系統,僅僅有感知能力是遠遠不夠的。首先,它應該具備思維能力。
一個典型的例子是醫學診斷,它遠遠超出了簡單的感知:除了看到可見的癥狀(或CT上的醫學圖像)和聽到患者的描述,醫生還必須尋找所有癥狀之間的關系,最好推斷出它們的病因。只有在那之后,醫生才能給病人提供醫療建議。在這個例子中,雖然視覺和聽覺的能力讓醫生能夠從病人那里獲得信息,但醫生的思維能力才是關鍵。具體來說,這里的思維能力包括識別條件依賴、因果推理、邏輯演繹、處理不確定性等,顯然超出了傳統深度學習方法的能力。幸運的是,另一種機器學習范式,概率圖形模型(PGM),在概率或因果推理和處理不確定性方面表現出色。問題在于,PGM在感知任務上不如深度學習模型好,而感知任務通常涉及大規模和高維信號(如圖像和視頻)。為了解決這個問題,將深度學習和PGM統一到一個有原則的概率框架中是一個自然的選擇,在本文中我們稱之為貝葉斯深度學習(BDL)。 在上面的例子中,感知任務包括感知病人的癥狀(例如,通過看到醫學圖像),而推理任務包括處理條件依賴性、因果推理、邏輯推理和不確定性。通過貝葉斯深度學習中有原則的整合,將感知任務和推理任務視為一個整體,可以相互借鑒。具體來說,能夠看到醫學圖像有助于醫生的診斷和推斷。另一方面,診斷和推斷反過來有助于理解醫學圖像。假設醫生可能不確定醫學圖像中的黑點是什么,但如果她能夠推斷出癥狀和疾病的病因,就可以幫助她更好地判斷黑點是不是腫瘤。 再以推薦系統為例。一個高精度的推薦系統需要(1)深入了解條目內容(如文檔和電影中的內容),(2)仔細分析用戶檔案/偏好,(3)正確評價用戶之間的相似度。深度學習的能力有效地處理密集的高維數據,如電影內容擅長第一子任務,而PGM專攻建模條件用戶之間的依賴關系,項目和評分(參見圖7為例,u, v,和R是用戶潛在的向量,項目潛在的向量,和評級,分別)擅長其他兩個。因此,將兩者統一在一個統一的概率原則框架中,可以使我們在兩個世界中都得到最好的結果。這種集成還帶來了額外的好處,可以優雅地處理推薦過程中的不確定性。更重要的是,我們還可以推導出具體模型的貝葉斯處理方法,從而得到更具有魯棒性的預測。
作為第三個例子,考慮根據從攝像機接收到的實時視頻流來控制一個復雜的動態系統。該問題可以轉化為迭代執行兩項任務:對原始圖像的感知和基于動態模型的控制。處理原始圖像的感知任務可以通過深度學習來處理,而控制任務通常需要更復雜的模型,如隱馬爾科夫模型和卡爾曼濾波器。由控制模型選擇的動作可以依次影響接收的視頻流,從而完成反饋回路。為了在感知任務和控制任務之間實現有效的迭代過程,我們需要信息在它們之間來回流動。感知組件將是控制組件估計其狀態的基礎,而帶有動態模型的控制組件將能夠預測未來的軌跡(圖像)。因此,貝葉斯深度學習是解決這一問題的合適選擇。值得注意的是,與推薦系統的例子類似,來自原始圖像的噪聲和控制過程中的不確定性都可以在這樣的概率框架下自然地處理。 以上例子說明了BDL作為一種統一深度學習和PGM的原則方式的主要優勢:感知任務與推理任務之間的信息交換、對高維數據的條件依賴以及對不確定性的有效建模。關于不確定性,值得注意的是,當BDL應用于復雜任務時,需要考慮三種參數不確定性:
通過使用分布代替點估計來表示未知參數,BDL提供了一個很有前途的框架,以統一的方式處理這三種不確定性。值得注意的是,第三種不確定性只能在BDL這樣的統一框架下處理;分別訓練感知部分和任務特定部分相當于假設它們之間交換信息時沒有不確定性。注意,神經網絡通常是過參數化的,因此在有效處理如此大的參數空間中的不確定性時提出了額外的挑戰。另一方面,圖形模型往往更簡潔,參數空間更小,提供了更好的可解釋性。
除了上述優點之外,BDL內建的隱式正則化還帶來了另一個好處。通過在隱藏單元、定義神經網絡的參數或指定條件依賴性的模型參數上施加先驗,BDL可以在一定程度上避免過擬合,尤其是在數據不足的情況下。通常,BDL模型由兩個組件組成,一個是感知組件,它是某種類型神經網絡的貝葉斯公式,另一個是任務特定組件,使用PGM描述不同隱藏或觀察變量之間的關系。正則化對它們都很重要。神經網絡通常過度參數化,因此需要適當地正則化。正則化技術如權值衰減和丟失被證明是有效地改善神經網絡的性能,他們都有貝葉斯解釋。在任務特定組件方面,專家知識或先驗信息作為一種正規化,可以在數據缺乏時通過施加先驗來指導模型。 在將BDL應用于實際任務時,也存在一些挑戰。(1)首先,設計一個具有合理時間復雜度的高效的神經網絡貝葉斯公式并非易事。這一行是由[42,72,80]開創的,但是由于缺乏可伸縮性,它沒有被廣泛采用。幸運的是,這個方向的一些最新進展似乎為貝葉斯神經網絡的實際應用提供了一些啟示。(2)第二個挑戰是如何確保感知組件和任務特定組件之間有效的信息交換。理想情況下,一階和二階信息(例如,平均值和方差)應該能夠在兩個組件之間來回流動。一種自然的方法是將感知組件表示為PGM,并將其與特定任務的PGM無縫連接,如[24,118,121]中所做的那樣。 本綜述提供了對BDL的全面概述,以及各種應用程序的具體模型。綜述的其余部分組織如下:在第2節中,我們將回顧一些基本的深度學習模型。第3節介紹PGM的主要概念和技術。這兩部分作為BDL的基礎,下一節第4節將演示統一BDL框架的基本原理,并詳細說明實現其感知組件和特定于任務的組件的各種選擇。第5節回顧了應用于不同領域的BDL模型,如推薦系統、主題模型和控制,分別展示了BDL在監督學習、非監督學習和一般表示學習中的工作方式。第6部分討論了未來的研究問題,并對全文進行了總結。
結論和未來工作
BDL致力于將PGM和NN的優點有機地整合在一個原則概率框架中。在這項綜述中,我們確定了這種趨勢,并回顧了最近的工作。BDL模型由感知組件和任務特定組件組成;因此,我們分別描述了過去幾年開發的兩個組件的不同實例,并詳細討論了不同的變體。為了學習BDL中的參數,人們提出了從塊坐標下降、貝葉斯條件密度濾波、隨機梯度恒溫器到隨機梯度變分貝葉斯等多種類型的算法。 BDL從PGM的成功和最近在深度學習方面有前景的進展中獲得了靈感和人氣。由于許多現實世界的任務既涉及高維信號(如圖像和視頻)的有效感知,又涉及隨機變量的概率推理,因此BDL成為利用神經網絡的感知能力和PGM的(條件和因果)推理能力的自然選擇。在過去的幾年中,BDL在推薦系統、主題模型、隨機最優控制、計算機視覺、自然語言處理、醫療保健等各個領域都有成功的應用。在未來,我們不僅可以對現有的應用進行更深入的研究,還可以對更復雜的任務進行探索。此外,最近在高效BNN (BDL的感知組件)方面的進展也為進一步提高BDL的可擴展性奠定了基礎。
作為布爾邏輯的替代
雖然邏輯是理性推理的數學基礎和計算的基本原理,但它僅限于信息既完整又確定的問題。然而,許多現實世界的問題,從金融投資到電子郵件過濾,本質上是不完整或不確定的。概率論和貝葉斯計算共同提供了一個處理不完整和不確定數據的框架。
不完全和不確定數據的決策工具和方法
貝葉斯編程強調概率是布爾邏輯的替代選擇,它涵蓋了為真實世界的應用程序構建概率程序的新方法。本書由設計并實現了一個高效概率推理引擎來解釋貝葉斯程序的團隊編寫,書中提供了許多Python示例,這些示例也可以在一個補充網站上找到,該網站還提供了一個解釋器,允許讀者試驗這種新的編程方法。
原則和建模
只需要一個基本的數學基礎,本書的前兩部分提出了一種新的方法來建立主觀概率模型。作者介紹了貝葉斯編程的原理,并討論了概率建模的良好實踐。大量簡單的例子突出了貝葉斯建模在不同領域的應用。
形式主義和算法
第三部分綜合了已有的貝葉斯推理算法的工作,因為需要一個高效的貝葉斯推理引擎來自動化貝葉斯程序中的概率演算。對于想要了解貝葉斯編程的形式主義、主要的概率模型、貝葉斯推理的通用算法和學習問題的讀者,本文提供了許多參考書目。
常見問題
第四部分連同詞匯表包含了常見問題的答案。作者比較了貝葉斯規劃和可能性理論,討論了貝葉斯推理的計算復雜性,討論了不完全性的不可約性,討論了概率的主觀主義和客觀主義認識論。
貝葉斯計算機的第一步
創建一個完整的貝葉斯計算框架需要新的建模方法、新的推理算法、新的編程語言和新的硬件。本書著重于方法論和算法,描述了實現這一目標的第一步。它鼓勵讀者探索新興領域,例如仿生計算,并開發新的編程語言和硬件架構。
題目: A Game Theoretic Framework for Model Based Reinforcement Learning
摘要: 基于模型的強化學習(MBRL)最近獲得了極大的興趣,因為它具有潛在的樣本效率和合并非策略數據的能力。然而,使用富函數逼近器設計穩定、高效的MBRL算法仍然具有挑戰性。為了從抽象的角度揭示MBRL的實際挑戰并簡化算法設計,我們開發了一個新的框架,將MBRL描述為:(1)一個策略參與者,它試圖在學習模型下最大化回報;(2)一個模型player,它試圖與策略player收集的真實數據相匹配。在算法開發方面,我們構造了一個雙方參與的Stackelberg博弈,并證明了它可以用近似的雙層優化來解決。這就產生了兩種自然的MBRL算法,基于這兩種算法,玩家被選擇為Stackelberg游戲的領導者。它們一起封裝、統一和泛化了許多以前的MBRL算法。此外,我們的框架是一致的,并提供了一個明確的基礎啟發式已知是重要的實踐,從以往的工作。最后,通過實驗驗證了所提出的算法具有較高的樣本效率,匹配無模型策略梯度的漸近性能,并能擴展到靈巧手操作等高維任務。
內容簡介這本書的前四章集中在足夠的理論和基礎,給你,實踐者,為這本書剩下的部分一個工作的基礎。最后五章將從這些概念出發,帶領您通過一系列使用DL4J進行深度學習的實踐路徑。
在本書中,我們交替使用DL4J和Deeplearning4j這兩個名稱。這兩個術語都指的是Deeplearning4j庫中的工具套件。
我們以這種方式設計這本書,因為我們覺得有必要讓這本書既包含足夠的理論,又足夠的實際,以構建生產級的深度學習工作流。我們認為,這種混合方法的書的覆蓋面適合這個空間。
第一章回顧了機器學習的一般概念,特別是深度學習,讓讀者快速了解了解本書其余部分所需要的基礎知識。我們增加了這一章,因為許多初學者可以使用這些概念的復習或入門,我們想讓盡可能多的讀者可以訪問這個項目。
第2章以第1章的概念為基礎,并為您提供了神經網絡的基礎。它在很大程度上是神經網絡理論的一個章節,但是我們的目標是用一種可訪問的方式來呈現信息。
第三章在前兩章的基礎上更進一步,讓你了解網絡是如何從神經網絡的基本原理發展而來的。
第四章介紹了深層網絡的四種主要架構,并為本書的其余部分提供了基礎。
在第5章中,我們將使用前半部分中的技術,帶您瀏覽一些Java代碼示例。
第6章和第7章討論了調優一般神經網絡的基本原理,然后討論了如何調優深度網絡的特定架構。這些章節是平臺無關的,將適用于任何深度學習庫的實踐。
第8章是對矢量化技術和如何使用DataVec (DL4J的ETL和矢量化工作流工具)的基礎知識的回顧。
第9章總結了該書的主體部分,回顧了如何在Spark和Hadoop上本地使用DL4J,并舉例說明了可以在自己的Spark集群上運行的三個實際示例。
這本書有許多附錄章節的主題是相關的,但不適合直接放在主要章節。主題包括:
部分截圖:
?【導讀】NeurIPS 2019剛落下帷幕,大會發布了7篇最佳論文,一系列論文和tutorial,涉及很多熱點比如圖機器學習、元學習、核方法、軟硬一體化等。不得不看!NeurIPS 2019三個關鍵研究熱點趨勢:貝葉斯、GNN、凸優化。來自東京RIKEN研究中心的Emtiyaz Khan給了關于以貝葉斯原理進行深度學習的教程《Deep Learning with Bayesian Principles》,共有86頁ppt,以及撰寫了最新的論文,講述貝葉斯和深度學習如何結合到一起進行學習新算法,提出了一種基于貝葉斯原理的學習規則,它使我們能夠連接各種各樣的學習算法。利用這一規則,可以在概率圖形模型、連續優化、深度學習、強化學習、在線學習和黑盒優化等領域得到廣泛的學習算法。非常具有啟發性,值得查看!
深度學習和貝葉斯學習被認為是兩個完全不同的領域,通常用于互補的設置情景。顯然,將這兩個領域的思想結合起來是有益的,但鑒于它們的根本區別,我們如何才能做到這一點呢?
本教程將介紹現代貝葉斯原理來填補這一空白。利用這些原理,我們可以推出一系列學習算法作為特例,例如,從經典算法,如線性回歸和前向后向算法,到現代深度學習算法,如SGD、RMSprop和Adam。然后,這個視圖提供了新的方法來改進深度學習的各個方面,例如,不確定性、健壯性和解釋。它也使設計新的方法來解決挑戰性的問題,如那些出現在主動學習,持續學習,強化學習等。
總的來說,我們的目標是讓貝葉斯和深度學習比以往任何時候都更接近,并激勵它們一起工作,通過結合他們的優勢來解決具有挑戰性的現實問題。
報告題目: Bayesian Deep Learning
報告摘要: 深度神經網絡是連接主義系統,通過它通過學習例子來完成任務,而不需要事先了解這些任務。它們可以很容易地擴展到數百萬個數據點,并且可以通過隨機梯度下降進行優化。貝葉斯方法可以用于學習神經網絡權重的概率分布。貝葉斯深度學習與貝葉斯深度學習(如何對DNNs進行貝葉斯推理?如何學習分層結構的貝葉斯模型?),本篇報告給出一定解釋。
嘉賓介紹: 朱軍博士是清華大學計算機系長聘副教授、智能技術與系統國家重點實驗室副主任、卡內基梅隆大學兼職教授。2013年,入選IEEE Intelligent Systems的“人工智能10大新星”(AI’s 10 to Watch)。他主要從事機器學習研究,在國際重要期刊與會議發表學術論文80余篇。擔任國際期刊IEEE TPAMI和Artificial Intelligence的編委、國際會議ICML 2014地區聯合主席、以及ICML、NIPS等國際會議的領域主席。
報告主題: Bayesian Deep Learning for Medical
報告摘要: 在過去的幾年中,深度學習取得了飛速的發展,從而在許多醫學圖像分析任務中取得了顯著的性能改善,包括解剖標志的檢測,病理結果的分類,多個器官的語義分割以及醫學報告的自動生成。雖然深度學習的大部分工作都集中在提高最終性能上,但是了解深度網絡何時無法正常運行對于許多醫療和保健系統(尤其是那些具有較高安全標準的系統)至關重要。不幸的是,大多數現代深度學習算法無法可靠地估計深度網絡的不確定性。如果沒有用于模型高度不確定的故障安全模式,則系統可能會具有災難性的行為,例如缺少明顯的異常或包含種族歧視。
最近,人們對將貝葉斯方法與深度神經網絡相結合以估計模型預測的置信度越來越感興趣。盡管傳統方法將深度網絡視為確定性功能,但該功能只能為輸入生成單個輸出。相反,貝葉斯深度學習通過考慮訓練數據和建模參數固有的隨機性來計算每個輸入的輸出分布。這種分布可以估算輸出的置信度。已經證明,基于隨機正則化技術(例如丟包或可伸縮的蒙特卡洛干擾)的新方法可以捕獲有意義的不確定性,同時可以很好地縮放至高維數據。根據深度學習對貝葉斯技術的重新研究已經產生了許多有希望的結果。
盡管它很重要,但在MICCAI社區中,對該主題的研究仍很少。本教程的目的是通過從理論,實踐和未來方向方面全面介紹貝葉斯深度學習方法來彌合差距。該教程將邀請貝葉斯深度學習領域的領先研究人員介紹其最新技術,并深入說明該技術如何應用于選定的一組主題圖像檢測,分割和放射治療。最近在2018年神經信息處理系統會議上舉行的貝葉斯深度學習研討會吸引了大量論文和受眾。我們的教程有望對MICCAI產生相似的興趣。
報告流程:
邀請嘉賓:
Dan Nguyen,德克薩斯大學西南醫學中心助理教授。
Pengyu“ Ben” Yuan,休斯頓大學算法(HULA)實驗室的博士。他的研究興趣是元學習和強化學習及其在醫學圖像分析中的應用。
機器學習模型經常被批評是技術黑箱:只要輸入數據就能得到正確答案,但卻無法對其進行解釋。Christoph Molnar在其新書中呼吁大家當前是時候停止將機器學習模型視為黑盒子,在學會運用模型的同時更應去學會分析模型如何做出決策,并給出了將黑盒變得具有可解釋性的討論。