從數據中發現隱藏的偏微分方程(PDEs)和算子是機器學習和數值分析之間的一個重要前沿課題。介紹了線性偏微分方程格林函數學習的理論結果和深度學習算法,并對偏微分方程格林函數學習技術進行了嚴格論證。導出了一個理論上嚴格的算法來獲得學習率,它表征了近似學習與橢圓偏微分方程相關的格林函數所需的訓練數據量。該結構通過將隨機奇異值分解擴展到非標準高斯向量和Hilbert-Schmidt算子,利用層次矩陣利用格林函數的低秩層次結構,連接了PDE學習和數值線性代數領域。引入有理神經網絡,由具有可訓練有理激活函數的神經網絡組成。這些網絡的高組成結構,結合有理逼近理論,意味著有理函數比標準激活函數具有更高的逼近冪。此外,有理神經網絡可能具有極點并具有任意大的值,這非常適合逼近具有奇點的函數,如格林函數。最后,結合格林函數和有理神經網絡的理論成果,設計了一種從數據中發現格林函數的人類可理解的深度學習方法。這種方法補充了最先進的PDE學習技術,因為可以從學習到的格林函數中獲得廣泛的物理知識,如主導模、對稱和奇點位置。本文旨在通過將標準數學領域(如數值線性代數、概率和偏微分方程分析)與現代深度學習技術相結合,了解是否可以從數據中發現偏微分方程(PDEs)。我們著重學習與線性偏微分方程相關的格林函數從一對強迫函數和解。推導了挖掘問題規律性的理論邊界,提出了一種實用的深度學習算法。
是一所英國研究型大學,也是羅素大學集團、英國“G5超級精英大學”,歐洲頂尖大學科英布拉集團、歐洲研究型大學聯盟的核心成員。牛津大學培養了眾多社會名人,包括了27位英國首相、60位諾貝爾獎得主以及數十位世界各國的皇室成員和政治領袖。2016年9月,泰晤士高等教育發布了2016-2017年度世界大學排名,其中牛津大學排名第一。
本文介紹了量子自然語言處理(QNLP)模型,其基礎是計算語言學和量子力學之間的一個簡單而強大的類比:語法糾纏。文本和句子的語法結構將單詞的含義聯系起來,就像糾纏結構將量子系統的狀態聯系起來一樣。范疇論可以使這種語言到量子比特的類比形式化:它是一個從語法到向量空間的monoidal函子。將這種抽象的類比轉化為具體的算法,將語法結構轉換為參數化量子電路的架構。然后,我們使用經典-量子混合算法來訓練模型,以便在評估電路時計算數據驅動任務中句子的含義。
QNLP模型的實現推動了DisCoPy(分布式組合Python)的發展,第一章對應用范疇論的工具包進行了全面概述。字符串圖是DisCoPy的核心數據結構,它們允許在高抽象級別上推理計算。展示了它們如何編碼語法結構和量子電路,以及邏輯公式、神經網絡或任意Python代碼。Monoidal函子允許將這些抽象的圖轉換為具體的計算,并與優化的特定任務庫進行接口。
第二章使用DisCopy將QNLP模型實現為從語法到量子電路的參數函子。它為函子學習的更一般的概念提供了第一個概念證明:通過從類似圖的數據中學習,將機器學習從函數推廣到函子。為了通過梯度下降學習最優函子參數,引入了圖微分的概念:一種用于計算參數化圖梯度的圖形演算。
//www.zhuanzhi.ai/paper/2926740ae817b839b6599f4b87e1e49b
設計具有不確定性的深度學習模型,使其能夠在預測的同時提供合理的不確定性,一直是部分機器學習社區的目標。從業者也經常需要這樣的模型。最普遍和最明顯的方法是采用現有的深層架構,并嘗試將現有的貝葉斯技術應用于它們,例如,將神經網絡的權重作為貝葉斯框架中的隨機變量處理。本文試圖回答這個問題: 現有的神經網絡架構是獲得合理不確定性的最佳方式嗎?在本文的第一部分,我們提出了在對抗環境下貝葉斯神經網絡的不確定性行為的研究,這表明,雖然貝葉斯方法在數據分布附近的確定性網絡上有顯著的改進,但外推行為是不受歡迎的,因為標準神經網絡架構在結構上偏向于自信外推。基于此,我們探索了兩種標準深度學習架構的替代方案,試圖解決這一問題。首先,我們描述了一種新的膠囊網絡生成公式,它試圖通過對場景結構的強假設來將結構強加到學習任務中。然后,我們使用這個生成模型來檢查這些潛在的假設是否有用,并論證它們實際上存在重大缺陷。其次,我們探索了bilipschitz模型,這是一種解決深度神經網絡中確保先驗回歸這一更有限目標的體系結構。這些方法基于深度核學習,試圖通過使用最終分類層來控制神經網絡的行為,當與支持向量集的距離增加時,分類層會恢復到先驗值。為了在使用神經特征提取器的同時保持這一特性,我們為這些模型描述了一種新的“bilipschitz”正則化方案,該方案基于通過施加由可逆網絡上的工作激發的約束來防止特征崩潰。我們描述了這些模型的各種有用的應用,并分析了為什么這種正則化方案似乎仍然有效,即使它背后的原始動機不再成立,特別是在特征維度低于輸入的情況下。我們的結論是,雖然膠囊網絡可能不是一個有前途的方向,但本文最后部分討論的模型是未來研究的一個富有成果的領域,在許多應用中作為標準貝葉斯深度學習方法的一個有前途的潛在替代方案。
深度學習在多個領域都取得了突破性進展,從圖像、語言和視頻理解等核心機器學習任務,到醫療、自動駕駛和農業等現實行業。它的成功是通過為神經網絡提供人工監督,從大型標記數據集(如ImageNet)自動學習分層數據表示。然而,獲取大規模的標簽數據通常是一個非常耗時和昂貴的過程。為應對這一挑戰,本文挑戰多模態視頻數據的自監督極限。視頻數據通常包含多種形式,如圖像、音頻、轉錄語音和可免費獲得的文本標題。這些模態通常共享冗余語義信息,因此可以作為偽標簽來監督彼此進行表示學習,而不需要使用人工標簽。在不依賴標簽數據的情況下,我們能夠在從互聯網收集的數百萬個視頻剪輯的非常大規模的視頻數據上訓練這些深度表示。通過在各種領域建立新的最先進的性能,展示了多模態自監督的可擴展性好處:視頻動作識別、文本到視頻檢索、文本到圖像檢索和音頻分類。我們還引入了數據轉換、模型架構和損失函數方面的其他技術創新,以使用多模態自監督進一步改進對這些深度視頻表示的學習。本文的第二個貢獻是改進深度表示的可解釋性的新工具,因為要破譯這些深度表示中編碼的關鍵特征是非常困難的。對于圖像,我們展示了如何使用攝動分析來分析網絡的中間表示。對于視頻,我們提出了一種新的聚類方法,使用Sinkhorn-Knopp算法將深度視頻表示映射到人類可解釋的語義偽標簽。本論文的研究成果為進一步提高深度視頻表示學習的可擴展性和可解釋性做出了貢獻。
//ora.ox.ac.uk/objects/uuid:3a0721a0-025e-423c-b441-2d7af5d960da
在過去的十多年里,粗糙路徑理論和機器學習對序列數據的融合一直是人們越來越感興趣的話題。這兩個學科領域的統一是自然的:粗糙路徑理論為我們提供了描述由多維(可能高度不規則)信號驅動的微分方程的解的語言,而機器學習提供了從數據中學習此類解的工具。粗糙路徑理論的中心目標是為回答關于數據流對系統的影響的問題提供一個通用的數學框架。這類數據的一個常見例子是時間序列,它普遍存在于生活的各個領域(這將是我們在本文中最常考慮的流類型);因此,用粗糙路徑的語言構建問題為我們提供了在現實世界中具有真正效用的模型。這篇論文的目的是為機器學習的應用提供粗糙路徑理論領域的一個可訪問的介紹,然后提供一個帳戶,進一步連接這兩個領域的最新和有效的貢獻。**這篇論文涵蓋的主題包括:神經控制微分方程(神經CDEs) **-神經常微分方程的擴展,可以包含外部數據過程的變化;神經粗糙微分方程(neural RDEs)—對神經CDEs的粗糙路徑擴展,對長或高頻時間序列有好處;廣義簽名法——多變量時間序列特征提取技術的集合最后介紹了簽名方法在敗血癥和應激檢測中的實際應用。
自深度學習革命以來,機器學習文獻中的一個總體趨勢是大型深度模型將持續優于小型淺模型。然而,這種趨勢也帶來了計算需求不斷增加的缺點,最近許多最先進的成果所需的資源遠遠超出了頂級行業實驗室的范圍。這些問題引發了關于機器學習研究民主化的非常現實的擔憂,如果不加以解決,最終可能會導致更多的權力和財富集中在今天能夠向其人工智能研究項目投資巨額資金的機構中。
遷移學習技術是這些問題的潛在解決方案,它允許大型的、通用的模型經過一次訓練,然后在各種情況下重用,只需要最少的計算來適應它們。本文探索了遷移學習的新算法和應用,包括分層強化學習、生成式建模和計算社會科學等領域。在分層強化學習領域內,本文提出一種算法,允許在選項之間遷移(即在不同的選項之間遷移)。例如,時間上抽象的動作),用于獨立但相似的任務。在生成建模領域,我們提出了一種算法,可以在新的數據上重用現有的可逆生成模型,而不產生任何額外的訓練成本。最后,在計算社會科學領域,本文表明,可以從人類設計的模型中遷移知識,以檢測針對排名算法的惡意活動。
在這篇論文中提出的所有算法之間的共同線索是它們本質上是貝葉斯的。我們認為,貝葉斯范式自然適合于遷移學習應用,因為貝葉斯先驗可以作為適應性強的通用模型,通過推理過程可以轉換為特定任務的后驗。
本論文考慮了線性代數中的四個獨立主題:決定性的點過程、譜圖理論中的極值問題、力導向的布局和特征值算法。對于行列式點過程(DPPs),我們分別考慮了對稱的和有符號的DPPs類,并在這兩種情況下將學習DPP的參數問題與相關的矩陣恢復問題聯系起來。接下來,我們考慮譜圖理論中關于圖的擴散的兩個猜想,并解決這兩個猜想。對于圖的力導向布局,我們將Tutte跳躍嵌入的邊界布局與橢圓PDE理論中的跟蹤定理聯系起來,我們對流行的Kamada-Kawai目標進行了嚴格的理論分析,證明了近似的硬度和關于最佳布局的結構結果,并為低直徑圖提供了多項式時間隨機近似方案。最后,我們考慮了計算對稱矩陣極值特征值的Lanczos方法,并為該算法提出了新的誤差估計。
新理論揭開了深度學習的黑匣子。一個被稱為“信息瓶頸”的新想法正在幫助解釋當今人工智能算法令人困惑的成功,也可能解釋人類大腦是如何學習的。
紐約大學數據科學中心的CDS研究員,在那里我主要與Gordon Wilson 和 Yann Lecun合作,研究貝葉斯深度網絡、信息論和自監督學習。
深度神經網絡信息流
盡管深度神經網絡已經取得了巨大的成功,但對它們如何工作或如何構建的全面的理論理解還不存在。深度網絡通常被視為黑盒,預測的解釋及其可靠性仍不清楚。今天,了解深度神經網絡的突破性性能是科學界面臨的最大挑戰之一。為了更有效地使用這些算法并改進它們,我們需要了解它們的動態行為以及它們學習新表示的能力。
本文通過將信息理論的原理和技術應用到深度學習模型來解決這些問題,以提高我們的理論理解,并使用它來設計更好的算法。本文的主要成果和貢獻分為三個部分,具體如下。
第二章和第三章介紹了深度學習模型的信息理論方法。作為對深度學習系統的解釋,我們提出使用信息瓶頸(IB)理論。這種分析網絡的新范式揭示了網絡的分層結構、泛化能力和學習動態。基于我們的分析,我們發現深度網絡優化了每一層輸入和輸出變量的互信息,導致了每一層壓縮和預測之間的權衡。我們對這些網絡的分析和數值研究表明,隨機梯度下降(SGD)算法遵循IB權衡原則,工作在兩個階段:一個快速經驗誤差最小化階段,然后是一個緩慢的表示壓縮階段。這些相位由每一層不同的信噪比(SNRs)來區分。此外,我們證明了SGD由于壓縮階段而達到了這個最優界,并在表示壓縮上導出了一個新的高斯界,并將其與壓縮時間聯系起來。此外,我們的結果表明,網絡的層收斂于IB的理論邊界,導致編碼器和譯碼器分布之間的自洽關系。
第四章討論了將IB應用到深度神經網絡中最困難的問題之一——在高維空間中估計互信息。盡管互信息在數據科學中是一個重要的數量,但它在歷史上給計算帶來了挑戰。互信息的計算只適用于離散變量或已知概率分布的有限數量的問題。為了更好地估計信息理論量和研究泛化信號,我們研究了幾個框架,并利用了最近的理論發展,如神經切線核(NTK)框架。在我們的研究中,我們發現對于無限寬的神經網絡的無限集合,我們可以得到許多信息理論量及其界的易于處理的計算。網絡的內核可以用一個封閉的形式來描述許多量。通過分析這些推導,我們可以了解網絡的重要信息論量,以及壓縮、泛化和樣本大小之間的關系。
第五章提出了一種新的信息理論框架——雙信息瓶頸(dualIB)。 盡管IB框架有優點,但它也有幾個缺點:IB是完全非參數的,并且只在概率空間上運行。此外,IB公式并不涉及預測看不見的模式的任務,并假定完全訪問聯合概率。因此,我們開發了dualIB,它解決了IB的一些缺點,通過僅僅在失真函數的項之間切換。dualIB可以解釋數據的已知特征,并利用它們對未見過的例子做出更好的預測。我們提供了dualIB自一致方程,使我們能夠得到解析解。局部穩定性分析揭示了解的臨界點的基本結構,得到了最優模式表示的完全分岔圖。我們發現了dualIB目標的幾個有趣的性質。首先,當以參數形式表示時,dualIB保留了它的結構。它還優化了平均預測誤差指數,從而提高了樣本量方面的預測精度。除了dualIB的解析解決方案,我們還提供了一個變分的dualIB框架,該框架使用深度神經網絡優化函數。該框架實現了對真實數據集的dualIB的實際實現。利用它,我們對其動力學進行了經驗評估,并驗證了現代深度神經網絡的理論預測。總之,本文提出了一個新的信息論視角來研究深度神經網絡,它利用了深度學習和IB框架之間的對應關系。我們獨特的視角可以提供許多好處,比如對深度神經網絡有更深入的理解,解釋它們的行為,并改善它們的性能。同時,我們的研究也開拓了新的理論和實踐研究問題。
學習表征是計算機視覺、自然語言處理、認知科學和機器學習中許多問題的核心(Bengio et al.; 2013). 分類和預測需要復雜的數據表示,因為要考慮物理參數,如位置、大小、方向和強度(Salakhutdinov等;2013). 然而,目前還不清楚什么構成了良好的表示,以及它與學習和特定問題類型的關系。
通過組合簡單神經元的多種轉換,深度神經網絡(DNN)可以產生更有用(并且在大多數情況下更抽象)的表示。由于它們的通用性和在各個領域的成功,這些系統在過去幾年中得到了普及。與傳統的機器學習方法相比,DNN的性能在圖像、音頻和文本等多個領域都有很大的改進(Devlin et al.; 2018; He et al.; 2016; Oord et al.; 2016)。最新的深度學習模型更加復雜,它們的架構也越來越復雜,需要優化的參數也越來越多。例如,ResNet-52網絡包含了經過數百萬張圖片優化的2300萬個參數。
然而,從理論的角度來理解這些性能的原因只是部分的,我們只是對它們有一個啟發式的理解。目前還不清楚為什么深度模型在真實世界的數據上表現得如此出色,以及它們的關鍵組件是什么。另外,當前的度量標準并沒有提供對網絡內部結構或網絡層質量的深入了解。因此,即使該模型非常準確,也很難將其作為進一步科學研究的基礎。為了使這些算法更有效并改進它們,我們必須理解它們的潛在動態行為以及它們如何學習表示。在本論文中,我們提出從信息論的角度研究DNN。作為對現代深度學習系統的解釋,我們提出了信息瓶頸(IB)理論。我們希望通過這種分析DNN的創新方法來闡明它們的分層結構、泛化能力和學習動態。為了更好地理解DNN,第一個問題是:如何使用信息論的一般理論,特別是IB框架來更好地理解DNN?
香農發明了信息論來確定在噪聲信道上傳輸信息所需的比特數。 這一理論后來被證明是衡量變量之間影響的無價方法(Shannon; 1948)。給定兩個隨機變量X和Y,它們之間的互信息度量它們的聯合概率分布P(X, Y)與其邊緣P(X)P(Y)的乘積的散度,以確定它們的相依或獨立程度。互信息的概念不同于相關性,它可以捕捉變量之間的非線性統計關系,增強我們分析復雜系統動力學的能力(Kinney and Atwal; 2014)。盡管互信息在數據科學中是一個基本的數量,但它在歷史上一直具有挑戰性的估計(Paninski;2003)。精確計算只適用于有限數量的具有明確定義的概率分布的問題(例如,指數族)。對于有限的數據樣本或一般問題,互信息的計算是不可能的。
這就引出了以下研究問題: 如何計算大規模DNN的互信息?為了得到信息理論量的精確計算和尋找泛化信號,我們研究了幾個框架并利用了當前的理論發展,包括神經切線核(NTK)框架(Lee等人;2019)。我們得到了無限寬神經網絡的無限集合中信息論量及其界的易于處理的計算。我們的分析表明,核以一種封閉的形式描述了許多量。此外,我們發現輸入的壓縮有助于該模型家族的泛化。
雖然IB框架有它的優點,但它也有一些缺點,包括無法保存數據的結構和有限數據的性能不夠理想。最后研究的問題是,我們是否可以推導出一個新的框架來解決這些問題,并將其應用到DNN中。
因此,我們開發了雙IB (DualIB),它在失真函數中的項之間切換,以解決IB的一些問題。局部穩定性分析揭示了其底層結構和最優模式表示。我們發現,當以參數形式表示時,DualIB保留了它的結構。此外,它還優化了平均預測誤差指數,提高了相對于樣本容量的預測精度。DualIB可以在變分框架的幫助下,使用神經網絡應用于真實世界的數據集。利用這個框架,我們評估了DualIB的動力學,并驗證了理論預測。
參考鏈接:
這是對常微分方程的介紹。摘要討論了一階標量方程、二階線性方程和線性方程組的解的主要思想。利用冪級數法求解變系數二階線性方程組。本文引入拉普拉斯變換方法求解具有廣義源函數的常系數方程。簡要介紹邊值問題、特征值-特征函數問題和傅立葉級數展開。本文采用分離變量的方法,通過求解無窮多個常微分方程得到偏微分方程的解