亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

新型機器學習方法是科學和工程變革的核心。概率模型已成為知識發現的基礎學習模型。作為替代模型,它們允許在有限的預算下進行高效的黑箱優化或積極學習復雜系統的行為。另一個重要的用例是使用概率模型作為生成模型,生成具有所需屬性的新設計,或從物理系統的平衡分布中生成樣本。但是,為了充分發揮概率模型在知識發現中的潛力,必須開發既能應對不斷增長的數據大小和復雜性,又能讓領域專家容易解讀的模型。

在這篇論文中,我從開發一種新方法開始,該方法解決了貝葉斯優化中的概率替代模型的稀疏解識別問題。稀疏解的發現不僅增強了解決方案對人類的可解釋性,以便理解系統行為,還便于使用較少的參數更輕松地部署和維護。

接下來,我介紹了一種利用深度學習增強高斯過程推斷可擴展性的新方法。高斯過程被廣泛用作知識發現中的概率替代模型,但由于在GP回歸中識別核超參數的高成本,其實際使用受到限制,涉及到昂貴的邊緣可能性。我展示了如何通過使用“攤銷”超參數推斷來繞過昂貴的邊緣可能性的需求。這是通過訓練一個單一的神經網絡實現的,該網絡消耗一組數據并產生一個估計的核函數,用于不同的任務。

最后,我介紹了邊緣化模型,這是一種新的高維離散數據生成模型,在科學發現中無處不在。通過使用神經網絡對所有誘導的邊緣分布進行明確的建模,邊緣化模型提供了可擴展和靈活的生成建模與合理的可能性。直接建模邊緣使得邊緣推斷效率高,能夠對給定的(非規范化)概率函數進行任意階的生成模型的可擴展訓練,克服了以前具有精確可能性的方法的主要限制。

概率模型作為建模數據分布的原則機器學習方法,最近開始在促進科學探索和發現中起到重要作用。替代模型在科學、工程、機器人學和許多其他領域都是寶貴的工具,其中它們模擬復雜的系統行為。利用概率代理模型提供的不確定性量化,可以設計自動算法通過與系統主動交互來有效地完成給定用例的目標。一個主要的用例是優化,例如通過實驗測試確定電池正極的最佳材料組成。在這種情況下,使用概率模型進行貝葉斯優化(Shahriari等,2015b),根據實驗結果了解和迭代微調組成和性能之間的關系。同時,基于替代模型的不確定性量化,策略性地選擇下一個實驗條件,平衡對新組成的探索與對已知性能良好的組成的利用,從而加速最佳組成的發現。

主動學習提供了另一個主要的用例,例如在訓練替代模型準確模擬分子動力學(Vandermause等,2020)。該過程從基于有限數據的初始概率模型開始,然后通過主動查詢系統獲取額外的標記數據來系統地加強。選擇最具信息性的樣本進行標記是由替代模型的固有不確定性估計指導的,從而得到一個準確的模型,標記工作量最小。

除替代模型外,概率生成模型在跨多個領域建模復雜數據分布方面也取得了顯著進展,包括自然語言建模(Brown等,2020)、圖像生成(Song和Ermon,2019; Ho等,2020)、音頻合成(Huang等,2018)和科學發現應用(Wang等,2022; Schneuing等,2022)。在訓練科學發現的生成模型時,有兩個主要設置。第一個設置是最大似然訓練,目標是訓練生成模型以最大化訓練數據的似然。這種設置通常用于圖像生成、自然語言建模和藥物設計等任務,目標是生成與訓練數據分布非常相似的數據。第二個設置是分布匹配,目標是將生成分布與目標密度對齊。這種設置在圖像和語言方面研究較少,但在如采樣晶格模型和估計分子或材料的平衡性質等應用中經常使用,其中需要從物理系統的熱力學平衡分布中生成樣本。

在這篇論文中,我提出了新方法來解決知識發現背景下概率模型的解釋性和可擴展性挑戰。在深入研究所提議的方法的細節之前,我為替代模型和生成模型的現有文獻提供了簡短的概述。 本章的其余部分組織如下:第1.1.1節首先簡要介紹了高斯過程,這是一種在科學發現中使用的流行的概率替代模型。然后在第1.1.2節中,我回顧了貝葉斯優化的基本方法論方面。第1.2節簡要概述了關于生成模型的現有文獻,重點關注科學發現中的應用。最后,在第1.3節中,我總結了整個論文的大綱。

付費5元查看完整內容

相關內容

,又譯 普林斯敦大學,常被直接稱為 普林斯頓,是美國一所私立研究型大學,現為八所常青藤學校之一,綽號為老虎。

自然語言處理(NLP)的目標是促進計算機與人類語言之間的通信,使計算機能夠處理和分析大量的自然語言數據。語言的層次結構長期以來一直是語義分析的關鍵方面,并被認為是可以增強NLP任務結果的基礎知識。納入層次結構可以幫助NLP模型理解語言組件之間的關系并有效傳達意義。 本論文旨在增強語言模型對文本層次結構的理解。為此,我們建議使用一個深層次的RNN模型,該模型考慮到層次信息并使用潛在指標來表示層次結構。此外,采用了一個層次注意機制來提高模型的性能和可解釋性。

為了解決計算復雜性并優化潛在指標,我們提出了各種統計訓練方法。我們進一步研究了如何將模型擴展到一個序列到序列的模型,并提供了一個預訓練模型的實用方法和一個層次解碼方法,以增強其在文本生成任務(如翻譯)中的性能。 具體來說,我們的方法包括以下步驟:首先,我們區分顯式和隱式的層次信息,并通過使用多尺度RNN和層次注意機制創建一個納入這兩種信息的層次RNN模型。其次,為了進一步改進模型,我們通過期望最大化(EM)算法整合潛在指標,使用Bootstrap抽樣方法減少計算復雜性,并實施分層訓練以進行更深層次的RNN。第三,我們將層次語言模型擴展到翻譯任務的層次序列到序列模型。為了克服在生成過程中潛在指標的不穩定性,我們使用遮罩訓練來預訓練序列到序列模型,并提議一個結合遮罩預測和層次信息的層次解碼方法。

此外,我們通過在各種NLP任務中的表現展示了我們方法的優越性。我們的方法達到了與大型語言模型相當的結果,同時提供了更高的可解釋性。

付費5元查看完整內容

現代機器學習主要受到黑盒模型的驅動,這些模型提供了卓越的性能,但對于如何進行預測的透明度有限。對于需要了解模型如何做出決策的應用,以及協助模型調試和數據驅動的知識發現,我們需要可以回答有關影響模型行為的問題的工具。這就是可解釋機器學習(XML)的目標,這是一個子領域,它開發了從多個角度理解復雜模型的工具,包括特征重要性、概念歸因和數據估值。本文提供了對XML領域的幾個貢獻,主要思想分為三部分:(i)一個框架,使得可以統一分析許多當前的方法,包括它們與信息論和模型魯棒性的聯系;(ii)一系列技術,用于加速Shapley值的計算,這是幾種流行算法的基礎;以及(iii)一系列用于深度學習模型的特征選擇的方法,例如,在無監督和自適應的設置中。這些思想中的許多都是受到計算生物學和醫學應用的啟發,但它們也代表了在各種領域中都有用的基本工具和觀點。

在模型透明度的辯論中,傳統的觀點是我們面臨解釋性與準確性之間的權衡。1有些人辯稱這種權衡并不存在,聲稱我們可以使用“天生可解釋”的模型達到近乎最優的性能(Rudin, 2019);這對于簡單的表格數據集往往是正確的,但對于像圖像和語言這樣的復雜數據模態則較為罕見。在這里,我們采取了更為寬容的立場:鑒于黑盒模型目前提供了最佳的性能并且已經廣泛部署,我們探討是否有可能從任何模型中獲得足夠的見解。在這樣做的過程中,我們開發了一套在很大程度上對模型的內部機制持中立態度,或者說是模型不可知的工具集,因此即使在今天的最高性能的黑盒模型中也能正常運行。 這一目標也被可解釋機器學習(XML)子領域的許多工作所共享,并且近年來已經取得了顯著的進展。目前,XML工具已被用于了解新疾病的風險因素(Razavian等人,2020;Snider等人,2021),加速數學猜想的發現(Davies等人,2021),在有限的訓練數據標簽下識別蛋白質結合位點(Gligorijevi?等人,2021),審計有缺陷的醫學診斷系統(DeGrave等人,2021)以及從功能系統中獲得新的見解(Ting等人,2017;Sundararajan等人,2017)。這些早期的成功表明了這些工具的潛力,但在這些方法的底層理論以及使它們在實踐中高效的計算程序方面仍有進展空間。這篇論文介紹了我在博士期間進行的幾項工作,旨在解決這些挑戰。

這篇論文包含了我在博士期間完成的大部分項目,所有這些項目都與透明機器學習的核心主題相關。我們首先在第2章建立符號和幾個初步的概念。接下來,每一章都基于一篇第一作者的出版物,其中在某些情況下與共同第一作者共享。為了使它們在一個文檔中更具連貫性,對各個作品進行了修改,但這里沒有提供新的信息,這些論文也可以單獨閱讀。這些作品被組織成三個部分,如下所述。

**第一部分:XML的基礎 **我們首先討論一個統一了大部分文獻的觀點:許多現有的方法都基于一個解釋原則,即通過移除或量化從模型中移除特征的影響。我們描述了一個框架,在這個框架中,這些方法基于三個實現選擇而有所不同,我們為26個現有的算法確定了這些選擇(第3章)。基于這個觀點,我們對這些方法進行了統一分析,并找到了與信息理論、博弈論和認知心理學的聯系。然后,我們探索這些方法的魯棒性特性,并得出了描述它們對輸入和模型擾動的魯棒性的新結果(第4章)。 第二部分:Shapley值計算 接下來,我們探討XML中最廣泛使用的工具之一:Shapley值,一種博弈論信用分配技術。這些是最受歡迎的特征歸因方法之一,SHAP(Lundberg和Lee,2017)的基礎,以及一個著名的數據估值技術(Ghorbani和Zou,2019),但它們是臭名昭著的難以計算。有一系列方法來加速它們的計算(Chen等人,2022),我們在這里討論兩個:基于加權線性回歸的近似(第5章),和基于深度學習的攤銷優化的近似(第6章,第7章)。 第三部分:深度學習的特征選擇 最后,特征選擇為提供透明度的同時也降低了特征獲取成本提供了另一個方向。由于多次訓練不同特征集的模型的高昂成本,似乎很難與深度學習一起實施,但我們探討了如何使用可微分的層來阻止特征信息進入網絡(第8章)。然后,我們討論如何在自適應設置中應用這些思想,其中我們根據當前可用的信息為每個預測單獨選擇特征(第9章,第10章)。

付費5元查看完整內容

建模的一個核心目標是幫助我們理解周圍的世界,但通常我們希望建模的現象只能間接觀察到。例如,我們經常通過它們對周圍物體產生的引力效應來檢測黑洞。未觀察到的現象通常使用與觀察到的變量存在統計關系但從未直接觀察到的潛變量來建模。這些潛變量模型是一種強大的形式主義,可以實現數據的簡潔和可解釋表示,但在變量之間的關系復雜時很難使用。 本論文開發了一種適用于具有非線性函數參數化變量之間依賴關系的潛變量模型的擬合技術,例如深度神經網絡或非線性微分方程。非線性依賴關系使得解析方法變得不可行,本論文的主要重點是將蒙特卡羅文獻中的抽樣算法擴展到深度生成模型中的工作。

具體來說,本論文側重于對順序數據進行建模,如神經電壓跟蹤或語音音頻。首先,我介紹了一種名為FIVO的方法,用于使用濾波順序蒙特卡羅來擬合非線性順序潛變量模型,并使用它來改進語音音頻和鋼琴譜的模型。然后,我開發了一種名為SIXO的基于平滑的FIVO擴展,成功地擬合了神經膜電位的生物物理模型。接下來,我介紹了NAS-X,這是SIXO的擴展,適用于離散潛變量。最后,我開發了用于嵌入式抽樣算法的擬合模型的方法,并與基于能量的建模建立了聯系。

這些方法為非線性潛變量模型中的推斷和學習建立了新的標準。例如,在霍奇金-赫胥黎神經膜電位模型中,NAS-X和SIXO相對于以前的方法實現了32倍的推斷對數似然度的改進。改進的推斷性能導致了參數學習方面的下游收益,并且能夠擬合基于具有數百個參數的非線性微分方程的潛變量模型。總的來說,本論文擴展了蒙特卡羅算法,以解決序列建模中的難題。

付費5元查看完整內容

強化學習(RL)為基于學習的控制提供了一個形式化的框架。通過嘗試學習能優化用戶指定的獎勵函數的行為策略,RL方法已經能夠獲得新穎的決策策略,即使在動態非常復雜,所有可能結果的空間巨大(例如,機器人操作、芯片地板規劃)的情況下,這些策略也可以勝過最好的人類。但與標準機器學習(ML)在現實世界的應用相比,RL的適用性有限。為什么呢?RL的核心問題在于,它嚴重依賴于執行大量試錯的主動數據收集來學習策略。不幸的是,在現實世界中,主動數據收集通常非常昂貴(例如,進行藥物設計的實驗室實驗)和/或危險(例如,機器人在人們周圍操作),且準確的模擬器很難構建。總的來說,這意味著,盡管RL具有廣泛解鎖現實世界決策問題中的ML的潛力,但我們無法通過當前的RL技術實現這一潛力。

為了實現RL的這種潛力,在這篇論文中,我們開發了一個旨在使用靜態數據集經驗學習策略的替代范式。這種“數據集驅動”的范式擴大了RL在存在歷史數據集或可以通過特定領域策略收集的決策問題中的適用性。它還將現代有監督和無監督ML方法的可擴展性和可靠性帶入了RL。話雖如此,實例化這一范式是具有挑戰性的,因為它需要將從數據集中的靜態學習與RL的傳統主動性相協調,這導致了分布偏移、泛化和優化的挑戰。在理論上和實證上理解這些挑戰后,我們為應對這些挑戰開發了算法思想,并討論了幾種擴展,將這些思想轉化為實際方法,可以在大型和多樣化的數據集上訓練現代高容量神經網絡函數逼近器。最后,我們展示了這些技術如何使我們能夠為真實的機器人和視頻游戲預訓練通用策略,并實現快速高效的硬件加速器設計。

付費5元查看完整內容

機器學習(ML)和人工智能(AI)在廣泛的領域實現了非凡的、超乎人類的性能:包括計算機視覺、自然語言處理、蛋白質折疊等等。直到最近,大多數的進步都是采取模型中心化的方法,主要關注于改善神經網絡架構(如卷積神經網絡、殘差網絡、變換器等)和訓練這些模型的優化程序(如批量標準化、dropout、神經結構搜索等)。相對來說,我們對用來訓練這些模型的數據的關注度較低,盡管眾所周知,機器學習對高質量數據的依賴可以用"垃圾進,垃圾出"這句話來精辟地概括。隨著對越來越大且更復雜的模型(如Nvidia和Microsoft的5300億參數的MT-NLG)的回報逐漸減小,研究人員開始認識到采取數據中心化方法的重要性,并開發了原理性的方法來研究這些模型的燃料:數據本身。數據中心視角不僅可以提高任務性能,還可以讓我們考慮到一些社會關鍵考慮因素,如數據隱私。在本論文中,我們將對機器學習數據管道中的幾個點進行深入分析:在模型訓練前、訓練中和訓練后。在模型訓練前,我們將探索數據選擇的問題:應該用哪些數據來訓練模型,我們應該期望我們的模型在何種類型的數據上工作?當我們進入模型訓練時,我們將把注意力轉向由我們的ML系統與其部署環境的交互可能導致的兩個問題。第一個問題是數據隱私:我們如何防止我們的模型泄露有關其訓練數據的敏感信息?第二個問題涉及一些被模型化的群體的動態性。特別是當我們的模型被用于做出具有社會影響力的決策(如自動貸款批準或推薦系統)時,模型本身可能會影響數據的分布,導致性能降低。最后,盡管我們在模型訓練前和訓練中遵循最佳實踐,但可能在訓練后我們希望對模型進行后處理,以移除某些訓練后的數據的影響。如何以計算效率高的方式實現這一點呢?本論文將涵蓋每一個先前問題的新穎解決方案,強調的是每一個提議的算法都有可證明的保證。通過將數學嚴謹性應用于具有挑戰性的現實問題,我們可以開發出既有效又可信賴的算法。

在過去的十年中,機器學習(ML)和人工智能(AI)研究已經取得了飛速的進步。到目前為止,大部分的研究都采用了模型中心化的方法:也就是說,數據集被視為已給定,研究人員不斷迭代應用于這些數據集以提取有用信息的模型。這種模式下有一套標準的假設。例如,數據通常假設是從固定概率分布中獨立同分布(i.i.d.)抽取的,此外還假設數據是固定的和給定的。通常還假設測試數據與訓練數據來自同一分布,即不存在分布漂移。而且,通常唯一衡量成功的指標是模型的性能(如預測任務的準確率)。盡管這種范式已經帶來了大量令人印象深刻的進步,但往往與數據科學家在實踐中面臨的情況相去甚遠。例如,收集和策劃一份高質量的訓練集通常比使用更復雜的模型架構帶來更大的收益。關于獨立同分布的假設,在現實中,數據分布可能由于各種因素而不斷變化,包括時間變化(如消費者偏好的季節性影響)和空間變化(如不同地理位置的醫院患者分布不同)。在某些情況下,我們的模型本身可能導致數據分布的變化,特別是如果該模型被用于做出具有社會影響力的決策。最后,最近的立法,如加利福尼亞消費者隱私法案和歐盟的通用數據保護法規,要求在設計AI模型過程中也要考慮消費者隱私。也就是說,隱私以及模型性能,都是必須考慮的關鍵指標。 所有這些重要的實踐問題都有一個共同的主題:它們更多地關聯到數據本身,而不是訓練在其上的模型。在這篇論文中,我們遵循這種數據中心的觀點,并為數據通過典型的ML管道可能出現的問題提出新穎的算法。我們特別強調可以為每個提出的算法提供的可證明的保證。

付費5元查看完整內容

最近機器學習領域取得了重大的進展,其中序列模型是深度學習模型的核心,這些模型在科學應用中取得了廣泛的成功。然而,現有的方法需要針對不同任務、模態和能力進行大量的專門化,存在計算效率瓶頸,并且在建模更復雜的序列數據(例如涉及長依賴性的情況)時存在困難。因此,繼續開發有原則和實用性的建模通用序列的方法仍然具有基本重要性。本論文提出了一種使用狀態空間模型進行深度序列建模的新方法,該方法具有理論基礎、計算效率高,并在各種數據模態和應用中取得了強大的結果。首先,我們引入了一類具有多種表示和屬性的模型,它們綜合了標準深度序列模型(如循環神經網絡和卷積神經網絡)的優勢。然而,我們表明計算這些模型可能具有挑戰性,并且開發了一類在現代硬件上非常快速的結構化狀態空間,無論是在長序列的擴展上還是在其他設置(如自回歸推斷)上。最后,我們提出了一種新穎的數學框架,用于逐步建模連續信號,它可以與狀態空間模型相結合,賦予它們具有原則性的狀態表示,并提高其對長程依賴關系的建模能力。總的來說,這種新的方法類為機器學習模型提供了有效且多功能的構建模塊,特別是在大規模處理通用序列數據方面具有重要意義。

付費5元查看完整內容

受寬神經網絡(NNs)理論的啟發,核學習和特征學習近期作為兩個范式浮現出來,通過它們我們可以實際理解大規模深度學習系統的復雜行為。在文獻中,它們通常被描述為二分法的兩個對立面,各自具有優點和缺點:核學習與經過深入研究的機器學習技術(如核方法和高斯過程)建立聯系,而特征學習則承諾捕捉更多豐富而尚未解釋的,獨特于神經網絡的屬性。在這篇論文中,我們介紹了三項研究,研究結合了來自兩個角度的見解來研究神經網絡的性質,不僅強調它們的差異,而且強調共同點。我們首先回顧了有關深度學習理論的相關文獻,重點是寬神經網絡的研究。這為核學習和特征學習的討論提供了背景,基于此,我們繼續描述我們的貢獻。首先,我們研究了寬神經網絡集合與貝葉斯推斷之間的關系,利用核學習與高斯過程之間的聯系,并提出了一種修改,以解釋神經網絡函數在初始化時缺失的方差,從而使我們訓練過的深度集合具有貝葉斯解釋。接下來,我們結合核學習和特征學習來展示特征核的適用性,即通過最終層神經網絡特征的內積引導的核,作為知識蒸餾的目標,其中人們尋求使用強大的教師模型來提高弱學生模型的性能。最后,我們探討自監督學習中折疊特征和白化特征之間的差距,強調特征核中特征值的衰減率作為一項關鍵量,它彌合了這一差距,并影響下游泛化性能,特別是在標記數據稀缺的情況下。我們以討論我們的貢獻,包括局限性和未來展望,作為結論。

付費5元查看完整內容

深度學習的發展導致了在各種應用領域的各種任務上的顯著性能提升,這些應用領域包括計算機視覺、自然語言處理、強化學習、生成模型,以及最近從圖結構數據中進行的關系學習。這一成功的主要原因是計算能力的提高,這允許深度和高度參數化的神經網絡架構,這些架構可以從原始數據中學習復雜的特征轉換。然而,深度神經網絡的高表示能力往往是以高模型復雜度為代價的,這指的是高參數化,以及與深度學習相關的內存和計算負擔。**在本文中,我依靠參數有效的神經算子,對數據的適當建模假設和網絡結構的歸納偏差,在幾個應用領域提出更簡單的神經網絡模型。**對于我工作的每個應用領域,我使用這些效率原則的組合來設計新穎的方法。首先,在醫學圖像處理的背景下,我觀察到空間對齊的神經圖像比自然圖像表現出更少的自由度,這證明使用低容量卷積算子是合理的。我通過應用參數高效的卷積變體來實現這一點。我展示了早期阿爾茨海默病預測的最先進結果,同時使用的參數減少了多達125倍,乘累加操作減少了17倍以上。對于設計用于識別受試者亞型的神經圖像的無監督方法也得出了類似的結論。其次,我著手緩解從零開始訓練參數高效的深度模型的挑戰。這可以減少在資源受限的"邊緣"設備上訓練深度模型的不可行性。所提方法基于一個簡化的網絡結構假設,即參數無關性,允許在組合多臂匪徒的背景下建模問題。該方法可以動態地,即在訓練期間,在遵循預定義的內存使用預算的同時,在超參數化模型中識別高性能緊湊的子網絡。這是通過將顯著性指標與每個神經元相關聯來實現的,然后用于驅動參數激活,類似于門控機制,同時學習參數。因此,深度神經網絡訓練和推理過程中的計算和內存負擔都顯著減少。最后,提出一種深度概率模型,用于學習動態圖中的無監督節點和社區嵌入。基于網絡固有的社團結構,引入了關于邊形成機制的結構歸納偏差。此外,我還假設節點和社區都是平滑的時間演化,其靈感來自于數據中缺乏破壞性事件。本文提出一種該方法的參數高效實現,在各種動態預測任務上優于最先進的圖卷積網絡。

付費5元查看完整內容

關系數據在現代計算中無處不在,并驅動跨多個領域的幾個關鍵應用程序,如信息檢索、問題回答、推薦系統和藥物發現。因此,人工智能(AI)的一個主要研究問題是建立以有效和可靠的方式利用關系數據的模型,同時注入相關的歸納偏差和對輸入噪聲的魯棒性。近年來,圖神經網絡(GNNs)和淺節點嵌入模型等神經模型在關系結構的學習表示方面取得了重大突破。然而,這些系統的能力和局限性還沒有被完全理解,在賦予這些模型可靠性保證、豐富它們的關系歸納偏差以及將它們應用于更具挑戰性的問題設置方面仍存在一些挑戰。在這篇論文中,我們研究了關系數據的學習和推理。更具體地說,我們從理論上和實證上分析了現有模型的性質和局限性,并提出了改進關系歸納偏差和表征能力的新方法。

//ora.ox.ac.uk/objects/uuid:da7744ad-effd-4fc9-b7ab-a00b03a86a53

1. 引言以神經網絡為動力的深度學習系統已經在各種具有挑戰性的任務上取得了突破性的成果,如計算機視覺[96]和機器翻譯[160]。深度學習模型在最少人為干預的情況下從數據中學習模式,并在其訓練集之外進行經驗歸納。因此,在多個領域應用深度學習系統的興趣越來越大。沿著這些思路,近年來一個突出的研究前沿是將深度學習應用到關系數據中。從根本上說,關系數據將信息表示為一組通過語義意義關系連接的實體。例如,可以將在線市場上的產品、賣家和用戶表示為實體,并將交易描述為跨上述三種實體類型的三元關系,例如,Alice從Charlie那里購買了一個球。關系數據的一個流行的特例是圖結構,其中關系最多是二進制的。在這種情況下,關系可以被視為定義(標記)圖實體之間的邊,這些實體本身構成了圖節點。關系表示非常通用,并且出現在各種應用程序領域中。例如,社交網絡中的用戶根據他們的互動(友誼、關注、點贊)成對連接,可以被視為一個圖結構。這同樣適用于引文網絡中的論文[153,154]及其引文連接,以及分子,其中原子可以被視為實體,它們的鍵可以表示為二進制關系。事實上,關系數據封裝了幾個傳統數據域。例如,圖像是網格形狀的圖形的一種特殊情況,其中相鄰的像素由一條邊連接,序列是一系列實體,這些實體的邊連接著連續的實體。鑒于關系數據的普遍存在和圖結構的普遍存在,構建強大的關系機器學習模型是一個重要的研究問題,其分支涉及多個任務,如信息檢索[182]、問題回答[20]、推薦系統[173]和藥物發現[60]。廣義上講,機器學習任務可以分為三大類:

1. 節點級的任務。給定一個帶有未標記或部分標記節點的輸入圖,節點級任務旨在預測節點屬性,例如,對于沒有預標記屬性的節點,預測一個類或一個值。例如,在引用網絡中,論文(輸入圖中的實體)具有內容特征,并且通過二元引用關系與其他論文相連,預測論文的主題就是一個節點分類任務。

2. Graph-level任務。給定一個輸入圖,圖級任務尋求基于節點特征、邊和整體輸入圖結構預測全局圖屬性,如類或值。這些任務在分子圖中非常突出,包括幾個圖性質預測問題,如毒性分類和零點振動能(ZPVE)回歸[140]。

3.Edge-level任務。給定一個輸入圖,邊級任務旨在預測現有邊的未知邊屬性,或者更常見的是,基于現有邊和節點特征預測圖中缺失的邊。對于后一種情況,當輸入圖是單關系圖時,該問題稱為鏈接預測,如引用網絡,當輸入圖是多關系圖時,該問題稱為知識圖譜補全(KGC)。在本文中,我們研究了關系數據(圖結構和更一般的關系數據)的學習和推理,并提出了幾個模型和框架,以理論分析和結果支持,以提高該領域模型的關系歸納偏差和表示能力。更具體地說,我們系統地研究現有模型,證明它們的理論屬性和結果,并提出擴展和新模型,以(i)可證明地捕獲和/或強加豐富的關系歸納偏差,(ii)更好地理解現有模型的表現力和表征局限性,以及(iii)將現有模型和方法擴展到與推理和推理相關的新穎的、具有挑戰性的應用領域。

付費5元查看完整內容

設計具有不確定性的深度學習模型,使其能夠在預測的同時提供合理的不確定性,一直是部分機器學習社區的目標。從業者也經常需要這樣的模型。最普遍和最明顯的方法是采用現有的深層架構,并嘗試將現有的貝葉斯技術應用于它們,例如,將神經網絡的權重作為貝葉斯框架中的隨機變量處理。本文試圖回答這個問題: 現有的神經網絡架構是獲得合理不確定性的最佳方式嗎?在本文的第一部分,我們提出了在對抗環境下貝葉斯神經網絡的不確定性行為的研究,這表明,雖然貝葉斯方法在數據分布附近的確定性網絡上有顯著的改進,但外推行為是不受歡迎的,因為標準神經網絡架構在結構上偏向于自信外推。基于此,我們探索了兩種標準深度學習架構的替代方案,試圖解決這一問題。首先,我們描述了一種新的膠囊網絡生成公式,它試圖通過對場景結構的強假設來將結構強加到學習任務中。然后,我們使用這個生成模型來檢查這些潛在的假設是否有用,并論證它們實際上存在重大缺陷。其次,我們探索了bilipschitz模型,這是一種解決深度神經網絡中確保先驗回歸這一更有限目標的體系結構。這些方法基于深度核學習,試圖通過使用最終分類層來控制神經網絡的行為,當與支持向量集的距離增加時,分類層會恢復到先驗值。為了在使用神經特征提取器的同時保持這一特性,我們為這些模型描述了一種新的“bilipschitz”正則化方案,該方案基于通過施加由可逆網絡上的工作激發的約束來防止特征崩潰。我們描述了這些模型的各種有用的應用,并分析了為什么這種正則化方案似乎仍然有效,即使它背后的原始動機不再成立,特別是在特征維度低于輸入的情況下。我們的結論是,雖然膠囊網絡可能不是一個有前途的方向,但本文最后部分討論的模型是未來研究的一個富有成果的領域,在許多應用中作為標準貝葉斯深度學習方法的一個有前途的潛在替代方案。

付費5元查看完整內容
北京阿比特科技有限公司