亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

物理啟發式機器學習可以被視為將來自物理系統的結構(例如由常微分方程或偏微分方程給出的)結合到機器學習方法中,以獲得具有更好歸納偏見的模型。在這篇論文中,我們為序列建模和圖表表示學習領域提供了一些最早的方法示例。隨后,我們顯示了物理啟發式的歸納偏見可以被利用來減輕每個特定領域的重要和中心問題。更具體地說,我們展示了耦合的非線性振蕩器系統和哈密頓系統導致的循環序列模型能夠通過減輕梯度爆炸和消失問題來處理長時間尺度的順序交互。此外,我們嚴格證明了振蕩器的神經系統是連續和因果算子的通用逼近器。我們還顯示,從多尺度動態系統派生的序列模型不僅減輕了梯度爆炸和消失問題(從而能夠學習長期依賴性),而且同樣重要的是為學習(真實世界的)多尺度數據提供了富有表現力的模型。我們進一步展示了物理啟發式方法對圖形表示學習的影響。特別是,圖形耦合的非線性振蕩器系統是一種在圖上學習的強大框架,允許在其上堆疊多個圖神經網絡(GNN)層。因此,我們證明這些系統減輕了GNN中的過度平滑問題,其中節點特征在增加的GNN層數量下指數級地收斂到相同的常數節點向量。最后,我們建議在GNN的消息傳遞框架中加入從底層圖數據中推斷出的多個速率。此外,我們利用門控函數調制的圖梯度來獲得自動減輕過度平滑問題的多個速率。我們在一系列多功能的合成和實際數據集上廣泛測試了所有提議的方法,從圖像識別、語音識別、自然語言處理(NLP)、醫學應用和序列模型的科學計算,到引文網絡、計算化學應用、以及文章和網站網絡的圖學習模型。

//www.research-collection.ethz.ch/handle/20.500.11850/637340

在科學和工程領域中,許多問題都需要理解和建模可能的大量測量數據。典型的例子包括在物理約束下的工藝設計(例如,優化飛機翼上的升力和阻力以適應不同的運行條件)、氣候模擬(例如,計算由于不同的CO2排放水平導致的全球平均海表溫度)和新藥設計(例如,利用已知活性結合劑的數據洞察來形成一個配體藥效團模型以推斷新的結構),僅舉幾例。因此,已經有了一長串用于模式識別和數據驅動建模的多功能方法。早期的例子包括支持向量機[Steinwart和Christmann, 2008]、常規核方法[Shawe-Taylor等人, 2004]、聚類算法[Xu和Wunsch, 2005],以及貝葉斯方法用于概率推理[Box和Tiao, 2011]。雖然人工神經網絡已經存在了很長時間,可能在其非常簡單的線性回歸形式(也稱為最小二乘法)中存在了幾個世紀,但它們目前的廣泛使用主要是由于可以有效地計算它們相對于可訓練參數的梯度(即反向傳播算法[Rosenblatt, 1961, Rumelhart等人, 1985])和可用的計算資源數量呈指數增長。特別是后者使得可以在大型數據集上訓練更深入的模型,即,堆疊在彼此之上的多層人工神經網絡,這一領域被稱為深度學習[Goodfellow等人, 2016]。 深度學習現在是機器學習中最受歡迎的方法之一,對計算機科學和工程的整個子領域產生了深遠的影響,如計算機視覺、自主系統和機器人技術、自然語言處理(NLP)和語音識別。深度學習的核心是深度全連接前饋神經網絡(也稱為多層感知器 [Rosenblatt, 1961, Werbos, 1982, Rumelhart等人, 1985]),它可以描述為多個(因此被稱為“深度”)仿射變換的串聯,與逐元素的非線性激活函數交替出現。更具體地說,考慮一個輸入 u ∈ R^d 。一個具有N ∈ N層的深度全連接前饋神經網絡(圖1)可以被簡潔地寫為:

對于所有的層 n = 1, . . . , N,其中隱藏狀態為 hn ∈ R^mn,權重為 An ∈ R^mn×mn?1,偏差為 bn ∈ R^mn,初始輸入由 h0 = u 給出(即,m0 = d 是輸入維度),并且σ表示一個非線性激活函數,例如 tanh(x) 或 relu(x) = max{0, x} 對于 x ∈ R,這是逐元素應用的。深度神經網絡(1)可以通過定義一個適當的損失函數來訓練,該函數測量神經網絡的輸出 hN 與真實數據之間的差異,然后應用基于損失函數相對于神經網絡(1)的參數 {An, bn}^N_n=1 的梯度的梯度下降方法(例如隨機梯度下降[Robbins 和 Monro, 1951])。因此,梯度是使用反向傳播算法有效地計算的。

盡管原則上深度全連接神經網絡可以應用于任何數據集合,但深度學習在許多應用領域(如計算機視覺或NLP)的巨大成功需要對神經網絡進行重大的結構變化。這些結構變化通常與“歸納偏見”相關,強調從底層數據推理出的結構。例如,計算機視覺中廣泛使用的一類神經網絡是卷積神經網絡(CNNs) [LeCun等人,1989],它對輸入像素數據,例如圖像,應用可學習的卷積。由于權重共享,CNNs被認為是移位等變的[Fukushima,1980, Bronstein等人,2021, McGreivy和Hakim,2022]。這種歸納偏見,由局部感受野[LeCun和Bengio,1995]生物學啟發,使CNNs在圖像數據上顯著優于全連接神經網絡。雖然許多神經網絡結構受到生物啟發,但越來越多的人對從物理學中獲得靈感來構建新的機器學習模型感興趣,這些模型可以成功地應用于物理科學中的問題。盡管在這個背景下的許多方法不具備基于物理的歸納偏見,而是將計算機視覺、NLP或圖學習中的成熟模型應用于物理問題,例如[Sanchez-Gonzalez等人,2020, Vlachas等人,2020, Stachenfeld等人,2021],但基于物理啟發的歸納偏見的機器學習模型越來越多地用于物理科學中的應用。例如,等變神經網絡和李代數方法在分子科學的背景下被使用,例如分子模擬[Batzner等人,2022]和分子性質預測[Satorras等人,2021]。雖然等變性是物理科學中的一個重要概念,但在建立更好的歸納偏見的神經網絡結構時,人們可以潛在地利用更多的對稱性和結構。例如,保存能量的守恒,如Hamilton神經網絡[Greydanus等人,2019, Chen等人,2020c],其中神經網絡根據Hamilton函數參數化。這使得網絡能夠從數據中學習Hamilton系統,從而自動保存能量(即,Hamilton函數)。

對于神經網絡的物理啟發歸納偏見并不局限于物理科學中的應用。相反,最近的物理啟發機器學習方法在深度學習的許多傳統領域都有應用。例如在生成建模中,擴散模型[Yang等人,2022]是最先進的。這些模型利用一個物理過程,即擴散,逐漸地用隨機噪聲損壞輸入數據。一旦訓練完成,新數據可以通過反轉擴散過程生成。由于這種方法基于物理過程,所以在這個背景下的許多模型從物理系統中獲得啟示,以構建具有更好的歸納偏見的擴散模型[Dockhorn等人,2021, Lai等人,2022, Salimans和Ho,2021]。另一個例子包括圖表示學習,其中越來越多使用物理啟發的圖神經網絡(GNNs)。例如,在基礎GNN操作(所謂的消息傳遞[Bronstein等人,2021])中引入各向異性擴散[Chamberlain等人,2021b]、漸變流[Di Giovanni等人,2022]、反應-擴散方程[Choi等人,2022]或雙曲偏微分方程(PDEs) [Eliasof等人,2021],僅舉幾例。 在這篇論文中,我們提供了幾個最早的基于物理啟發的機器學習模型的例子。更具體地說,我們提供了由非線性耦合振蕩器系統、(時依賴的)哈密爾頓系統和多尺度動力系統啟發的循環序列模型。我們隨后展示了這些模型,由于其基于物理的歸納偏見,展現出了非常有利的特性,例如處理序列數據中的長期相互作用,或者在真實世界的數據集上提高表現力。此外,我們提供了基于圖表示學習的物理啟發模型,這些模型受到圖-動力系統的啟發,即圖-耦合振蕩器以及多速率圖-動力系統。我們進一步為這些模型證明了各種有益的特性,例如使用GNNs的圖表示學習中的中心問題,即過度平滑[Nt和Maehara,2019, Oono和Suzuki,2020],以及處理異性(大規模)圖數據集。

這篇論文的第一部分從受物理啟發的角度重點討論序列建模。我們從第一部分開始,介紹序列模型,即 Transformers 和遞歸神經網絡 (RNNs)。隨后,我們提出了三種新穎的、受物理啟發的 RNN 架構。我們提議的第一個架構被稱為 Coupled Oscillatory RNN (coRNN)。我們在第二章介紹 coRNN 并在第 2.2 節為所提議的模型提供嚴格的理論分析。此外,我們在第 2.3 節為 coRNN 提供了廣泛的實證評估。本章基于[Rusch 和 Mishra, 2021a]的出版物。

我們進一步在第三章介紹 Undamped Independent Controlled Oscillatory RNN (UnICORNN)。同樣,我們在第 3.2 節提供了嚴格的分析,并在第 3.3 節對所提議的 UnICORNN 架構進行了廣泛的實證評估。本章基于[Rusch 和 Mishra, 2021b]的出版物。在第四章,我們通過引入神經振蕩器來推廣 coRNN 和 UnICORNN。隨后,我們嚴格地證明神經振蕩器是通用的。這一章基于[Lanthaler 等人,2023]的預印本。 在第一部分的最后一章,即第五章,我們提出了 Long Expressive Memory (LEM),這是一種用于學習長期依賴關系的表達性遞歸序列模型。在第 5.2 節,我們嚴格地證明了所提議的 LEM 的梯度穩定性,并顯示 LEM 是普遍 (Lipschitz 連續) 多尺度動力系統的通用逼近器。此外,我們展示 LEM 仿真常微分方程 (ODEs) 的異構多尺度方法。最后,在第 5.3 節,我們為所提議的 LEM 架構提供了各種多功能的數值實驗。本章基于[Rusch 等人,2022b]的出版物。

這篇論文的第二部分涉及受物理啟發的圖表征學習。我們開始第二部分,介紹現代圖神經網絡和底層的信息傳遞框架。此外,我們概述了當前框架的重要限制,特別是深度 GNNs 中的過度平滑問題(過度平滑的定義基于[Rusch 等人,2023])。隨后,我們提議了兩種受物理啟發的信息傳遞框架。我們提議的第一種方法在第七章被稱為 Graph-Coupled Oscillator Network (GraphCON)。我們進一步在第 7.2 節為 GraphCON 提供了嚴格的分析,并在第 7.3 節進行了廣泛的實證評估。這一章基于[Rusch 等人,2022a]的出版物。這一部分的最后一章,即第八章,介紹了 Gradient Gating 框架 (G2)。我們在第 8.2 節為所提議的 G2 框架提供了理論洞察,并在第 8.3 節在各種(大規模)圖數據集上測試其性能。這一章基于[Rusch 等人,2022a]的出版物。最后,我們在第九章結束這篇論文。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

在機器學習(ML)中,一個關鍵的挑戰是設計能夠從圖中高效學習的模型。這些圖由帶有屬性的節點組成,并具有一個編碼它們關系的預定結構。圖表示學習(GRL)旨在將這兩個異質性源編碼為一個向量圖嵌入,以便進行下游任務。在這個領域,最優傳輸(OT)在將圖視為離散概率分布的意義上提供了有意義的比較。本論文通過OT的視角關注GRL,兩個概念都在專門章節中介紹。現代的有監督GRL主要依賴圖神經網絡(GNN),它通過兩個主要元素隱式地編碼圖拓撲:通過消息傳遞的節點特征嵌入和通過專門形式的池化的聚合。在這篇論文中,我們介紹了一個新的觀點,將距離一些可學習的圖模板的距離置于圖表示的核心。這種距離嵌入是通過OT距離構建的:融合Gromov-Wasserstein(FGW)距離,它通過解決一個軟圖匹配問題同時處理特征和結構的不相似性。我們假設FGW距離到一組模板圖的向量具有強大的區分能力,然后將其提供給一個非線性分類器進行最終預測。這種距離嵌入作為一個新的池化層,稱為TFGW,并可以利用現有的消息傳遞技術來促進有意義的特征表示,這是端到端學習的。我們在幾個圖分類任務上實證驗證了我們的說法,其中我們的方法在表達性和泛化能力方面都優于內核和GNN方法。本論文的另一個貢獻旨在使詞典學習(DL)適用于圖數據集分析,這是無監督表示學習的關鍵工具。DL解釋向量數據為幾個基本元素的線性組合,通過與單一環境空間相關的不相似性來評估學到的表示的質量。由于圖描述了它們自己的空間,我們提出了第一個適應于圖詞典學習(GDL)的線性方法,使用(F)GW作為數據擬合項。在我們的工作中,圖被建模為圖原子的凸組合,通過在線隨機算法估算。GDL通過一個新的上界完成,該上界可以用作FGW在嵌入空間中的快速近似。我們實證地顯示了我們的方法對于圖聚類、分類、完成以及在線圖子空間估計和跟蹤的興趣。最終,位于OT核心的質量保守性,在對比兩個圖的所有節點時強加了一個耦合,這在GRL中有特定的含義。通過FGW學習結構和特征表示對于由將圖建模為概率分布所誘導的節點相對重要性非常敏感。管理這一額外的自由度,正如我們所做的,通過在TFGW中增加最小的計算成本但對GDL增加顯著的模型復雜性來改進基于(F)GW的模型。因此,我們建議通過引入一種新的基于OT的差異,稱為半松弛(融合)Gromov-Wasserstein差異(sr(F)GW),來解決(F)GW中質量保守性約束的限制。srFGW提供了兩個圖之間的對應關系,同時在目標圖中尋找一個重新加權的子圖,與輸入的(F)GW距離最小。后者可以比(F)GW更有效地估計,并與專門用于圖分割的方法競爭,同時更具通用性。此外,估計一個srFGW“重心”引入了一個新的DL,其中圖被嵌入為單個圖原子的重新加權子圖。與其他基于DL的競爭者在各種無監督任務上競爭有利,同時計算速度明顯更快。

付費5元查看完整內容

現代機器學習主要受到黑盒模型的驅動,這些模型提供了卓越的性能,但對于如何進行預測的透明度有限。對于需要了解模型如何做出決策的應用,以及協助模型調試和數據驅動的知識發現,我們需要可以回答有關影響模型行為的問題的工具。這就是可解釋機器學習(XML)的目標,這是一個子領域,它開發了從多個角度理解復雜模型的工具,包括特征重要性、概念歸因和數據估值。本文提供了對XML領域的幾個貢獻,主要思想分為三部分:(i)一個框架,使得可以統一分析許多當前的方法,包括它們與信息論和模型魯棒性的聯系;(ii)一系列技術,用于加速Shapley值的計算,這是幾種流行算法的基礎;以及(iii)一系列用于深度學習模型的特征選擇的方法,例如,在無監督和自適應的設置中。這些思想中的許多都是受到計算生物學和醫學應用的啟發,但它們也代表了在各種領域中都有用的基本工具和觀點。

在模型透明度的辯論中,傳統的觀點是我們面臨解釋性與準確性之間的權衡。1有些人辯稱這種權衡并不存在,聲稱我們可以使用“天生可解釋”的模型達到近乎最優的性能(Rudin, 2019);這對于簡單的表格數據集往往是正確的,但對于像圖像和語言這樣的復雜數據模態則較為罕見。在這里,我們采取了更為寬容的立場:鑒于黑盒模型目前提供了最佳的性能并且已經廣泛部署,我們探討是否有可能從任何模型中獲得足夠的見解。在這樣做的過程中,我們開發了一套在很大程度上對模型的內部機制持中立態度,或者說是模型不可知的工具集,因此即使在今天的最高性能的黑盒模型中也能正常運行。 這一目標也被可解釋機器學習(XML)子領域的許多工作所共享,并且近年來已經取得了顯著的進展。目前,XML工具已被用于了解新疾病的風險因素(Razavian等人,2020;Snider等人,2021),加速數學猜想的發現(Davies等人,2021),在有限的訓練數據標簽下識別蛋白質結合位點(Gligorijevi?等人,2021),審計有缺陷的醫學診斷系統(DeGrave等人,2021)以及從功能系統中獲得新的見解(Ting等人,2017;Sundararajan等人,2017)。這些早期的成功表明了這些工具的潛力,但在這些方法的底層理論以及使它們在實踐中高效的計算程序方面仍有進展空間。這篇論文介紹了我在博士期間進行的幾項工作,旨在解決這些挑戰。

這篇論文包含了我在博士期間完成的大部分項目,所有這些項目都與透明機器學習的核心主題相關。我們首先在第2章建立符號和幾個初步的概念。接下來,每一章都基于一篇第一作者的出版物,其中在某些情況下與共同第一作者共享。為了使它們在一個文檔中更具連貫性,對各個作品進行了修改,但這里沒有提供新的信息,這些論文也可以單獨閱讀。這些作品被組織成三個部分,如下所述。

**第一部分:XML的基礎 **我們首先討論一個統一了大部分文獻的觀點:許多現有的方法都基于一個解釋原則,即通過移除或量化從模型中移除特征的影響。我們描述了一個框架,在這個框架中,這些方法基于三個實現選擇而有所不同,我們為26個現有的算法確定了這些選擇(第3章)。基于這個觀點,我們對這些方法進行了統一分析,并找到了與信息理論、博弈論和認知心理學的聯系。然后,我們探索這些方法的魯棒性特性,并得出了描述它們對輸入和模型擾動的魯棒性的新結果(第4章)。 第二部分:Shapley值計算 接下來,我們探討XML中最廣泛使用的工具之一:Shapley值,一種博弈論信用分配技術。這些是最受歡迎的特征歸因方法之一,SHAP(Lundberg和Lee,2017)的基礎,以及一個著名的數據估值技術(Ghorbani和Zou,2019),但它們是臭名昭著的難以計算。有一系列方法來加速它們的計算(Chen等人,2022),我們在這里討論兩個:基于加權線性回歸的近似(第5章),和基于深度學習的攤銷優化的近似(第6章,第7章)。 第三部分:深度學習的特征選擇 最后,特征選擇為提供透明度的同時也降低了特征獲取成本提供了另一個方向。由于多次訓練不同特征集的模型的高昂成本,似乎很難與深度學習一起實施,但我們探討了如何使用可微分的層來阻止特征信息進入網絡(第8章)。然后,我們討論如何在自適應設置中應用這些思想,其中我們根據當前可用的信息為每個預測單獨選擇特征(第9章,第10章)。

付費5元查看完整內容

在這篇論文中,我們研究了穩定性的兩個不同方面:神經網絡動態模型的穩定性以及強化學習算法的穩定性。在第一章中,我們提出了一種新的方法,用于學習李雅普諾夫穩定的動態模型,這些模型在隨機初始化時甚至也是穩定的。我們在阻尼多鏈接擺上展示了這種方法的有效性,并展示了如何將其用于生成高保真度的視頻紋理。在第二和第三章中,我們關注強化學習的穩定性。在第二章中,我們證明了正則化作為解決不穩定性的常見方法在強化學習環境中的行為是違反直覺的。它不僅有時無效,還可能導致不穩定性。我們在線性和神經網絡環境中展示了這一現象。此外,標準的重要性抽樣方法也容易受到這種影響。在第三章中,我們提出了一種通過重新采樣來穩定離策略強化學習的機制。稱為“投影離策略時序差分(POP-TD)”,它重新采樣TD更新,使其來自“安全”分布的凸子集,而不是(如其他重新采樣方法中的情況)重新采樣到在策略分布上。我們展示了這種方法如何在一個旨在最大化分布偏移的任務中緩解離線強化學習中的分布偏移問題。總體而言,這篇論文在動態模型穩定性和強化學習訓練穩定性方面提出了新穎的方法,對領域內現有的假設提出了質疑,并指出了模型和強化學習穩定性的有希望的發展方向。

在這篇論文中,我們研究了兩種穩定性概念:神經網絡動態模型的穩定性和強化學習算法的訓練穩定性。從第一個穩定性概念自然地過渡到第二個穩定性概念:穩定訓練模型的參數在參數空間中限定了一個穩定軌跡。這種穩定性之間的關系在時序差分(Temporal Difference,TD)學習理論的基礎工作中有重要的先例[54]。

在第一章中,我們提出了一種全新的方法,以完全端到端的方式學習李雅普諾夫穩定的動力學模型和認證的李雅普諾夫函數。與通過某種損失函數強制穩定性不同,我們通過構造確保在任何地方都能保證穩定性。這通過精心構建一個神經網絡作為李雅普諾夫函數,學習一個單獨的、無約束的動力學模型,然后將這兩個模型與一種新穎的重新投影層結合起來實現。這樣可以在狀態空間的任何地方通過構造保證模型穩定,即使沒有任何訓練。我們展示了這種學習系統能夠模擬簡單的動態系統,如擺,還可以與額外的深度生成模型結合,以完全端到端的方式學習復雜的動態,例如視頻紋理。

在現代強化學習中,時序差分(Temporal Difference,TD)與函數逼近(即神經網絡)和離策略學習相結合。然而,這三者被稱為“致命三重奏”[48,第264頁],因為它們可能在學習過程中引發嚴重的不穩定性(Tsitsiklis和Van Roy [54])。盡管許多TD的變體在訓練不穩定性的情況下可以證明收斂,但在收斂時解的質量通常會非常差[24]。在文獻中,人們普遍認為正則化可以緩解這種不穩定性,這在對三個標準示例的基本分析中得到了支持。

然而,這并不正確!在第二章中,我們引入了一系列對正則化不敏感的新的反例。我們展示了存在“虛無”示例,無論正則化的數量如何,這些示例都不會比極限情況表現得更好。這個問題在大多數基于TD的算法中仍然存在,而這涵蓋了廣泛的強化學習文獻;我們通過展示這個例子如何迫使張、姚和Whiteson [63]得出的誤差界在實際中變得極其寬松來使我們的分析更具體。我們進一步證明,在TD環境中,正則化并不是單調的,而且正則化可能會在某些臨界值附近增加錯誤(或導致發散)。我們將這些例子擴展到神經網絡情況,表明這些影響并不局限于線性情況,并為在實際強化學習應用中更加謹慎地進行正則化提出了理由。最后,從Emphatic-TD開始,有一系列旨在通過重新采樣TD更新以使其出現在策略上來穩定離策略訓練的工作。當代的Emphatic算法通常使用反向版本的TD來估計重新采樣函數,這使它們容易受到與原始TD相同來源的不穩定性的影響。我們展示了這些技術同樣容易受到攻擊。我們表明,正則化并不是解決TD學習中穩定性問題的萬應草。

在第三章中,我們探討了對離策略發散有抵抗力的穩定TD學習的新方法。從Kolter [24]提出的一個想法出發,我們推導出了投影離策略時序差分(Projected Off-Policy TD,POP-TD),它將TD更新重新加權為最接近的分布,該分布在其訓練的固定點處是非擴張的。我們在訓練循環中使用隨機梯度下降學習重新加權因子(即時間和空間復雜度與學習值函數相當),然后將這些重新加權因子應用于每個TD更新。關鍵的是,與文獻中的現代工作不同,POP-TD不會重新采樣為在策略分布,而是尋找一個接近數據分布的“安全”分布。將其應用于新穎的離線強化學習示例中,我們可以清楚地演示POP-TD如何在盡量少重新采樣的情況下緩解數據集和學習策略之間的分布偏移問題[30]。

付費5元查看完整內容

隨著實用量子計算機的可能出現,人們開始研究其潛在的應用,特別是在人工智能的背景下。受到經典機器學習中深度神經網絡成功的激勵,人們普遍希望這種成功可以被轉化到所謂的量子變分算法或由經典機器學習啟發的量子神經網絡中。當前的深度學習算法主要是基于一系列啟示法開發的,這些啟示法通常缺乏嚴格的證明來證明其有效性。由于這些算法的不透明性,提供關于它們性能的明確保證仍然是一個巨大的挑戰。盡管這種復雜性延伸到深度學習的量子模擬,但越來越多的文獻已經識別出一套理論工具,以更好地了解為什么經典機器學習模型在現實任務中如此有效。我們使用這些工具來研究這些量子模擬,以部分解答在何時以及在什么條件下我們可以期望成功的問題。我們主要使用統計學習理論、量子力學、隨機矩陣理論和群論的工具來研究量子機器學習算法的可學習性。我們的發現表明,我們必須仔細考慮量子機器學習算法的設計,以達到合理的成功水平。事實上,我們的一些結果顯示,在量子機器學習中,隨機或無結構的方法容易遇到各種挑戰,包括與訓練性相關的問題或與最佳經典算法相比沒有顯著的優勢的問題。在整篇論文中,我們提供了幾個如何可能地向這些算法中引入結構來部分地解決這些問題的例子。此外,我們還探討了量子計算如何通知和加強經典機器學習的反向問題。我們研究了將酉矩陣納入經典神經網絡,這導致了這些酉神經網絡的更高效的設計。

付費5元查看完整內容

在現代的統計和機器學習模型中,通常會施加結構約束以提高模型的可解釋性和降低模型復雜性。在這篇論文中,我們展示了一些可擴展的優化方法,用于處理在結構約束下的大規模機器學習問題,特別關注的是非參數統計的形狀約束和高維統計的稀疏性。在第一章中,我們考慮了梯度正則化的凸回歸問題,該問題的目標是在目標變量和協變量之間擬合一個凸函數。我們提出了新穎的大規模算法,這些算法基于近端梯度下降和活動集方法,并為我們提出的算法推導出了新穎的線性收斂保證。從實證結果來看,我們的框架可以在幾分鐘內大致解決?? = 105 和?? = 10的實例。在第二章中,我們開發了一個新的計算框架,用于計算對數凹密度的最大似然估計,這個框架基于平滑技術和逐漸提高精度的適當積分離散化。我們證明了我們的方法的收斂性,并顯示出比早期的凸方法明顯的運行時間改善。在第三章中,我們關注的是高斯圖形模型,該模型旨在從獨立同分布的多元高斯樣本中估計稀疏的精確矩陣。我們通過?0?2-penalized偽似然提出了一種新的估計器。然后,我們設計了一種專門的非線性Branch-and-Bound(BnB)框架,該框架解決了提出的估計器的混合整數編程(MIP)公式。我們的估計器在計算上可以擴展到?? ~ 10,000,并且相比于競爭的?1方法提供了更快的運行時間,同時帶來了優越的統計性能。

在第四章中,我們進一步研究如何改進用于具有?0?2懲罰和一般凸平滑損失的稀疏學習問題的BnB框架。我們在BnB框架內提出了一種新穎的篩選程序,以保證將松弛變量固定為0或1。我們的實驗表明,這種篩選程序可以顯著減少BnB求解器的運行時間。

付費5元查看完整內容

隨著機器學習模型在各種應用中的部署越來越頻繁,我們越來越需要更好地理解、交互和調節它們的行為。解釋性機器學習是一個致力于這一需求的研究領域,其主要焦點最初在滿足有利于揭示有關模型預測的可能有用信息的算法屬性的方法論發展。然而,批評也強調了需要更為嚴謹地評估這些方法在不同用戶的具體任務中的應用。在這篇論文中,我們對該領域的方法論和應用方面做出了我們個人的貢獻。在方法論上,我們提出了一種有效的算法,通過影響力大的訓練數據點提供關于模型行為的重要信息。然后,我們提出了一種理論框架,以理解模型在性能和公平性指標上的權衡。接下來,從應用驅動的角度,我們討論了一個評估框架,測試現有的圖像顯著性方法是否適用于實際的假相關檢測任務。最后,受到學術同行評審中實際問題的啟發,我們展示了我們對新的和現有的方法在幫助人類用戶進行文檔匹配任務方面的效用的發現。

在計算機視覺和自然語言處理等實踐領域表現出色的復雜機器學習模型,越來越多地被用來協助人類進行高風險的決策,如醫療、金融、法律和社會應用。這種加速的采用使得人類用戶越來越需要更好地理解、調節和與這些模型交互。解釋性機器學習是一個致力于這一需求的廣泛研究領域。許多文獻中的工作側重于方法論的發展:開發新的滿足各種技術目標的方法,可以有效地從一個黑盒機器學習模型中引出重要和有用的信息。然而,這些方法使用的各種技術目標與引出的信息的實際“重要性”或“有用性”沒有明確的聯系,這本質上依賴于用戶使用信息進行某些下游任務。因此,基于具體應用對開發的方法進行評估,對于完全閉環開發具有實用價值的新方法至關重要。在這篇論文中,我們提出了對這個領域的方法論和應用重點方面的個人貢獻。

付費5元查看完整內容

這篇論文提出了一些新穎的方法,用于解決深度神經網絡(DNNs)在3D理解和3D設置方面的魯棒性面臨的重要挑戰。我們的研究主要集中在兩個方面:3D數據和設置的對抗魯棒性以及DNNs在現實3D場景下的魯棒性。一個3D理解范式是將3D表示為一組3D點,并直接在這組點上學習函數。我們的第一個工作,AdvPC,解決了當前3D點云對抗攻擊的有限可遷移性和防御易用性問題。通過使用點云自動編碼器生成更具可遷移性的攻擊,AdvPC在3D點云攻擊可遷移性方面大幅領先于當前的最先進攻擊。此外,與ModelNet40數據集上的其他基準攻擊相比,AdvPC增加了破壞防御能力高達38%。另一個3D理解范式是對3D數據的多個圖像進行2D處理。第二項工作,MVTN,通過使用多視圖轉換網絡(MVTN)來學習最優視點,解決了選擇3D形狀識別視點的問題。它將MVTN與多視圖方法相結合,在標準基準ModelNet40、ShapeNet Core55和ScanObjectNN上取得了最先進的結果。MVTN還提高了對現實場景(如旋轉和遮擋)的魯棒性。

我們的第三項工作分析了二維深度神經網絡的語義魯棒性,通過將DNN全局行為可視化為語義映射并觀察一些DNNs的有趣行為,解決了DNNs對語義原語高度敏感的問題。此外,我們開發了一種自下而上的方法來檢測DNNs的魯棒區域,以實現可擴展的語義魯棒性分析和不同DNNs的基準測試。第四項工作SADA展示了DNNs在自主導航的安全關鍵應用方面缺乏魯棒性的問題,超出了簡單的分類設置。我們提出了一個通用框架(BBGAN),用于對受過訓練的代理進行黑盒對抗攻擊,涵蓋了對執行任務的代理環境的語義擾動。BBGAN經過訓練,可以生成在諸如物體檢測、自動駕駛和自主無人機競速等任務上始終欺騙受過訓練的代理的失敗案例。

//repository.kaust.edu.sa/handle/10754/691198

付費5元查看完整內容

機器學習模型在有偏差的數據集上訓練時是有偏差的。最近提出了許多方法,以減輕被確定為先驗的偏差。然而,在現實世界的應用中,標注偏差不僅耗時而且具有挑戰性。本論文考慮了三種不同的場景,并提出了學習魯棒模型的新算法。這些算法是有效的,因為它們不需要明確的偏差注釋,從而實現了實用的機器學習。

首先,我們引入了一種算法,該算法對從多個環境中收集的數據進行操作,其中偏差特征和標簽之間的相關性可能會有所不同。我們表明,當使用在一個環境上訓練的分類器對來自不同環境的例子進行預測時,它的錯誤是隱藏偏見的信息。

然后,我們利用這些錯誤來創建一組示例,這些示例的插值結果只具有穩定的相關性。我們的算法在四種文本和圖像分類任務上實現了最新的技術。然后我們考慮無法訪問多個環境的情況,這是新任務或資源有限任務的常見場景。我們證明,在現實世界的應用中,相關的任務往往有類似的偏見。在此基礎上,我們提出了一種算法,從資源豐富的源任務中推斷出偏差特征,并將這種知識轉移到目標任務中。與橫跨5個數據集的15個基線相比,我們的方法始終提供顯著的性能提升。

最后,我們研究了只給出一組輸入標簽對的自動偏差檢測。我們的算法學習分割數據集,使得在訓練分割上訓練的分類器不能泛化到測試分割上。性能差距為測量學習特征的偏差程度提供了一個智能體,因此可以用來識別未知偏差。在六個NLP和視覺任務上的實驗表明,我們的方法能夠產生與人類識別的偏差相關的虛假分裂。

付費5元查看完整內容

雖然深度學習已經成功地應用于計算機圖形學和視覺的許多任務,但標準的學習架構通常是基于密集和規則的形狀表示,如像素或體素網格。另一方面,幾十年的計算機圖形學和幾何處理研究已經產生了專門的算法和工具,這些算法和工具使用沒有這種規則結構的表示。在這篇論文中,我們回顧了幾何圖形中的傳統方法,提出了深度學習流程和歸納偏差,這些深度學習流程和歸納偏差可以直接兼容常見的幾何表示,而不依賴于簡單的統一結構。

在過去的十年中,硬件的發展、訓練數據的大規模可用性和算法的進步推動了深度學習在各種應用中的成功。神經網絡廣泛地能夠處理不完整、混亂和模糊的輸入,產生有用的和一致的輸出。計算機圖形學和視覺也不例外,深度學習的普及,數據驅動的方法現在已經成為許多任務的標準。在這些領域中,最富有成效的深度學習架構是卷積神經網絡(CNN)。如今,CNN在圖像分類、分割,目標檢測和圖像到圖像的轉換。然而,CNN對柵格表示(例如,圖1-1中的像素和體素網格)進行操作。網格結構是卷積的基本組成部分,是信息在網絡層之間和像素之間傳遞的一種機制。這種結構被用來優化GPU硬件性能,許多現成的數據集由像素或體素網格格式的示例組成。

由于各種原因,柵格表示很容易使用。它們與相機傳感器、屏幕等標準輸入輸出設備兼容,構成了表現不同結構和拓撲結構的多樣視覺內容的有效手段。因此,CNN利用合理的歸納偏差,以簡單的歐拉方式處理數據,將固定操作應用到密集的網格。另一方面,拉格朗日表示使用隨形狀移動的稀疏參數集,即控制點來表示幾何形狀。這種表示具有明顯的優勢。通過將形狀表示為基元的集合,我們可以輕松地應用轉換并以任意分辨率呈現,同時只存儲稀疏表示。此外,參數表示對于高級推理是有效的,例如發現公共底層結構和估計形狀之間的對應關系,促進檢索、探索和樣式/結構轉移的工具。它們可以用傳統軟件直觀地編輯,與分辨率無關,并且可以高效地存儲。

許多工具、算法和數學框架已經被開發出來,用于編寫、操作和分析此類拉格朗日內容。藝術家、工程師和動畫師使用標準的CAD和3D建模軟件。模擬依賴于使用網格的有限元分析。然而,通過將與我們的機器學習方法兼容的形狀模式限制在歐拉網格中,我們放棄了這些成熟工具的許多見解和技術。

在這篇論文中,我們提出設計深度學習算法。我們沒有將標準架構、損失函數和訓練算法視為理所當然,從而接受各自的輸入和輸出形狀模式,而是考慮了比像素更豐富、更適合應用的其他幾何原子單位。這種范式的轉變促使我們對傳統方法和應用進行現代化改造,這些方法和應用先于深度學習。特別是,我們借鑒了度量幾何、幾何測量理論、譜幾何和動畫等領域的思想,開發了自定義尾損失函數、架構和培訓管道,使深度學習成為處理視覺數據的從業者更有用的工具。

在這篇論文中,我們提出了深度學習架構、訓練程序和算法,使在可視化數據數據集上訓練神經網絡成為可能,這些數據的格式使用起來直觀,并兼容常見的下游任務和應用,如設計、建模、仿真和渲染。在第二章中,我們描述了一種基于三角形網格的編碼器,借鑒了譜幾何的思想。在第三章中,我們考慮了兩種方法,受度量幾何的啟發,來產生參數化定義的形狀,比如CAD模型。第四章介紹了一種混合形狀表示,它結合了顯式幾何的優點和隱式幾何的優點。最后,在第5章中,我們提出了一種自監督的方法來學習圖像集合的直觀分解,例如,動畫或視頻游戲的幀,這允許使用學習到的紋理塊作為幾何基元進行高級操作。我們在圖1-2中說明了我們的貢獻。

付費5元查看完整內容

向量嵌入模型是現代機器學習知識表示和推理方法的基石。這些方法旨在通過在低維向量空間中學習概念和其他領域對象的表示,將語義問題轉化為幾何問題。本著這種精神,這項工作提倡基于密度和區域的表示學習。將領域元素作為幾何對象嵌入到單點之外,使我們能夠自然地表示廣度和一詞多義,進行不對稱比較,回答復雜的查詢,并在標記數據稀缺時提供強烈的歸納偏見。我們提出了一個使用高斯密度的詞表示模型,實現了概念之間的不對稱隱含判斷,以及一個基于軸對齊超矩形表示(盒)格的加權傳遞關系和多元離散數據的概率模型。我們將探討這些嵌入方法在不同的稀疏性、邊緣權值、相關性和獨立結構的適用性,以及表示的擴展和不同的優化策略。我們從理論上研究了盒格的表示能力,并提出了擴展模型來解決在建模困難的分布和圖方面的不足。

付費5元查看完整內容
北京阿比特科技有限公司