亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在機器學習(ML)中,一個關鍵的挑戰是設計能夠從圖中高效學習的模型。這些圖由帶有屬性的節點組成,并具有一個編碼它們關系的預定結構。圖表示學習(GRL)旨在將這兩個異質性源編碼為一個向量圖嵌入,以便進行下游任務。在這個領域,最優傳輸(OT)在將圖視為離散概率分布的意義上提供了有意義的比較。本論文通過OT的視角關注GRL,兩個概念都在專門章節中介紹。現代的有監督GRL主要依賴圖神經網絡(GNN),它通過兩個主要元素隱式地編碼圖拓撲:通過消息傳遞的節點特征嵌入和通過專門形式的池化的聚合。在這篇論文中,我們介紹了一個新的觀點,將距離一些可學習的圖模板的距離置于圖表示的核心。這種距離嵌入是通過OT距離構建的:融合Gromov-Wasserstein(FGW)距離,它通過解決一個軟圖匹配問題同時處理特征和結構的不相似性。我們假設FGW距離到一組模板圖的向量具有強大的區分能力,然后將其提供給一個非線性分類器進行最終預測。這種距離嵌入作為一個新的池化層,稱為TFGW,并可以利用現有的消息傳遞技術來促進有意義的特征表示,這是端到端學習的。我們在幾個圖分類任務上實證驗證了我們的說法,其中我們的方法在表達性和泛化能力方面都優于內核和GNN方法。本論文的另一個貢獻旨在使詞典學習(DL)適用于圖數據集分析,這是無監督表示學習的關鍵工具。DL解釋向量數據為幾個基本元素的線性組合,通過與單一環境空間相關的不相似性來評估學到的表示的質量。由于圖描述了它們自己的空間,我們提出了第一個適應于圖詞典學習(GDL)的線性方法,使用(F)GW作為數據擬合項。在我們的工作中,圖被建模為圖原子的凸組合,通過在線隨機算法估算。GDL通過一個新的上界完成,該上界可以用作FGW在嵌入空間中的快速近似。我們實證地顯示了我們的方法對于圖聚類、分類、完成以及在線圖子空間估計和跟蹤的興趣。最終,位于OT核心的質量保守性,在對比兩個圖的所有節點時強加了一個耦合,這在GRL中有特定的含義。通過FGW學習結構和特征表示對于由將圖建模為概率分布所誘導的節點相對重要性非常敏感。管理這一額外的自由度,正如我們所做的,通過在TFGW中增加最小的計算成本但對GDL增加顯著的模型復雜性來改進基于(F)GW的模型。因此,我們建議通過引入一種新的基于OT的差異,稱為半松弛(融合)Gromov-Wasserstein差異(sr(F)GW),來解決(F)GW中質量保守性約束的限制。srFGW提供了兩個圖之間的對應關系,同時在目標圖中尋找一個重新加權的子圖,與輸入的(F)GW距離最小。后者可以比(F)GW更有效地估計,并與專門用于圖分割的方法競爭,同時更具通用性。此外,估計一個srFGW“重心”引入了一個新的DL,其中圖被嵌入為單個圖原子的重新加權子圖。與其他基于DL的競爭者在各種無監督任務上競爭有利,同時計算速度明顯更快。

付費5元查看完整內容

相關內容

現代機器學習主要受到黑盒模型的驅動,這些模型提供了卓越的性能,但對于如何進行預測的透明度有限。對于需要了解模型如何做出決策的應用,以及協助模型調試和數據驅動的知識發現,我們需要可以回答有關影響模型行為的問題的工具。這就是可解釋機器學習(XML)的目標,這是一個子領域,它開發了從多個角度理解復雜模型的工具,包括特征重要性、概念歸因和數據估值。本文提供了對XML領域的幾個貢獻,主要思想分為三部分:(i)一個框架,使得可以統一分析許多當前的方法,包括它們與信息論和模型魯棒性的聯系;(ii)一系列技術,用于加速Shapley值的計算,這是幾種流行算法的基礎;以及(iii)一系列用于深度學習模型的特征選擇的方法,例如,在無監督和自適應的設置中。這些思想中的許多都是受到計算生物學和醫學應用的啟發,但它們也代表了在各種領域中都有用的基本工具和觀點。

在模型透明度的辯論中,傳統的觀點是我們面臨解釋性與準確性之間的權衡。1有些人辯稱這種權衡并不存在,聲稱我們可以使用“天生可解釋”的模型達到近乎最優的性能(Rudin, 2019);這對于簡單的表格數據集往往是正確的,但對于像圖像和語言這樣的復雜數據模態則較為罕見。在這里,我們采取了更為寬容的立場:鑒于黑盒模型目前提供了最佳的性能并且已經廣泛部署,我們探討是否有可能從任何模型中獲得足夠的見解。在這樣做的過程中,我們開發了一套在很大程度上對模型的內部機制持中立態度,或者說是模型不可知的工具集,因此即使在今天的最高性能的黑盒模型中也能正常運行。 這一目標也被可解釋機器學習(XML)子領域的許多工作所共享,并且近年來已經取得了顯著的進展。目前,XML工具已被用于了解新疾病的風險因素(Razavian等人,2020;Snider等人,2021),加速數學猜想的發現(Davies等人,2021),在有限的訓練數據標簽下識別蛋白質結合位點(Gligorijevi?等人,2021),審計有缺陷的醫學診斷系統(DeGrave等人,2021)以及從功能系統中獲得新的見解(Ting等人,2017;Sundararajan等人,2017)。這些早期的成功表明了這些工具的潛力,但在這些方法的底層理論以及使它們在實踐中高效的計算程序方面仍有進展空間。這篇論文介紹了我在博士期間進行的幾項工作,旨在解決這些挑戰。

這篇論文包含了我在博士期間完成的大部分項目,所有這些項目都與透明機器學習的核心主題相關。我們首先在第2章建立符號和幾個初步的概念。接下來,每一章都基于一篇第一作者的出版物,其中在某些情況下與共同第一作者共享。為了使它們在一個文檔中更具連貫性,對各個作品進行了修改,但這里沒有提供新的信息,這些論文也可以單獨閱讀。這些作品被組織成三個部分,如下所述。

**第一部分:XML的基礎 **我們首先討論一個統一了大部分文獻的觀點:許多現有的方法都基于一個解釋原則,即通過移除或量化從模型中移除特征的影響。我們描述了一個框架,在這個框架中,這些方法基于三個實現選擇而有所不同,我們為26個現有的算法確定了這些選擇(第3章)。基于這個觀點,我們對這些方法進行了統一分析,并找到了與信息理論、博弈論和認知心理學的聯系。然后,我們探索這些方法的魯棒性特性,并得出了描述它們對輸入和模型擾動的魯棒性的新結果(第4章)。 第二部分:Shapley值計算 接下來,我們探討XML中最廣泛使用的工具之一:Shapley值,一種博弈論信用分配技術。這些是最受歡迎的特征歸因方法之一,SHAP(Lundberg和Lee,2017)的基礎,以及一個著名的數據估值技術(Ghorbani和Zou,2019),但它們是臭名昭著的難以計算。有一系列方法來加速它們的計算(Chen等人,2022),我們在這里討論兩個:基于加權線性回歸的近似(第5章),和基于深度學習的攤銷優化的近似(第6章,第7章)。 第三部分:深度學習的特征選擇 最后,特征選擇為提供透明度的同時也降低了特征獲取成本提供了另一個方向。由于多次訓練不同特征集的模型的高昂成本,似乎很難與深度學習一起實施,但我們探討了如何使用可微分的層來阻止特征信息進入網絡(第8章)。然后,我們討論如何在自適應設置中應用這些思想,其中我們根據當前可用的信息為每個預測單獨選擇特征(第9章,第10章)。

付費5元查看完整內容

物理啟發式機器學習可以被視為將來自物理系統的結構(例如由常微分方程或偏微分方程給出的)結合到機器學習方法中,以獲得具有更好歸納偏見的模型。在這篇論文中,我們為序列建模和圖表表示學習領域提供了一些最早的方法示例。隨后,我們顯示了物理啟發式的歸納偏見可以被利用來減輕每個特定領域的重要和中心問題。更具體地說,我們展示了耦合的非線性振蕩器系統和哈密頓系統導致的循環序列模型能夠通過減輕梯度爆炸和消失問題來處理長時間尺度的順序交互。此外,我們嚴格證明了振蕩器的神經系統是連續和因果算子的通用逼近器。我們還顯示,從多尺度動態系統派生的序列模型不僅減輕了梯度爆炸和消失問題(從而能夠學習長期依賴性),而且同樣重要的是為學習(真實世界的)多尺度數據提供了富有表現力的模型。我們進一步展示了物理啟發式方法對圖形表示學習的影響。特別是,圖形耦合的非線性振蕩器系統是一種在圖上學習的強大框架,允許在其上堆疊多個圖神經網絡(GNN)層。因此,我們證明這些系統減輕了GNN中的過度平滑問題,其中節點特征在增加的GNN層數量下指數級地收斂到相同的常數節點向量。最后,我們建議在GNN的消息傳遞框架中加入從底層圖數據中推斷出的多個速率。此外,我們利用門控函數調制的圖梯度來獲得自動減輕過度平滑問題的多個速率。我們在一系列多功能的合成和實際數據集上廣泛測試了所有提議的方法,從圖像識別、語音識別、自然語言處理(NLP)、醫學應用和序列模型的科學計算,到引文網絡、計算化學應用、以及文章和網站網絡的圖學習模型。

//www.research-collection.ethz.ch/handle/20.500.11850/637340

在科學和工程領域中,許多問題都需要理解和建模可能的大量測量數據。典型的例子包括在物理約束下的工藝設計(例如,優化飛機翼上的升力和阻力以適應不同的運行條件)、氣候模擬(例如,計算由于不同的CO2排放水平導致的全球平均海表溫度)和新藥設計(例如,利用已知活性結合劑的數據洞察來形成一個配體藥效團模型以推斷新的結構),僅舉幾例。因此,已經有了一長串用于模式識別和數據驅動建模的多功能方法。早期的例子包括支持向量機[Steinwart和Christmann, 2008]、常規核方法[Shawe-Taylor等人, 2004]、聚類算法[Xu和Wunsch, 2005],以及貝葉斯方法用于概率推理[Box和Tiao, 2011]。雖然人工神經網絡已經存在了很長時間,可能在其非常簡單的線性回歸形式(也稱為最小二乘法)中存在了幾個世紀,但它們目前的廣泛使用主要是由于可以有效地計算它們相對于可訓練參數的梯度(即反向傳播算法[Rosenblatt, 1961, Rumelhart等人, 1985])和可用的計算資源數量呈指數增長。特別是后者使得可以在大型數據集上訓練更深入的模型,即,堆疊在彼此之上的多層人工神經網絡,這一領域被稱為深度學習[Goodfellow等人, 2016]。 深度學習現在是機器學習中最受歡迎的方法之一,對計算機科學和工程的整個子領域產生了深遠的影響,如計算機視覺、自主系統和機器人技術、自然語言處理(NLP)和語音識別。深度學習的核心是深度全連接前饋神經網絡(也稱為多層感知器 [Rosenblatt, 1961, Werbos, 1982, Rumelhart等人, 1985]),它可以描述為多個(因此被稱為“深度”)仿射變換的串聯,與逐元素的非線性激活函數交替出現。更具體地說,考慮一個輸入 u ∈ R^d 。一個具有N ∈ N層的深度全連接前饋神經網絡(圖1)可以被簡潔地寫為:

對于所有的層 n = 1, . . . , N,其中隱藏狀態為 hn ∈ R^mn,權重為 An ∈ R^mn×mn?1,偏差為 bn ∈ R^mn,初始輸入由 h0 = u 給出(即,m0 = d 是輸入維度),并且σ表示一個非線性激活函數,例如 tanh(x) 或 relu(x) = max{0, x} 對于 x ∈ R,這是逐元素應用的。深度神經網絡(1)可以通過定義一個適當的損失函數來訓練,該函數測量神經網絡的輸出 hN 與真實數據之間的差異,然后應用基于損失函數相對于神經網絡(1)的參數 {An, bn}^N_n=1 的梯度的梯度下降方法(例如隨機梯度下降[Robbins 和 Monro, 1951])。因此,梯度是使用反向傳播算法有效地計算的。

盡管原則上深度全連接神經網絡可以應用于任何數據集合,但深度學習在許多應用領域(如計算機視覺或NLP)的巨大成功需要對神經網絡進行重大的結構變化。這些結構變化通常與“歸納偏見”相關,強調從底層數據推理出的結構。例如,計算機視覺中廣泛使用的一類神經網絡是卷積神經網絡(CNNs) [LeCun等人,1989],它對輸入像素數據,例如圖像,應用可學習的卷積。由于權重共享,CNNs被認為是移位等變的[Fukushima,1980, Bronstein等人,2021, McGreivy和Hakim,2022]。這種歸納偏見,由局部感受野[LeCun和Bengio,1995]生物學啟發,使CNNs在圖像數據上顯著優于全連接神經網絡。雖然許多神經網絡結構受到生物啟發,但越來越多的人對從物理學中獲得靈感來構建新的機器學習模型感興趣,這些模型可以成功地應用于物理科學中的問題。盡管在這個背景下的許多方法不具備基于物理的歸納偏見,而是將計算機視覺、NLP或圖學習中的成熟模型應用于物理問題,例如[Sanchez-Gonzalez等人,2020, Vlachas等人,2020, Stachenfeld等人,2021],但基于物理啟發的歸納偏見的機器學習模型越來越多地用于物理科學中的應用。例如,等變神經網絡和李代數方法在分子科學的背景下被使用,例如分子模擬[Batzner等人,2022]和分子性質預測[Satorras等人,2021]。雖然等變性是物理科學中的一個重要概念,但在建立更好的歸納偏見的神經網絡結構時,人們可以潛在地利用更多的對稱性和結構。例如,保存能量的守恒,如Hamilton神經網絡[Greydanus等人,2019, Chen等人,2020c],其中神經網絡根據Hamilton函數參數化。這使得網絡能夠從數據中學習Hamilton系統,從而自動保存能量(即,Hamilton函數)。

對于神經網絡的物理啟發歸納偏見并不局限于物理科學中的應用。相反,最近的物理啟發機器學習方法在深度學習的許多傳統領域都有應用。例如在生成建模中,擴散模型[Yang等人,2022]是最先進的。這些模型利用一個物理過程,即擴散,逐漸地用隨機噪聲損壞輸入數據。一旦訓練完成,新數據可以通過反轉擴散過程生成。由于這種方法基于物理過程,所以在這個背景下的許多模型從物理系統中獲得啟示,以構建具有更好的歸納偏見的擴散模型[Dockhorn等人,2021, Lai等人,2022, Salimans和Ho,2021]。另一個例子包括圖表示學習,其中越來越多使用物理啟發的圖神經網絡(GNNs)。例如,在基礎GNN操作(所謂的消息傳遞[Bronstein等人,2021])中引入各向異性擴散[Chamberlain等人,2021b]、漸變流[Di Giovanni等人,2022]、反應-擴散方程[Choi等人,2022]或雙曲偏微分方程(PDEs) [Eliasof等人,2021],僅舉幾例。 在這篇論文中,我們提供了幾個最早的基于物理啟發的機器學習模型的例子。更具體地說,我們提供了由非線性耦合振蕩器系統、(時依賴的)哈密爾頓系統和多尺度動力系統啟發的循環序列模型。我們隨后展示了這些模型,由于其基于物理的歸納偏見,展現出了非常有利的特性,例如處理序列數據中的長期相互作用,或者在真實世界的數據集上提高表現力。此外,我們提供了基于圖表示學習的物理啟發模型,這些模型受到圖-動力系統的啟發,即圖-耦合振蕩器以及多速率圖-動力系統。我們進一步為這些模型證明了各種有益的特性,例如使用GNNs的圖表示學習中的中心問題,即過度平滑[Nt和Maehara,2019, Oono和Suzuki,2020],以及處理異性(大規模)圖數據集。

這篇論文的第一部分從受物理啟發的角度重點討論序列建模。我們從第一部分開始,介紹序列模型,即 Transformers 和遞歸神經網絡 (RNNs)。隨后,我們提出了三種新穎的、受物理啟發的 RNN 架構。我們提議的第一個架構被稱為 Coupled Oscillatory RNN (coRNN)。我們在第二章介紹 coRNN 并在第 2.2 節為所提議的模型提供嚴格的理論分析。此外,我們在第 2.3 節為 coRNN 提供了廣泛的實證評估。本章基于[Rusch 和 Mishra, 2021a]的出版物。

我們進一步在第三章介紹 Undamped Independent Controlled Oscillatory RNN (UnICORNN)。同樣,我們在第 3.2 節提供了嚴格的分析,并在第 3.3 節對所提議的 UnICORNN 架構進行了廣泛的實證評估。本章基于[Rusch 和 Mishra, 2021b]的出版物。在第四章,我們通過引入神經振蕩器來推廣 coRNN 和 UnICORNN。隨后,我們嚴格地證明神經振蕩器是通用的。這一章基于[Lanthaler 等人,2023]的預印本。 在第一部分的最后一章,即第五章,我們提出了 Long Expressive Memory (LEM),這是一種用于學習長期依賴關系的表達性遞歸序列模型。在第 5.2 節,我們嚴格地證明了所提議的 LEM 的梯度穩定性,并顯示 LEM 是普遍 (Lipschitz 連續) 多尺度動力系統的通用逼近器。此外,我們展示 LEM 仿真常微分方程 (ODEs) 的異構多尺度方法。最后,在第 5.3 節,我們為所提議的 LEM 架構提供了各種多功能的數值實驗。本章基于[Rusch 等人,2022b]的出版物。

這篇論文的第二部分涉及受物理啟發的圖表征學習。我們開始第二部分,介紹現代圖神經網絡和底層的信息傳遞框架。此外,我們概述了當前框架的重要限制,特別是深度 GNNs 中的過度平滑問題(過度平滑的定義基于[Rusch 等人,2023])。隨后,我們提議了兩種受物理啟發的信息傳遞框架。我們提議的第一種方法在第七章被稱為 Graph-Coupled Oscillator Network (GraphCON)。我們進一步在第 7.2 節為 GraphCON 提供了嚴格的分析,并在第 7.3 節進行了廣泛的實證評估。這一章基于[Rusch 等人,2022a]的出版物。這一部分的最后一章,即第八章,介紹了 Gradient Gating 框架 (G2)。我們在第 8.2 節為所提議的 G2 框架提供了理論洞察,并在第 8.3 節在各種(大規模)圖數據集上測試其性能。這一章基于[Rusch 等人,2022a]的出版物。最后,我們在第九章結束這篇論文。

付費5元查看完整內容

聚類是數據分析中的主要而又具有挑戰性的任務,旨在將相似的樣本劃分到同一組,而將不相似的樣本劃分到不同的組。近期,由于在無監督深度圖聚類方面的突破,傳統的卷積神經網絡(例如,自編碼器(AE))和圖卷積網絡(GCN)的結合已經達到了最先進的性能。其中,自編碼器提取節點屬性特征,而圖卷積網絡捕獲拓撲圖特征。然而,現有方法沒有充分利用來自特征嵌入和聚類分配的現有信息,從而限制了它們的性能。鑒于這一限制,本論文專注于無監督深度圖聚類中的自適應表示學習。主要工作涉及自適應嵌入\分配\圖表示學習,總結如下:

首先,我們提出了一種名為注意力驅動圖聚類網絡(AGCN)的新穎無監督深度圖聚類方法,以解決以下問題:現有工作(??)缺乏一種靈活的組合機制來自適應地融合來自自編碼器和圖卷積網絡的兩種特征,從而增強表示學習能力;以及(????)忽視了嵌入在不同層的多尺度信息,導致后續的聚類分配效果不佳。具體而言,AGCN主要包括兩個注意力驅動的特征融合模塊,即AGCN異質性融合模塊(AGCN-H)和AGCN尺度融合模塊(AGCN-S)。這兩個模塊都利用基于注意力的機制動態地測量相應特征的重要性。AGCN-H自適應地合并自編碼器特征和圖卷積網絡特征,而AGCN-S動態地連接不同層的多尺度特征。為了以無監督的方式進行訓練,我們設計了一個能夠直接產生聚類分配結果的統一學習框架。與現有的無監督深度圖聚類方法相比,我們的方法更為靈活和有效,因為它考慮了網絡中嵌入的豐富和有區分性的信息來自適應地學習嵌入表示。在常用的基準數據集上的大量定量和定性結果驗證了我們的AGCN始終超越最先進的方法。此外,我們還進行了一系列消融研究來驗證我們方法的效率和有效性。

然而,上述提出的模型在面對從自編碼器和圖卷積網絡學到的兩種概率分布時存在決策困境,即應選擇哪一種作為最終的聚類分配結果。據我們所知,這是先前的無監督深度圖聚類方法中普遍存在的一個未解決的問題。為了應對這一挑戰,我們提出了一種名為深度注意力引導的雙重自監督圖聚類(DAGC)的新方法。具體而言,我們設計了一個分布融合模塊,該模塊利用這兩種聚類分配來自適應地學習分配表示,從而獲得最終的聚類結果。為了更好地探索來自聚類分配的現有信息,我們開發了一個雙重自監督解決方案,包括一個帶有Kullback-Leibler散度損失的軟自監督策略和一個帶有偽監督損失的硬自監督策略來指導整個網絡訓練。在九個基準數據集上的定量和定性實驗和分析表明,我們的方法始終超越最先進的方法。此外,我們還提供了消融研究和可視化,以驗證DAGC網絡的有效性和優勢。

現有的基于GCN的圖聚類網絡在很大程度上依賴于預定義的圖。如果初始圖無法真實且精確地反映其在嵌入空間上的拓撲結構,這些網絡可能會失敗。為了解決上述問題,我們提出了一種新穎的嵌入引導的圖優化聚類網絡(EGRCNet),該網絡能夠自適應地使用學習到的嵌入來改進初始圖,從而實現更好的聚類性能。具體來說,我們首先利用普通自編碼器和圖卷積網絡模塊來自適應地整合節點屬性和拓撲結構信息,以學習潛在特征表示。接著,我們探索嵌入空間上的幾何結構信息來構造一個鄰接圖,然后開發一個圖融合架構,動態地將該圖與初始圖融合。最后,我們最小化多個派生分布之間的Jeffreys散度損失函數,以無監督的方式進行網絡訓練。在七個常用的基準數據集上的廣泛實驗表明,所提出的方法始終超越了幾種最先進的方法。

以下聲明突出了這些工作的重要性:在無監督的深圖聚類中進行自適應表示學習對于人工普適性智能至關重要,因為它使機器能夠在沒有人類注釋的情況下從數據中學習復雜的模式和關系。通過利用無監督的自適應表示學習技術,人工普適性智能系統可以發展其數據的內部表示能力,并適應新的環境、任務和情境。這種能力對于理解復雜和非結構化數據至關重要。最后但并非最不重要的是,無監督的自適應表示學習是向開發能夠像人類一樣進行研究和推斷的機器邁出的關鍵一步,為AI在從醫療保健到金融到娛樂的廣泛領域開辟了新的可能性。在未來,我們將繼續為人工普適性智能社區做出貢獻,繼續研究大規模數據集、先進的表示學習和高效的信息傳播。

付費5元查看完整內容

在自然語言處理(NLP)中,許多任務涉及結構化預測:預測由一組相互依賴的變量組成的結構化輸出。這允許從非結構化的原始文本中提取有用的信息,這對于人類和機器的下游任務和分析都有益處。為了獲得自動化模型,主要范式是以數據驅動的監督學習方式進行。在這個范式中,主要的瓶頸是手動注釋數據的可用性,這通常是昂貴且耗時的。此外,我們通常希望將模型擴展到各種新場景,比如不同的領域或語言。如果訓練實例不足以涵蓋目標場景,模型性能可能會顯著下降,而在所有這些新情況下注釋大量數據實例是昂貴且低效的。 為了減輕這個問題并減少結構化預測模型對大量注釋的依賴,我們需要考慮模型和數據兩個方面,這是數據驅動機器學習的主要驅動力。與這些核心方面相關,我們探討了三個方向。首先,我們研究模型設計中的結構化建模,其中涉及如何對復雜的結構化輸出進行建模和預測。這對于結構化預測任務特別重要,因為這些任務通常具有大的輸出空間。此外,在模型和數據的交互方面,我們研究了遷移學習,其中利用相關數據來幫助低資源的目標任務。在這種情況下,如何設計更不受源數據和目標數據之間差異影響的模型對于遷移的成功也至關重要。最后,我們探討主動學習,重點關注數據本身。當資源有限時,很難獲得大量注釋的實例,但注釋一小部分實例是可行的。通過選擇信息量豐富的實例集的策略,可能只需要較少的手動注釋就可以實現令人滿意的性能。

這篇論文包括三個部分,對應這三個方向。在第一部分中,我們研究了深度神經模型中結構化輸出建模的影響。我們發現,結構化建模在句子級別的完全匹配和更高效的模型方面帶來了好處。我們進一步將分析擴展到低資源情景,并研究結構約束與訓練數據規模之間的交互作用。在第二部分中,我們研究了一系列相關的結構化任務,并發現來自相關數據的監督,例如來自相同任務但不同語言(跨語言學習)以及來自相關任務(多任務學習)的監督,可以是有益的,尤其是在利用那些對源數據和目標數據差異關注較少的模型時。最后,在第三部分中,我們對NLP中的結構化預測進行了系統的主動學習研究。特別是,我們分析了使用部分結構進行注釋和學習的有效性,這可以提高主動學習的數據效率。此外,我們展示了將主動學習與使用主動學習數據池中未標記實例的自訓練相結合,可以帶來進一步的改進。

付費5元查看完整內容

在自然語言處理(NLP)中,許多任務都涉及到結構化預測:預測由一組相互依賴的變量組成的結構化輸出。這允許從非結構化的原始文本中提取有用的信息,這對下游任務和人類與機器的分析都是有益的。為了獲得自動模型,主要范式是采用數據驅動的監督學習方式。在這種范式中,主要的瓶頸是手工標注數據的可用性,這通常是昂貴且耗時的。此外,我們通常希望將模型擴展到各種新的場景,例如在不同的領域或語言中。如果訓練實例不足以覆蓋目標場景,模型的性能可能會大幅下降,而在所有這些新情境中標注大量的數據實例又是昂貴且低效的。

為了緩解這個問題并減少結構化預測模型對大量標注的依賴,我們需要考慮模型和數據的兩個方面,這些是數據驅動機器學習的主要動力。關于這兩個核心方面,我們研究了三個方向。首先,我們研究了模型設計中的結構化建模,這涉及到如何對復雜的結構化輸出進行建模和預測。這對于通常具有大輸出空間的結構化預測任務尤為重要。此外,在模型和數據的交互上,我們研究了遷移學習,其中相關數據被用來幫助低資源目標任務。 在這種情況下,如何設計對源數據和目標數據資源之間的差異更不敏感的模型對于轉移的成功也是至關重要的。最后,我們探索了有關數據本身的主動學習。當資源有限時,很難獲得大量的標注實例,但標注一小部分是可行的。通過選擇一個有信息量的實例集,可能需要更少的手工標注就能達到令人滿意的性能。這篇論文包括三部分,對應這三個方向。在第一部分,我們研究了深度神經模型中結構化輸出建模的影響。我們發現,結構化建模在句子級完全匹配上帶來了好處,并有更高效的模型。我們進一步擴展了對低資源場景的分析,并研究了結構約束和訓練數據大小的交互。在第二部分,我們研究了一系列相關的結構化任務,發現從相關數據(例如來自同一任務但在不同語言中的數據(跨語言學習)和來自相關任務的數據(多任務學習))得到的監督可以是有益的,特別是如果使用那些對源和目標差異關心較少的模型。最后,在第三部分,我們對NLP中的結構化預測的主動學習進行了系統性的調查。特別地,我們分析了使用部分結構進行標注和學習的有效性,這可以提高主動學習的數據效率。此外,我們展示了將主動學習與自學習結合,使用來自主動學習數據池的未標注實例可以帶來進一步的改進。

付費5元查看完整內容

多智能體強化學習(MARL)為一組人工智能代理提供了一個有原則的框架,使它們能夠在人類專家水平上學習協作和/或競爭行為。多智能體學習環境本質上比單智能體學習解決了更復雜的問題,因為代理既與環境互動,也與其他代理互動。特別是,在MARL中,多個代理同時學習,導致在遇到的經驗中產生自然的非平穩性,因此要求每個代理在其他代理策略可能發生較大變化的情況下調整其行為。本論文旨在從三個重要主題來解決多智能體學習中的非平穩性挑戰:1)適應性,2)收斂性,3)狀態空間。第一個主題解答了代理如何通過開發新的元學習框架來學習有效的適應策略,以應對其他代理不斷變化的策略。第二個主題解答了代理如何適應并影響聯合學習過程,使得基于新的博弈論解決方案概念,策略在學習結束時收斂到更理想的極限行為。最后,最后一個主題解答了如何基于知識共享和上下文特定抽象來減小狀態空間大小,從而使學習復雜性受到非平穩性的影響較小。總之,本論文發展了理論和算法貢獻,為上述關于非平穩性的主題提供了有原則的解答。本論文中開發的算法在多智能體基準領域的多樣化套件中展示了其有效性,包括混合激勵、競爭和合作環境的全譜。

付費5元查看完整內容

圖神經網絡(GNNs)成功地從大多數類型的網絡數據學習表示,但在大型圖的情況下受到限制。挑戰出現在學習架構的設計本身,因為大多數GNN是由圖的一些矩陣表示(例如,鄰接矩陣)參數化的,當網絡很大時,這可能很難獲得。此外,在許多GNN架構中,圖操作是通過譜域中的卷積操作來定義的。在這種情況下,另一個障礙是圖譜的獲得,這需要代價高昂的矩陣特征分解。

然而,從共享結構屬性的意義上來說,大型圖通常可以被識別為彼此相似。因此,我們可以預期,處理這些圖上支持的數據應該會產生類似的結果,這將減輕大尺寸的挑戰,因為我們可以為小圖設計GNN,并將它們轉移到更大的圖上。在這篇論文中,我將這種直覺形式化,并表明當這些圖屬于同一個“族”時,這種圖的可移植性是可能的,其中每個族由不同的圖元標識。

graphon是一個函數W(x,y),它描述了一類具有相似形狀的隨機圖。我們可以將參數(x,y)看作是一對節點的標簽,以及圖元值W(x,y)作為x和y之間一條邊的概率的標簽。這產生了一個從圖元采樣的圖的概念,或者,等價地,一個隨著采樣圖中節點數量增長的極限的概念。從一個graphon上采樣的圖形幾乎肯定在極限上具有相同的屬性,例如同態密度,這在實踐中意味著,graphon識別的網絡家族在某種意義上是相似的,某些“motifs”的密度是保持不變的。這激發了對圖上的信息處理的研究,作為在大型圖上進行信息處理的一種方法。

信號處理理論的核心部分是一個移位的概念,它引入了一類具有傅立葉變換(FT)特征的光譜表示的線性濾波器。本文表明,graphon誘導了一個線性算子,可用于定義移位,從而定義graphon濾波器和graphon FT。基于圖序列和相關圖信號的收斂性質,可以證明對于這些序列,圖FT收斂到graphon FT,圖濾波器的輸出收斂到具有相同系數的graphon濾波器的輸出。這些定理表明,對于屬于某些族的圖,圖傅里葉分析和圖濾波器設計具有明確的限制。反過來,這些事實使具有大量節點的圖上的圖信息處理成為可能,因為為極限圖設計的信息處理管道可以應用于有限圖。

我們通過組合具有點非線性的graphon濾波器組來進一步定義graphon神經網絡(WNNs)。WNNs是理想的極限,在實際中并不存在,但它們是理解GNNs基本性質的有用工具。特別是,graphon濾波器的采樣和收斂結果可以很容易地擴展到WNNs,從而表明當圖收斂到graphon時,GNN收斂到WNNs。如果兩個GNN可以任意接近同一個WNN,那么通過一個簡單的三角形不等式參數,它們也可以任意接近彼此。這個結果證實了我們的直覺,即GNN可以在相似的圖之間轉移。一個GNN可以在中等規模的圖上訓練,并在一個可轉移性誤差主要為最小圖的大小的倒數的大尺度圖上執行。有趣的是,這種誤差隨著卷積濾波器光譜響應的可變性而增加,揭示了從圖濾波器繼承來的可轉移性和光譜鑒別性之間的權衡。在實踐中,由于非線性,這種權衡在GNN中很少出現,它能夠將數據的光譜成分分散到特征值譜的不同部分,在那里它們可以被區分。這解釋了為什么GNN比圖過濾器更可轉移。

付費5元查看完整內容

長期以來,隨著數據處理系統的復雜性不斷增加,系統設計者一直在想象能夠根據環境線索進行自我配置和適應的系統(如數據庫、調度程序)。在這種情況下,強化學習(RL)方法從一開始就吸引了系統開發人員。他們承諾從原始反饋信號中獲取復雜的決策策略。盡管RL方法在概念上很流行,但在現實世界的數據處理系統中卻很少見到。最近,由于利用大型神經網絡(深度強化學習)取得了引人注目的成功,RL受到了爆炸性增長的關注。新興的機器學習框架和強大的硬件加速器催生了大量新的潛在應用。在本文中,我首先提出,為了高效地設計和執行深度RL算法,需要新穎的軟件抽象來適應通信密集和快速進化算法的獨特計算模式。我提出了一種將邏輯算法構造與本地和分布式執行語義解耦的體系結構。我將進一步介紹RLgraph,這是我對這個體系結構的概念驗證實現。在RLgraph中,算法開發人員可以通過組合邏輯組件構建高級數據流圖來探索新的設計。此數據流圖獨立于特定的后端框架或執行概念,只在以后通過分階段構建過程映射到執行語義。RLgraph支持高性能算法實現,同時保持快速原型的靈活性。

//www.repository.cam.ac.uk/handle/1810/304385

其次,我研究了系統本身中RL應用程序稀缺的原因。我認為,由于缺乏用于任務模型設計的工具來彌合系統和算法之間的差距,以及缺乏評估模型能力的共同標準,應用RL的進展受到了阻礙。在本文中,我介紹了應用RL中第一個用于增量模型設計的工具——Wield。Wield 提供了一小組原語,將系統接口和特定于部署的配置從表示中分離出來。運用的核心是一種新的指導性實驗協議,稱為漸進隨機化,它幫助從業者逐步評估非確定性的不同維度。我演示了如何使用和漸進的隨機化可以用來再現和評估之前的工作,并指導新RL應用程序的實現。

付費5元查看完整內容

機器學習模型在有偏差的數據集上訓練時是有偏差的。最近提出了許多方法,以減輕被確定為先驗的偏差。然而,在現實世界的應用中,標注偏差不僅耗時而且具有挑戰性。本論文考慮了三種不同的場景,并提出了學習魯棒模型的新算法。這些算法是有效的,因為它們不需要明確的偏差注釋,從而實現了實用的機器學習。

首先,我們引入了一種算法,該算法對從多個環境中收集的數據進行操作,其中偏差特征和標簽之間的相關性可能會有所不同。我們表明,當使用在一個環境上訓練的分類器對來自不同環境的例子進行預測時,它的錯誤是隱藏偏見的信息。

然后,我們利用這些錯誤來創建一組示例,這些示例的插值結果只具有穩定的相關性。我們的算法在四種文本和圖像分類任務上實現了最新的技術。然后我們考慮無法訪問多個環境的情況,這是新任務或資源有限任務的常見場景。我們證明,在現實世界的應用中,相關的任務往往有類似的偏見。在此基礎上,我們提出了一種算法,從資源豐富的源任務中推斷出偏差特征,并將這種知識轉移到目標任務中。與橫跨5個數據集的15個基線相比,我們的方法始終提供顯著的性能提升。

最后,我們研究了只給出一組輸入標簽對的自動偏差檢測。我們的算法學習分割數據集,使得在訓練分割上訓練的分類器不能泛化到測試分割上。性能差距為測量學習特征的偏差程度提供了一個智能體,因此可以用來識別未知偏差。在六個NLP和視覺任務上的實驗表明,我們的方法能夠產生與人類識別的偏差相關的虛假分裂。

付費5元查看完整內容

從社交網絡到Web和大腦結構,圖是各種系統的一種自然表示。即使當數據沒有顯式地相互連接時,將其轉換成圖表以便進一步分析通常也是很方便的。許多涉及圖的任務,如鏈接預測、社區檢測和分類,依賴于圖中節點或圖整體之間的各種相似度定義。然而,這種相似性大多是隱式的,這意味著物體在某些空間中不被特征向量表示。相比之下,現代機器學習方法要求明確表示歐幾里得空間中的對象。為了在圖數據上利用機器學習的能力,我們必須具有適當的圖的顯式表示。

本論文研究針對圖結構數據表示的有效的算法。我們關注的是算法的可擴展性,因為它們必須有能力處理Web大小的圖,以能夠應對實踐。局部圖算法具有這種能力; 我們引入可擴展的局部算法來表示節點,邊,和整個圖作為向量在歐氏空間。通過潛在相似性來研究表征,使我們能夠闡明以前的工作,并將非常理想的特性引入我們提出的模型。值得注意的是,我們介紹了第一個隨時表示圖節點的算法。對于整個圖的情況,我們提出了表示,它使圖的多尺度比較和其局部逼近的方法。我們通過實驗驗證了我們的方法并沒有為了算法的可擴展性而犧牲表示的表達性。我們介紹了圖分析的新應用,并在具有數十億節點的大規模圖上使用我們的方法。

//bonndoc.ulb.uni-bonn.de/xmlui/handle/20.500.11811/9119

付費5元查看完整內容
北京阿比特科技有限公司