亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本論文將因果關系和表示學習的思想結合起來。因果模型以一組機制的形式提供復雜系統的豐富描述,每個變量都受其直接原因的影響。它們支持對系統部分進行操縱的推理,捕獲一整套干預分布,因此有望解決人工智能(AI)的一些開放性挑戰,如規劃、在變化環境中轉移知識或對分布變化的魯棒性。然而,因果模型在AI中更廣泛使用的一個主要障礙是需要預先指定相關變量,這通常不適用于現代AI系統處理的高維、非結構化數據。與此同時,機器學習(ML)在自動提取此類復雜數據的有用且緊湊的表示方面已經證明相當成功。因果表示學習(CRL)旨在通過學習以因果模型語義賦予的潛變量形式的表示來結合ML和因果關系的核心優勢。在這篇論文中,我們研究并呈現了不同CRL設置的新結果。一個核心主題是可識別性的問題:給定無限數據,何時滿足相同學習目標的表示保證是等價的?這可以說是CRL的一個重要先決條件,因為它正式表明學習任務在原則上至少是可行的。由于學習因果模型——即使沒有表示學習組件——是出了名的困難,我們需要對模型類或超出經典i.i.d.設置的豐富數據進行額外假設。對于從i.i.d.數據進行的無監督表示學習,我們開發了獨立機制分析,這是對將潛變量映射到觀察變量的混合函數的約束,它被證明促進了獨立潛變量的可識別性。對于從非獨立觀察對學習的多視角設置,我們證明了在視圖中始終共享的潛在塊是可識別的。最后,對于從完美單節點干預產生的非同分布數據集學習的多環境設置,我們顯示了潛變量及其因果圖是可識別的。 通過研究和部分描述不同設置的可識別性,這篇論文調查了在沒有直接監督的情況下CRL的可能性和不可能性,因此為其理論基礎做出了貢獻。理想情況下,開發的見解可以幫助指導數據收集實踐或激發新的實用估計方法和算法的設計。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

在生物學和化學領域,運用于三維(3D)分子結構的深度學習方法顯示出應對關鍵挑戰的潛力。然而,實驗確定的結構稀缺,對許多機器學習應用構成了重大障礙。將等變性(equivariance)融入深度學習模型中,利用結構生物學問題中固有的對稱性,對于從有限數據中高效學習至關重要。這篇論文深入探討了在各種結構生物學問題中使用旋轉和平移等變神經網絡的應用。這些問題包括蛋白質模型質量評估、考慮蛋白質靈活性的基于機器學習的蛋白質-配體對接評分函數的開發,以及口袋感知的3D片段基配體優化的實現。 理解生物大分子,特別是蛋白質的復雜結構至關重要,因為它揭示了這些分子功能的重要見解。這些生物分子的三維(3D)排列不僅闡明了它們的內在屬性,而且還為藥物開發提供了基礎,使得針對特定生物大分子目標的策略成為可能。

然而,實驗性確定這些生物大分子的結構是一項要求高、資源密集的任務。這一挑戰激發了對高級計算方法,特別是在結構預測領域的需求。近年來,機器學習,特別是深度學習,在計算機視覺和自然語言處理等多個領域取得了成功。鑒于這些成就,我們的研究旨在利用深度學習的力量應用于結構生物學領域。 然而,應用機器學習模型,特別是深度學習,面臨一系列獨特的挑戰,主要是因為生物大分子3D結構的實驗數據稀缺。與圖像和文本的大量數據集不同,對于實驗確定的生物大分子結構,只有一小部分信息可用。這引發了一個關鍵問題:面對如此有限的數據,我們如何開發高效的深度學習方法來預測生物大分子結構或解決結構生物學中的其他挑戰?

從計算機視覺中汲取靈感,其中域知識的整合,如平移不變性(例如,面部檢測器應該保持在圖像中不同位置出現的面部檢測能力)已被證明是有利的,我們渴望將域知識和對稱性整合到我們的深度學習模型架構中。這種整合旨在增強深度學習模型的性能。

在追求適用于結構生物學應用的穩健模型的過程中,我們認識到,盡管發生轉換,保持特征識別的一致性是很重要的。例如,模型應準確識別共同特征,如氨基酸結構,不管它們在蛋白質結構中如何旋轉。此外,特征之間的復雜關系在生物學中扮演著關鍵角色。兩個特征之間的精確相對取向,如蛋白質內氨基酸之間的氫鍵強度,強調了模型需要通過局部等變性來辨識和理解這些取向的需求。

在結構生物學的更廣泛背景下,實現全局一致性或全局等變性對于有效模型至關重要。模型應在對生物大分子應用平移或旋轉時提供一致的預測,確保全局結構保持不變。 通過將對稱性和域知識策略性地整合到我們的深度學習架構中,本論文旨在展示這些元素如何解決結構生物學中有限數據帶來的挑戰。我們的方法有望設計出從有限數據集中高效學習的模型,并促進理解和預測復雜生物結構的進展。

付費5元查看完整內容

表示學習對于強化學習的實際成功至關重要。通過狀態表示,一個代理可以描述其環境以有效地探索狀態空間,泛化到新狀態,并從延遲反饋中進行歸因分配。這些表示可能是狀態抽象、手工設計或固定特征,或由神經網絡隱含。在本論文中,我們調查了狀態表示的幾個理想的理論屬性,并利用這一分類,設計了新的原理性強化學習算法,旨在通過深度學習在大規模上學習這些狀態表示。 首先,我們考慮由行為指標引起的狀態抽象及其泛化特性。我們展示了支持價值函數連續性對于強化學習中的泛化至關重要。結合這種形式化,我們提供了一個實證評估,比較了各種指標,并展示了鄰域選擇在強化學習算法中的重要性。 然后,我們借鑒統計學習理論來描述任意狀態特征在強化學習中泛化的含義。我們引入了一個稱為表示的有效維度的新概念,它推動了對未見狀態的泛化,并展示了其在Atari游戲中基于價值的深度強化學習中的用處。 本論文的第三個貢獻是一種可擴展算法,通過深度學習從大量輔助任務中學習狀態表示。這是一種隨機梯度下降方法,通過神經網絡從少量條目中學習目標矩陣的主成分。 最后,論文的最后部分介紹了我們對狀態表示如何影響代理預測質量,以及這些預測如何塑造狀態表示的發現。我們提供了一個正式的數學模型來研究這種現象,并展示了如何利用這些理論結果來提高學習過程的質量。

付費5元查看完整內容

神經網絡自動化了在計算機上表示對象及其關系的過程,包括從家庭用品到分子的一切。通過將不同實例轉換為共享的表示空間來獲得新的表示,其中數據的變化可以使用簡單的幾何量度量,如歐幾里得距離。本論文研究了這一空間的幾何結構及其對學習過程關鍵屬性的影響,包括獲得新技能所需的數據量、預測何時會失敗,以及學習的計算成本。我們檢驗了神經網絡表示的幾何結構的兩個基礎方面。 第一部分設計并研究了考慮到數據在表示空間中的位置的學習算法。專注于對比自監督學習,我們設計了a) 困難實例采樣策略和b) 控制模型學習哪些特征的方法。每種方法都在關鍵特性上產生了改進,如訓練速度、泛化和模型可靠性。

第二部分研究了如何使用非歐幾里得幾何來構建尊重物理數據中出現的對稱性和結構的網絡架構,為學習提供了強大的歸納偏差。具體來說,我們使用諸如實射影平面和光譜體這樣的幾何空間來構建a) 能夠尊重特征向量對稱性的可證明強大的神經網絡,這對于在圖結構數據上構建變壓器是重要的,以及b) 解決圖上的組合優化問題的神經網絡,如尋找大團或小割,這些問題在分子工程和網絡科學中出現。

計算機上對世界觀察的描述影響了計算問題解決過程的所有部分。因此,發現更適合簡單計算過程的描述或表示,幾十年來一直是計算科學進步的一個關鍵且持續的驅動力。與所有其他計算過程一樣,人工智能系統提取和使用的數據表示方式對其行為產生了關鍵影響,例如獲得新技能所需的數據量、預測何時會失敗,以及其學習的速度。

然而,現代基于深度學習的人工智能系統最重要的優勢之一是它們能夠處理基本的感知輸入,如圖像的單個像素,并在內部決定保留哪些來自像素級特征的信息,以及丟棄哪些。

除了自動化表示獲取之外,深度學習系統的另一個關鍵優勢是能夠在單一、連貫的空間中表示不同的數據點。例如,生活在極大的、高維空間中的圖像(例如,免疫組織化學圖像通常大小為1024×1024×3或更大)被轉換為相對較小、緊湊的幾千維空間。這種表示空間允許數據之間的比較,而這個空間的幾何屬性,如距離、方向和角度,不僅捕捉單個對象,還捕捉對象之間的關系。

然而,這種幾何性質通常是浮現的。也就是說,它不是直接學習的,而是作為使用低粒度監督(如類標簽)的端到端系統中的一個中間步驟學習的。這篇論文的目標是探索更明確編程這種幾何性質的思路、方法和新方向。通過明確處理,希望能夠更大程度地控制表示空間的屬性,使得使用這個空間來推理世界變得更加容易。 這篇論文有兩個主要部分。第一部分研究對比表示學習,這是一種學習歐幾里得結構表示的通用框架。本部分從第二章開始,概述了貫穿整篇論文的對比學習的一般介紹。然后,第三章提出以下問題:對比學習的負樣本應該如何生成?負樣本是對比學習中兩個關鍵設計選擇之一,但大多數以前的負樣本采樣方法都是簡單的,例如,隨機均勻采樣。我們引入了根據它們在表示空間中的位置采樣負樣本的技術。通過以位置依賴的方式采樣負樣本,我們能夠生成更有信息量的樣本,加速學習并提高最終表示空間的質量,以用于下游任務。在第四章中,我們更仔細地檢查對比學習模型實際編碼了哪些輸入數據特征——在許多可能性中。不出所料,我們展示了正負樣本的生成方式影響特征學習,并概述了理解這種關系的直觀方法。更令人驚訝的是,我們還發現調整采樣的明顯方法——例如,調整負樣本的難度——并沒有帶來明確的勝者。不同的采樣方法在某些下游任務上表現更好,在其他任務上表現更差。作為回應,我們探索了使用表示空間幾何性質修改樣本的新原則。我們的隱式特征修改方法擾亂嵌入,以去除用于解決對比任務的任何特征,然后要求模型使用新特征重新解決對比任務。這迫使模型尋找新的和不同的特征來使用,從而鼓勵模型不忽略它之前可能忽略的輸入數據的某些方面。 第五章退一步重新考慮表示空間應該具有的結構。除了編碼數據之間的相似性,第五章還論證了將數據的復雜變換編碼為嵌入空間中的可預測、簡單變換也是有價值的。具體來說,我們引入了一種訓練方法,該方法強制數據的增強——裁剪、旋轉等——對應于球形嵌入空間的正交變換。我們發現我們的方法導致了改進的下游性能,以及對其他對比方法不敏感的數據特征的增加敏感性。

本節的最后一章,第六章,探討了大規模的對比學習。隨著模型參數和數據集大小擴展到數億甚至數十億,考慮模型性能的擴展不僅僅是重要的,還有訓練它們的成本。性能可靠地擴展,但成本增長過快的訓練方法最終會輸給性能增長更慢,但成本增長更慢的方法。由于對比學習在大規模時相對昂貴,因為它使用了每個批次樣本的兩個完整副本。另一個重新出現的訓練方法——掩碼自編碼器(MAE)——非常高效,因為它只使用每個批次樣本的25%的一個副本,但性能相對較差,特別是對于少樣本的下游任務。我們的貢獻是引入了CAN,一種對比學習和MAE的混合體,享有更好的效率-性能權衡。與對比學習相比,它的成本降低了70%,同時性能優于對比學習和MAE。對CAN的一個重要解釋是幾何的:MAE學習了強大的嵌入,但由于它具有非線性的視覺變壓器解碼器,這可能輕易地撤銷非線性變換,因此未能以線性可分的方式安排其幾何結構。通過向MAE的嵌入空間添加對比成分(即,在解碼器之前),CAN迫使嵌入之間的歐幾里得距離具有意義,從而大大提高了少樣本性能。

這篇論文的第二部分探索了表示空間幾何性質與問題結構之間的關系。第七章考慮對稱性,特別是特征向量的對稱性(例如,符號對稱性:如果??是特征向量,那么???也是)。特征向量在機器學習中廣泛使用。特別是對于圖上的學習,譜理論多年來為許多問題提供了堅實的數學基礎。這在當今仍然延續,圖的拉普拉斯特征向量被廣泛用作構建圖上變壓器的節點位置編碼。然而,符號對稱性(以及當特征值的重數大于1時出現的更一般的基礎對稱性)是一個問題,因為神經網絡對符號變化不變,因此在輸入數據的不相關變化下不可靠地改變預測。

為了解決這個問題,我們引入了一個符號不變的架構SignNet和一個基礎不變的BasisNet——這些模型內置了特征向量的對稱性。我們的模型在使用拉普拉斯位置編碼時顯著提高了性能,并且在數學上非常強大:SignNet可以近似所有符號不變函數。SignNet的表達能力基于其嵌入空間的幾何結構。我們展示了特征向量的理想空間是空間R??/{?1, +1},通過將??和???粘合在一起成為一個點,消除了符號歧義。關鍵的是,這個商空間是一個被廣泛研究的流形,稱為實射影平面。使用實射影平面的幾何屬性——特別是,它可以在一個2??維歐幾里得空間中被渲染——我們能夠設計SignNet的各個部分,以便它們始終在歐幾里得空間中處理向量,但這些歐幾里得空間以某種方式連接起來,以反映實射影平面,由此我們得出了普適表達性的結果。對BasisNet的分析也以同樣的方式進行,但使用相應的商空間,即Grassmanian。

付費5元查看完整內容

新型機器學習方法是科學和工程變革的核心。概率模型已成為知識發現的基礎學習模型。作為替代模型,它們允許在有限的預算下進行高效的黑箱優化或積極學習復雜系統的行為。另一個重要的用例是使用概率模型作為生成模型,生成具有所需屬性的新設計,或從物理系統的平衡分布中生成樣本。但是,為了充分發揮概率模型在知識發現中的潛力,必須開發既能應對不斷增長的數據大小和復雜性,又能讓領域專家容易解讀的模型。

在這篇論文中,我從開發一種新方法開始,該方法解決了貝葉斯優化中的概率替代模型的稀疏解識別問題。稀疏解的發現不僅增強了解決方案對人類的可解釋性,以便理解系統行為,還便于使用較少的參數更輕松地部署和維護。

接下來,我介紹了一種利用深度學習增強高斯過程推斷可擴展性的新方法。高斯過程被廣泛用作知識發現中的概率替代模型,但由于在GP回歸中識別核超參數的高成本,其實際使用受到限制,涉及到昂貴的邊緣可能性。我展示了如何通過使用“攤銷”超參數推斷來繞過昂貴的邊緣可能性的需求。這是通過訓練一個單一的神經網絡實現的,該網絡消耗一組數據并產生一個估計的核函數,用于不同的任務。

最后,我介紹了邊緣化模型,這是一種新的高維離散數據生成模型,在科學發現中無處不在。通過使用神經網絡對所有誘導的邊緣分布進行明確的建模,邊緣化模型提供了可擴展和靈活的生成建模與合理的可能性。直接建模邊緣使得邊緣推斷效率高,能夠對給定的(非規范化)概率函數進行任意階的生成模型的可擴展訓練,克服了以前具有精確可能性的方法的主要限制。

概率模型作為建模數據分布的原則機器學習方法,最近開始在促進科學探索和發現中起到重要作用。替代模型在科學、工程、機器人學和許多其他領域都是寶貴的工具,其中它們模擬復雜的系統行為。利用概率代理模型提供的不確定性量化,可以設計自動算法通過與系統主動交互來有效地完成給定用例的目標。一個主要的用例是優化,例如通過實驗測試確定電池正極的最佳材料組成。在這種情況下,使用概率模型進行貝葉斯優化(Shahriari等,2015b),根據實驗結果了解和迭代微調組成和性能之間的關系。同時,基于替代模型的不確定性量化,策略性地選擇下一個實驗條件,平衡對新組成的探索與對已知性能良好的組成的利用,從而加速最佳組成的發現。

主動學習提供了另一個主要的用例,例如在訓練替代模型準確模擬分子動力學(Vandermause等,2020)。該過程從基于有限數據的初始概率模型開始,然后通過主動查詢系統獲取額外的標記數據來系統地加強。選擇最具信息性的樣本進行標記是由替代模型的固有不確定性估計指導的,從而得到一個準確的模型,標記工作量最小。

除替代模型外,概率生成模型在跨多個領域建模復雜數據分布方面也取得了顯著進展,包括自然語言建模(Brown等,2020)、圖像生成(Song和Ermon,2019; Ho等,2020)、音頻合成(Huang等,2018)和科學發現應用(Wang等,2022; Schneuing等,2022)。在訓練科學發現的生成模型時,有兩個主要設置。第一個設置是最大似然訓練,目標是訓練生成模型以最大化訓練數據的似然。這種設置通常用于圖像生成、自然語言建模和藥物設計等任務,目標是生成與訓練數據分布非常相似的數據。第二個設置是分布匹配,目標是將生成分布與目標密度對齊。這種設置在圖像和語言方面研究較少,但在如采樣晶格模型和估計分子或材料的平衡性質等應用中經常使用,其中需要從物理系統的熱力學平衡分布中生成樣本。

在這篇論文中,我提出了新方法來解決知識發現背景下概率模型的解釋性和可擴展性挑戰。在深入研究所提議的方法的細節之前,我為替代模型和生成模型的現有文獻提供了簡短的概述。 本章的其余部分組織如下:第1.1.1節首先簡要介紹了高斯過程,這是一種在科學發現中使用的流行的概率替代模型。然后在第1.1.2節中,我回顧了貝葉斯優化的基本方法論方面。第1.2節簡要概述了關于生成模型的現有文獻,重點關注科學發現中的應用。最后,在第1.3節中,我總結了整個論文的大綱。

付費5元查看完整內容

這篇論文探討了易處理概率建模原理在因果學習與推理中的應用。易處理概率建模是近年來出現的一個有前景的范式,專注于能夠進行精確和高效的概率推理的概率模型。特別地,概率電路框架為基于模型結構屬性的各種推理查詢提供了一個系統性的語言,近期的提案則擴展了表達能力和易處理性的邊界。然而,并非所有關于一個系統的信息都能通過觀測變量的概率分布來捕獲;例如,兩個變量之間的因果方向僅憑數據是無法區分的。為了形式化這一點,Pearl的因果層次結構(也稱為信息層次結構)劃分了三個層次的因果查詢,即關聯性、干預性和反事實性,這些需要越來越多地了解由結構因果模型和相關因果圖表示的底層因果系統。受此啟發,我們調查了易處理因果建模的可能性;也就是說,針對因果查詢類型進行精確和高效的推理。特別地,我們確定了三種場景,由模型者可用的知識量來區分:即當完整的因果圖/模型可用時,當僅觀測分布和可識別的因果估計量可用時,以及當對因果圖存在額外的不確定性時。在這些場景中,我們提出了能夠進行有效和精確因果推理的概率電路表示、結構屬性和算法。這些模型與易處理概率模型有所不同,因為它們不僅可以回答不同的概率推理查詢,還可以涉及不同的干預和甚至不同的因果圖的因果查詢。然而,我們也確定了一些關鍵局限性,這些局限性讓人懷疑是否存在一個完全通用的易處理因果模型。我們的貢獻還擴展了概率電路的理論,通過提出新的屬性和電路架構,從而使得包括但不限于因果推理估計量在內的高級推理查詢的分析成為可能。

付費5元查看完整內容

在這篇論文中,我們研究了深度強化學習中的對稱性和結構。我們將論文分為兩部分。在第一部分,我們探討如何在強化學習中利用對稱性的知識。在第二部分,我們提出了一些方法,用于學習智能體的環境和狀態的結構。我們提出了MDP 同態網絡,這是一種在 MDP 的聯合狀態-動作空間下對稱性下是等變的神經網絡。由于等變性,我們發現與非等變的基線相比,數據效率得到了提高。我們提出了多智能體MDP 同態網絡,一類網絡,允許使用僅局部信息的分布式執行,但能夠在合作多智能體系統的聯合狀態-動作空間的全局對稱性之間分享經驗。我們顯示全局等變性比對稱協調問題的非等變分布式網絡的數據效率更高。我們提出了 PRAE。PRAE 利用動作等變性進行強化學習中的表示學習。動作下的等變性表明輸入空間中的轉換被潛在空間中的等效轉換所鏡像,而映射和轉換函數也應該交換。我們證明,在某些假設下,學到的映射是一個 MDP 同態,并且通過實驗證明該方法是數據高效的,易于訓練,能很好地推廣到具有相同環境動力學的新目標狀態和實例。我們提出了 C-SWMs,它使用對比編碼和圖神經網絡轉換函數,從像素中找到狀態的面向對象的表示。我們顯示與使用解碼器、非結構化轉換或非結構化表示相比,在多步預測和泛化到未見環境配置方面有所改善。

對稱性和結構無處不在。當我們行走時,右腿的運動鏡像了左腿的運動。當分子旋轉時,它們的分子性質不變。當我們導航到一個目的地時,我們會考慮不同路段的連通性。當我們交談時,我們可以將單詞串聯起來,形成完全新的句子。在日常生活中,我們使用關于任務的對稱性和結構的信息來指導我們的決策制定。

在人工智能中,對稱性和結構也無處不在。考慮一下在運動過程中鏡像左右腿運動的機器人,自動化芯片設計,追蹤野生動物運動的無人機群,玩 Atari Pong 的機器人,其中屏幕的上下部分是彼此的反射,分子設計,計算機玩家在圍棋游戲中考慮旋轉的棋盤狀態,以及自動駕駛車輛從荷蘭的右側道路切換到英國的左側道路。這些都是 AI 中展示了某種對稱性或結構的任務的例子。利用固有對稱性和結構的知識是構建可擴展系統的重要一步。

強化學習是人工智能的一個基礎研究領域,它鼓勵智能體從正反饋信號中學習,我們稱這為獎勵。通過試錯,智能體可以學會將情境、動作和反饋關聯起來,從而改善其決策。例如,我們可以給一個機器人正向獎勵以鼓勵它快速行走,而給它負向獎勵以防止它跌倒。同樣,我們可以給計算機玩家正向獎勵以鼓勵它贏得比賽,負向獎勵以防止輸掉比賽,或者給一個提出特別高效的芯片設計的智能體正向獎勵。使用強化學習領域的概念,我們可以將上述示例正式化,以提出導致智能體做出良好決策的方法。在深度強化學習中,智能體使用神經網絡來決定采取哪個動作,而神經網絡會根據收到的獎勵信號適應任務。然而,即使是那些遠遠不及人類能力的智能任務,對于人工決策者來說也可能會遇到問題。考慮任何一個在現實世界中運作的基于視覺的控制系統。智能體接收到攝像頭輸入作為觀測,然后必須學習采取最佳動作。可能的觀測數量是極其龐大的,而智能體不太可能遇到兩個完全相同的狀態。因此,我們希望智能體能夠重用先前狀態的經驗,以便在具有相似特征的未見狀態中做出良好的決策。例如,在決定如何移動左腿時,智能體應該模仿它學到的移動右腿的動作。

上述示例只是強化學習問題中對稱性和結構出現的幾個案例。這可以通過考慮在一個狀態中采取一個動作是否等同于在另一個狀態中采取另一個動作來形式化。在這篇論文中,我們將研究當我們知道對稱性和結構時如何在強化學習中使用它,以及如果不知道時如何提取它。智能體不應該學習已知的東西。知識是由系統設計者作為先驗知識提供的,還是通過智能體自身的泛化獲得的,應取決于問題的上下文。通過適當地重復使用知識,我們可以減少智能體需要與世界互動的次數,這是擴展到真實世界設置的重要部分。在這篇論文中,我們將特別關注強化學習中的對稱性和結構。

付費5元查看完整內容

本論文旨在設計有效的方法,將已知結構融入機器學習模型中。結構的產生源于問題的形式化(例如,物理約束、聚合約束)或模型所需的屬性(能效、稀疏性、魯棒性)。在許多情況下,建模者對他們正在建模的系統有一定的了解,這必須以精確的方式進行加強。這對于提供充分的安全保證,或提高系統效率是必要的:用更少的數據訓練系統,或減少計算成本。本論文在各種設置中提供了方法,這些方法建立在連續的、受約束的優化和可微統計建模(也稱為深度學習)的兩個基礎領域之上。

論文的第一部分集中于設計和分析帶有凸約束的優化問題的高效算法。特別是,它關注Frank-Wolfe算法的兩個變體:第一個變體提出了一個快速的回溯線搜索算法,以自適應地設置全梯度設置中的步長;第二個變體提出了一個快速的隨機Frank-Wolfe算法,用于受約束的有限和問題。我還描述了對開源受約束優化軟件的貢獻。這篇論文的第二部分關注設計確切強制某些約束的深度學習模型:基于物理的約束,以及概率預測模型的聚合約束。這部分利用了雙層優化模型,并利用可微優化約束復雜神經網絡的輸出。我們證明,可以在復雜的非凸模型上強制執行復雜的非線性約束,包括概率模型。

這些例子展示了混合模型的威力,這些模型結合了數據驅動的學習,利用如深度神經網絡這樣的復雜非線性模型,并允許高效算法的經過深入研究的優化問題。這些混合模型幫助高度靈活的模型捕獲結構模式,有時甚至不需要任何數據訪問就能實現出色的性能。

近年來,機器學習模型在旨在匹配人類感知的領域(計算機視覺、音頻處理、自然語言)中取得了無數的成功。這些成功是通過理解如何利用模型輸入中的結構來實現的:圖片、聲音、文本、代碼,甚至分子的數字表示[1, 2, 3, 4]。為了在工程和科學中達到相似的成功水平,模型必須納入額外的結構性約束:模型的內部和輸出都應滿足某些關鍵屬性(例如,模型內部的稀疏或低秩權重,以及模型輸出的物理方程)。盡管優化領域長期以來一直關注如何實施這些約束,但將優化方法帶來的結構與數據驅動模型的靈活性結合起來的努力是非常近期的[5, 6]。這篇論文提出了新穎、高效的方法,將結構融入機器學習模型中,無論是在模型的內部(第一部分)還是在模型的輸出(第二部分)。我們認為這樣的混合系統將是為復雜的物理應用開發高性能系統的關鍵。機器學習中的結構性約束最近再次將Frank-Wolfe(FW)算法家族推到了聚光燈下。Frank-Wolfe算法允許對決策變量(例如,模型權重)施加凸約束,同時保持決策變量的稀疏表示。這篇論文的第一部分開發了新穎的Frank-Wolfe算法變體,以提高算法的實際速度。此外,我們還描述了我們的兩個開源優化庫:COPT和CHOP。在實際環境中部署決策制定系統時,系統必須執行物理約束:差異可能導致未定義的決策。例如,如果我們預測一個地區不同粒度的水庫的入水流量,不同級別的預測必須執行質量守恒;否則,會有未被計入的水量,破壞決策制定系統。這篇論文的第二部分考慮了將物理約束納入深度學習模型的問題,采用偏微分方程和分層質量守恒的形式。

付費5元查看完整內容

最近在無監督表示學習方面的進展導致了許多廣泛使用的人工智能工具,如ChatGPT和穩定擴散。這些工具是將相對簡單的訓練算法應用于大規模GPU集群上的大規模模型,甚至是大量未標記的訓練數據,以及在大量標記的評估任務上調整算法的結果。在這篇論文中,我們提出了一些方法來解決在訓練模型進行表示學習時去除這些組件的問題,即有限的計算量、有限的訓練數據和有限的評估數據。本文主要分為四章,重點研究數據和標簽高效的表示學習。

數據高效表示學習的重點是用較少的數據(有標記或無標記)學習有用的表示,這在本文中討論過,對于數據可用性有限的應用特別重要。標記高效表示學習專注于在訓練數據很少或沒有人工標注的情況下學習有用的表示。正如將要討論的,這對于通常很難或不可能獲得準確標記數據的應用程序很重要,例如在隱私敏感領域或具有高度模糊的標簽定義的應用程序。

(1)自增強:用于自監督學習的自動增強策略,探索了如何在很少/沒有標記訓練數據和少量無標記數據的情況下為無監督學習管道開發增強策略。(2)數據高效的自監督表示學習,探索了如何利用一種形式的分層預訓練進行數據高效80倍的預訓練。(3)區域相似性表示學習,通過在區域(基于塊的)水平上進行對比學習,探索了學習區域級表示的首批方法之一,并在標記數據很少的情況下,對目標檢測/分割等下游任務進行了實質性的改進。(4) scale - mae:一種面向多尺度地理空間表示學習的尺度感知掩碼自編碼器,探索了利用已知尺度信息進行地理空間表示學習的方法。

付費5元查看完整內容

自從深度學習和深度強化學習出現以來,已經有大量的經驗成功地利用某種人工神經網絡來解決給定的優化問題。然而,許多公司的內部運作方式只被人們模糊地了解,并隱藏在成功的故事中。通過揭示各種含義,這篇論文試圖建立一個理解為什么某些神經網絡架構設計工作,以及關鍵的是為什么其他的不能工作。本文不關注實證結果,而是從研究反向傳播在架構設計和訓練中的簡單數學含義開始。然后,提出一種稀疏的全連接層替代方案,以避免信號傳播中的瓶頸。它進一步展示了如何設計單調神經網絡,以及如何使用這些網絡在連續動作空間控制設置中為智能體提供更靈活的策略表示。這本書進一步討論了將神經網絡分成多個模塊的權衡和設計。特別是,模塊化的需求在目標相互沖突的多任務設置中得到了體現。最后,討論了最近提出的注意力架構及其隱含含義。貫穿整篇論文的結果強調了超參數之間的關聯效應和定制架構設計的必要性。本文適合有技術背景的讀者。它被寫得讓剛開始接觸神經網絡的人也能理解。然而,即使是該領域的資深研究人員也可能對所呈現的獨特觀點感興趣。

//www.research-collection.ethz.ch/handle/20.500.11850/541752

作為一個由經驗結果驅動的領域,深度學習是眾多神經結構設計方案的發源地。幾乎每天都有新的論文發表,建議對某些架構組件進行輕微修改,以提高性能。然而,由于大量的混雜因素,通常不清楚性能的提高實際上是由于架構的變化,還是由于超參數的差異,數據預處理的變化,表示能力的增加,或者只是初始化參數的幸運抽獎。本文著眼于深度強化學習的應用前景,旨在更好地理解神經網絡的基本內部工作原理及其設計。

特別地,本文首先強調了反向傳播的隱式內存需求、常用激活函數的工作范圍以及體系結構組件對梯度傳播的影響。展示了架構瓶頸和門控機制如何導致梯度消失,并討論了殘差連接對梯度動態的影響。它還強調了通過體系結構提供算法結構的必要性,以及結構和有利的訓練動態之間的內在權衡。在第一個實際示例中,本文提出了一種全連接層的稀疏替代方案,可以減少參數計數,而不會引入不必要的瓶頸。在強化學習方面,本文提出了一種在連續動作空間環境中控制的新方法。該方法基于分位數回歸和神經網絡的單調性約束。這種組合允許在網絡參數中隱式地表示策略,從而提供了表示復雜動作分布的靈活性。這種策略的必要性在競爭游戲和約束內存設置中得到了證明。此外,該方法還提高了經典控制問題的學習性能。本文進一步探討了多任務學習的局限性,并針對干擾任務目標的問題提出了兩種解決方案——一種是基于注意力架構先驗的解決方案,另一種是基于與無監督任務聚類配對的神經網絡解決方案。這兩種方法都有效地緩解了這個問題,從而提高了性能,并在不同的環境中具有更廣泛的適用性。 本文最后深入研究了注意力架構和transformer對超參數的敏感性。它強調了將注意力權重約束到概率單形的含義,以及這些如何反映訓練表現。它進一步展示了內部softmax激活如何像sigmoid一樣容易飽和,以及transformer在初始化時如何不是序列長度獨立的。在對抽象任務的大規模實證研究中,將Transformer與可選架構設計進行比較。結果突出了超參數選擇的相關效應,不同架構對數據偏差的魯棒性,以及算法對齊對底層任務的重要性。

付費5元查看完整內容

自然智能具有從環境中不斷學習的能力,環境是不斷變化的,因此產生了需要應對的不確定性,以確保生存。相比之下,人工智能(AI)通常只在特定的訓練階段從數據中學習一次,很少明確表示或利用不確定性。在這篇論文中,我們通過設計和理解基于神經網絡的模型,在這些方面為改進人工智能做出貢獻,這些模型可以持續學習,并明確表示幾種不確定性來源,最終目標是獲得有用、可靠和實用的模型。

我們首先將這項研究置于一個更廣泛的背景下,并提供對不確定性估計和持續學習領域的介紹。對于那些有興趣熟悉這些主題的人來說,這個詳細的回顧可以成為一個入門點。在奠定這個基礎之后,我們將深入研究如何持續學習一組任務的具體問題,并提出我們基于神經網絡系統解決這一問題的方法。更具體地說,我們訓練一個元網絡為推理模型生成特定于任務的參數,并表明,在這種設置下,可以在元級別使用簡單的正則化來防止遺忘。由于任務特定解決方案的存在,出現了必須推斷不可見輸入所屬的任務的問題。我們研究了解決這一任務推理問題的兩種主要方法:(i)基于重玩的方法和(ii)基于不確定性的方法。盡管基于重放的任務推理在簡單的基準測試中表現出了顯著的性能,但我們的這種方法的實現依賴于生成建模,隨著任務復雜性的增加,這變得不成比例地困難。另一方面,基于不確定性的任務推理不依賴外部模型,更容易擴展到復雜的場景。因為校準任務推斷所需的不確定性是困難的,在實踐中,人們經常求助于應該知道他們不知道的東西的模型。這在理論上可以通過對模型參數的貝葉斯處理來實現。然而,由于對基于神經網絡的模型的先驗知識的難以解釋,也就很難解釋模型知道什么是不知道的。這種認識的意義超越了持續學習,更普遍地影響了當前機器學習模型如何處理看不見的輸入。我們討論了神經網絡中與選擇先驗知識相關的復雜性,并表明常見的選擇往往導致不確定性,這些不確定性在本質上不能反映特定的需求數據,如檢測模型不應推廣到的看不出的輸入。

總體而言,本文對當前深度學習研究中的兩個重要課題——不確定性估計和持續學習進行了總結和貢獻,同時揭示了現有的挑戰,評估了新的方法,并確定了未來研究的有前途的途徑。


付費5元查看完整內容
北京阿比特科技有限公司