亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

機器學習(ML)和人工智能(AI)在各種領域取得了卓越的、超越人類水平的表現:計算機視覺、自然語言處理和蛋白質折疊等等。直到最近,大多數進展都采用了一種以模型為中心的方法,主要關注于改進神經網絡架構(如ConvNets、ResNets、transformers等)以及用于訓練這些模型的優化過程(如批歸一化、丟棄、神經結構搜索等)。相對較少的注意力被付在了用于訓練這些模型的數據上,盡管眾所周知,ML在高質量數據上具有關鍵依賴性,用“垃圾進,垃圾出”這個短語來簡潔地表達這一事實。隨著越來越大型和更復雜的模型的回報逐漸減小(如Nvidia和微軟的MT-NLG模型具有5300億參數),研究人員開始意識到采取以數據為中心的方法以及開發研究這些模型的燃料——數據本身的原則性方法的重要性。

除了提高任務性能外,以數據為中心的視角還使我們能夠考慮到社會關鍵因素,如數據隱私。在這篇論文中,我們將對ML數據管道中的幾個關鍵點進行批判性審視:模型訓練之前、期間和之后。在模型訓練之前,我們將探討數據選擇的問題:應該使用哪些數據來訓練模型,我們期望模型在什么類型的數據上工作?隨著我們進入模型訓練,我們將關注與我們的ML系統與其部署環境的交互作用可能導致的兩個問題。第一個問題是數據隱私:我們如何防止我們的模型泄露有關其訓練數據的敏感信息?第二個問題涉及某些被建模群體的動態性質。特別是當我們的模型用于做出對社會有影響的決策(如自動貸款批準或推薦系統)時,模型本身可能會影響數據的分布,從而導致性能下降。最后,盡管在模型訓練之前和之間遵循最佳實踐,但可能會出現我們希望在訓練后刪除某些數據影響的情況。如何以計算有效的方式實現這一點?這篇論文涵蓋了每個前述問題的新穎解決方案,重點強調了每個提出的算法的可證保證。通過將數學嚴謹性應用于具有挑戰性的現實問題,我們可以開發出既有效又可信賴的算法。

付費5元查看完整內容

相關內容

 (StanfordUniversity)位于加利福尼亞州,臨近舊金山,占地35平方公里,是美國面積第二大的大學。它被公認為世界上最杰出的大學之一,相比美國東部的常春藤盟校,特別是哈佛大學、耶魯大學,斯坦福大學雖然歷史較短,但無論是學術水準還是其他方面都能與常春藤名校相抗衡。斯坦福大學企業管理研究所和法學院在美國是數一數二的,美國最高法院的9個大法官,有6個是從斯坦福大學的法學院畢業的。

現代機器學習主要受到黑盒模型的驅動,這些模型提供了卓越的性能,但對于如何進行預測的透明度有限。對于需要了解模型如何做出決策的應用,以及協助模型調試和數據驅動的知識發現,我們需要可以回答有關影響模型行為的問題的工具。這就是可解釋機器學習(XML)的目標,這是一個子領域,它開發了從多個角度理解復雜模型的工具,包括特征重要性、概念歸因和數據估值。本文提供了對XML領域的幾個貢獻,主要思想分為三部分:(i)一個框架,使得可以統一分析許多當前的方法,包括它們與信息論和模型魯棒性的聯系;(ii)一系列技術,用于加速Shapley值的計算,這是幾種流行算法的基礎;以及(iii)一系列用于深度學習模型的特征選擇的方法,例如,在無監督和自適應的設置中。這些思想中的許多都是受到計算生物學和醫學應用的啟發,但它們也代表了在各種領域中都有用的基本工具和觀點。

在模型透明度的辯論中,傳統的觀點是我們面臨解釋性與準確性之間的權衡。1有些人辯稱這種權衡并不存在,聲稱我們可以使用“天生可解釋”的模型達到近乎最優的性能(Rudin, 2019);這對于簡單的表格數據集往往是正確的,但對于像圖像和語言這樣的復雜數據模態則較為罕見。在這里,我們采取了更為寬容的立場:鑒于黑盒模型目前提供了最佳的性能并且已經廣泛部署,我們探討是否有可能從任何模型中獲得足夠的見解。在這樣做的過程中,我們開發了一套在很大程度上對模型的內部機制持中立態度,或者說是模型不可知的工具集,因此即使在今天的最高性能的黑盒模型中也能正常運行。 這一目標也被可解釋機器學習(XML)子領域的許多工作所共享,并且近年來已經取得了顯著的進展。目前,XML工具已被用于了解新疾病的風險因素(Razavian等人,2020;Snider等人,2021),加速數學猜想的發現(Davies等人,2021),在有限的訓練數據標簽下識別蛋白質結合位點(Gligorijevi?等人,2021),審計有缺陷的醫學診斷系統(DeGrave等人,2021)以及從功能系統中獲得新的見解(Ting等人,2017;Sundararajan等人,2017)。這些早期的成功表明了這些工具的潛力,但在這些方法的底層理論以及使它們在實踐中高效的計算程序方面仍有進展空間。這篇論文介紹了我在博士期間進行的幾項工作,旨在解決這些挑戰。

這篇論文包含了我在博士期間完成的大部分項目,所有這些項目都與透明機器學習的核心主題相關。我們首先在第2章建立符號和幾個初步的概念。接下來,每一章都基于一篇第一作者的出版物,其中在某些情況下與共同第一作者共享。為了使它們在一個文檔中更具連貫性,對各個作品進行了修改,但這里沒有提供新的信息,這些論文也可以單獨閱讀。這些作品被組織成三個部分,如下所述。

**第一部分:XML的基礎 **我們首先討論一個統一了大部分文獻的觀點:許多現有的方法都基于一個解釋原則,即通過移除或量化從模型中移除特征的影響。我們描述了一個框架,在這個框架中,這些方法基于三個實現選擇而有所不同,我們為26個現有的算法確定了這些選擇(第3章)。基于這個觀點,我們對這些方法進行了統一分析,并找到了與信息理論、博弈論和認知心理學的聯系。然后,我們探索這些方法的魯棒性特性,并得出了描述它們對輸入和模型擾動的魯棒性的新結果(第4章)。 第二部分:Shapley值計算 接下來,我們探討XML中最廣泛使用的工具之一:Shapley值,一種博弈論信用分配技術。這些是最受歡迎的特征歸因方法之一,SHAP(Lundberg和Lee,2017)的基礎,以及一個著名的數據估值技術(Ghorbani和Zou,2019),但它們是臭名昭著的難以計算。有一系列方法來加速它們的計算(Chen等人,2022),我們在這里討論兩個:基于加權線性回歸的近似(第5章),和基于深度學習的攤銷優化的近似(第6章,第7章)。 第三部分:深度學習的特征選擇 最后,特征選擇為提供透明度的同時也降低了特征獲取成本提供了另一個方向。由于多次訓練不同特征集的模型的高昂成本,似乎很難與深度學習一起實施,但我們探討了如何使用可微分的層來阻止特征信息進入網絡(第8章)。然后,我們討論如何在自適應設置中應用這些思想,其中我們根據當前可用的信息為每個預測單獨選擇特征(第9章,第10章)。

付費5元查看完整內容

新型機器學習方法是科學和工程變革的核心。概率模型已成為知識發現的基礎學習模型。作為替代模型,它們允許在有限的預算下進行高效的黑箱優化或積極學習復雜系統的行為。另一個重要的用例是使用概率模型作為生成模型,生成具有所需屬性的新設計,或從物理系統的平衡分布中生成樣本。但是,為了充分發揮概率模型在知識發現中的潛力,必須開發既能應對不斷增長的數據大小和復雜性,又能讓領域專家容易解讀的模型。

在這篇論文中,我從開發一種新方法開始,該方法解決了貝葉斯優化中的概率替代模型的稀疏解識別問題。稀疏解的發現不僅增強了解決方案對人類的可解釋性,以便理解系統行為,還便于使用較少的參數更輕松地部署和維護。

接下來,我介紹了一種利用深度學習增強高斯過程推斷可擴展性的新方法。高斯過程被廣泛用作知識發現中的概率替代模型,但由于在GP回歸中識別核超參數的高成本,其實際使用受到限制,涉及到昂貴的邊緣可能性。我展示了如何通過使用“攤銷”超參數推斷來繞過昂貴的邊緣可能性的需求。這是通過訓練一個單一的神經網絡實現的,該網絡消耗一組數據并產生一個估計的核函數,用于不同的任務。

最后,我介紹了邊緣化模型,這是一種新的高維離散數據生成模型,在科學發現中無處不在。通過使用神經網絡對所有誘導的邊緣分布進行明確的建模,邊緣化模型提供了可擴展和靈活的生成建模與合理的可能性。直接建模邊緣使得邊緣推斷效率高,能夠對給定的(非規范化)概率函數進行任意階的生成模型的可擴展訓練,克服了以前具有精確可能性的方法的主要限制。

概率模型作為建模數據分布的原則機器學習方法,最近開始在促進科學探索和發現中起到重要作用。替代模型在科學、工程、機器人學和許多其他領域都是寶貴的工具,其中它們模擬復雜的系統行為。利用概率代理模型提供的不確定性量化,可以設計自動算法通過與系統主動交互來有效地完成給定用例的目標。一個主要的用例是優化,例如通過實驗測試確定電池正極的最佳材料組成。在這種情況下,使用概率模型進行貝葉斯優化(Shahriari等,2015b),根據實驗結果了解和迭代微調組成和性能之間的關系。同時,基于替代模型的不確定性量化,策略性地選擇下一個實驗條件,平衡對新組成的探索與對已知性能良好的組成的利用,從而加速最佳組成的發現。

主動學習提供了另一個主要的用例,例如在訓練替代模型準確模擬分子動力學(Vandermause等,2020)。該過程從基于有限數據的初始概率模型開始,然后通過主動查詢系統獲取額外的標記數據來系統地加強。選擇最具信息性的樣本進行標記是由替代模型的固有不確定性估計指導的,從而得到一個準確的模型,標記工作量最小。

除替代模型外,概率生成模型在跨多個領域建模復雜數據分布方面也取得了顯著進展,包括自然語言建模(Brown等,2020)、圖像生成(Song和Ermon,2019; Ho等,2020)、音頻合成(Huang等,2018)和科學發現應用(Wang等,2022; Schneuing等,2022)。在訓練科學發現的生成模型時,有兩個主要設置。第一個設置是最大似然訓練,目標是訓練生成模型以最大化訓練數據的似然。這種設置通常用于圖像生成、自然語言建模和藥物設計等任務,目標是生成與訓練數據分布非常相似的數據。第二個設置是分布匹配,目標是將生成分布與目標密度對齊。這種設置在圖像和語言方面研究較少,但在如采樣晶格模型和估計分子或材料的平衡性質等應用中經常使用,其中需要從物理系統的熱力學平衡分布中生成樣本。

在這篇論文中,我提出了新方法來解決知識發現背景下概率模型的解釋性和可擴展性挑戰。在深入研究所提議的方法的細節之前,我為替代模型和生成模型的現有文獻提供了簡短的概述。 本章的其余部分組織如下:第1.1.1節首先簡要介紹了高斯過程,這是一種在科學發現中使用的流行的概率替代模型。然后在第1.1.2節中,我回顧了貝葉斯優化的基本方法論方面。第1.2節簡要概述了關于生成模型的現有文獻,重點關注科學發現中的應用。最后,在第1.3節中,我總結了整個論文的大綱。

付費5元查看完整內容

隨著實用量子計算機的可能出現,人們開始研究其潛在的應用,特別是在人工智能的背景下。受到經典機器學習中深度神經網絡成功的激勵,人們普遍希望這種成功可以被轉化到所謂的量子變分算法或由經典機器學習啟發的量子神經網絡中。當前的深度學習算法主要是基于一系列啟示法開發的,這些啟示法通常缺乏嚴格的證明來證明其有效性。由于這些算法的不透明性,提供關于它們性能的明確保證仍然是一個巨大的挑戰。盡管這種復雜性延伸到深度學習的量子模擬,但越來越多的文獻已經識別出一套理論工具,以更好地了解為什么經典機器學習模型在現實任務中如此有效。我們使用這些工具來研究這些量子模擬,以部分解答在何時以及在什么條件下我們可以期望成功的問題。我們主要使用統計學習理論、量子力學、隨機矩陣理論和群論的工具來研究量子機器學習算法的可學習性。我們的發現表明,我們必須仔細考慮量子機器學習算法的設計,以達到合理的成功水平。事實上,我們的一些結果顯示,在量子機器學習中,隨機或無結構的方法容易遇到各種挑戰,包括與訓練性相關的問題或與最佳經典算法相比沒有顯著的優勢的問題。在整篇論文中,我們提供了幾個如何可能地向這些算法中引入結構來部分地解決這些問題的例子。此外,我們還探討了量子計算如何通知和加強經典機器學習的反向問題。我們研究了將酉矩陣納入經典神經網絡,這導致了這些酉神經網絡的更高效的設計。

付費5元查看完整內容

機器學習(ML)和人工智能(AI)在廣泛的領域實現了非凡的、超乎人類的性能:包括計算機視覺、自然語言處理、蛋白質折疊等等。直到最近,大多數的進步都是采取模型中心化的方法,主要關注于改善神經網絡架構(如卷積神經網絡、殘差網絡、變換器等)和訓練這些模型的優化程序(如批量標準化、dropout、神經結構搜索等)。相對來說,我們對用來訓練這些模型的數據的關注度較低,盡管眾所周知,機器學習對高質量數據的依賴可以用"垃圾進,垃圾出"這句話來精辟地概括。隨著對越來越大且更復雜的模型(如Nvidia和Microsoft的5300億參數的MT-NLG)的回報逐漸減小,研究人員開始認識到采取數據中心化方法的重要性,并開發了原理性的方法來研究這些模型的燃料:數據本身。數據中心視角不僅可以提高任務性能,還可以讓我們考慮到一些社會關鍵考慮因素,如數據隱私。在本論文中,我們將對機器學習數據管道中的幾個點進行深入分析:在模型訓練前、訓練中和訓練后。在模型訓練前,我們將探索數據選擇的問題:應該用哪些數據來訓練模型,我們應該期望我們的模型在何種類型的數據上工作?當我們進入模型訓練時,我們將把注意力轉向由我們的ML系統與其部署環境的交互可能導致的兩個問題。第一個問題是數據隱私:我們如何防止我們的模型泄露有關其訓練數據的敏感信息?第二個問題涉及一些被模型化的群體的動態性。特別是當我們的模型被用于做出具有社會影響力的決策(如自動貸款批準或推薦系統)時,模型本身可能會影響數據的分布,導致性能降低。最后,盡管我們在模型訓練前和訓練中遵循最佳實踐,但可能在訓練后我們希望對模型進行后處理,以移除某些訓練后的數據的影響。如何以計算效率高的方式實現這一點呢?本論文將涵蓋每一個先前問題的新穎解決方案,強調的是每一個提議的算法都有可證明的保證。通過將數學嚴謹性應用于具有挑戰性的現實問題,我們可以開發出既有效又可信賴的算法。

在過去的十年中,機器學習(ML)和人工智能(AI)研究已經取得了飛速的進步。到目前為止,大部分的研究都采用了模型中心化的方法:也就是說,數據集被視為已給定,研究人員不斷迭代應用于這些數據集以提取有用信息的模型。這種模式下有一套標準的假設。例如,數據通常假設是從固定概率分布中獨立同分布(i.i.d.)抽取的,此外還假設數據是固定的和給定的。通常還假設測試數據與訓練數據來自同一分布,即不存在分布漂移。而且,通常唯一衡量成功的指標是模型的性能(如預測任務的準確率)。盡管這種范式已經帶來了大量令人印象深刻的進步,但往往與數據科學家在實踐中面臨的情況相去甚遠。例如,收集和策劃一份高質量的訓練集通常比使用更復雜的模型架構帶來更大的收益。關于獨立同分布的假設,在現實中,數據分布可能由于各種因素而不斷變化,包括時間變化(如消費者偏好的季節性影響)和空間變化(如不同地理位置的醫院患者分布不同)。在某些情況下,我們的模型本身可能導致數據分布的變化,特別是如果該模型被用于做出具有社會影響力的決策。最后,最近的立法,如加利福尼亞消費者隱私法案和歐盟的通用數據保護法規,要求在設計AI模型過程中也要考慮消費者隱私。也就是說,隱私以及模型性能,都是必須考慮的關鍵指標。 所有這些重要的實踐問題都有一個共同的主題:它們更多地關聯到數據本身,而不是訓練在其上的模型。在這篇論文中,我們遵循這種數據中心的觀點,并為數據通過典型的ML管道可能出現的問題提出新穎的算法。我們特別強調可以為每個提出的算法提供的可證明的保證。

付費5元查看完整內容

在所有科學領域中,研究都是基于觀察和實驗進行的,需要運用明智的判斷并發展假設來指導實驗設計和消除理論上的模糊性。人工智能(AI)通過幫助科學家形成假設,設計實驗以測試它們,以及收集和解釋數據,極大地改善了最先進的科學研究。過去十年的基本進步包括自監督的學習方法,這些方法在沒有預定義標簽的情況下對大規模數據進行模型訓練;幾何深度學習,這利用了科學知識所提供的結構和幾何信息;以及生成性AI方法,這些方法根據從實驗中獲得的各種數據(包括圖像和序列)制定實驗的行動計劃并生成新的設計,例如小分子藥物和蛋白質。在這些進步中,最常見的共享特征之一是利用弱形式的監督來學習AI/ML模型。

為了實現這些目標,我們在一系列結構化數據表示上開發了各種學習方法。我們首先從點云開始;我們開發了一個名為“OcCo”的通用自監督預訓練方法,用于神經特征編碼器,并設計了一個名為“qKC”的基于量子計算的方法用于配準。這兩種方法在訓練中都不需要標簽,并能在面對數據噪聲時提高模型的魯棒性。接下來,我們關注醫學CT和CXR圖像,這些數據通常分布在多個中心,因此我們開發了一個聯邦學習框架,共同利用分散的數據以提高臨床模型的性能。隨后,我們開發了“GraphMVP”和“MolGraphEval”,以推進分子自監督圖形學習的SOTA,并理解這些方法中捕獲了哪些結構信息。

科學方法指導科學家們系統化和邏輯化地解釋自然世界。在任何研究項目的不同階段,科學家們制定假設,設計模擬和實驗,并收集數據來分析和理解自然現象。如何收集、轉換和理解數據,為形成理論和科學洞察提供了基礎。然而,我們進行大規模實驗和測量的能力,以及2010年代初深度學習的興起[4],使得數據驅動的科學研究的范圍和野心發生了范式轉變。因此,基于機器學習(ML)的人工智能(AI)越來越多地被用于整合大規模的科學數據集,幫助精細化測量,指導實驗,探索與數據兼容的理論空間,并提供考慮了多種解釋存在的可操作和可靠預測(見圖1.1)。

在歷史長河中,新的科技,包括如顯微鏡這樣的物理儀器,或如前瞻性隨機化這樣的研究技術,都重塑了科學的發現。數據收集和分析是科學發現的核心要素,科學家們長期以來一直利用定量方法來輔助他們的工作。例如,在20世紀60年代,希爾因果關系標準的發展給了研究人員一個新工具,用于在公共衛生研究中建立假定原因和觀察效應之間的因果關系,以檢驗假設的真實性[5]。這樣的定量方法在盡可能多地從常常需要大量時間和金錢生成和收集的數據中提取信息方面至關重要。在歷史上,我們可以看到定量方法和新興技術被應用于科學挑戰的例子[6],這常常導致了對核心科學進步至關重要的發現。例如,1950年代數字化的引入,隨后在調查固態物理中的多體系統的電子結構[7]和分析原子和分子的運動[8]等方面普遍使用了計算機。同樣地,數據科學的引入提供了AI作為一種方法,通過從大數據集中識別出科學上相關的模式來為領域專家提供額外的指導。基于ML的AI已經嶄露頭角,成為有望重塑科學發現的技術。盡管科學實踐和程序隨著科學研究的階段變化而變化,但ML算法的開發卻跨越了傳統的孤立學科(Figure 1.1)。這些算法可以顯著提高科學研究的設計和執行,并通過優化參數和功能[9],自動化收集、可視化和處理數據的程序[10],形成新的理論來探索大量的候選假設空間[11],以及生成假設和估計其不確定性以建議相關實驗[12],對研究人員來說變得無比珍貴。

自2010年代初以來,由于大數據集的可用性,以及快速且大規模并行的計算和存儲硬件(GPU和超級計算機)的幫助,再加上新的算法,AI方法的威力已大大增強。這些新算法包括深度表征學習,特別是能夠識別解決科學問題所需的關鍵、緊湊特征的多層神經網絡。其中,幾何深度學習已證明有助于整合科學知識,如問題的結構或幾何性。自監督學習使得訓練有素的神經網絡能夠通過預訓練大型基礎模型[13]等方式,將在標記或未標記數據上學習的表征轉移到具有少量標記例子的不同領域。此外,生成模型可以估計復雜系統的基礎數據分布,并支持實驗或系統的數據驅動設計。與ML的其他用途不同,使用強化學習方法的系統通過探索許多可能的場景,并根據諸如從所考慮的實驗中期望得到的信息增益等度量標準,為不同的行動分配獎勵,從而找到環境的最優策略。

在AI驅動的科學發現中,科學領域的知識可以通過形成適當的歸納偏差(即,在由自然科學基本定律給出的問題的函數或解決方案空間中的偏好)被納入到ML方法中,尤其在物理和化學中。難點在于,應用這些定律會導致過于復雜的方程,即使有傳統數值方法的幫助,人類也無法解決[14],因為這可能在計算上過于昂貴。一種新興的方法是將這樣的已有科學知識以影響所研究現象的基本方程的信息形式,納入到ML方法中,比如物理定律或者蛋白質折疊中的分子結構和結合原則。使用適當的歸納偏差可以通過降低樣本復雜性[15](即,達到某種精度所需的訓練樣本數)來提高機器學習的統計效率,并可以通過將分析擴展到大規模假設空間[16]來增強ML的輸出。在解決諸如推進五十年來的蛋白質折疊問題[15],以及用AI驅動的模擬模擬數百萬粒子[17]等具有挑戰性的科學問題上取得的有希望的結果,凸顯了機器學習(ML)在新興領域"科學的AI"(AI4Science)中的潛力。AI4Science中的一個關鍵需求是開發能夠處理前所未有規模的數據的新型學習算法。由于精確注釋的成本隨著數據規模線性甚至二次增長,利用數據背后的結構來訓練AI/ML模型是一個有前途的方向。然而,由于監督的自然稀疏性,這種方法通常涉及弱監督訓練。科學數據中的結構提供了關于塑造我們世界的復雜和互聯系統的有價值的洞察。這些結構可以立即顯現,如在醫學圖像中,或者更抽象,如在社交媒體數據集中。通過識別和分析這些結構,研究人員可以解鎖新的知識,并做出有益于社會的明智決策。可以采用各種技術,如網絡分析、聚類算法和自然語言處理,來揭示這些結構。

弱監督技術近年來因其利用大量未標注數據改善模型性能的能力而受到歡迎。盡管強監督可以導致高度精確的模型,但它通常受到標注數據的可用性和成本的限制。通過使用部分或噪聲標簽,弱監督減少了手動注釋的負擔,并增強了AI/ML模型的可擴展性。弱監督適用于廣泛的任務,包括圖像和文本分類、自然語言處理和計算機視覺,它使AI/ML模型能夠有效地從科學數據中存在的結構中學習,從而為AI4Science倡議的成功做出貢獻。在這篇論文中,我們主要關注不同環境中的各種形式的弱監督:

? 標簽噪聲:這種情況發生在由于人為錯誤或數據質量差等因素,訓練數據標簽錯誤或不可靠的情況。在后續的章節中,我們展示了如何處理標簽噪聲的方法,例如在未注釋數據上的自我監督模型(第2章)和混合量子-機器學習系統(第3章)。 ? 部分標簽:在這種情況下,只提供了一些數據標簽,對某些類或數據子集的標簽缺失。我們探討了解決方案,如提高預訓練模型中的標簽效率(第2章)或利用特權信息(第5章)。 ? 數據隔離:這涉及使用來自相關但不同數據集的標簽進行模型訓練,在醫學科學中很常見,因為數據中心的數據有限且有分享限制。我們使用聯邦機器學習系統開發了解決方案,該系統支持協同AI/ML模型訓練(第4章)。每種弱監督方法都有其自身的優點和局限性,方法的選擇取決于機器學習項目的具體上下文和目標。

付費5元查看完整內容

近期機器學習(ML)的成功,也被稱為“人工智能(AI)的第三次浪潮”,建立在來自優化和統計領域的計算方法之上,以及大規模訓練數據和計算能力的可用性,以及部分模仿人類認知功能(如卷積網絡)。然而,在實際應用中,當前的機器學習技術可能非常低效,容易受到不完美數據的影響,例如,當數據嘈雜、無標簽、不平衡或包含冗余、偏差、協變量漂移等時。另一方面,人類學習在規劃和選擇不同學習階段的訓練內容方面更具策略性和適應性。與在所有階段重復在相同數據的隨機小批量上進行訓練的機器學習技術相比,人類學習在應對這些實際挑戰時表現出更高的效率和魯棒性。因此,如何為機器學習制定一個戰略性的“課程”,成為縮小人類智能與機器智能差距的重要挑戰。

課程學習最早被引入作為一種基于人類學習策略的數據選擇方法,應用于不同的學習階段,例如,先選擇較簡單的樣本,然后逐漸添加更多更難的樣本。然而,人類用于設計課程的訓練材料的屬性不僅限于難度,還可以包括多樣性、一致性、代表性、激勵性、對未來訓練的影響或效用等。在機器學習中,開發能夠有效且準確度量這些屬性及其對最終/后期學習目標貢獻的評分函數具有挑戰性。此外,給定評分函數,課程策略如何規劃多個訓練階段并調整適應每個階段的選擇標準仍然是一個懸而未決的挑戰。

課程學習的另一個主要挑戰是缺乏原則性和理論驅動的公式來實現模型參數和課程的聯合優化。沒有這樣的公式,很難將選擇標準和評分函數與課程學習的潛在目標聯系起來,例如,訓練進度、泛化性能等。因此,很難解釋何時以及為什么課程可以改善機器學習。此外,在開發課程學習算法時,需要為不同的機器學習應用特別設計不同學習階段的選擇標準的計劃和調度,例如,半監督學習、集成學習等。為了實現實際有效的算法,研究是否以及如何將針對特定應用開發的現有技術與課程結合起來也很重要。

本論文旨在解決上述關鍵挑戰。它包括四個部分。在第一部分,我們引入了幾種新穎的課程學習公式。例如,我們可以將人類學習策略轉化為離散-連續優化,并在訓練過程中聯合優化模型和課程,如第2章和第5章所示。我們還可以從一個新穎的課程學習目標推導出權重或分數的解析形式,如第3章和第4章所示。此外,我們在第6章討論了未來研究的幾種潛在公式。

在第二部分,我們深入研究在課程學習中起重要作用的評分函數設計。例如,選定數據的多樣性在減少冗余和鼓勵早期探索方面起著至關重要的作用。除多樣性外,我們在第8章主要關注一類新的評分函數,它基于樣本在整個歷史過程中的訓練動態,而不是在特定步驟中的瞬時反饋。與廣泛應用的瞬時評分相比,它們顯著降低了評分評估所需的額外計算量,并且由于其可區分的動態模式,它們在分配最具信息量的訓練樣本方面更加準確

在第三部分,我們基于開發的公式和評分函數構建實用的課程學習算法。這些算法涵蓋了幾個重要的機器學習問題,包括監督學習、半監督學習、噪聲標簽學習、集成學習等。在針對每個問題的算法中,我們研究并比較不同的規劃或調度策略,以確定選擇標準如何在學習階段之間變化。我們通過詳細的實證分析和比較證明了所提出的調度策略的有效性。此外,為了在每個問題上實現最先進的性能,我們研究課程與每個問題的現有技術之間的相互作用,然后在算法設計中結合它們的優勢。

在第四部分,針對每個應用問題的基準數據集,我們評估我們的方法,并與各種強大的基線進行廣泛的實驗比較。在所有應用中,我們所設計的課程始終提高了訓練效率和最終測試準確性。值得注意的是,課程在具有不完美數據的更具挑戰性的應用中表現出更顯著的優勢,如半監督學習和噪聲標簽學習。

在第18章中,我們總結了本論文的主要貢獻。除了為課程學習提出的公式、評分函數和算法外,我們還強調了我們在一系列工作中彌合人類啟發式、理論公式和實證算法之間差距以及結合它們優勢的努力。此外,我們列出了未來工作中可以探索的幾個潛在研究方向,這些方向可以顯著擴展課程學習的當前方案和應用領域,并提高我們對機器學習訓練動態的深入理解以及其與人類教育和認知的聯系。

總之,本論文旨在通過提出新穎的課程學習公式、設計評分函數并構建實用的課程學習算法來解決課程學習領域的關鍵挑戰。我們關注了多種機器學習問題,并在各種應用場景中驗證了我們方法的有效性。通過這些努力,我們希望能在縮小人類智能與機器智能差距方面取得一定的進展,并為未來研究提供新的方向

付費5元查看完整內容

最近機器學習(ML),或“人工智能(AI)的第三波”的成功,是建立在優化和統計領域的計算方法,大規模訓練數據和計算能力的可用性,以及部分模仿人類認知功能(如卷積網絡)的基礎上的。然而,目前的機器學習技術在實際應用中可能非常低效,并且容易出現不完美的數據,例如,當數據有噪聲、無標記、不平衡或包含冗余、偏差、協變量偏移等時。另一方面,人類學習在規劃和選擇不同學習階段的訓練內容時更具戰略性和適應性。與在所有階段對相同數據的隨機小批次重復訓練的機器學習技術相比,人類學習在解決這些實際挑戰時,在效率和魯棒性方面表現出巨大優勢。因此,如何制定機器學習的戰略性“課程”成為彌合人類智能與機器智能之間鴻溝的重要挑戰。課程學習是一種基于人類學習策略的、適用于不同學習階段的數據選擇方法,即先選擇較容易的樣本,再逐步增加較難的樣本。然而,人類用于設計課程的培訓材料的特性不僅限于難度,還可以包括多樣性、一致性、代表性、激勵、對未來培訓的影響或效用等。在機器學習中,開發高效準確的得分函數來衡量這些屬性及其對最終/以后學習目標的貢獻是具有挑戰性的。此外,鑒于分數函數,課程策略如何規劃多個訓練階段并根據每個階段自適應地調整選擇標準仍然是一個公開的挑戰。課程學習的另一個主要挑戰是缺乏模型參數和課程聯合優化的原理和理論激勵公式。如果沒有這樣的公式,就很難將選擇標準和分數函數與課程學習的潛在目標聯系起來,例如,訓練進度,泛化表現等。因此,很難解釋一個課程何時以及為什么可以提高ML。而且,在開發課程學習算法時,需要針對不同的ML應用,專門設計不同學習階段的選擇標準的規劃和調度,例如半監督學習、集成學習等。為了實現一個實際有效的算法,研究是否以及如何將為特定應用開發的現有技術與課程結合起來也很重要。本文旨在解決上述關鍵挑戰。它由四部分組成。在第一部分中,我們介紹了幾個新的課程學習公式。例如,我們可以將人類的學習策略轉換為離散-連續優化,并在訓練過程中聯合優化模型和課程,如第2章和第5章所示。我們還可以從一個新的課程學習目標中推導出權重或分數的解析形式,如第3章和第4章所示。此外,我們在第6章討論了幾個潛在的公式,以供未來的研究。在第二部分中,我們將深入探討在課程學習中起著重要作用的分數函數設計。例如,所選數據的多樣性在減少冗余和鼓勵早期探索方面發揮著至關重要的作用。除了多樣性,我們主要關注第8章中一類新的得分函數,它基于樣本在整個歷史上的訓練動態,而不是其在特定步驟的瞬時反饋。與廣泛應用的瞬時分數相比,它們顯著減少了分數評估所需的額外計算,并且由于其可區分的動態模式,它們在分配信息量最大的訓練樣本方面更準確。在第三部分中,我們基于所開發的公式和分數函數構建了實用的課程學習算法。這些算法涵蓋了幾個重要的機器學習問題,包括監督學習、半監督學習、噪聲標簽學習、集成學習等。在每個問題的算法中,研究和比較了不同的規劃或調度策略,這些策略決定了選擇標準如何在不同的學習階段發生變化。通過詳細的實證分析和比較,驗證了所提出調度策略的有效性。為在每個問題上實現最先進的性能,研究了每個問題的課程和現有技術之間的相互作用,然后在算法設計中結合它們的優勢。在第四部分中,在每個應用問題的基準數據集上,評估了所提出的方法,并與各種強大的基線進行了廣泛的實驗比較。與設計的課程相結合的方法在所有應用中都持續提高了訓練效率和最終測試的準確性。值得注意的是,課程在不完美數據的更具有挑戰性的應用上表現出更顯著的優勢,如半監督學習和噪聲標簽學習。第18章總結了本文的主要貢獻。除了提出的公式、分數函數和課程學習的算法外,還強調了在工作中彌合差距并結合人類啟發式方法、理論公式和經驗算法的優勢的努力。此外,還列舉了未來工作中幾個潛在的研究方向,這些方向可以顯著拓展課程學習的現有方案和應用領域,并深入理解機器學習中的訓練動力學及其與人類教育和認知的聯系。

付費5元查看完整內容

近年來,深度神經網絡(Deep Neural Networks, DNNs),包括卷積神經網絡(Convolutional Neural Networks, cnn)和圖神經網絡(Graph Neural Networks, GNNs)的快速發展,使得圖像和圖結構數據等幾何數據的表示學習得到了快速的發展,并取得了顯著的進展。然而,dnn通常提供非常有限的透明度,這對觀察和理解模型何時以及為什么做出成功/不成功的預測提出了重大挑戰[61]。近年來,局部解釋技術的研究快速發展,但大部分關注的是如何生成解釋,而不是理解“解釋是否準確/合理”、“如果解釋不準確/不合理該如何處理”、“如何調整模型以生成更準確/合理的解釋”[13,108,168,88,129,130,62,183,151]。 **為探索和回答上述問題,本文旨在探索一條新的研究路線,即解釋引導學習(EGL),通過XAI技術干預深度學習模型的行為,共同提高深度神經網絡的可解釋性和泛化性。**本文提出在幾何數據上探索EGL,包括圖像和圖結構數據,由于幾何數據解釋的復雜性和固有挑戰,這些數據目前在研究界未得到充分探索[61]。為實現上述目標,本文首先探索了幾何數據的可解釋性方法,以理解深度神經網絡(dnn)用生物啟發方法學習的概念,并提出了解釋圖神經網絡(gnn)對醫療保健應用的預測的方法。為圖神經網絡設計了一個交互式通用解釋監督框架GNES,以實現"學習解釋"管道,從而可以提供更合理、更可控的解釋。本文提出兩個通用框架,即梯度和RES,通過開發新的解釋模型目標,用于魯棒的視覺解釋指導學習,可以將噪聲的人類注釋標簽作為監督信號,并從理論上證明了模型泛化的好處。這項研究跨越了多個學科,并通過提出新的框架,可應用于各種現實世界問題,這些問題的可解釋性和任務性能都至關重要,有望在各個領域做出一般性貢獻,如深度學習、可解釋的人工智能、醫療保健、計算神經科學和人機交互。

//etd.library.emory.edu/concern/etds/k930bz47x?locale=en

付費5元查看完整內容

深度學習的發展導致了在各種應用領域的各種任務上的顯著性能提升,這些應用領域包括計算機視覺、自然語言處理、強化學習、生成模型,以及最近從圖結構數據中進行的關系學習。這一成功的主要原因是計算能力的提高,這允許深度和高度參數化的神經網絡架構,這些架構可以從原始數據中學習復雜的特征轉換。然而,深度神經網絡的高表示能力往往是以高模型復雜度為代價的,這指的是高參數化,以及與深度學習相關的內存和計算負擔。**在本文中,我依靠參數有效的神經算子,對數據的適當建模假設和網絡結構的歸納偏差,在幾個應用領域提出更簡單的神經網絡模型。**對于我工作的每個應用領域,我使用這些效率原則的組合來設計新穎的方法。首先,在醫學圖像處理的背景下,我觀察到空間對齊的神經圖像比自然圖像表現出更少的自由度,這證明使用低容量卷積算子是合理的。我通過應用參數高效的卷積變體來實現這一點。我展示了早期阿爾茨海默病預測的最先進結果,同時使用的參數減少了多達125倍,乘累加操作減少了17倍以上。對于設計用于識別受試者亞型的神經圖像的無監督方法也得出了類似的結論。其次,我著手緩解從零開始訓練參數高效的深度模型的挑戰。這可以減少在資源受限的"邊緣"設備上訓練深度模型的不可行性。所提方法基于一個簡化的網絡結構假設,即參數無關性,允許在組合多臂匪徒的背景下建模問題。該方法可以動態地,即在訓練期間,在遵循預定義的內存使用預算的同時,在超參數化模型中識別高性能緊湊的子網絡。這是通過將顯著性指標與每個神經元相關聯來實現的,然后用于驅動參數激活,類似于門控機制,同時學習參數。因此,深度神經網絡訓練和推理過程中的計算和內存負擔都顯著減少。最后,提出一種深度概率模型,用于學習動態圖中的無監督節點和社區嵌入。基于網絡固有的社團結構,引入了關于邊形成機制的結構歸納偏差。此外,我還假設節點和社區都是平滑的時間演化,其靈感來自于數據中缺乏破壞性事件。本文提出一種該方法的參數高效實現,在各種動態預測任務上優于最先進的圖卷積網絡。

付費5元查看完整內容
北京阿比特科技有限公司