国产欧美日韩综合在线,亚洲日韩网站在线观看,51国产偷自视频区视频手机播放,国产精品成人综合青青草原

機器學習領域，特別是深度學習，由于算法、計算能力和數據集的改進，近年來取得了巨大進步。為支持深度學習而構建的系統主要針對用于生成學習模型的計算。本論文提出改為關注數據在訓練和驗證中的作用。在論文的第一部分，我們關注訓練數據，展示了負責訓練數據的數據管道是性能考慮的首要目標。為了解決性能問題，我們引入了一種在數據轉換空間中進行數據子采樣的方式，一種降低精度的輸入/輸出格式，以及一個自動調整數據管道性能參數的系統。在論文的第二部分，由于日益增長和表達能力增強的模型的趨勢，我們轉向驗證環境，開發了一個系統，可以使用標準正則表達式自動查詢和驗證大型語言模型的行為。我們以機器學習的數據系統領域的未來工作作為結論。在過去的十年里，機器學習（ML）在應用方面經歷了迅猛的增長。這個領域關注的是隨著數據或經驗而改進的算法[201]，已經從一系列專業化的應用（例如，廣告[195]，推薦系統[60, 106, 213]，垃圾郵件檢測[316]）演變為應用于幾乎所有技術領域。例如，深度學習應用于游戲玩法[261, 286]，蛋白質折疊[143]，機器人學[80]，一系列自然語言處理任務[43, 55]，并且預計將達到一種無處不在的程度，可能導致重大的經濟顛覆[87]。在這場革命的最前沿是深度學習子領域[108, 173]。深度學習使用多層結構 - 數學操作 - 來構建模型。這些層被聯合學習，以便早期層簡化后續層面臨的任務。雖然深度網絡在理論上可能不如其他機器學習或人工智能方法那么被理解，但它們已經表明，盡管在計算上開銷巨大但通用的方法最終會主導利用額外專業化的算法[268]。這種在計算上開銷巨大但通用的方法已經受益于像摩爾定律[209]這樣的趨勢 - 硬件性能的指數級增長 - 以及硬件和軟件的專業化[165, 275]。如今眾多的深度學習軟件使深度學習或許比其他替代方案更易于獲取 - 只需獲得通常是開源且隨時可用的模型規范代碼，就可以訓練最先進的模型。深度學習技術的核心已經被商品化和民主化，使任何人都可以受益于人類多年的研究和開發。

然而，盡管使用深度學習的常規方面變得更加容易，但仍然存在一些基本問題有待解決，并影響許多應用的下游性能。對這些問題（及其相應解決方案）進行分類的一種方法是將它們分為三個領域：1）機器學習算法，2）計算能力，和3）數據。這三個領域的每一個都已經經過優化以持續推動該領域的進步，并且被列為導致深度學習興起的關鍵因素[35]。例如，缺乏訓練數據和計算能力被歸因為深度網絡在2000年初的衰退[35]。直到大約十年后，這些因素的缺乏才得以彌補，當時在2012年ImageNet大規模視覺識別挑戰（ILSVRC）比賽中取得了創紀錄的表現[71]。獲勝的提交，AlexNet[156]，是一個深度卷積神經網絡（CNN），并且在圖形處理單元（GPU）的幫助下接受了一百萬張圖像的訓練。機器學習算法也有所進步，使學習更加高效。例如，ReLU激活和dropout是2012年提交[156, 173]的關鍵算法組件，是廣泛用于加速學習的數學操作。當這些進步結合起來時，由此產生的模型以絕對誤差超過了僅次于其的提交，開始了計算機視覺的革命[173]。今天在自然語言處理方面的最新趨勢可以類似地視為核心算法創新[285]，并擴展到大量數據和計算[43, 55]，從而導致性能的可預測提升。在民主化機器學習的最前沿是機器學習系統[239]。這些系統包含并解決機器學習方法中足夠公式化的部分，使從業者能夠將時間集中在其他問題上。如果機器學習算法，計算能力和數據是支撐現代機器學習的支柱，那么機器學習系統就是用來將它們置于適當位置的工具。如今的系統包括用于數學表達式符號操作的功能，跨各種硬件平臺的可移植性，分布式執行，以及與常用實用程序和數學表達式一起預先打包的庫[11, 49, 96, 222]。

作為這篇論文的一部分，我們探討了現代機器學習技術棧中新功能或修訂功能的幾個方向，重點關注整個技術棧中數據的處理。研究數據很重要，因為在三個問題領域中，數據是最具動態性的 — 數據總是可以進一步優化以涵蓋更多樣本、更多特征或某些類型的行為，而模型（和計算）在處理某種類型的數據時必然是固定的。此外，對數據的優化可能導致應用程序的顯著增益，從而刺激數據為中心的AI研究[3]。然而，這并非輕而易舉，改變數據容易說難做。由于缺乏理論理解，對于任何新類型的機器學習任務，從業者可能必須測試哪種數據組合效果最好。如果沒有適當的數據抽象，任務中的單一變化可能導致從業者必須手動評估和調整應用程序數據的特征。調整數據的方面不僅是單調乏味的，而且根據數據評估模型以及系統性能的行為需要機器學習和系統的專業知識，而這些專業知識通常是由不同群體的人擁有的。如果機器學習系統的目標是支持從業者解決重復問題，那么可以合理地期望機器學習系統能夠使數據的快速配置和原型制作成為可能。簡而言之，數據管道應該是機器學習系統棧中的一等公民 - 它們不應該是作為附加工具支持模型和計算的事后考慮。本章其余部分的組織結構如下。首先，我們概述機器學習系統是如何構建和評估的（§1.1）。然后，我們概述機器學習中的工作負載是如何發生根本性變化的，這使得社區分裂成兩個部分（§1.2），并激勵對機器學習系統進行根本不同的處理。然后我們轉向論文的動機，重新審視數據在當前機器學習環境中的重要性（§1.3）。最后，我們介紹論文陳述并概述本文的章節（§1.4）。熟悉當前機器學習和機器學習系統狀態的讀者可以跳過第1.1節和第1.2節的“教科書材料”，并直接前往第1.3節。

付費5元查看完整內容

相關內容

博士論文

關注 119

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下，選擇自己能夠把握和駕馭的潛在的研究方向，開辟新的研究領域。由此可見，這就對作者提出了較高要求，它要求作者必須在本學科的專業領域具備大量的理論知識，并對所學專業的理論知識有相當深入的理解和思考，同時還要具有相當水平的獨立科學研究能力，能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而，較之學士論文、碩士論文，博士論文具有更高的學術價值，對學科的發展具有重要的推動作用。

博士論文 · 麻省理工學院 (MIT) · 多模態 ·

2023 年 8 月 17 日

[付費5元查看完整內容]【MIT博士論文】多模態：模型、算法與應用，196頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

隨著全球可持續性挑戰的加劇，對創新的、跨學科的解決方案的需求正在激增，這些解決方案能夠利用多種數據來源和分析方法。我們研究了如何結合運籌學和人工智能，通過開發可適應的、普遍適用的框架來解決緊迫的可持續性和醫療保健問題。本論文深入研究了通過同時使用不同的數據類型（如表格、圖像、時間序列和自由文本）來實現的多模態性。我們制定了可以應用于各種任務的多功能方法，從熱帶氣旋預測和生物多樣性跟蹤到醫療保健運營，只需進行最小的適應。

我們模仿人類理解和連接不同數據類型的能力，將人工智能和優化結合到數據驅動的策略中。我們的貢獻包括開發了可泛化的數據預處理、特征提取和數據融合管道，以便在復雜的實際場景中進行大規模的多模態數據處理。值得注意的是，我們的熱帶氣旋預測模型的性能與美國國家颶風中心的頂級模型在24小時強度和軌跡預測上相當。此外，我們構建了連接運籌學和人工智能的預測到規定的數據驅動框架。為了支持多模態性，我們引入了確保在關鍵情況下模型的可靠性和性能的創新工具。我們探索了自適應的健壯集成建模，以增強在不確定性下的計劃和決策制定。

我們的預測和規定模型已在工廠、博物館和醫院中有效地實施，以解決可持續性和公共衛生問題，包括空氣污染管理、生態系統保護和罕見腫瘤分割。我們的污染管理模型在摩洛哥最大的化學工業廠OCP Safi Site顯著地減少了有害排放，同時減少了不必要的成本。此外，我們的腫瘤分割模型與醫學醫生的專業知識相匹配，同時提供了大量的時間節省。

付費5元查看完整內容

麻省理工學院 (MIT) · 博士論文 · 機器學習 · 超參數優化 · 特征學習 ·

2023 年 8 月 8 日

[付費5元查看完整內容]【MIT博士論文】機器學習基礎：超參數化與特征學習，170頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在這篇論文中，我們建立并分析了推動神經網絡成功的兩個核心原則：超參數化和特征學習。我們利用這些原則設計了在各種計算機視覺和生物醫學應用上具有更好性能和解釋性的模型。我們首先討論超參數化的好處，即使用越來越大的網絡完美地擬合訓練數據。盡管之前的工作已經描述了超參數化網絡在監督學習任務中的好處，但我們展示了超參數化對于非監督學習問題（如自動編碼）也是有益的。越來越大的網絡的普遍優勢意味著無限大的網絡應該提供最佳的性能。值得注意的是，在某些條件下，訓練無限寬的網絡簡化為使用神經切線核（NTK）訓練經典模型，也稱為核機器。我們通過推導并使用NTK來展示其在矩陣補全問題（如圖像修復和虛擬藥物篩選）中的實際價值。此外，我們利用NTK連接為深度神經網絡提供理論保證。具體地說，我們構建了插值的無限寬和深的網絡，對于分類來說，它們是貝葉斯最優的或一致的。

盡管NTK已經成為理解深度網絡屬性的有用工具，但它缺少對神經網絡成功至關重要的關鍵組件：特征學習。在這篇論文的第二部分，我們識別并數學地描述了深度神經網絡如何自動選擇數據中的特征或模式的機制。我們展示了神經特征學習是通過基于它們如何在擾動下改變預測來重新加權特征來發生的，這一過程在數學上由平均梯度外積來描述。我們的結果解釋了如虛假特征、彩票票據和grokking等深度學習現象。此外，我們工作中確定的機制為任何機器學習模型提供了一個無需反向傳播的特征學習方法。為了展示這種通用特征學習機制的有效性，我們使用它來實現核機器中的特征學習。我們展示了由此產生的模型，稱為遞歸特征機，達到了表格數據上的最新性能。總體而言，這篇論文推進了機器學習的基礎，并為構建新的機器學習模型提供了工具，這些模型在計算上簡單、可解釋且有效。

付費5元查看完整內容

博士論文 · 表示學習 ·

2023 年 6 月 12 日

[付費5元查看完整內容]【CMU博士論文】高效且可擴展的表示學習,152頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

現如今，從日益增長的數據中提取有用的信息以作出知情決策變得越來越具有挑戰性。盡管深度學習在最近有所進步，但如何有效且可擴展地利用如此龐大的數據去處理各種任務的問題尚未解決。為了解決從數據中進行表示學習的兩個主要方面，即效率和可擴展性，這篇論文介紹了處理各種任務的技術，包括情感分析，手寫識別和文檔智能，這些任務的數據形式各不相同：包括文本，音頻和視頻的多模態數據，噪聲掃描手寫圖像，或者布局不同的長文檔。由于各自數據的可獲得性和可能存在的問題，以及相關任務的明確目標，沒有一種通用的解決方案，而是對每個問題都有特定的方法。另外，為了處理大規模數據，本論文還介紹了一些近似技術和分析方法，用于估計基本組件，學習有效的表示，并加速學習過程，包括使用并行非自適應方法進行矩陣跡近似，高斯過程訓練中的譜近似，以及用于大規模多任務神經機器翻譯模型的基于任務的專家混合模型。在這些工作中，這篇論文介紹了應對數據和任務中出現的問題，學習有效表示，以及為實際可擴展性近似模型的新穎方法。

付費5元查看完整內容

麻省理工學院 (MIT) · 博士論文 · 機器學習 · 魯棒性 ·

2023 年 4 月 2 日

[付費5元查看完整內容]【MIT博士論文】機器學習模型魯棒性的探索、改進與驗證，208頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

機器學習模型在面對分布變化時很脆弱，這使得它們在現實世界的部署中很難依賴。這促使開發方法，使我們能夠檢測和減輕這種模型的脆弱性，以及驗證我們的模型確實滿足期望的魯棒性保證。本文提出了一套工具，幫助我們檢測模型漏洞和偏差。該集合包括一套新的數據集，使我們能夠更細粒度地了解模型對背景的依賴。另一方面，它涉及3DB，一個利用逼真模擬的框架，以探測模型對更多樣化分布變化的脆弱性。除了識別這些漏洞外，還討論了可以使模型對分布變化更魯棒的干預措施，包括使用更多的訓練數據。正如所證明的，不加區分地使用更多的輔助數據并不總是有益的，因此提出了數據集投影，一種選擇要使用的"正確"輔助數據的方法。展示了如何有效和形式化地驗證所提出模型對研究最充分的分布漂移類型之一是魯棒的:逐像素對抗性擾動。

付費5元查看完整內容

博士論文 · 深度生成模型 ·

2021 年 7 月 19 日

[付費5元查看完整內容]【斯坦福博士論文】深度生成模型的評估，126頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在本文中，我們研究了生成模型的幾個重要標準，并引入評價指標來解決每個問題，同時討論了生成模型評價中的上述問題。特別是，我們研究了測量生成輸出的感知現實主義的挑戰，并引入了一個人在循環中的評估系統，利用心理物理學理論，以人類知覺文獻和眾包技術為基礎，構建一個高效、可靠、并采用一致的方法比較不同的模型。除此之外，我們還分析了解纏性(Disentanglement)，這是評估已學習表示的一個日益重要的特性，通過使用持久同調測量生成模型數據流形的內在特性。

//searchworks.stanford.edu/view/13883847

付費5元查看完整內容