隨著全球可持續性挑戰的加劇,對創新的、跨學科的解決方案的需求正在激增,這些解決方案能夠利用多種數據來源和分析方法。我們研究了如何結合運籌學和人工智能,通過開發可適應的、普遍適用的框架來解決緊迫的可持續性和醫療保健問題。本論文深入研究了通過同時使用不同的數據類型(如表格、圖像、時間序列和自由文本)來實現的多模態性。我們制定了可以應用于各種任務的多功能方法,從熱帶氣旋預測和生物多樣性跟蹤到醫療保健運營,只需進行最小的適應。
我們模仿人類理解和連接不同數據類型的能力,將人工智能和優化結合到數據驅動的策略中。我們的貢獻包括開發了可泛化的數據預處理、特征提取和數據融合管道,以便在復雜的實際場景中進行大規模的多模態數據處理。值得注意的是,我們的熱帶氣旋預測模型的性能與美國國家颶風中心的頂級模型在24小時強度和軌跡預測上相當。此外,我們構建了連接運籌學和人工智能的預測到規定的數據驅動框架。為了支持多模態性,我們引入了確保在關鍵情況下模型的可靠性和性能的創新工具。我們探索了自適應的健壯集成建模,以增強在不確定性下的計劃和決策制定。
我們的預測和規定模型已在工廠、博物館和醫院中有效地實施,以解決可持續性和公共衛生問題,包括空氣污染管理、生態系統保護和罕見腫瘤分割。我們的污染管理模型在摩洛哥最大的化學工業廠OCP Safi Site顯著地減少了有害排放,同時減少了不必要的成本。此外,我們的腫瘤分割模型與醫學醫生的專業知識相匹配,同時提供了大量的時間節省。
我們不僅是現實的觀察者,還是其參與者,或者說是其一部分。我們明顯的干預并改變我們周圍空間和時間中某些事件進程的能力是我們構建世界模型的一個基本組成部分。 在這篇博士論文中,我們提出了一種新方法來衡量一項干預措施發現因果關系的效率如何。我們引入了對我們正在建模的現實子集中每種可能干預的一般性事前評估,以便僅選擇最具成本效益的干預措施,并避免在真實世界中進行不必要的系統性實驗。基于這一事前評估,我們提出了一種主動學習算法,該算法使用最少成本的干預序列來識別任何給定因果模型中的因果關系。我們的算法引入了幾個新穎的方面。在大多數情況下,它能夠使用相對廉價的干預措施來排除許多因果模型候選,這些干預措施只測試了干預變量的一個值。此外,該算法執行的干預次數可以由因果模型候選的數量來限定。因此,較少的初始候選(或等效地,更多的先驗知識)會導致較少的因果發現干預。
因果性與時間緊密相關,因為原因似乎在效果之前出現。周期性因果過程是與時間相關的因果性的一個非常有趣的案例。在這篇博士論文中,我們通過定義一種因果類比,對時間周期性因果設定進行了正式分析,這種因果類比純粹是基于觀測的動態貝葉斯網絡,并為循環設定中因果效應的識別提供了一個聲音和完整的算法。我們在這個框架中引入了兩種類型的隱藏混淆變量,它們以截然不同的方式影響識別程序,這是動態貝葉斯網絡或標準因果圖中都沒有的區分。
這篇論文旨在推動數據驅動的動態決策理論和實踐,通過融合機器學習和運籌學的思想。在整個論文中,我們關注三個方面:(i) 開發新的實用算法,系統地增強數據驅動的動態決策制定;(ii) 識別和利用導致統計和計算效率的關鍵問題結構;以及(iii) 為數據驅動的動態決策制定的統計和計算復雜性提供一般性的理解,這與我們對監督式機器學習的理解相平行,還考慮了模型結構和約束對決策制定的關鍵作用。具體來說,論文由三個部分組成。
本論文的第一部分開發了一種方法,可以自動將監督學習的進展轉化為有效的動態決策制定。重點關注上下文臂問題,這是一類核心的在線決策問題,我們提出了從上下文臂到離線回歸的首個最優和高效降維方法。我們的結果的一個顯著后果是,離線回歸的進展立即轉化為上下文臂問題,無論是在統計上還是在計算上。我們通過復雜的操作環境中的新保證和對真實世界數據集的實驗,說明了我們的結果的優勢。我們還將我們的結果擴展到更具挑戰性的設置,包括大狀態空間中的強化學習。除了積極的結果,我們還建立了一般、非結構化強化學習的新基本限制,強調了強化學習中問題結構的重要性。
本論文的第二部分開發了一個框架,將離線數據納入在線決策制定,這是出于業務和運營方面的實際挑戰。在動態定價的背景下,該框架使我們能夠嚴格刻畫數據的價值以及數據驅動決策制定中在線學習和離線學習之間的協同作用。該理論為實踐提供了重要的見解。
本論文的第三部分研究了在決策制定者可能面臨各種長期約束的新環境中的經典在線決策問題。這些約束是出于社會和運營考慮的,可能限制決策者在不同行動之間切換、消耗資源或查詢累積數據的能力。我們刻畫了這些長期約束帶來的統計和計算后果,即問題的復雜性如何隨不同約束水平而變化。結果為數據驅動的動態決策制定中的各種有趣的權衡提供了精確的描述。
深度生成模型(DGM)將深度神經網絡與生成模型結合,以學習感興趣數據的底層生成機制。這已經成為從數據中提取知識的重要方法,適用于機器學習和人工智能。然而,盡管具有潛在的潛力,學習和應用DGM在不同領域中仍然存在許多挑戰。因此,本論文的重點是理解、改進和應用不同的深度生成模型。
首先,我們介紹了不同DGM的基本原理,包括變分自動編碼器(VAE)、基于流的模型、生成對抗網絡(GAN)和基于能量的模型(EBM)。我們還提出了VAE的新對應物:變分潛在優化(VLO),它不需要編碼器結構。此外,我們提供了一種新的角度來理解EBM的生成過程,建立了EBM和GAN之間的聯系,并設計了一種新方法來提高EBM樣本質量。
接下來,我們提出了兩種混合型DGM,以改善當前模型的生成質量。首先,我們將基于流的模型和變分自動編碼器結合,以提高基于自動編碼器的生成模型的生成質量。其次,我們借鑒了指數傾斜的思想,將基于能量的模型與其他基于似然性的生成模型相結合,以獲得更好的樣本。
最后,我們進行了與現代深度生成模型相關的各種應用,包括將生成模型用作基于似然性方法的離群分布(OOD)檢測,并設計了可控的人臉生成模型。我們提出了一種新的OOD檢測分數,稱為似然性遺憾,以幫助使用VAE檢測OOD樣本。此外,我們建議在當前基于關鍵點的人臉重演模型中添加新結構,并將其與3D可變模型相結合,以提高其生成質量和泛化能力。
潛在變量模型假設某些潛在變量在觀測數據中缺失,這種模型已經被長期研究,并在實踐中找到了眾多應用。使用潛在變量的機器學習不僅可以提高預測的準確性,而且在增強數據的可解釋性以及發現數據背后的原理上起到了關鍵作用。本論文致力于為各種潛在變量模型的學習開發高效和可證明的算法。第一和第二個主題涉及使用無標簽樣本學習混合模型,這是一種對異質和復雜數據進行建模的強大技術。考慮了兩種具體設置:(1) 低秩模型的混合,將低復雜性的結構先驗整合到高維的混合線性回歸中;(2) 線性動態系統的混合,由于時間序列數據之間的時間依賴性,模型估計尤為具有挑戰性。對于這兩個問題,我們設計了有原則的和模塊化的算法,并正式導出了可靠模型估計所需的樣本復雜度。此外,實證證據證實,我們的方法有潛力推廣到更廣泛的設置,超出我們的理論研究所涵蓋的范圍。第三個主題涉及根據邊緣上的成對比較對一組項目進行排名,這些項目構成了一個連接圖。我們關注經典的Bradley-Terry-Luce模型,該模型假設成對比較的噪聲測量是基于項目的某些未知潛在分數生成的。在關注潛在得分估計的前提下,我們首先導出了在一般圖形拓撲下最大似然估計的接近最優的逐項錯誤,這是通過觀察統計估計和迭代優化算法之間的關聯來證明的。此外,我們開始研究具有局部性的圖形中的排名,這在實踐中由于物理約束而出現;我們的貢獻包括(1)確定局部性不受影響的條件,以及(2)設計新穎的分而治之算法,即使在最小的樣本復雜度下也能保證達到接近最優的錯誤,同時享有某些計算優勢。
機器學習領域,特別是深度學習,由于算法、計算能力和數據集的改進,近年來取得了巨大進步。為支持深度學習而構建的系統主要針對用于生成學習模型的計算。 本論文提出改為關注數據在訓練和驗證中的作用。在論文的第一部分,我們關注訓練數據,展示了負責訓練數據的數據管道是性能考慮的首要目標。為了解決性能問題,我們引入了一種在數據轉換空間中進行數據子采樣的方式,一種降低精度的輸入/輸出格式,以及一個自動調整數據管道性能參數的系統。在論文的第二部分,由于日益增長和表達能力增強的模型的趨勢,我們轉向驗證環境,開發了一個系統,可以使用標準正則表達式自動查詢和驗證大型語言模型的行為。我們以機器學習的數據系統領域的未來工作作為結論。在過去的十年里,機器學習(ML)在應用方面經歷了迅猛的增長。這個領域關注的是隨著數據或經驗而改進的算法[201],已經從一系列專業化的應用(例如,廣告[195],推薦系統[60, 106, 213],垃圾郵件檢測[316])演變為應用于幾乎所有技術領域。例如,深度學習應用于游戲玩法[261, 286],蛋白質折疊[143],機器人學[80],一系列自然語言處理任務[43, 55],并且預計將達到一種無處不在的程度,可能導致重大的經濟顛覆[87]。在這場革命的最前沿是深度學習子領域[108, 173]。深度學習使用多層結構 - 數學操作 - 來構建模型。這些層被聯合學習,以便早期層簡化后續層面臨的任務。雖然深度網絡在理論上可能不如其他機器學習或人工智能方法那么被理解,但它們已經表明,盡管在計算上開銷巨大但通用的方法最終會主導利用額外專業化的算法[268]。這種在計算上開銷巨大但通用的方法已經受益于像摩爾定律[209]這樣的趨勢 - 硬件性能的指數級增長 - 以及硬件和軟件的專業化[165, 275]。如今眾多的深度學習軟件使深度學習或許比其他替代方案更易于獲取 - 只需獲得通常是開源且隨時可用的模型規范代碼,就可以訓練最先進的模型。深度學習技術的核心已經被商品化和民主化,使任何人都可以受益于人類多年的研究和開發。
然而,盡管使用深度學習的常規方面變得更加容易,但仍然存在一些基本問題有待解決,并影響許多應用的下游性能。對這些問題(及其相應解決方案)進行分類的一種方法是將它們分為三個領域:1)機器學習算法,2)計算能力,和3)數據。這三個領域的每一個都已經經過優化以持續推動該領域的進步,并且被列為導致深度學習興起的關鍵因素[35]。例如,缺乏訓練數據和計算能力被歸因為深度網絡在2000年初的衰退[35]。直到大約十年后,這些因素的缺乏才得以彌補,當時在2012年ImageNet大規模視覺識別挑戰(ILSVRC)比賽中取得了創紀錄的表現[71]。獲勝的提交,AlexNet[156],是一個深度卷積神經網絡(CNN),并且在圖形處理單元(GPU)的幫助下接受了一百萬張圖像的訓練。機器學習算法也有所進步,使學習更加高效。例如,ReLU激活和dropout是2012年提交[156, 173]的關鍵算法組件,是廣泛用于加速學習的數學操作。當這些進步結合起來時,由此產生的模型以絕對誤差超過了僅次于其的提交,開始了計算機視覺的革命[173]。今天在自然語言處理方面的最新趨勢可以類似地視為核心算法創新[285],并擴展到大量數據和計算[43, 55],從而導致性能的可預測提升。在民主化機器學習的最前沿是機器學習系統[239]。這些系統包含并解決機器學習方法中足夠公式化的部分,使從業者能夠將時間集中在其他問題上。如果機器學習算法,計算能力和數據是支撐現代機器學習的支柱,那么機器學習系統就是用來將它們置于適當位置的工具。如今的系統包括用于數學表達式符號操作的功能,跨各種硬件平臺的可移植性,分布式執行,以及與常用實用程序和數學表達式一起預先打包的庫[11, 49, 96, 222]。
作為這篇論文的一部分,我們探討了現代機器學習技術棧中新功能或修訂功能的幾個方向,重點關注整個技術棧中數據的處理。研究數據很重要,因為在三個問題領域中,數據是最具動態性的 — 數據總是可以進一步優化以涵蓋更多樣本、更多特征或某些類型的行為,而模型(和計算)在處理某種類型的數據時必然是固定的。此外,對數據的優化可能導致應用程序的顯著增益,從而刺激數據為中心的AI研究[3]。然而,這并非輕而易舉,改變數據容易說難做。由于缺乏理論理解,對于任何新類型的機器學習任務,從業者可能必須測試哪種數據組合效果最好。如果沒有適當的數據抽象,任務中的單一變化可能導致從業者必須手動評估和調整應用程序數據的特征。調整數據的方面不僅是單調乏味的,而且根據數據評估模型以及系統性能的行為需要機器學習和系統的專業知識,而這些專業知識通常是由不同群體的人擁有的。如果機器學習系統的目標是支持從業者解決重復問題,那么可以合理地期望機器學習系統能夠使數據的快速配置和原型制作成為可能。簡而言之,數據管道應該是機器學習系統棧中的一等公民 - 它們不應該是作為附加工具支持模型和計算的事后考慮。本章其余部分的組織結構如下。首先,我們概述機器學習系統是如何構建和評估的(§1.1)。然后,我們概述機器學習中的工作負載是如何發生根本性變化的,這使得社區分裂成兩個部分(§1.2),并激勵對機器學習系統進行根本不同的處理。然后我們轉向論文的動機,重新審視數據在當前機器學習環境中的重要性(§1.3)。最后,我們介紹論文陳述并概述本文的章節(§1.4)。熟悉當前機器學習和機器學習系統狀態的讀者可以跳過第1.1節和第1.2節的“教科書材料”,并直接前往第1.3節。
現如今,從日益增長的數據中提取有用的信息以作出知情決策變得越來越具有挑戰性。盡管深度學習在最近有所進步,但如何有效且可擴展地利用如此龐大的數據去處理各種任務的問題尚未解決。為了解決從數據中進行表示學習的兩個主要方面,即效率和可擴展性,這篇論文介紹了處理各種任務的技術,包括情感分析,手寫識別和文檔智能,這些任務的數據形式各不相同:包括文本,音頻和視頻的多模態數據,噪聲掃描手寫圖像,或者布局不同的長文檔。由于各自數據的可獲得性和可能存在的問題,以及相關任務的明確目標,沒有一種通用的解決方案,而是對每個問題都有特定的方法。另外,為了處理大規模數據,本論文還介紹了一些近似技術和分析方法,用于估計基本組件,學習有效的表示,并加速學習過程,包括使用并行非自適應方法進行矩陣跡近似,高斯過程訓練中的譜近似,以及用于大規模多任務神經機器翻譯模型的基于任務的專家混合模型。在這些工作中,這篇論文介紹了應對數據和任務中出現的問題,學習有效表示,以及為實際可擴展性近似模型的新穎方法。
機器學習模型在面對分布變化時很脆弱,這使得它們在現實世界的部署中很難依賴。這促使開發方法,使我們能夠檢測和減輕這種模型的脆弱性,以及驗證我們的模型確實滿足期望的魯棒性保證。本文提出了一套工具,幫助我們檢測模型漏洞和偏差。該集合包括一套新的數據集,使我們能夠更細粒度地了解模型對背景的依賴。另一方面,它涉及3DB,一個利用逼真模擬的框架,以探測模型對更多樣化分布變化的脆弱性。除了識別這些漏洞外,還討論了可以使模型對分布變化更魯棒的干預措施,包括使用更多的訓練數據。正如所證明的,不加區分地使用更多的輔助數據并不總是有益的,因此提出了數據集投影,一種選擇要使用的"正確"輔助數據的方法。展示了如何有效和形式化地驗證所提出模型對研究最充分的分布漂移類型之一是魯棒的:逐像素對抗性擾動。
多人工智能任務的改進。隱變量模型提供了一個優雅的框架,以新的功能來增強生成算法。然而,在自然語言處理領域,尚不清楚如何最好地將潛變量與強大且無處不在的語言模型相結合。
本文探索先進的優化方法和潛變量模型的設計,以完成自然語言處理任務。全文共分為三個部分。在第一部分中,我們提出了隱變量語言模型的三種結構。本文討論了結構化的潛空間,可以結構化為大型知識庫(如維基百科)或以潛文本生成過程為特征。在第二部分中,我們深入研究變分推理和優化的主題。本文提出一種新的離散潛變量梯度估計器OVIS。我們發現,即使使用OVIS,優化深度潛變量模型仍然具有挑戰性。本文根據經驗數據表明,Rényi散度變分推理可以應用于規避一些學習問題。在第三部分中,我們重點解決醫療問答和信息檢索任務。實驗提示預訓練大型語言模型(GPT-3)生成逐步的問題解決方案。本文報告稱,在許多情況下,GPT-3可以推理具有挑戰性的醫學問題。提出了一個新的框架VOD,用于用變分推理學習檢索增強語言模型。本文應用VOD來優化由大量維基百科增強的問答系統,并報告了在醫療問答基準上的最先進性能。最后,將得到的模型應用于罕見病診斷領域的信息檢索任務。
大規模的神經語言模型在自然語言生成方面取得了令人印象深刻的進展。然而,典型的模型以一種從左到右的、不受約束的方式運行,對生成的內容的控制有限。本文探討了柔性序列模型和弱監督方法來執行各種控制生成任務。我們預計這些技術將廣泛應用于其他領域,如圖像、分子和生物序列的生成。
我們首先介紹了一類稱為空白語言模型(BLMs)的序列模型,它通過動態創建和填充空白來生成序列。給定帶有一個或多個空格的部分指定文本,BLM將使用與上下文一致的可變數量的標記來填充這些空格。我們的模型非常適合各種文本編輯和重寫任務,并在文本填充、古代文本恢復和情感遷移方面證明了有效性。
接下來,我們研究文本自動編碼器及其通過潛在空間操作控制生成的用途。我們建立了一個理論,如何塑造一個有意義的潛在空間幾何離散文本數據。在此基礎上,我們開發了一系列去噪文本自動編碼器,通過簡單的矢量算法展示了屬性修改(例如,時態,情感等)的潛力。
最后兩章討論了在沒有監督數據的情況下的語言風格遷移。我們首先將非并行風格遷移的任務形式化,并討論學習問題的可行性。我們提出了一種利用潛在表示的分布對齊來執行樣式傳輸的方法。然后,我們研究了混雜因素,并表明通過將數據分為兩組不同的風格,每組中的集合說明了我們不希望改變的變化,我們可以利用不變性來隔離混雜因素,并向所需的方向轉移文本。
//dspace.mit.edu/handle/1721.1/144561