這篇論文旨在推動數據驅動的動態決策理論和實踐,通過融合機器學習和運籌學的思想。在整個論文中,我們關注三個方面:(i) 開發新的實用算法,系統地增強數據驅動的動態決策制定;(ii) 識別和利用導致統計和計算效率的關鍵問題結構;以及(iii) 為數據驅動的動態決策制定的統計和計算復雜性提供一般性的理解,這與我們對監督式機器學習的理解相平行,還考慮了模型結構和約束對決策制定的關鍵作用。具體來說,論文由三個部分組成。
本論文的第一部分開發了一種方法,可以自動將監督學習的進展轉化為有效的動態決策制定。重點關注上下文臂問題,這是一類核心的在線決策問題,我們提出了從上下文臂到離線回歸的首個最優和高效降維方法。我們的結果的一個顯著后果是,離線回歸的進展立即轉化為上下文臂問題,無論是在統計上還是在計算上。我們通過復雜的操作環境中的新保證和對真實世界數據集的實驗,說明了我們的結果的優勢。我們還將我們的結果擴展到更具挑戰性的設置,包括大狀態空間中的強化學習。除了積極的結果,我們還建立了一般、非結構化強化學習的新基本限制,強調了強化學習中問題結構的重要性。
本論文的第二部分開發了一個框架,將離線數據納入在線決策制定,這是出于業務和運營方面的實際挑戰。在動態定價的背景下,該框架使我們能夠嚴格刻畫數據的價值以及數據驅動決策制定中在線學習和離線學習之間的協同作用。該理論為實踐提供了重要的見解。
本論文的第三部分研究了在決策制定者可能面臨各種長期約束的新環境中的經典在線決策問題。這些約束是出于社會和運營考慮的,可能限制決策者在不同行動之間切換、消耗資源或查詢累積數據的能力。我們刻畫了這些長期約束帶來的統計和計算后果,即問題的復雜性如何隨不同約束水平而變化。結果為數據驅動的動態決策制定中的各種有趣的權衡提供了精確的描述。
深度生成模型(DGM)將深度神經網絡與生成模型結合,以學習感興趣數據的底層生成機制。這已經成為從數據中提取知識的重要方法,適用于機器學習和人工智能。然而,盡管具有潛在的潛力,學習和應用DGM在不同領域中仍然存在許多挑戰。因此,本論文的重點是理解、改進和應用不同的深度生成模型。
首先,我們介紹了不同DGM的基本原理,包括變分自動編碼器(VAE)、基于流的模型、生成對抗網絡(GAN)和基于能量的模型(EBM)。我們還提出了VAE的新對應物:變分潛在優化(VLO),它不需要編碼器結構。此外,我們提供了一種新的角度來理解EBM的生成過程,建立了EBM和GAN之間的聯系,并設計了一種新方法來提高EBM樣本質量。
接下來,我們提出了兩種混合型DGM,以改善當前模型的生成質量。首先,我們將基于流的模型和變分自動編碼器結合,以提高基于自動編碼器的生成模型的生成質量。其次,我們借鑒了指數傾斜的思想,將基于能量的模型與其他基于似然性的生成模型相結合,以獲得更好的樣本。
最后,我們進行了與現代深度生成模型相關的各種應用,包括將生成模型用作基于似然性方法的離群分布(OOD)檢測,并設計了可控的人臉生成模型。我們提出了一種新的OOD檢測分數,稱為似然性遺憾,以幫助使用VAE檢測OOD樣本。此外,我們建議在當前基于關鍵點的人臉重演模型中添加新結構,并將其與3D可變模型相結合,以提高其生成質量和泛化能力。
隨著全球可持續性挑戰的加劇,對創新的、跨學科的解決方案的需求正在激增,這些解決方案能夠利用多種數據來源和分析方法。我們研究了如何結合運籌學和人工智能,通過開發可適應的、普遍適用的框架來解決緊迫的可持續性和醫療保健問題。本論文深入研究了通過同時使用不同的數據類型(如表格、圖像、時間序列和自由文本)來實現的多模態性。我們制定了可以應用于各種任務的多功能方法,從熱帶氣旋預測和生物多樣性跟蹤到醫療保健運營,只需進行最小的適應。
我們模仿人類理解和連接不同數據類型的能力,將人工智能和優化結合到數據驅動的策略中。我們的貢獻包括開發了可泛化的數據預處理、特征提取和數據融合管道,以便在復雜的實際場景中進行大規模的多模態數據處理。值得注意的是,我們的熱帶氣旋預測模型的性能與美國國家颶風中心的頂級模型在24小時強度和軌跡預測上相當。此外,我們構建了連接運籌學和人工智能的預測到規定的數據驅動框架。為了支持多模態性,我們引入了確保在關鍵情況下模型的可靠性和性能的創新工具。我們探索了自適應的健壯集成建模,以增強在不確定性下的計劃和決策制定。
我們的預測和規定模型已在工廠、博物館和醫院中有效地實施,以解決可持續性和公共衛生問題,包括空氣污染管理、生態系統保護和罕見腫瘤分割。我們的污染管理模型在摩洛哥最大的化學工業廠OCP Safi Site顯著地減少了有害排放,同時減少了不必要的成本。此外,我們的腫瘤分割模型與醫學醫生的專業知識相匹配,同時提供了大量的時間節省。
在這篇論文中,我們建立并分析了推動神經網絡成功的兩個核心原則:超參數化和特征學習。我們利用這些原則設計了在各種計算機視覺和生物醫學應用上具有更好性能和解釋性的模型。我們首先討論超參數化的好處,即使用越來越大的網絡完美地擬合訓練數據。盡管之前的工作已經描述了超參數化網絡在監督學習任務中的好處,但我們展示了超參數化對于非監督學習問題(如自動編碼)也是有益的。越來越大的網絡的普遍優勢意味著無限大的網絡應該提供最佳的性能。值得注意的是,在某些條件下,訓練無限寬的網絡簡化為使用神經切線核(NTK)訓練經典模型,也稱為核機器。我們通過推導并使用NTK來展示其在矩陣補全問題(如圖像修復和虛擬藥物篩選)中的實際價值。此外,我們利用NTK連接為深度神經網絡提供理論保證。具體地說,我們構建了插值的無限寬和深的網絡,對于分類來說,它們是貝葉斯最優的或一致的。
盡管NTK已經成為理解深度網絡屬性的有用工具,但它缺少對神經網絡成功至關重要的關鍵組件:特征學習。在這篇論文的第二部分,我們識別并數學地描述了深度神經網絡如何自動選擇數據中的特征或模式的機制。我們展示了神經特征學習是通過基于它們如何在擾動下改變預測來重新加權特征來發生的,這一過程在數學上由平均梯度外積來描述。我們的結果解釋了如虛假特征、彩票票據和grokking等深度學習現象。此外,我們工作中確定的機制為任何機器學習模型提供了一個無需反向傳播的特征學習方法。為了展示這種通用特征學習機制的有效性,我們使用它來實現核機器中的特征學習。我們展示了由此產生的模型,稱為遞歸特征機,達到了表格數據上的最新性能。總體而言,這篇論文推進了機器學習的基礎,并為構建新的機器學習模型提供了工具,這些模型在計算上簡單、可解釋且有效。
風險模型對于護理計劃和疾病預防至關重要。已有的臨床模型表現不佳,引起了廣泛的關注和擔憂。一個準確、可解釋、可靠的風險模型將會帶來巨大的益處,但其仍是一項挑戰。本論文旨在開發深度學習模型,利用大規模且具有代表性的電子健康記錄(EHR)數據集,以提供更準確的風險預測,同時提供不確定性估計和醫學解釋的能力。 在這篇論文中,我們研究了三個方向:風險預測、解釋性以及不確定性估計。對于風險預測,我們研究了可以將最少處理的電子健康記錄(EHR)納入模型的深度學習工具,并與已建立的機器學習和臨床模型進行了全面比較。另外,我們將事后解釋應用于深度學習模型以獲取醫學信息,特別關注風險關聯和反事實推理的解釋。我們使用概率建模技術定性地研究了不確定性估計。我們的分析依賴于臨床實踐研究鏈接,該鏈接包含來自初級護理、二級護理和死亡登記的匿名化EHR,并代表了英國人口。
我們引入了一種名為BEHRT的深度學習模型,可以將最少處理的電子健康記錄(EHR)納入風險預測。在沒有專家參與的情況下,它學習了有意義的表示,可以自動聚類高度相關的疾病。與依賴于專家選擇的預測因子的已建立的機器學習和臨床模型相比,我們提出的深度學習模型在廣泛的風險預測任務中表現出優越的性能,并強調了當將風險模型應用于具有嚴重先前分布偏移的人群時,需要重新校準的必要性,以及定期更新模型以在時間數據偏移下保持模型的區分性能的重要性。此外,我們還顯示出深度學習模型解釋是發現風險因素的絕佳工具。通過解釋深度學習模型,我們不僅發現了與已有證據高度一致的因素,也發現了那些在專家驅動的研究中尚未考慮的因素。此外,深度學習模型還捕獲了風險和治療風險之間的相互作用,以及藥物在不同年份的差異性關聯,如果在建模中沒有包含時間背景,這將會很困難。除了關聯性解釋外,我們還引入了一個框架,可以在假設干預下實現準確的風險預測,同時進行反事實推理。這提供了反事實解釋,可以為臨床醫生選擇最能受益的人提供參考。我們使用兩個示例性的案例研究展示了所提出框架的益處。此外,將確定性深度學習模型轉換為概率模型可以帶有不確定性范圍的預測。我們表明,這樣的信息在實踐中有許多潛在的影響,如量化決策的信心,指示數據的不足,區分正確和錯誤的預測,以及指示風險關聯。 深度學習模型在風險預測方面的性能得到了大幅度的提升。不確定性估計的能力可以量化風險預測的信心,進一步指導臨床決策。深度學習模型的解釋可以產生假設以指導醫學研究,并提供反事實分析以協助臨床決策。這些鼓舞人心的證據支持將深度學習方法引入電子健康記錄的巨大潛力,以指導如護理計劃、疾病預防和醫學研究設計等廣泛的健康應用。
機器學習領域,特別是深度學習,由于算法、計算能力和數據集的改進,近年來取得了巨大進步。為支持深度學習而構建的系統主要針對用于生成學習模型的計算。 本論文提出改為關注數據在訓練和驗證中的作用。在論文的第一部分,我們關注訓練數據,展示了負責訓練數據的數據管道是性能考慮的首要目標。為了解決性能問題,我們引入了一種在數據轉換空間中進行數據子采樣的方式,一種降低精度的輸入/輸出格式,以及一個自動調整數據管道性能參數的系統。在論文的第二部分,由于日益增長和表達能力增強的模型的趨勢,我們轉向驗證環境,開發了一個系統,可以使用標準正則表達式自動查詢和驗證大型語言模型的行為。我們以機器學習的數據系統領域的未來工作作為結論。在過去的十年里,機器學習(ML)在應用方面經歷了迅猛的增長。這個領域關注的是隨著數據或經驗而改進的算法[201],已經從一系列專業化的應用(例如,廣告[195],推薦系統[60, 106, 213],垃圾郵件檢測[316])演變為應用于幾乎所有技術領域。例如,深度學習應用于游戲玩法[261, 286],蛋白質折疊[143],機器人學[80],一系列自然語言處理任務[43, 55],并且預計將達到一種無處不在的程度,可能導致重大的經濟顛覆[87]。在這場革命的最前沿是深度學習子領域[108, 173]。深度學習使用多層結構 - 數學操作 - 來構建模型。這些層被聯合學習,以便早期層簡化后續層面臨的任務。雖然深度網絡在理論上可能不如其他機器學習或人工智能方法那么被理解,但它們已經表明,盡管在計算上開銷巨大但通用的方法最終會主導利用額外專業化的算法[268]。這種在計算上開銷巨大但通用的方法已經受益于像摩爾定律[209]這樣的趨勢 - 硬件性能的指數級增長 - 以及硬件和軟件的專業化[165, 275]。如今眾多的深度學習軟件使深度學習或許比其他替代方案更易于獲取 - 只需獲得通常是開源且隨時可用的模型規范代碼,就可以訓練最先進的模型。深度學習技術的核心已經被商品化和民主化,使任何人都可以受益于人類多年的研究和開發。
然而,盡管使用深度學習的常規方面變得更加容易,但仍然存在一些基本問題有待解決,并影響許多應用的下游性能。對這些問題(及其相應解決方案)進行分類的一種方法是將它們分為三個領域:1)機器學習算法,2)計算能力,和3)數據。這三個領域的每一個都已經經過優化以持續推動該領域的進步,并且被列為導致深度學習興起的關鍵因素[35]。例如,缺乏訓練數據和計算能力被歸因為深度網絡在2000年初的衰退[35]。直到大約十年后,這些因素的缺乏才得以彌補,當時在2012年ImageNet大規模視覺識別挑戰(ILSVRC)比賽中取得了創紀錄的表現[71]。獲勝的提交,AlexNet[156],是一個深度卷積神經網絡(CNN),并且在圖形處理單元(GPU)的幫助下接受了一百萬張圖像的訓練。機器學習算法也有所進步,使學習更加高效。例如,ReLU激活和dropout是2012年提交[156, 173]的關鍵算法組件,是廣泛用于加速學習的數學操作。當這些進步結合起來時,由此產生的模型以絕對誤差超過了僅次于其的提交,開始了計算機視覺的革命[173]。今天在自然語言處理方面的最新趨勢可以類似地視為核心算法創新[285],并擴展到大量數據和計算[43, 55],從而導致性能的可預測提升。在民主化機器學習的最前沿是機器學習系統[239]。這些系統包含并解決機器學習方法中足夠公式化的部分,使從業者能夠將時間集中在其他問題上。如果機器學習算法,計算能力和數據是支撐現代機器學習的支柱,那么機器學習系統就是用來將它們置于適當位置的工具。如今的系統包括用于數學表達式符號操作的功能,跨各種硬件平臺的可移植性,分布式執行,以及與常用實用程序和數學表達式一起預先打包的庫[11, 49, 96, 222]。
作為這篇論文的一部分,我們探討了現代機器學習技術棧中新功能或修訂功能的幾個方向,重點關注整個技術棧中數據的處理。研究數據很重要,因為在三個問題領域中,數據是最具動態性的 — 數據總是可以進一步優化以涵蓋更多樣本、更多特征或某些類型的行為,而模型(和計算)在處理某種類型的數據時必然是固定的。此外,對數據的優化可能導致應用程序的顯著增益,從而刺激數據為中心的AI研究[3]。然而,這并非輕而易舉,改變數據容易說難做。由于缺乏理論理解,對于任何新類型的機器學習任務,從業者可能必須測試哪種數據組合效果最好。如果沒有適當的數據抽象,任務中的單一變化可能導致從業者必須手動評估和調整應用程序數據的特征。調整數據的方面不僅是單調乏味的,而且根據數據評估模型以及系統性能的行為需要機器學習和系統的專業知識,而這些專業知識通常是由不同群體的人擁有的。如果機器學習系統的目標是支持從業者解決重復問題,那么可以合理地期望機器學習系統能夠使數據的快速配置和原型制作成為可能。簡而言之,數據管道應該是機器學習系統棧中的一等公民 - 它們不應該是作為附加工具支持模型和計算的事后考慮。本章其余部分的組織結構如下。首先,我們概述機器學習系統是如何構建和評估的(§1.1)。然后,我們概述機器學習中的工作負載是如何發生根本性變化的,這使得社區分裂成兩個部分(§1.2),并激勵對機器學習系統進行根本不同的處理。然后我們轉向論文的動機,重新審視數據在當前機器學習環境中的重要性(§1.3)。最后,我們介紹論文陳述并概述本文的章節(§1.4)。熟悉當前機器學習和機器學習系統狀態的讀者可以跳過第1.1節和第1.2節的“教科書材料”,并直接前往第1.3節。
機器學習算法廣泛應用于具有社會高風險的決策環境中,如兒童福利、刑事司法、醫療保健、招聘和消費者貸款。近期的歷史已經揭示出許多這些算法證明不可靠或不公平的例子。本論文提出了一種遵循原則的方法,用于在社會高風險環境中使用機器學習,該方法由三大支柱引導:有效性、公平性和監管。我們借鑒了包括統計學、機器學習和社會科學在內的各個領域的方法,開發出處理數據挑戰和復雜偏見的新方法,這些偏見嵌入在社會技術系統中。我們通過開發考慮到選擇偏差、混淆和bandit反饋的算法風險評估方法,解決了挑戰算法決策支持系統有效性的數據問題。我們對整個系統中使用算法進行決策的偏見進行了因果審計。在整個過程中,我們提出了使用雙重穩健技術進行偏差修正的新方法。我們使用來自阿利根尼縣人力服務部、澳大利亞聯邦銀行和斯坦福公開警察項目的數據,展示了在兒童福利、消費者信貸和刑事司法環境中的實證結果。 機器學習越來越多地被用于做出高風險決策,例如兒童福利、刑事司法、消費者貸款、教育和醫療保健(Saxena等人,2020;Vaithianathan等人,2017;Raghavan等人,2020a;Chouldechova,2017;Cattell等人,2021)。這些決策影響未來的健康和經濟機會,總的來說,它們塑造了我們的社會結構。通常,這類任務可用的數據豐富,但往往噪音大,存在偏見或不完整。如果不能妥善處理這些數據問題,可能會對弱勢和歷史上邊緣化的群體造成不成比例的傷害(Barocas和Selbst,2016b;Obermeyer等人,2019a;Coston等人,2020b, 2021a)。在這篇論文中,我們開發了統計方法和一個審議框架,用來識別并解決挑戰機器學習在重要環境中負責任使用的數據問題。當機器學習被用于高風險決策時,一個常見的方法是應用標準的監督學習范式。在這種方法下,人們識別出一個感興趣的結果(通常是實際感興趣的結果的代理),然后使用其他變量作為預測因子,構建一個對這個結果的預測模型。當數據集并不代表機器學習工具將要部署的目標人群,且預測結果與決策任務相關的結果可能大相徑庭時,這種標準方法通常并不適合,這在現實世界的應用中是常見的(Mullainathan和Obermeyer,2021;Coston等人,2020b;Fogliato等人,2021;Wang等人,2022)。此外,計算在保留的集合上的測試指標的標準性能評估方法,往往不能對目標人口的性能提供有效的評估(Kallus和Zhou,2018b;Coston等人,2021b)。
這篇論文的一個核心原則是,我們必須確保我們打算測量的內容(例如,我們希望機器學習工具預測的內容,或者我們希望評估衡量的內容)與方法實際測量的內容保持一致。這種屬性被稱為有效性(Coston等人,2023)。未處理的數據問題,如選擇偏見或缺失數據,可能導致不一致,使機器學習工具無效。我們討論了在兒童福利、刑事司法和消費者貸款環境中這些問題的例子,并提出了解決方法。我們展示了有效性和我們的第二個原則,公平性,之間的關系,公平性要求機器學習工具不無理由地使某些人口群體比其他群體獲得優勢。我們表明,通常是弱勢或歷史上處于劣勢的人群最有可能在可用數據中被忽視或被誤解。我們提出了可靠評估算法中人口偏見的方法,以及在算法工具部署的更廣泛環境中審查有效性和公平性的方法。在實踐中有效地分析有效性和公平性需要治理工具,提供保護和結構化流程,以謹慎設計和評估機器學習工具。我們開發了一個框架,指導圍繞威脅預測算法的有效性和合法性的常見問題進行審議。本文提出的方法構成了對于重大決策的標準機器學習范式的一種替代方法。我們的原則性方法明確了目標人口和目標結果,調整了數據樣本和目標人口之間的任何差異,做出了合理的假設以確定目標結果和評估指標。我們開發了高效的方法,使用來自因果推斷的影響函數技術來估計這些量,這是一種適用于決策可以改變下游結果的決策環境的學科。我們為我們的方法提供了理論分析,說明如何適當地量化不確定性。本論文提出的方法套件組成了一套用于模型構建、評估和公平性評估的負責任使用的工具包。
我們在§ 0.1中描述了問題設定和符號。接下來的三個部分考慮在缺失數據的性質不同假設下如何獲得有效的預測、評估和公平性評估。§ 1描述了當我們已經測量了所有共同影響決策和感興趣結果的混淆因素時的方法。在許多決策支持環境中,混淆因素可能難以在運行時測量并輸入到預測模型中,但在離線數據集中可能仍然可用于訓練和評估。§ 2為這種“運行時混淆”設置提供了方法。§ 3通過拉舍蒙效應的視角深入研究公平和公正的問題,拉舍蒙效應是一種實證現象,即多種模型在總體上達到可比較的好的表現,但在個別預測上卻明顯不同。§ 4描述了一個框架,用于在算法設計中審查有效性,并最終決定是否在高風險環境中部署一個工具。擴大我們的范圍到算法被訓練和使用的更廣泛的背景中,§ 5提出了一個對刑事司法系統中人類決策的種族偏見進行回顧性統計審計的方法。我們在本節提出的方法也展示了如何在對社會有重大影響的領域使用機器學習來評估這些系統以及在其中行使權力的行動者。我們將本論文中提出的工作與我們的三個指導原則:有效性、公平性和治理,聯系起來。
神經網絡因其在各種應用中的出色表現而受到了廣泛的關注。兩個方面特別引人注目:一方面,神經網絡似乎比傳統方法具有更優越的逼近能力。另一方面,盡管訓練任務是一個高度非凸的優化問題,神經網絡仍然可以成功地通過基于梯度的算法進行訓練。本文推進了這兩種現象背后的理論。在逼近的方面,我們開發了一個框架,證明神經網絡可以打破所謂的維度詛咒,在不同的高維逼近問題中,涉及的神經網絡的復雜性最多以維度的多項式增長。我們的方法基于目錄網絡的概念,它是前饋神經網絡的一種推廣,在其中非線性激活函數可以在各層之間變化,只要它們是從預定義的函數目錄中選擇的。因此,目錄網絡構成了連續函數的豐富家族。我們證明,在目錄的適當條件下,這些目錄網絡可以有效地用整流線性單元(ReLU)類型的網絡進行逼近,并提供了給定逼近精度所需參數數量的精確估計。作為一般結果的特例,我們得到了可以在沒有維度詛咒的情況下用ReLU網絡逼近的不同類別的函數。在優化的方面,我們通過研究損失表面,探討了神經網絡和基于梯度的訓練算法之間的相互作用。一方面,我們發現由于網絡結構和算法初始化之間不幸的相互作用,成功的學習受到了阻礙。更準確地說,我們展示了,如果ReLU網絡的深度遠大于其寬度,且隨機初始化的數量不足夠快速增加到無窮大,那么隨機梯度下降法將無法收斂。另一方面,我們通過進行景觀分析和應用動態系統理論,建立了積極的結果。這些積極的結果處理了具有一個隱藏層和ReLU、漏ReLU或二次激活的神經網絡的真實損失的景觀。在所有三種情況下,我們在目標函數是仿射和一維的情況下,提供了關鍵點的完全分類。接下來,我們證明了動態系統結果的新變體,一個中心穩定流形定理,其中我們放寬了通常施加的一些規律性要求。我們驗證了具有一個隱藏層的ReLU網絡適應這個新框架。在我們的關鍵點分類的基礎上,我們推斷出梯度下降避開了大部分鞍點。我們進一步證明,如果初始化足夠好,就能收斂到全局最小值,這通過限制損失的明確閾值來表達。
多人工智能任務的改進。隱變量模型提供了一個優雅的框架,以新的功能來增強生成算法。然而,在自然語言處理領域,尚不清楚如何最好地將潛變量與強大且無處不在的語言模型相結合。
本文探索先進的優化方法和潛變量模型的設計,以完成自然語言處理任務。全文共分為三個部分。在第一部分中,我們提出了隱變量語言模型的三種結構。本文討論了結構化的潛空間,可以結構化為大型知識庫(如維基百科)或以潛文本生成過程為特征。在第二部分中,我們深入研究變分推理和優化的主題。本文提出一種新的離散潛變量梯度估計器OVIS。我們發現,即使使用OVIS,優化深度潛變量模型仍然具有挑戰性。本文根據經驗數據表明,Rényi散度變分推理可以應用于規避一些學習問題。在第三部分中,我們重點解決醫療問答和信息檢索任務。實驗提示預訓練大型語言模型(GPT-3)生成逐步的問題解決方案。本文報告稱,在許多情況下,GPT-3可以推理具有挑戰性的醫學問題。提出了一個新的框架VOD,用于用變分推理學習檢索增強語言模型。本文應用VOD來優化由大量維基百科增強的問答系統,并報告了在醫療問答基準上的最先進性能。最后,將得到的模型應用于罕見病診斷領域的信息檢索任務。
由于醫療數據的多樣性和數據收集和注釋的費用高昂,數據不足和異質性是表示學習在醫學機器學習中的挑戰。為了從如此有限和異構的醫療數據中學習可泛化的表示,我們的目標是利用各種學習范式來克服這個問題。在本文中,我們系統地探索了有限數據、數據不平衡和異構數據的機器學習框架,使用跨領域學習、自我監督學習、對比學習、元學習、多任務學習和魯棒學習。我們提出了不同醫療應用的研究,如臨床語言翻譯、超聲圖像分類和分割、醫學圖像檢索、皮膚診斷分類、病理元數據預測和肺部病理預測。
//dspace.mit.edu/handle/1721.1/144745
我們首先關注有限的數據問題,這在醫學領域很常見。我們利用具有相同錨點的無監督嵌入空間對齊方法,在有限且不配對的醫學語料庫中學習臨床語言翻譯的跨領域表示,并使用統計語言建模進行句子翻譯。使用臨床正確性和可讀性的指標,開發的方法在單詞和句子級別的翻譯中優于基于詞典的算法。為了更好地學習有限數量的超聲圖像的數據表示,我們隨后采用了自我監督學習技術,并將相應的元數據作為多模態資源集成,以引入歸納偏差。我們發現,與標準遷移學習方法相比,通過開發的方法學習的表示可以獲得更好的下游任務性能,如超聲圖像質量分類和器官分割。
接下來,我們放大數據不平衡問題。本文探索了對比學習的用途,特別是孿生網絡,從不平衡的眼底成像數據集中學習表示,用于糖尿病視網膜病變圖像檢索。與標準的監督學習設置相比,我們使用從Siamese網絡學習的表示獲得了可比較但可解釋的結果。我們還利用極不平衡的長尾皮膚圖像數據集進行皮膚病分類的元學習。我們發現,使用元學習模型和使用常規類不平衡技術訓練的模型集成可以產生更好的預測性能,特別是對于罕見的皮膚病。
最后,針對異構醫療數據,我們開發了一個多模態多任務學習框架來學習病理元數據預測的共享表示。我們利用多模態融合技術集成幻燈片圖像、自由文本和結構化元數據,并采用多任務目標損失來引入學習時的歸納偏差。這比標準的單模態單任務訓練設置產生更好的預測能力。我們還應用魯棒訓練技術來學習可以解決兩個胸部x射線數據集分布轉移的表示。與標準訓練相比,我們發現當存在偏移時,魯棒訓練提供了更好的容忍度,并學習了肺病理預測的魯棒表示。本文的研究并不詳盡,但對在有限和異構的醫療數據設置下利用機器學習幫助臨床決策進行了廣泛的了解。我們還提供了見解和警告,以激發利用低資源和高維醫療數據的機器學習的未來研究方向,并希望對現實世界的臨床產生積極的影響。
在本文中,我們研究了生成模型的幾個重要標準,并引入評價指標來解決每個問題,同時討論了生成模型評價中的上述問題。特別是,我們研究了測量生成輸出的感知現實主義的挑戰,并引入了一個人在循環中的評估系統,利用心理物理學理論,以人類知覺文獻和眾包技術為基礎,構建一個高效、可靠、并采用一致的方法比較不同的模型。除此之外,我們還分析了解纏性(Disentanglement),這是評估已學習表示的一個日益重要的特性,通過使用持久同調測量生成模型數據流形的內在特性。