稀疏性在機器學習中扮演著關鍵的角色,原因有幾個,包括可解釋性。可解釋性是由從業者或科學家尋求的。事實上,一方面,可解釋性在醫療健康等實踐中可能是關鍵,在這些實踐中,黑盒模型不能用于為患者開具治療處方。另一方面,可解釋性對于理解使用機器學習建模的現象(如等離子體電磁發射)至關重要。除了可解釋性,稀疏性還有其他一些重要的應用,如提高模型的預測能力,降低運營和投資成本。 整數優化在處理稀疏性的方法概念中是一個非常有效的工具。它為構建稀疏模型提供了一個嚴格的框架,并已被證明比其他方法(包括使用稀疏誘導正則化規范的方法)提供了更精確和稀疏的模型。本文主要研究整數優化在稀疏性問題中的應用。
我們提供了稀疏建模的兩個應用。第一個是關于混合整數優化稀疏回歸在激光誘導擊破光譜分析技術中的應用。我們在化學計量學中建立了一種稀疏和魯棒模型的方法,并在各種類型的礦物礦石上進行了測試。MIO方法優于專家的預測,同時提供了與??????????相比顯著稀疏的模型。由于??2在某些情況下達到的值高于0.99,據我們所知,這個應用程序是第一個帶來經驗證據的應用程序,證明在自然界中存在真正的支持,因為優化社區一直在質疑在現實生活中的應用程序中存在這樣的概念。第二個應用與COVID檢測和稀疏分類有關。我們提出了一種基于光譜的快速、簡單的檢測方法。這種新方法建立在機器學習能力的基礎上,可以在一分鐘內完成診斷,不使用任何試劑,達到接近PCR的精確度。稀疏方法能夠檢測SARS-CoV-2 RNA和蛋白質的3D結構中的特定特征。
鑒于主成分分析在我們的研究和機器學習中的重要性,我們也提供了一種解決稀疏主成分分析問題的新方法。該方法是第一個一步生成多個稀疏主成分的方法,而現有的技術依賴于壓縮迭代生成主成分。提出的方法(GeoSPCA)生成高質量的解決方案,將壓縮技術解釋的方差提高了一個數量級以上。
**數字化、大規模和高通量技術的出現產生了前所未有的數據,為今天的藥物發現利用機器學習(ML)提供了一個極好的機會。**通過識別ML中的相關問題和合適配置,我們可以將這些不斷增加的數據轉化為發現更好的藥物,并縮短藥物開發周期,從而為以前無法治愈的疾病提供更便宜的藥物和治療選擇。**本文提出了四種機器學習方法來解決當今藥物研發流程中的不同挑戰,以快速為臨床試驗提供更可行的藥物候選,并最終改善所有人的生活質量。**本文提出一種批均衡方法,利用風格遷移生成對抗網絡來調節細胞圖像中常見的批效果,以便可以更有效地將它們用于高通量體外篩選。描述了一個能量啟發的SE(3)等變模型,以高效和準確地估計分子構象的分布,從而可以提高基于硅結構的篩選的準確性。提出了一個用于目標感知分子生成的3D全原子擴散框架,可以探索現有篩選庫之外的新化學,并提出新的藥物候選以結合挑戰性疾病的靶點。描述了一種反應預測算法,將基于規則的系統(整數線性規劃)和數據驅動的方法(圖神經網絡)結合在一起,可以從所描述的篩選管道或生成模型中有效地合成候選藥物。最后,我們使用圖神經網絡對氣味分子(而不是藥物)進行建模,并找到許多物種共享的通用氣味空間。我們假設,新陳代謝的生物學驅動了這種趨同進化,我們對這些與不同代謝過程相關的揮發性有機化合物的建模能力,可能對我們如何理解動物嗅覺和研究人類健康有很大的影響。綜上所述,本文展示了機器學習在大數據時代改變藥物發現和人類健康的潛力。
盡管數據規模在增長,但我們希望將學習算法的許多應用都受到數據數量和質量的限制。生成模型提出了一個框架,可以自然地將先驗信念與現實世界的數據結合起來。生成式方法的核心是概率推理的挑戰,或估計給定觀測的潛變量。這一挑戰催生了涵蓋多種統計技術的豐富研究領域。最近,深度學習方法被用來解決推理查詢,被恰當地命名為深度推理。在我的論文中,我將探索深度推理的擴展,以應對現實世界的稀疏性和效率的挑戰。我將介紹實際應用的案例研究,其中深度推理在以前的工作上取得了相當大的改進。
本文主要圍繞三個部分展開。我們介紹了生成模型和深度推理的背景,重點是現代變分方法。第一部分將提出新的泛化推理算法,以對不同的稀疏性概念(如多模態數據、缺失數據或計算約束)具有魯棒性。其次,我們研究了元平攤推理,或“推斷如何推斷”。一種雙平攤推理算法將能夠廉價地解決一個新的生成模型的推理查詢。我們將展示一種新的算法來重新利用掩碼語言建模來實現這一點。
第三,我們提出了深度推理在教育中的兩個現實應用:(a)在項目反應理論和相關心理測量模型下估計學生的能力,(b)為學生學習解決編程問題推理教育反饋。總之,這些貢獻展示了深度推理在教育中的豐富性和實用性,以及在現實世界中更廣泛的應用。
我們探索機器學習(ML)和因果推理之間的關系。通過相互借鑒,我們專注于改進每一個方面。機器學習已經成功地應用于許多問題,但由于缺乏強有力的理論保證,導致了許多意想不到的失敗。當應用于不同的分布時,在訓練分布上表現良好的模型往往會崩潰;微小的擾動可以“欺騙”訓練好的模型,并極大地改變它的預測;訓練算法中的任意選擇會導致截然不同的模型;等等。另一方面,雖然因果推理方法的發展已經取得了巨大的進步,有很強的理論保證,但現有的方法通常不能應用于實踐,因為它們假設有大量的數據。研究ML和因果推理的交集,我們直接解決了ML中缺乏魯棒性的問題,并提高了因果推理技術的統計效率。
本論文工作背后的動機是改進用于指導決策的預測模型和因果模型的構建方法。自始至終,我們主要關注醫療健康上下文中的決策制定。在ML的因果關系方面,我們使用ML工具和分析技術來開發統計上有效的因果模型,可以指導臨床醫生在兩種治療方法之間選擇。在ML的因果關系方面,我們研究如何使用產生觀測數據的因果機制知識來有效地正則化預測模型,而不引入偏差。在臨床環境中,我們展示了如何使用因果知識來建立穩健和準確的模型來預測傳染性感染的傳播。在非臨床環境中,我們研究了如何使用因果知識來訓練在圖像分類中對分布轉移具有魯棒性的模型。
在過去的幾年里,深度學習和醫學的交叉點取得了快速的進展,特別是在醫學圖像的理解方面。在這篇論文中,我描述了三個關鍵方向,它們為醫學圖像理解的深度學習技術的發展帶來了挑戰和機遇。首先,討論了專家級醫學圖像理解算法的開發,重點是遷移學習和自我監督學習算法,旨在在低標記醫學數據設置中工作。其次,討論了高質量數據集的設計和管理及其在推進算法開發中的作用,重點是使用有限手動注釋的高質量標簽。第三,討論了醫學圖像算法的真實世界評估,以及系統分析臨床相關分布變化下的性能的研究。總之,本論文總結了每個方向的關鍵貢獻和見解,以及跨醫學專業的關鍵應用。
圖:CheXpert 任務是預測來自多視圖胸片的不同觀察結果的概率。
圖:對比學習最大化同一胸部 X 射線圖像的不同增強所生成嵌入的一致性。
未來幾年,人工智能 (AI) 有望重塑醫學。人工智能系統將常規用于早期檢測疾病、改善預后并提供更成功的個性化治療計劃,同時節省時間和降低成本。在不久的將來,可以讀取胸部 X 光片或組織病理學切片的算法將為醫生管理工作清單,為無需亞專業培訓的臨床醫生提供決策支持,并為人工智能驅動的遠程醫療服務提供支持。在醫院之外,人工智能技術將用于持續監測數百萬患者的健康狀況,并以前所未有的規模將患者安排就診和跟進。
近年來,深度學習是一種人工智能形式,其中神經網絡直接從原始數據中學習模式,在圖像分類方面取得了顯著成功[128]。因此,醫學 AI 研究在嚴重依賴圖像理解的專業領域蓬勃發展,例如放射學、病理學和眼科 [137]。過去幾年,算法的進步和數據集的創建推動了這一進步。在算法方面,卷積神經網絡架構和訓練程序的改進使醫學成像應用取得了進展。此外,這些算法的成功得益于對用于醫學成像的大型標簽數據集的管理。一些 AI 工具已經從測試轉向部署,清除了監管障礙并贏得了行政支持 [20]。批準公共保險報銷費用的醫療保險和醫療補助服務中心通過允許一些用于醫學圖像診斷的人工智能工具的首批報銷,促進了人工智能在臨床環境中的采用 [69]。然而,在回顧性數據集上成功理解醫學圖像的深度學習算法的數量與轉化為臨床實踐的數量之間仍然存在很大差距 [116]。
本論文提出,廣泛部署用于醫學圖像理解的深度學習算法存在三個關鍵技術挑戰。該領域面臨的第一個挑戰是,當前算法的開發側重于解決需要大量干凈數據的狹窄任務,而不是解決醫學中常見的具有噪聲或有限標簽數據的更廣泛任務。該領域面臨的第二個挑戰是用于訓練和驗證模型的數據集是小型、嘈雜和同質的,而不是大型、高質量和異構的。該領域面臨的第三個挑戰是,當前的研究在訓練算法的數據集分布的背景下驗證算法,而臨床部署需要在臨床相關的分布變化下評估算法性能。
本論文涵蓋了算法、數據集和研究方向的進步、挑戰和機遇。
在過去的幾年里,深度學習算法的一些初步成果可以達到醫學專家水平,做出臨床上重要的診斷,包括放射學、心臟病學、皮膚病學、眼科和病理學[139]。在第 2 章中,我描述了一種用于檢測胸部 X 射線疾病的算法開發,我們證明該算法的性能可以與專業放射科醫生相媲美。在第 3 章中,我描述了一種算法開發,該算法在專業心臟病專家的水平上通過心電圖檢測異常心律。在這兩種情況下,我還描述了使訓練端到端深度學習算法成為可能的大型數據集的集合。這些章節一起描述了胸部 X 射線判讀和心律失常檢測任務的專家級表現的首次展示。
算法開發的主要實際挑戰之一是它們依賴于手動、耗時的數據注釋。特別是對于需要大量注釋專業知識的生物醫學任務,開發監督深度學習算法所需的大規模數據標記尤其具有挑戰性。對于醫學成像,使用預訓練 ImageNet [55] 模型的遷移學習一直是在有限的標記數據設置中開發算法的標準方法 [180]。在第 4 章中,我描述了對 ImageNet 架構的性能和效率以及胸部 X 光解讀權重的首次系統研究。在第 5 章和第 6 章中,我還描述了自我監督對比學習如何實現醫學訓練模型的范式轉變,其中相對少量的注釋可以訓練高度準確的模型。這些章節描述了遷移學習和自我監督學習如何解決醫療環境中有限標記數據的算法挑戰。
大型、高質量的數據集在推動深度學習算法的應用和進步方面發揮著關鍵作用。在醫學領域,數據集管理需要與醫院管理員建立合作伙伴關系,建立安全處理和去識別數據的框架,以及數據組織和注釋的策略。在第 7 章中,我描述了胸部 X 射線照片數據集的管理和合成轉換,旨在評估 X 射線照片的算法性能,以在真實臨床環境中進行基準穩健性測試。在第 8 章中,我描述了包含組織微陣列載玻片的數據集的管理和注釋,以及來自癌癥病例的臨床和細胞遺傳學數據,以發現預后生物標志物。
對于醫學影像數據集,標注通常需要人工標注,成本高且難以獲得,而通過自動化方法獲取的標簽可能會產生噪音。在監督計算機視覺模型解讀醫學圖像的背景下,從自由文本放射學報告中高質量地自動提取醫學狀況至關重要。在第 9 章和第 10 章中,我描述了構建高質量放射學報告標記器的過程,這些標記器可以解決噪音和專家注釋的有限可用性。
雖然醫學圖像解讀中的大多數基礎工作已經在訓練它們的相同數據集分布上評估算法,但這些算法的部署需要了解它們在臨床相關分布變化下的性能。在第 11 章中,我以胸部 X 光解讀為例,描述了在存在未標記或訓練期間存在的疾病的情況下,對深度學習模型性能的系統評估。在第 12 章中,我描述了對不同胸部 X 光模型的系統研究,該模型應用于未經任何微調的智能手機胸部 X 光照片和外部數據集。
總體而言,本論文展示了深度學習醫學圖像解讀的進展,結合了以下方面的進步:(1)在大小標記數據集背景下的算法,(2)通過臨床知情管理和標記的數據集,(3)和研究系統地評估算法在臨床相關分布變化下的性能。
圖:實驗裝置概述
圖:測試了 8 種不同的胸部 X 光模型,應用于 (1) 胸部 X 光的智能手機照片和 (2) 沒有任何微調的外部數據集時的診斷性能。所有模型都由不同的團隊開發并提交給 CheXpert 挑戰賽,并在沒有進一步調整的情況下重新應用于測試數據集。
機器學習正在醫療健康等各種關鍵應用得到實施。為了能夠信任機器學習模型,并在它出現故障時修復它,能夠解釋它的決策是很重要的。例如,如果一個模型在特定的子群體(性別、種族等)上的表現很差,找出原因并解決它是很重要的。在本文中,我們研究了現有可解釋性方法的不足,并介紹了新的ML可解釋性算法,旨在解決一些不足。數據是訓練機器學習模型的材料。如果不返回最初訓練ML模型的數據,就不可能解釋ML模型的行為。一個基本的挑戰是如何量化每個數據源對模型性能的貢獻。例如,在醫療健康和消費市場,有人提出個人應因其產生的數據而得到補償,但對個人數據的公平估值尚不清楚。在本文中,我們討論了數據公平價值評估的原則框架; 也就是說,給定一個學習算法和一個性能度量來量化結果模型的性能,我們試圖找到單個數據的貢獻。本論文分為3個部分,機器學習的可解釋性和公平性,數據估值,以及用于醫療健康的機器學習——所有這些都被一個共同的目標聯系在一起,即使機器學習的使用對人類的福祉更負責。
在過去的20年里,基因組學、神經科學、經濟學和互聯網服務等許多領域產生了越來越多的大數據集,這些數據集有高維、大樣本,或者兩者兼之。這為我們從數據中檢索和推斷有價值的信息提供了前所未有的機會。同時,也對統計方法和計算算法提出了新的挑戰。一方面,我們希望建立一個合理的模型來捕獲所需的結構,并提高統計估計和推斷的質量。另一方面,面對越來越大的數據集,計算可能成為一個巨大的障礙,以得出有意義的結論。這篇論文站在兩個主題的交叉點,提出了統計方法來捕獲所需的數據結構,并尋求可擴展的方法來優化計算非常大的數據集。我們提出了一種可擴展的靈活框架,用于利用lasso/elastic-net解決大規模稀疏回歸問題; 提出了一種可伸縮的框架,用于在存在多個相關響應和其他細微差別(如缺失值)的情況下解決稀疏縮減秩回歸問題。分別在snpnet和multiSnpnet R包中以PLINK 2.0格式為基因組數據開發了優化的實現。這兩種方法在超大和超高維的英國生物樣本庫研究中得到了驗證,與傳統的預測建模方法相比有了顯著的改進。此外,我們考慮了一類不同的高維問題,異質因果效應的估計。與監督學習的設置不同,這類問題的主要挑戰在于,在歷史數據中,我們從未觀察到硬幣的另一面,因此我們無法獲得處理之間真正差異的基本真相。我們提出適應非參數統計學習方法,特別是梯度增強和多元自適應回歸樣條,以估計處理效果的預測器可用。實現被打包在一個R包causalLearning中。