機器學習有潛力革新生物學和醫療保健領域,為科學家和臨床醫生提供新工具進行研究,并決定對患者的正確治療。然而,盡管最近的表示學習方法給人一種普遍的黑箱解決所有問題的印象,但研究表明這并非一般情況。盡管模型可以以黑箱方式表現良好,但它們往往存在泛化能力低和對分布偏移敏感的問題。這凸顯了需要開發出考慮到下游應用的方法,并定制以將問題的對稱性納入模型架構的需求。這些歸納偏差對于新數據的性能以及當數據分布發生變化時模型保持穩健至關重要。然而,構建好的模型只是解決方案的一半。為確保模型能夠很好地轉化為臨床應用,他們也需要以這個目標為出發點進行適當的評估。//www.research-collection.ethz.ch/handle/20.500.11850/602440在這篇論文中,我在深入研究生物學、醫學和機器學習交叉處的結構化數據類型的同時,解決了上述問題。在算法貢獻方面,我首先提出了一種新的非線性降維算法,旨在保留多尺度關系。基因組測序的成本降低和測序單個細胞的能力導致生命科學中高維數據呈指數級增長。這樣的數據不能被直觀地理解,因此降維方法,能夠捕捉到生物學中存在的嵌套關系,成為必要工具。其次,我開發了適用于存在不規則采樣數據的臨床應用的方法。傳統的機器學習模型需要將此類數據轉換為固定大小的表示,或者在應用之前對缺失值進行插值。我提出了兩種適用于不規則采樣數據的方法,不需要進行此類預處理步驟。第一種是一種新的從MALDI-TOF光譜中提取峰值的核函數,而第二種是一種可以通過將它們描述為觀察集合應用于不規則采樣時間序列的深度學習模型。第三,我提出了一種擴展圖神經網絡的方法,允許模型考慮全局信息,而不是只要求節點與它們的鄰居交換信息。圖是藥理學的一個重要數據結構,因為它們經常用于表示小分子。第三,我展示了對圖神經網絡的擴展,允許模型考慮全局信息,而不是僅僅要求節點僅與它們的鄰居交換信息。圖是藥理學的一個重要數據結構,因為它們經常用來表示小分子。為了解決對這類模型的適當評估,我進行了一項關于醫療時間序列模型的詳細研究,重點在于它們在嚴重感染早期預測任務中轉移到其他數據集的能力。此外,我展示了傳統的評估圖生成模型的方法對超參數的選擇高度敏感,這可能導致性能估計偏差。總結來說,我的論文解決了許多在機器學習、醫療保健和生物學交叉點的問題。它演示了如何通過引入更多(領域特定)知識來改進模型,以及在評估這些模型時應關注的地方。
基于圖的學習側重于圖形結構數據的建模。其重要應用包括基于分子結構分析化學化合物、基于輻射傳感器網絡數據預測太陽能農場的產出、根據城市間的地理關系和社交網絡互動預測流行病爆發等。基于圖的學習算法已經迅速發展,解決了以下基本挑戰:
? 編碼圖中每個單獨節點和節點組合的豐富信息,也被稱為圖表示學習挑戰; ? 在圖只部分可觀察時恢復缺失的邊,也被稱為圖完成挑戰; ? 在標記節點非常稀疏的圖形設置中利用主動學習,也被稱為標簽稀疏挑戰; ? 提高在非常大的圖上進行訓練和推斷的可行性,也被稱為擴展挑戰。
本論文旨在通過以下主要貢獻從上述各個方面增強基于圖的機器學習:
用于二分圖邊緣預測的圖卷積矩陣分解:對于一類特定的圖,即二分圖,傳統的矩陣分解方法不能有效地利用節點兩組內的相似度測量等邊信息。因此,我們建議使用圖卷積來增強學習到的分解表示與結構化的邊信息,以獲得更好的預測精度。
使用圖神經網絡(GNNs)進行通用邊緣預測:雖然GNNs在節點分類中取得了很大成功,但在邊緣預測方面并沒有達到相匹配的性能水平。這種現象的一個可能解釋是GNNs中的潛在嵌入嚴重依賴于輸入節點特征,如果這些輸入特征質量不高,或者對于手頭的預測任務而言噪聲較大,那么就無法避免次優性能。我們建議通過結合使用傳統的GNN和Transformer模型來解決這個問題,這可以通過Transformer模型中的靈活位置嵌入來改進節點的嵌入。
用于節點分類的圖增強主動學習(Graph-AL):主動學習已被深入研究,以解決標簽稀疏問題,并已成功應用于文本/視頻/音頻數據,但沒有應用于圖。流行的主動學習策略可能不適用于圖。例如,基于密度的文檔選擇將所有候選文檔視為不相關的實例,忽略了輸入圖中節點之間的依賴結構。我們提出了第一個專為圖神經網絡量身定制的基于圖的主動學習方法,它同時考慮節點內部特征和節點間連接,以便在主動學習中進行節點選擇。
大規模基于圖的學習的各種實際應用:我們已將基于圖的學習應用于各種實際問題,包括基于多圖的協同過濾,跨語言的基于圖的遷移學習,基于圖的深度學習用于流行病學預測,圖增強節點分類,邊緣檢測和知識庫完成;在這些領域我們分別獲得了最先進的結果(Chang等,2017; Liu等,2017a; Wu等,2018b, c; Xu等,2018b)。
處理具有空間結構、時間依賴性或離散值的復雜數據類型通常是統計學和機器學習領域的一大挑戰。近年來,分析非標準數據類型的方法論和理論工作的需求日益增加,例如,分析收集到的蛋白質結構、基因相互作用、社交網絡或物理傳感器的數據。在這篇論文中,我將提出一種方法,并為分析兩種源于交互現象的離散數據提供理論保證,即時間點過程和圖。一方面,時間點過程是用于模擬事件數據的隨機過程,即作為時間或空間中的離散點出現的數據,在這些點上發生了某種現象。這些離散過程的一些最成功的應用包括在線消息、金融交易、地震和神經元峰值。這些過程之所以流行,主要是因為它們能夠模擬在時間上和空間上相距較遠的事件之間未觀察到的相互作用和依賴關系。然而,點過程的統計方法通常依賴于估計一個潛在的、未被觀察到的、隨機的強度過程。在這種情況下,設計靈活的模型和一致的估計方法通常是一項具有挑戰性的任務。
另一方面,圖是由節點(或代理)和邊(或鏈接)組成的結構,其中邊表示兩個節點之間的交互或關系。圖無處不在,用于模擬現實世界中的社交、交通和流動網絡,其中邊可以對應虛擬交換、地點之間的物理連接或地理區域間的遷移。此外,圖還用于表示時間序列之間的相關性和領先-滯后關系,以及隨機對象之間的局部依賴性。圖是典型的非歐幾里得數據的示例,需要制定適當的距離度量、相似性函數和生成模型。在深度學習社區中,圖在幾何深度學習領域變得特別受歡迎。結構和依賴性都可以通過時間點過程和圖來建模,盡管前者主要作用于時間域,而后者概念化空間交互。然而,一些統計模型結合了圖和點過程,以考慮空間和時間依賴性。例如,時間點過程已被用于模擬時間圖中邊和節點的生成時間。此外,一些多元點過程模型具有一個潛在的圖參數,用于控制過程組件之間的成對因果關系。在這篇論文中,我將特別研究這樣一個模型,稱為Hawkes模型,以及隨時間演變的圖。本論文旨在設計能夠在時間點過程和圖的背景下提供靈活性的推斷方法。這篇手稿以綜合形式呈現,包括四個主要章節和兩個附錄。第2章和第3章致力于研究廣義Hawkes點過程模型中的貝葉斯非參數推斷方法。第2章為現有方法提供理論保證,而第3章還提出、分析和評估了一種新的變分貝葉斯方法。其他主要章節介紹并研究了圖上的兩個估計問題的無模型推斷方法,即第4章的符號圖聚類問題的譜方法,以及第5章的時間圖上的網絡變化點檢測任務的深度學習算法。此外,第1章提供了關于點過程和圖的介紹和背景知識。第6章以對本手稿中的工作進行總結和批判性思考,并提出未來研究的建議來結束這篇論文。最后,附錄包含兩篇補充論文。第一篇位于附錄A,是在2020年3月COVID-19爆發后開始的,是將離散時間的Hawkes模型應用于大流行期間第一波的與COVID-19相關的死亡統計。第二篇工作位于附錄B,是在2021年于Amazon Research實習期間進行的,提出了一種用于多變量時間序列的異常檢測模型的可解釋性方法。
將數據表示為圖在生物化學、社交網絡、交通網絡、自動駕駛和天氣預測等諸多領域中越來越普遍。圖的流行源于其靈活的表達方式和模擬交互的內在能力。然而,這種豐富的表示方式在對數據建模時提出了獨特的挑戰,需要在盡可能多地獲取圖的信息與保持計算可行性之間找到平衡。經過幾十年的嵌入方法和圖核方法等多種方法的探索后,現在的焦點已轉向可以在圖上操作的深度學習方法的發展。這些方法,被稱為圖神經網絡(GNNs),通過鄰域聚合更新每個節點的表示。盡管GNNs在實證上取得了強大的成功,但最近的工作發現了它們的一些局限性,例如無法在圖中長距離傳輸信息,以及在區分非同構圖方面的限制。這些局限性直接與圖神經網絡的設計范例相關,該范例通過鄰域聚合模型圖中的局部結構信息。雖然這種范式編碼了相關和關鍵的信息,但如何最好地抵消由此產生的局限性仍然是一個開放的問題。
本論文探討了全局信息在生成有意義的圖表示中的作用,這些圖表示不受鄰域聚合問題的影響。我們并不尋求取代現今強大的鄰域聚合方法,而是研究全局信息如何補充或提供圖中局部信息的替代視角。 本論文的第一個貢獻是介紹一種將圖表示為高維曲線的新穎方式,我們稱之為過濾曲線。過濾曲線是一種通過在多個尺度上捕捉信息來生成圖的全局表示的有效方法,可以完全無參數。基于曲線的表示還帶來了其他好處,比如直接創建圖的向量表示的方法,使其可以與標準的機器學習算法一起使用。除了其效率和易用性之外,我們發現我們最簡單的過濾曲線形式已經達到了與更復雜、高度參數化的最新競爭方法競爭的實證性能,這證明了全局圖表示的價值。
第二個貢獻是研究如何結合全局和位置信息來改善圖表示。我們引入了一種結構感知的Transformer,它結合了來自消息傳遞GNNs的局部結構信息和來自Transformer架構的全局信息,這是第一個將Transformer和任意GNN集成到一個單一模塊的圖Transformer。我們通過引入一種新的結構感知自注意力計算來實現這一點,該計算基于子圖在感興趣的節點處的相似性過濾節點,使得基于結構和屬性相似性的比較更加穩健。此外,我們抽象這個公式,并提供一個可以定制到感興趣的領域的通用框架。我們的圖Transformer在幾個基準數據集上達到了最先進的性能,并且優于架構的僅全局和僅局部等效項,突顯了結合這兩種圖視角的潛力。 最后,第三個貢獻是對當前評估圖生成模型的過程的實證分析,該過程依賴于全局圖摘要統計和最大平均差異(MMD)。我們發現了社區采用的當前程序中的一些問題,這在最壞的情況下會導致偽結果,因此我們提出了一個修改后的工作流程來避免這些情況。
我們通過為將全局和局部信息結合在圖表示中的未來工作提供展望來結束這篇論文。隨著越來越多的新領域開始將它們的數據表示為圖,如何學習圖的有意義表示的范式可能會發生變化或需要新的方法。從這個角度來看,我們預期將全局信息融入圖表示的提出的方法將在圖學習的當前和未來應用中證明其實用性。
表示學習旨在從原始數據中提煉有用的知識,并將這些知識應用于廣泛的應用場景。這種不僅對選定任務有用,而且能推廣到新環境的信息提取能力是實現人工智能的關鍵一步。在這篇論文中,我們關注通過一種特定類型的生成模型得到的表示,即變分自編碼器(VAEs)。VAEs具有幾個理想的屬性。得益于使用變分推理和高斯后驗的便捷模型假設以及簡單的先驗,VAEs通常易于訓練并表現出快速收斂。概率建模方法使得VAEs能夠從原始數據中得到平滑的潛在表示(即,語義相似的數據樣本可能會被映射到潛在空間的相鄰區域)。VAEs將原始數據壓縮到一個更低維度的潛在空間。與原始數據相比,使用低維表示可以顯著降低內存和計算成本。憑借這些優勢,VAEs已廣泛應用于許多應用領域,包括機器人技術[1]、藥物發現[2]和數字內容創作[3]。盡管VAEs已經廣泛應用,但進一步提高VAEs的生成建模仍然是一個活躍的研究課題。在這篇論文中,我們關注VAE訓練中的兩個挑戰:1) 在具有高斯解碼器和簡單先驗模型的VAEs中,經常會遇到過度正則化的后驗分布;2) 自編碼函數可能導致嚴重的信息漂移,并在連續編碼過程中改變原始數據中的信息。針對這兩種現象,我們提出了解決方案。具體來說,我們優化高斯解碼器中的方差參數,以平衡ELBO目標中的競爭損失項。我們采用一個靈活的先驗模型,該模型在潛在空間中實現為一個VAE,以減輕過度正則化的影響。為了減少信息漂移,我們建議修改ELBO目標,加入一個一致性損失,以懲罰這種漂移。我們證明了這些提議可以有效解決之前確定的挑戰,并提高VAEs的似然得分。除了與改進VAEs相關的貢獻外,我們還展示了VAEs在兩個重要機器學習應用中表示學習的能力。首先,我們展示了VAE壓縮復雜高維數據的能力是實現異常檢測良好性能的關鍵。我們設計了一個VAE-LSTM異常檢測系統,可以準確地識別時間序列中的異常效果。其次,我們展示了結合VAE模塊的分類器可以給出更好的校準預測。這是因為VAEs能夠在后驗分布的擴散中表達相似數據樣本之間的不確定性,以及識別出分布樣本的能力。
**最近機器學習方法的大部分成功都是通過利用過去幾年產生的大量標記數據而實現的。**然而,對于一些重要的實際應用來說,如此大規模的數據收集仍然是不可行的。這包括機器人、醫療健康、地球科學和化學等領域,在這些領域獲取數據可能既昂貴又耗時。在本文中,我們考慮三個不同的學習問題,其中可以收集的數據量是有限的。這包括在在線學習期間限制對標簽、整個數據集和生成經驗的訪問的設置。本文通過采用序列決策策略來解決這些數據限制,這些策略在收集新數據和根據新獲得的證據做出明智的決策之間迭代。**首先,解決標簽獲取成本較高時如何高效地收集批量標簽的問題。**概率主動學習方法可用于貪婪地選擇信息量最大的待標記數據點。然而,對于許多大規模問題,標準的貪心算法在計算上變得不可行。為緩解這個問題,本文提出一種可擴展的貝葉斯批量主動學習方法,其動機是近似模型參數的完整數據后驗。
**其次,我們解決了自動化分子設計的挑戰,以加速對新藥物和材料的搜索。**由于迄今為止只探索了化學空間的一個小區域,可用于某些化學系統的數據量是有限的。本文通過將3D分子設計問題制定為強化學習任務,克服了生成模型對數據集的依賴,并提出了一種對稱感知策略,可以生成用以前方法無法實現的分子結構。
**最后,我們考慮了如何在不同任務中有效地學習機器人行為的問題。**實現這一目標的一個有希望的方向是在不同的任務上下文中泛化局部學習的策略。上下文策略搜索通過顯式地將策略約束在參數化上下文空間上,從而提供數據高效的學習和泛化。進一步構建上下文策略表示,在各種機器人領域實現更快的學習和更好的泛化。
稀疏性在機器學習中扮演著關鍵的角色,原因有幾個,包括可解釋性。可解釋性是由從業者或科學家尋求的。事實上,一方面,可解釋性在醫療健康等實踐中可能是關鍵,在這些實踐中,黑盒模型不能用于為患者開具治療處方。另一方面,可解釋性對于理解使用機器學習建模的現象(如等離子體電磁發射)至關重要。除了可解釋性,稀疏性還有其他一些重要的應用,如提高模型的預測能力,降低運營和投資成本。 整數優化在處理稀疏性的方法概念中是一個非常有效的工具。它為構建稀疏模型提供了一個嚴格的框架,并已被證明比其他方法(包括使用稀疏誘導正則化規范的方法)提供了更精確和稀疏的模型。本文主要研究整數優化在稀疏性問題中的應用。
我們提供了稀疏建模的兩個應用。第一個是關于混合整數優化稀疏回歸在激光誘導擊破光譜分析技術中的應用。我們在化學計量學中建立了一種稀疏和魯棒模型的方法,并在各種類型的礦物礦石上進行了測試。MIO方法優于專家的預測,同時提供了與??????????相比顯著稀疏的模型。由于??2在某些情況下達到的值高于0.99,據我們所知,這個應用程序是第一個帶來經驗證據的應用程序,證明在自然界中存在真正的支持,因為優化社區一直在質疑在現實生活中的應用程序中存在這樣的概念。第二個應用與COVID檢測和稀疏分類有關。我們提出了一種基于光譜的快速、簡單的檢測方法。這種新方法建立在機器學習能力的基礎上,可以在一分鐘內完成診斷,不使用任何試劑,達到接近PCR的精確度。稀疏方法能夠檢測SARS-CoV-2 RNA和蛋白質的3D結構中的特定特征。
鑒于主成分分析在我們的研究和機器學習中的重要性,我們也提供了一種解決稀疏主成分分析問題的新方法。該方法是第一個一步生成多個稀疏主成分的方法,而現有的技術依賴于壓縮迭代生成主成分。提出的方法(GeoSPCA)生成高質量的解決方案,將壓縮技術解釋的方差提高了一個數量級以上。
醫院信息系統中電子病歷(EHR)的廣泛采用推動了定義大型數據庫,這些數據庫將各種類型的數據分組,如文本臨床記錄、縱向醫療事件和表格式的病人信息。然而,這些數據記錄只在醫療咨詢或住院期間填寫,這取決于病人的健康、狀態和當地的習慣。一個能夠利用在不同時間尺度上收集的不同類型的數據系統,對于重建病人的健康軌跡、分析他的歷史,并因此提供更好的臨床護理至關重要。這篇論文的工作解決了醫療數據處理的兩個主要挑戰:a)學習表示連續就診之間不規則時間的醫療觀察序列;b)優化從臨床記錄中提取醫療事件。我們的主要目標是設計一個病人健康軌跡的多模態表示,以解決臨床預測問題。我們的第一項工作是建立一個不規則醫療時間序列建模的通用框架,以評估在表示病人的健康軌跡時考慮醫療事件之間的時間間隔的重要性。為此,我們對順序神經網絡和不規則時間表示技術進行了比較研究。臨床目標是利用法國數據庫CaR′eDIAB(Champagne Ardenne R′eseau Diabetes)中1型糖尿病患者的HbA1c測量歷史來預測視網膜病變并發癥。研究結果顯示,基于注意力的模型與時間間隙的軟一熱表示相結合,導致AUROC得分88.65%(特異性85.56%,敏感性83.33%),與基于LSTM的模型相比,提高了4.3%。在這些結果的激勵下,我們將我們的框架擴展到較短的多變量時間序列,并預測了公開的MIMIC-III數據集中危重病人的院內死亡率。所提出的架構,即分層時間感知轉化器(HiTT),將AUROC得分比普通轉化器的基線提高了5%。在第二步,我們對從臨床記錄中提取相關的醫療信息以豐富病人的健康軌跡感興趣。特別是,基于Transformer的架構在醫療信息提取任務中顯示出令人鼓舞的結果。然而,這些大型模型往往需要一個大型的注釋語料庫。這一要求在醫學領域很難實現,因為它需要獲得私人的病人數據和高度的專家注釋者。為了降低注釋成本,我們探索了主動學習策略,這些策略在許多任務中都被證明是有效的,包括文本分類、信息提取和語音識別。除了現有的方法,我們定義了一個混合加權不確定采樣(HWUS)的主動學習策略,該策略利用了基于轉化器的方法學到的上下文嵌入來衡量樣本的代表性。一個使用公開的i2b22010挑戰數據集的模擬研究表明,我們提出的指標將注釋成本降低了70%,以達到與被動監督學習相同的性能分數。最后,我們將多變量醫療時間序列和從MIMIC-III數據庫的臨床筆記中提取的醫療概念結合起來,訓練一個基于多模態的變壓器架構。院內死亡率任務的測試結果顯示,在考慮額外的文本信息時,改進了5.3%。這篇論文通過減輕偶發醫療記錄的負擔和對自由文本筆記的人工注釋,對病人的健康軌跡表示做出了貢獻。簡而言之,本研究有三個實際貢獻:(1)支持電子健康系統,如報告、推理和有效決策,以利于整個病人管理。(2) 通過促進最先進的深度學習時間模型的發展和從臨床自由文本資源中收集豐富的注釋語料,使醫學信息學的研究受益。(3) 旨在通過開發一個有效的基于多模態的Transformer架構,以實現準確的健康軌跡表示,以及一個創新的獨立于領域的AL查詢策略,推進醫學領域的機器學習研究。
近年來,由于電子醫療記錄(EHR)在醫院信息系統中的廣泛采用,醫療數據的可用性得到了提高。這些記錄儲存了病人在醫院就診或住院期間與醫療機構之間的所有交易信息。EHRs結合了三種類型的功能。第一類是結構化數據(如病人的年齡、入院日期、住院時間、測量值和離散的醫療代碼),第二類是半非結構化數據,由儲存特定信息的簡短自由文本欄組成(如醫生意見。第三類是非結構化數據,是指由醫生寫的敘述性臨床筆記,報告病人的狀態和他住院或就診期間發生的醫療事件(包括家族史、診斷、疾病、手術和藥物)。電子記錄的第一個作用是在更短的時間內提供有關病人的最新信息,并通過促進醫療工作者之間的信息交流,協助醫療工作者提供更高質量的護理。此外,這些集中式系統通常長期部署在一個或一組醫療中心,從而形成一個具有數年病史的廣泛的病人記錄數據庫。這些數據集是大規模統計分析的豐富信息來源,代表了彌合醫學分析和機器學習技術之間差距的機會,而機器學習技術往往需要大量的觀察數據來訓練并達到最佳性能。因此,一些研究發現,這些數據的次要用途是進行預測性分析,以更好地了解疾病的演變,并建立健康監測系統,幫助醫生為病人提供更好的護理[1]。特別是,深度學習方法已經成為在自然語言處理(NLP)[2, 3, 4]、圖像分析[5, 6]和時間序列建模[7, 8, 9]等不同領域開展預測任務的相關選擇。此外,大型私人數據倉庫的建設[10, 11, 12]和MIMIC III或i2b2等開源醫學數據庫的發布[13, 14],使研究人員能夠采用和調整這些方法來解決臨床預測問題,如風險預測[15, 16, 17]、干預建議[11, 18]、疾病進展[19, 20]或病人分型[10, 21]。這些方法大多集中在對一種類型的輸入數據進行建模,可以是表格、文本、縱向或圖像,而其他方法[22, 23, 24]則結合了幾種類型,并表明全面的病人表述有助于獲得更高的分數。
醫學預測任務的有效建模必須考慮處理現實世界臨床數據庫中包含的高度可變的觀察數據的挑戰。我們將這些挑戰總結為六類:保護病人隱私、小而不完整的數據集、經濟有效的注釋過程、非標準化的數據結構、不規則的健康軌跡和多模式數據。事實上,電子病歷包含了關于病人及其病情的高度敏感的個人信息。利用這些數據進行研究需要一個去識別的步驟,以保護病人的敏感屬性,同時分享與深度學習研究相關的信息數據。此外,對敏感數據的保護和不存在一個從多個醫療中心收集數據的集中系統,導致了每個醫院特有的小數據集的定義。這些小數據集限制了定義高性能和可推廣的基于深度學習的預測模型的研究能力[25]。深度學習方法的一個特殊要求是收集有注釋的數據,指導這種復雜模型的監督學習過程。當考慮到臨床數據時,這個過程是具有成本效益的,因為它需要有足夠的醫學知識的高級專家,導致訓練集更小。另一方面,醫院使用不同的標準來組織其信息系統中的醫療數據,并使用不同的生物醫學本體論[26, 27]來對疾病、程序和治療等概念進行分類。這些系統的差異對于設計可在不同醫療系統中部署的通用模型是一個額外的障礙。即使考慮到統一的數據源,時間的不規則性也是這種現實世界臨床數據的另一個常見現象。事實上,醫療觀察的記錄是偶發的,取決于病人對醫院的訪問,產生的護理歷史因人而異,取決于每個病人的健康狀態和當地的習慣。因此,產生的數據包括不規則的健康軌跡,其長度不一,連續觀察之間的時間也不同。最后,健康軌跡中的每一個時間點都代表著一個護理事件,其中有各種類型的數據(如文本報告、治療處方、實驗室測試單、實驗室結果,以及醫療參數、診斷和行政代碼的記錄),這些數據是由幾個護理提供者在病人管理期間產生的。在一個通用模型中利用所有這些不同的類型是具有挑戰性的,因為它需要設計一個多模式系統,能夠從每個條目中學習重要的信息,并避免數據冗余。
在對單一或多種類型的數據進行建模時,無論是圖像、文本還是縱向數據,都有一些研究工作發表,以解決醫療數據的挑戰。為了保護病人的個人信息,Andrew等人[28]分析了應用于結構化EHRs數據的多種隱私保護技術(如同態加密和差分隱私),用于計算深度學習的預測分數。此外,保護臨床筆記文本中的敏感信息也是一個活躍的研究領域,yang等人[29]設計了一個系統的回顧,總結了為自動去識別而提出的深度學習方法。為了解決小數據集的限制,一些工作提出了基于轉移學習的技術[30, 31, 32],以利用預先訓練的模型所學到的知識,并將其擴展到新的數據集。另一個常見的解決方案是多任務學習[31, 33, 34],通過利用相關任務的訓練信號中包含的特定領域的信息來提高泛化能力。
對EHRs數據中包含的信息進行重新排序,對于評估病人的護理路徑和了解疾病的演變至關重要。數據的異質性和不規則的健康軌跡是定義病人時間線的準確時間表述的兩個主要挑戰。大多數現有的工作依賴于行政代碼形式的縱向數據,以及在每個護理事件中產生的數值[10, 35, 36, 33]。因此,他們將時間線定義為一個多變量的時間序列。同時,其他工作[22, 11, 23]考慮了每次入院時產生的臨床記錄,以豐富病人的護理路徑。第一組[23, 22]學習了整個筆記的嵌入表示,并將得到的向量作為額外的特征添加到時間序列中,以利用文本信息。另一方面,第二組[11]定義了一個混合模型,其中第一階段是一個提取醫療概念的NLP模型。然后,這些概念被添加到時間序列中,用于第二階段的學習,代表病人的健康軌跡。最近NLP領域的進步導致了強大的架構的定義,使其能夠學習單詞的上下文嵌入,并在下游任務(如概念提取)中獲得高性能的分數。特別是,ClinicalBERT[37]和BioBERT[38]已經改編了著名的NLP模型BERT[39],它是基于Transformer架構[40]。首先,他們在大型醫療文本語料庫上對模型進行了預訓練,以獲得單詞的上下文表示,然后在各種有監督的下游任務上對這個預訓練的架構進行了微調。特別是,這些模型在醫學概念提取任務中表現出更好的性能分數(范圍在78%到94%之間)。
然而,定義這樣的高性能模型依賴于廣泛的注釋過的臨床筆記的可用性,以及隨之而來的每個感興趣的類別的例子的數量。在過去的十年中,建立這種注釋語料庫的研究工作[41, 42, 43, 44]一直在增加,一些作品發表了注釋指南,使他們能夠產生高質量的標記數據。這個過程很耗時,而且成本很高,因為它經常需要醫學專家的手工注釋,而這些專家的可用性有限。主動學習[45]是一個很有前途的研究方向,它在圖像注釋中顯示了其有效性,并被擴展到一些應用中,如醫學文本注釋。其目的是通過選擇加速深度學習模型的學習迭代的例子來減少需要手動注釋的訓練數據量。它將醫學專家置于迭代過程的中心,允許他糾正模型的預測,然后考慮到他的反饋,重新訓練模型。主動學習策略的核心部分是定義一個指標,通常被稱為效用函數,它對模型的預測進行排序,并為下一次的再訓練迭代選擇信息量最大的例子。兩個突出的采樣策略是基于不確定性的,和基于密度的[46, 47, 48]。
重建的時間線是偶發的,連續觀察之間的時間間隔因病人而異,甚至在同一病人的健康軌跡中也是如此。目前大多數文獻[49, 50, 51, 52]是基于對具有固定時間間隔的縱向醫療事件的定期快照的統計分析,每月或每半年一次。這些模型需要有時間上等距的醫療事件。因此,對這些數據進行統計后分析時,需要采用歸因方法來填補缺失的數值。這些方法的性能在很大程度上取決于患者時間序列的完整性和推斷方法的準確性。與其用數據歸因方法來填補實際觀察值之間的空白,不規則性也是我們應該考慮的有價值的信息,以了解病人健康狀況的演變。按照這一思路,最近的研究[12, 53, 54, 50]利用在序列建模方面取得的進展,利用循環神經網絡(RNN)加上兩個連續事件點之間的時間間隙的表示,進行下游的醫療任務,如風險預測、程序推薦和病人表型。
本論文的主要目標是建立一個多模態深度學習架構,利用EHR數據中包含的各種類型的信息,學習表示病人的時間線。隨后的目標是通過考慮這種環境的挑戰,在現實世界的臨床應用中驗證這個架構。主要來說,從第1.1節提出的挑戰中,我們重點設計了一個框架來表示病人健康軌跡中的時間不規則性,并提出了一個主動學習策略來降低基于深度學習的醫療概念提取模型的注釋成本。
為了實現所提出的目標,這項工作涉及以下研究問題。
RQ1:如何對患者健康軌跡中觀察到的不規則時間進行建模?
RQ2:是否有可能設計一個不規則醫療時間序列建模的通用框架?
RQ3:如何表示臨床筆記中的信息以豐富患者的健康軌跡?
RQ4:什么是能夠降低基于Transformer的醫療信息提取方法的注釋成本的最佳主動學習策略?
RQ5:多模態架構如何影響臨床預測任務的性能?
這些研究問題探討了使用神經網絡表示病人時間線的不同方法,并測量了它們對現實世界醫療數據的影響,考慮到事件的不規則記錄和醫療文本注釋的成本。
本論文工作的第一部分涉及臨床事件時間序列中不規則時間戳的建模。由此產生的主要貢獻是實現了一個不規則時間序列的端到端分類的通用框架。該框架處理數字和分類的醫療事件,并支持病人的元數據。此外,它收集了最先進的序列深度學習模型和時間表示技術。利用這個框架,我們對1型糖尿病患者的糖尿病視網膜病變預測進行了實證研究,基于12種基于時間神經的方法的比較研究。數據收集自法國數據庫CaR′eDIAB[52],包括1,207個1型糖尿病患者的HbA1c記錄的高變量單變量醫療時間序列。
在第二部分,我們表示了臨床記錄中包含的信息,并評估了它們在預測模型中的重要性。為此,我們對深度學習和傳統的機器學習方法進行了醫學文本分類的比較研究[15]。結果顯示,當應用基于DL的方法從病人的臨床筆記中預測健康獲得性感染(HAI)時,其有效性很高。然而,錯誤分析顯示,丟失的陽性病例是由于我們的模型中缺少時間管理。這些發現促使我們探索信息提取架構,從每個臨床筆記中選擇相關的醫療事件來豐富病人的時間線。這些技術通常需要大量的標記數據,這在處理醫療報告時是非常經濟的。因此,我們的第二項工作旨在定義一種深度主動學習策略,以減少用于醫療事件提取的臨床筆記的標注成本。具體來說,我們評估了基于轉化器的醫療事件提取模型的主動學習策略。
最后,第三項工作包括設計一個多模態架構,即Multi-HiTT:基于多模態的層次化時間感知轉化器。這個架構通過結合多變量事件時間序列、病人靜態信息和從臨床筆記中提取的醫學概念,利用病人醫療記錄中包含的所有信息,為臨床預測任務建立一個準確的病人代表。這項工作的主要貢獻是設計了一個結合結構化特征和自由文本醫學概念的分層時間性和多模式的病人代表。利用已實現的時間框架,我們通過研究重癥監護室收治的病人的院內死亡率預測,驗證了所提出的Multi-HiTT架構。我們特別考慮了由開源數據集MIMIC-III[13]提供的5120個不規則多變量時間序列。
本論文分為三個部分。第一部分提供了促使我們做出貢獻的相關工作,并分兩章組織。在第一章中,我們建立了一個關于代表不規則臨床時間序列的時間感知深度學習模型的調查。第二章詳細介紹了用于命名實體識別的基于神經的架構和主動學習策略。另一方面,第二部分揭露了我們的三個主要貢獻。第一章描述了已實現的時間框架,允許醫學研究團隊進行比較研究,并根據他們的數據集和預測任務選擇最佳的DL模型來對IMTS進行分類。第二章定義了一種新的主動學習策略--動態混合加權不確定性采樣(Dynamic-HWUS),旨在減少用于訓練基于Transformer的命名實體識別模型的臨床筆記的注釋成本。第三章介紹了Multi-HiTT架構,該架構旨在結合不同層次的時間性和輸入數據的類型,以建立一個準確的病人的代表。最后,第三部分包括三項驗證我們提出的方法并使用真實世界的臨床數據庫的研究,討論其結果,總結論文工作,并介紹對未來工作的建議。
我們注意到p∈P是醫學研究中考慮的病人集合。我們對病人p的多變量醫療時間序列定義如下:
多變量時間序列(Xp,t)1≤t≤N由狀態序列Xp,t組成,其中xp,t∈Rq是一個密集的嵌入向量,代表在離散時間步長t觀察到的不同類型的事件,q是向量空間維度,N是步長數,一般等于病人的就診次數。
離散時間步驟t的狀態向量可以表示為三個向量的組合。,其中np,t是文本筆記的表示向量,up,t表示數值向量,zp,t與醫療事件的編碼ID有關,dp對應于靜態的病人信息,如人口統計學。為了簡化符號,我們把時間戳t的病人向量稱為
。
多變量醫療時間序列表示學習的目的是定義一個密集的嵌入,包括時間動態和
的相關醫療信息。然后, 通過尋找
的最佳f?,在預測性監督任務上驗證該表示,yp∈Y是預測病人p的真實標簽。
機器學習方法已經廣泛應用于藥物發現領域,使得更強大和高效的模型成為可能。在深度模型出現之前,建模分子在很大程度上是由專家知識驅動的;為了表現分子結構的復雜性,這些手工設計的規則被證明是不夠的。深度學習模型是強大的,因為它們可以學習問題的重要統計特征——但只有正確的歸納偏差。我們在兩個分子問題的背景下解決這個重要的問題:表征和生成。深度學習的典型成功在于它能夠將輸入域映射到有意義的表示空間。這對于分子問題尤其尖銳,分子之間的“正確”關系微妙而復雜。本論文的第一部分將重點討論分子表征,特別是性質和反應預測。在這里,我們探索了一種用于分子表示的Transformer式架構,提供了將這些模型應用于圖形結構對象的新工具。拋開傳統的圖神經網絡范式,我們展示了分子表示原型網絡的有效性,它允許我們對分子的學習性質原型進行推理。最后,我們在改進反應預測的背景下研究分子表示。本論文的第二部分將集中在分子生成,這是至關重要的藥物發現作為一種手段,提出有前途的藥物候選人。我們開發了一種新的多性質分子生成方法,通過首先學習分子片段的分布詞匯。然后,利用這個詞匯,我們調查了化學空間的有效探索方法。
//dspace.mit.edu/handle/1721.1/143362
機器學習已經迅速改變了藥物發現的傳統渠道,為過程的每一步提供了新的工具。許多傳統上需要廣泛、專業領域知識的問題已經通過深度學習工具解決,使它們更高效、更廉價。先前的化學信息學方法使用許多手工設計的規則來建模小分子。這些技術被用于解決諸如性質預測之類的問題,其中的任務是預測分子的性質。然而,試圖解決這些表示問題的傳統方法由于其不靈活的特性而缺乏良好的泛化能力。深度學習模型的變革性方面在于模型直接從數據中學習和提取重要特征的能力。然而,這只有在正確的結構偏差和模型基礎上的建模假設下才可能實現。在分子問題上天真地應用深度方法會限制模型的能力或有用性,阻礙它們的推廣能力和在實踐中的有用性。因此,利用正確的歸納偏差的重要性不能被低估。
在深度學習方法出現之前,分子建模需要繁重的工程和固定的表示,通常被稱為定量構效關系(QSAR)方法。在這些方法中,指紋技術是非常受歡迎的,大致可以分為基于結構的[30]、拓撲[1]、循環[8]和藥效團指紋等幾種類型[91]。其中一些指紋(如基于結構的MACCS[30]指紋)是高度特定的表示,由一組固定的預定義結構的指示函數組成。其他的指紋,拓撲的和圓形的,其中包括摩根指紋更靈活。這些指紋通過枚舉路徑或環形鄰域來捕獲局部拓撲。然而,問題仍然存在于生成方法的確定性本質中:如果這些預定義規則沒有為任務捕獲正確的表示,它們將不能很好地工作。例如,對于許多小分子問題來說,性質懸崖(property cliff)仍然是一個具有挑戰性的問題,這是一種類似分子表現出不同性質的現象。這個問題對于分子指紋尤其尖銳,因為特征是固定的。然而,使用深度模型也不能解決這個問題,因為深度模型很容易與數據過度擬合,并且提供較差的泛化。
因此,我們的深度學習模型納入正確類型的結構偏差是至關重要的。圖神經網絡通過迭代聚合方案進行操作,在每一步,節點從其鄰居聚合信息。依次,一個節點應該包含越來越多的關于更大的鄰域的信息。節點表示最終聚合為表示圖的單個向量。雖然這種簡單的范式有時是有效的,但可能并不總是包含正確的分子任務類型的偏見。例如,當考慮分子的特性時,這種局部鄰域聚集可能無法捕捉到很重要的遠程依賴關系。更重要的是,也許在二維分子圖上的聚集并不適合理想的分子表示,我們應該觀察三維結構。對于分子的深度模型的發展有許多考慮,但它們需要正確的結構才能有效。指紋表示很簡單,但不靈活,經常涉及很多人類設計的規則。另一方面,深度模型很容易過擬合,無法捕捉正確的結構表示。
近年來,深度學習已經將自己定位為機器學習最有前途的方向之一。然而,深度神經網絡在不確定性估計、模型選擇、先驗知識的整合等方面存在許多不足。幸運的是,所有這些問題都可以在貝葉斯深度學習框架內克服,使用貝葉斯神經網絡、變分自編碼器或深度神經網絡高斯過程等模型。不幸的是,這需要使用近似推理過程和先驗分布的規范。在這篇論文中,我們展示了這些模型中先驗規范不僅僅是一個麻煩,而是一個寶貴的機會,可以將領域知識和歸納偏見加入到學習算法中,從而提升全新應用的性能。為此,我們對相關文獻進行了全面的回顧,并進一步貢獻了不同的原創研究成果。
具體地說,我們證明了變分自編碼器中的高斯過程先驗可以改進時間序列的表示學習,并允許對缺失數據進行有效的插補,同時還可以提供校準的不確定性估計。我們還表明,通過使用變分高斯-馬爾可夫過程,這是可能的,在沒有顯著的額外計算成本。此外,我們表明,在變分自編碼器中使用自組織映射作為結構歸納偏差,可以提高學習表示的可解釋性,并使有效的潛在聚類。這些聚類表示可以作為潛在時間序列模型的輸入,從而準確地預測未來的狀態。在貝葉斯神經網絡中,我們證明了常用的各向同性高斯先驗不僅會導致次優性能,而且在某些情況下還會產生所謂的冷后驗效應,即經過緩和的后驗比真正的貝葉斯后驗表現更好。相反,我們提出了具有重尾性和空間相關性的備選先驗,可以提高性能,緩解冷后驗效應。最后,當沒有先驗知識可用時,我們表明先驗分布可以在元學習環境中從相關任務中學習。在深度神經網絡高斯過程的情況下,我們表明元學習的均值函數和核函數的先驗改進預測性能和不確定性估計。
我們希望本文將為貝葉斯深度學習框架奠定基礎,在該框架中,先驗分布的選擇將被視為建模任務的關鍵部分,手工設計和元學習的先驗將在任務之間自由共享,以實現貝葉斯深度學習。
//www.research-collection.ethz.ch/handle/20.500.11850/523269
隨著表示學習在提供強大的預測和數據洞察方面取得的顯著成功,我們見證了表示學習技術在建模、分析和網絡學習方面的快速擴展。生物醫學網絡是相互作用系統的通用描述,從蛋白質相互作用到疾病網絡,一直到醫療保健系統和科學知識。
在本綜述論文中,我們提出了一項觀察,即長期存在的網絡生物學和醫學原理(在機器學習研究中經常未被提及)可以為表示學習提供概念基礎,解釋其目前的成功和局限,并為未來的發展提供信息。我們整合了一系列算法方法,其核心是利用拓撲特征將網絡嵌入緊湊的向量空間。我們還提供了可能從算法創新中獲益最多的生物醫學領域的分類。
表示學習技術在識別復雜特征背后的因果變異、解開單細胞行為及其對健康的影響、用安全有效的藥物診斷和治療疾病等方面正變得至關重要。
引言
網絡,或稱圖表,在生物學和醫學中非常普遍,從分子相互作用圖到一個人疾病之間的依賴關系,一直到包括社會和健康相互作用的人群。根據網絡中編碼的信息類型,兩個實體之間“交互”的含義可能不同。例如,蛋白質-蛋白質相互作用(PPI)網絡中的邊緣可以表明實驗中測量到的物理相互作用,如酵母雙雜交篩選和質譜分析(例如,[148,197]);調節網絡中的邊緣可以指示通過動態單細胞表達測量的基因之間的因果相互作用(例如,[174]);電子健康記錄(EHR)網絡中的邊緣可以表明在醫療本體中發現的層次關系(例如,[182,190])。從分子到醫療保健系統,網絡已經成為代表、學習和推理生物醫學系統的主要范式。
生物醫學網絡上表示學習的案例。捕捉生物醫學系統中的交互作用會帶來令人困惑的復雜程度,只有通過整體和集成系統的觀點才能完全理解[17,28,164]。為此,網絡生物學和醫學在過去二十年中已經確定了一系列管理生物醫學網絡的組織原則(例如,[16,86,106,262])。這些原則將網絡結構與分子表型、生物學作用、疾病和健康聯系起來。我們認為,長期存在的原則——雖然在機器學習研究中經常未被提及——提供了概念基礎,可以解釋表示學習在生物醫學網絡建模中的成功(和局限性),并為該領域的未來發展提供信息。特別是,當對網絡中邊緣的解釋取決于上下文時,相互作用的實體往往比非相互作用的實體更相似。例如,疾病本體的結構是這樣的:通過邊緣連接的疾病術語往往比不連接的疾病術語更相似。在PPI網絡中,相互作用的蛋白質突變常常導致類似的疾病。相反,與同一疾病有關的蛋白質之間相互作用的傾向增加。在細胞網絡中,與特定表型相關的成分往往聚集在同一網絡鄰居。
表示學習實現網絡生物學和醫學的關鍵原理。我們假設表示學習可以實現網絡生物學和醫學的關鍵原則。這個假設的一個推論是表示學習可以很好地適用于生物醫學網絡的分析、學習和推理。表示學習的核心是向量空間嵌入的概念。其思想是學習如何將網絡中的節點(或更大的圖結構)表示為低維空間中的點,該空間的幾何結構經過優化,以反映節點之間的交互結構。表示學習通過指定(深度的、非線性的)轉換函數,將節點映射到緊湊的向量空間(稱為嵌入)中的點,從而形式化了這一思想。這些函數被優化以嵌入輸入圖,以便在學習空間中執行代數運算反映圖的拓撲結構。節點被映射到嵌入點,這樣具有相似網絡鄰域的節點被緊密地嵌入到嵌入空間中。值得注意的是,嵌入空間對于理解生物醫學網絡(例如,PPI網絡)的意義在于空間中點的鄰近性(例如,蛋白質嵌入之間的距離)自然地反映了這些點所代表的實體的相似性(例如,蛋白質表型的相似性),提示嵌入可被認為是網絡生物醫學關鍵原理的可微表現。
算法范式(圖1)。網絡科學和圖論技術促進了生物醫學的發現,從揭示疾病之間的關系[91,135,159,200]到藥物再利用[41,42,96]。進一步的算法創新,如隨機游走[40,229,242]、核函數[83]和網絡傳播[214],也在從網絡中捕獲結構和鄰域信息以生成下游預測的嵌入信息方面發揮了關鍵作用。特征工程是生物醫學網絡上機器學習的另一個常用范例,包括但不限于硬編碼網絡特征(例如,高階結構、網絡主題、度計數和共同鄰居統計),并將工程特征向量輸入預測模型。這種策略雖然強大,但并不能充分利用網絡信息,也不能推廣到新的網絡類型和數據集[255]。
近年來,圖表示學習方法已成為生物醫學網絡深度學習的主要范式。然而,對圖的深度學習具有挑戰性,因為圖包含復雜的拓撲結構,沒有固定的節點排序和參考點,它們由許多不同類型的實體(節點)和各種類型的相互關系(邊)組成。傳統的深度學習方法無法考慮生物醫學網絡的本質——多樣性的結構特性和豐富的交互作用。這是因為經典的深度模型主要是為固定大小的網格(例如,圖像和表格數據集)設計的,或者是為文本和序列優化的。因此,它們在計算機視覺、自然語言處理、語音和機器人技術方面取得了非凡的成就。就像對圖像和序列的深度學習徹底改變了圖像分析和自然語言處理領域一樣,圖表示學習也將改變生物學和醫學中復雜系統的研究。
我們的重點是表示學習,特別是流形學習[27]、圖變壓器網絡[250]、微分幾何深度學習[25]、拓撲數據分析(TDA)[34,224]和圖神經網絡(GNN)[125]。圖2描述了這次評審的結構和組織。我們首先提供流行的圖學習范式的技術說明,并描述其在加速生物醫學研究的關鍵影響。在圖表示學習的每個當前應用領域(圖4),我們展示了圖表示學習的潛在方向,可以通過四個獨特的前瞻性研究,每個研究至少解決以下圖機器學習的關鍵預測任務之一:節點、邊緣、子圖和圖級預測、連續嵌入和生成。