亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

編譯 | 曾全晨 審稿 | 王建民 今天為大家介紹的是來自Euan A. Ashley的一篇綜述論文。

新的方法,如基因組測序和質譜技術,大大增加了科學家和醫療專業人員獲取更精確診斷和增強治療精準度所需的分子數據的數量。雖然在DNA和RNA的基因測序方面取得了最大的進展,但蛋白質和代謝物高維度測量的醫療應用也在增加。為了適應這些分子“大數據”的數量、速度和多樣性,分析工具也得到了改進。機器學習的出現被證明特別有價值。在這些方法中,計算機系統使用大量數據構建預測性統計模型,并通過整合新數據進行迭代改進。深度學習是機器學習的一個強大子集,其中包括使用深度神經網絡,已在圖像對象識別、語音識別、自動駕駛和虛擬助理等領域具有高知名度的應用。現在,這些方法正在醫學領域應用,以提供臨床指導性的醫療信息。在這篇綜述文章中,作者簡要描述了生成高維分子數據的方法,然后重點介紹了機器學習在這些數據的臨床應用中扮演的關鍵角色。

大規模分子數據生成

圖 1

在大規模測量分子的能力方面發生了重大變化,推動了當前個體化醫學的時代(圖1)。幾十年來,基于Sanger技術的基因測序主要集中在長度最多達幾百個堿基的DNA或RNA片段上。在21世紀初,像Illumina的合成測序方法開始流行,允許同時合成和讀取數百甚至數十億個短DNA模板。更近期的方法(來自Pacific Biosciences和Oxford Nanopore)專注于連續測序長的核酸分子,具有額外的優勢。而人類基因組計劃花費了10年時間以數十億美元的成本測序了一個不完整的單倍體基因組,到了2022年,一個更完整的人類基因組只需5小時的時間和幾百美元的成本就能測序完成。這種基因組數據可用性的快速提高引發了對這些數據的快速處理和準確解讀的需求。

基因組測序的過程會生成一個計算機文本文件,其中每一行代表一個單獨“讀取”的DNA或RNA分子。對于基因組測序,通常的目標是生成足夠的重疊數據來覆蓋基因組的每個部分40倍。某些技術可以捕獲基因組的一個子集,并對其進行更多次的覆蓋。這個輸出的文本文件大小為100到200千兆字節(類似于現在入門級筆記本電腦的硬盤容量)。這些讀取數據的長度從幾百個堿基到幾百萬個堿基不等,通過Burrows-Wheeler變換,一種從數據壓縮信息理論導出的方法,將這些讀取數據映射到人類基因組計劃生成的參考基因組上。然后,使用機器學習或算法方法確定正在分析的基因組與參考序列之間的差異。這樣就得到了一個變異調用文件,通常有300萬到400萬行,幾兆字節的大小。為了按照例如在患者中可能導致罕見疾病的概率對文件中的變異進行優先級排序,可以使用過濾或機器學習方法。對于RNA測序,映射后,大多數應用會側重于基因或同工型表達的定量,而不是序列識別,將每個基因或同工型的讀取計數轉換為標準化的定量測量。

基因組學中的機器學習應用

機器學習在基因組學(細胞內一組基因,即基因組的研究)中的應用中,最重要的進展出現在變異檢測領域:即確定分析物序列(例如來自患者的樣本)與參考序列的差異位置。當將個體讀取映射到參考基因組中的相應位置時,它們可以被可視化為"堆積",其中與參考不同的堿基被突出顯示(圖1)。這種可視化表示有助于在基因組的復雜區域進行快速的手動審核,這一發現促使了深度學習方法用于變異識別,借鑒了計算機視覺和圖像識別方面的進展。其他變異檢測方法則在更狹窄的應用領域中使用機器學習,例如用于特定變異或基因組區域的技術校準誤差模型。

深度神經網絡是復雜的非線性函數,適用于大規模數據集。多層次的交替"神經元"權重和非線性變換將數據轉化為對分類有用的抽象和低維表示。層次之間通過激活函數連接,激活函數作為輸出的進一步傳播的門控。在圖像任務中,池化函數用于在特定區域對輸入進行下采樣。然后通過反向傳播過程對神經元權重進行細化,并最終以對幾個輸出選項的置信度估計形式進行分類。卷積神經網絡是一種特定形式的深度神經網絡,通常用于圖像識別,其特點是在圖像輸入上滑動濾波器的過程(圖2和3)。

圖 2

圖 3

憑借神經網絡的強大能力和讀取更長的DNA分子的能力,可能會出現一種新的單倍型分析時代(將DNA鏈映射到原始親本染色體)。單倍型分析方法通過更好地表示起源的DNA分子來提高變異檢測的質量,并可以在臨床管理中發揮作用,例如在復合雜合性的情況下,同一位點上兩個變異體的起源父本的識別可以影響患者的護理。最近,通過將單倍型分析與針對連續數據優化的模型結合起來,然后再采用上述的卷積神經網絡方法,取得了前所未有的準確性。

通過國家標準與技術研究所(National Institute of Standards and Technology)的“基因組在瓶中”聯盟(Genome in a Bottle Consortium)以及美國食品藥品監督管理局(Food and Drug Administration,FDA)的precisionFDA計劃,這些進展使變異檢測的改進成為可能。這兩個組織共同開展了開放的“真實性挑戰”比賽,使用標準化樣本進行競爭。結果顯示,在全基因組范圍內以及染色體上編碼主要組織相容性復合體等基因組中具有挑戰性的區域,變異檢測的準確性不斷提高。機器學習(圖2)在罕見疾病變異的優先級排序中也被證明非常有用。例如,一種方法使用基于邏輯回歸的機器學習在一個大型的基于文獻的數據集中,將表型與候選基因匹配,以幫助確定可能是門德爾遺傳疾病的潛在致病基因。

轉錄組學的機器學習

讀取轉錄組(生物體中所有RNA轉錄本的總和)被用作識別罕見疾病中的致病基因的一種額外工具。最初的努力揭示了通過將每個基因的表達譜與參考范圍進行比較,識別表達異常可以指向未被懷疑的致病基因。為了獲得額外的益處,這種方法后來與預測罕見變異的調節效應的貝葉斯模型相結合。在一大批患有未診斷罕見疾病的患者中,血液轉錄組測序識別出8%的患者的致病變異。隨后,使用包括基因表達、等位基因特異表達和可選擇剪接數據的分層貝葉斯模型來識別遺傳驅動的轉錄組異常。

盡管取得了一些進展,但預測剪切位點仍然是一個具有挑戰性的問題。使用一個32層深度神經網絡的深度學習模型在改善罕見疾病的診斷方面顯示出了希望。使用自編碼器,它可以有效地學習如何將輸入數據編碼為壓縮表示,然后解碼回原始輸入的表示,已經被證明可以改善從RNA測序數據中的異常剪接預測(圖2)。

這些方法被應用于一個12歲女孩的案例中,該女孩出現了發育退化、震顫和癲癇。通過短讀長度的基因組測序,鑒定了96個候選基因變異,但沒有一個看起來與患者的病情有關。通過對患者血液進行RNA測序并應用剪切異常算法,發現了KCTD7中的一個剪切增益變異,該變異并不在最初的候選基因列表中,從而確立了進行性肌陣攣癲癇的診斷。

表觀基因組學應用

表觀基因組學被定義為影響基因表達的一系列修飾。雖然已知表觀遺傳機制在某些罕見病和常見疾病的表現中起作用,但在臨床醫學中,對DNA化學修飾的大規模表征才剛剛開始產生影響。長讀測序方法提供了令人興奮的機會,因為它們在核苷酸通過蛋白質納米孔時產生信號,或者在DNA聚合酶嵌入堿基時產生信號。這些信號可以通過機器學習方法解讀,不僅可以確定該位點的核苷酸,還可以確定該核苷酸的一系列化學修飾。這些方法不需要之前的標準中的亞硫酸鹽轉化,該轉化已被證明會引起DNA斷裂。由于在組織特異性轉錄中扮演關鍵角色,大部分關注集中在將甲基基團加到順序CG二核苷酸序列中稱為CpG位點的C5位點。采用各種神經網絡方法,包括卷積神經網絡、雙向循環神經網絡(圖3),以及兩種類型的組合,已經在甲基化檢測方面達到了超過0.95的C統計量,優于以前的基準模型。

深度學習在蛋白質組學的幾乎所有環節中取得了重大進展。通過對已知化學實體的光譜圖模式進行訓練,深度學習方法改善了候選肽段的光譜預測能力,這是基于串聯質譜的蛋白質組學的關鍵步驟之一。利用基于卷積神經網絡的工具,還能準確預測肽段的保留時間,即肽段從液相色譜柱中洗脫的時間點。除了質譜法外,深度學習應用還集中在新生肽序列和蛋白質鑒定上,采用了卷積神經網絡和長短時記憶方法。此外,最近還將大型語言模型應用于蛋白質功能預測,以加速藥物發現。

蛋白質的翻譯后修飾,如磷酸化等過程對于蛋白質的功能、調節和降解至關重要,但其定量仍然是一個尚未解決的挑戰。通過僅從蛋白質序列預測翻譯后修飾位點的深度學習已經取得了成功,其中的例子包括乙酰化和泛素化等修飾。近期,通過隱藏馬爾可夫模型和卷積神經網絡的組合,預測蛋白質功能的能力也得到了改進。這種綜合方法為360個以前未注釋的人類參考蛋白質提供了功能預測,使標準蛋白質家族數據庫的覆蓋率提高了9%以上。

在蛋白質組學領域,基于神經網絡的AlphaFold(圖3)是一項備受關注的深度學習應用。它在第13屆和第14屆關鍵蛋白質結構預測評估競賽中獲得了勝利。這些是每兩年舉辦一次的盲測競賽,旨在評估蛋白質結構預測的進展。在第13屆競賽中,AlphaFold1為43個自由建模結構中的24個結構提供了高準確性的預測結果,大大超過了以往的方法和排名第二的方法,后者只在43個結構中的14個結構上達到了類似的準確性。在CASP14競賽中,AlphaFold2在這一基礎上取得了進一步的進展,優于許多競爭模型。

近年來,蛋白質組學在生物標志物的預測上成為臨床研究的主要焦點。研究主要集中在單一標志物和多標志物的發現上。在一項研究中,利用一組配體(與蛋白質結合的寡核苷酸)實現了蛋白質定量,利用一系列機器學習模型,包括基于邏輯回歸和隨機森林的模型(圖2和圖3),對約17,000名無重大疾病的個體進行訓練,預測了11個常用于預防醫學的健康指標,這些個體來自五個獨立的隊列研究。

多組學應用

隨著來自多種技術的高維數據更易獲取,結合數據的計算方法變得更加重要。多組學研究的最早例子之一是對單個人進行的縱向分析,結合了基因組、轉錄組、蛋白質組、代謝組和自身抗體譜的數據。其他研究也采用多組學方法構建了反映健康和疾病狀態的相關網絡,并提出了心腦血管疾病的新生物標志物。還有一些利用深度學習的整合方法也被報道。這些方法要么在早期融合數據,將多組學數據串聯起來進行單一分析,要么在后期融合數據,創建一個聯合模型,將幾個單一組學分析的輸出結合起來。一些多組學方法在臨床領域取得了成功,比如利用先前發表的神經網絡等機器學習模型,將類似亮氨酸拉鏈轉錄因子1 (LZTFL1) 鑒定為Covid-19風險位點的候選效應基因。通過指出LZTFL1的表達增加可能與不良預后相關,這一發現揭示了Covid-19預防和治療的新候選靶點。

結論

在過去的十年里,技術的進步極大地增強了我們在規模上測量基本生物過程的能力。由此產生的數據量需要越來越多針對多維生物數據集分析的機器學習方法。結果是對疾病分子軌跡的逐步詳細理解,這些理解現在正在臨床醫學中得到應用,尤其在罕見遺傳疾病的診斷和治療方面取得了最大的進展。仍然存在挑戰,包括數據質量、數據一致性和臨床醫生的認知。然而,隨著單組學發現向多組學應用的轉變,流程標準化、基準指標的擴展以及數據處理速度和準確性的提高將確保對精準醫療產生廣泛影響的潛力得以實現。 參考資料 Gomes, B., & Ashley, E. A. (2023). Artificial Intelligence in Molecular Medicine. New England Journal of Medicine, 388(26), 2456-2465.

付費5元查看完整內容

相關內容

醫學領域的人工智能是使用機器學習模型搜索醫療數據,發現洞察,從而幫助改善健康狀況和患者體驗。 得益于近年來計算機科學和信息技術的發展,人工智能 (AI) 正迅速成為現代醫學中不可或缺的一部分。 由人工智能支持的人工智能算法和其他應用程序正在為臨床和研究領域的醫學專業人員提供支持。

編譯 | 曾全晨

審稿 | 王建民 今天為大家介紹的是來自Tal Golan團隊的一篇論文。語言模型似乎越來越符合人類處理語言的方式,但通過對抗性示例來識別它們的弱點十分具有挑戰性,因為語言是離散的,并且人類語言感知非常復雜。

神經網絡語言模型不僅是自然語言處理(NLP)中的關鍵工具,還因其潛在成為人類語言處理模型的可能性而引起了越來越多的科學興趣。從循環神經網絡(RNNs)到變換器(transformers)等各種語言模型,每個模型(顯式或隱式地)都定義了一個關于單詞序列的概率分布,預測哪些序列在自然語言中可能出現。從閱讀時間、功能性磁共振成像(fMRI)、頭皮腦電圖、顱內腦電圖(ECoG)等測量結果來看,存在大量證據表明,人類對由語言模型捕獲的單詞和句子的相對概率敏感。模型推導的句子概率還可以預測人類可接受性。然而,這些成功尚未解決兩個關鍵問題:(1)哪個模型與人類語言處理最為一致,以及(2)最佳對齊模型與完全捕捉人類判斷的目標有多接近?評估語言模型的主要方法之一是使用一組標準化基準,例如通用語言理解評估(GLUE)或其繼任者SuperGLUE。盡管這些基準在評估語言模型在下游NLP任務中的實用性方面起到了關鍵作用,但它們在將這些模型作為解釋人類語言處理的候選模型進行比較方面顯然不夠充分。一些基準通過比較語言模型分配給合乎語法和不合乎語法句子的概率(例如BLiMP)來評測語言模型。然而,由于這些基準受到理論語言學考慮的驅動,它們可能無法檢測到語言模型可能從人類語言中學習到的新穎的表達方式。最后,另一個實際的問題是NLP研究的快速發展導致這些類型的靜態基準迅速飽和,使得難以區分不同模型之間的性能。

針對這些問題的一個解決方案是使用動態的人機協同基準測試,其中人們積極地對模型進行一系列不斷演化的測試以進行強化測試。然而,這種方法面臨一個重大障礙,隨著測試案例的增加,人們會發現越來越難找到新穎和有趣的測試案例,以便真正挑戰語言模型的性能。。作者提議將人工策劃的基準測試與模型驅動的評估相結合。在模型的預測指導下,而不是實驗者的直覺,我們希望識別特別信息豐富的測試句子,其中不同的模型會做出不同的預測。我們可以在大量自然語言的語料庫中找到這些關鍵句子,或合成新的測試句子,以揭示不同模型在其訓練分布之外的泛化方式。

在文中,作者提出了一種系統的、以模型為驅動的方法,用于比較語言模型在與人類判斷一致性方面的性能。作者生成了有爭議的句子對,這些句子經過設計,使得兩個語言模型在哪個句子更可能出現方面存在強烈分歧。然后,作者收集人類的判斷,以確定每對句子中哪個更有可能,以解決這兩個模型之間的爭議。

實驗概述

作者從進行在線測試的100名以英語為母語的參與者那里獲得了評判。在每個實驗試驗中,參與者被要求判斷兩個句子中哪一個他們“更有可能在現實世界中遇到,無論是口語還是書面文本”,并在一個三級別的信心評級上提供他們答案的信心值。該實驗旨在比較九種不同的語言模型:基于兩個詞組和三個詞組序列的的詞頻概率模型以及一系列神經網絡模型,包括RNN、長短時記憶網絡(LSTM)和五個transformer模型(BERT、RoBERTa、XLM、ELECTRA和GPT-2)。

使用有爭議的自然數據對,進行高效的模型比較

圖1

表 1

作為基準線,作者從Reddit評論語料庫中隨機抽樣并配對了八個詞的句子。然而,如圖1a所示,這些句子未能揭示模型之間的有意義的差異。對于每一對句子,所有模型都傾向于偏好相同的句子,因此在預測人類偏好評分方面表現相似。相反,可以使用一個優化過程來搜索有爭議的句子對,其中一個語言模型僅為句子1分配高概率,而第二個語言模型僅為句子2分配高概率(示例見表1)。不同的語言模型在預測人類在特定句子對上的選擇時,顯示出在與人類的一致性方面存在許多顯著差異(如圖1b所示),其中GPT-2和RoBERTa顯示出最好的人類一致性。 使用合成句子對,實現更大程度的模型分離

圖 2

表 2

選擇有爭議的自然句子對可能比隨機抽樣自然句子對提供更大的能力,但這個搜索過程只考慮了可能的句子對空間的非常有限的部分。相反,我們可以迭代地替換自然句子中的單詞,以驅使不同的模型產生相反的預測,形成合成的有爭議句子,這些句子可能位于任何自然語言語料庫之外,如圖2所示。作者展示了合成的有爭議句子對,如表2所示。

圖 3

作者評估了每個模型在所有有爭議的合成句子對中對人類句子選擇的預測準確度(圖3a)。這種模型與人類的一致性評估方式,導致了模型的預測準確度之間的差距更大,使較弱的模型(RNN、3-gram和2-gram)遠低于50%的隨機準確度水平。在這些試驗中,GPT-2、RoBERTa和ELECTRA在預測人類的響應方面明顯比其他模型(BERT、XLM、LSTM、RNN、3-gram和2-gram)更準確。

自然句子和合成句子的組合揭示了盲點 最后,作者考慮了那些要求參與者在自然句子和合成句子之間選擇的試驗。如果語言模型與人類判斷完全一致,作者期望人類會同意模型,并至少與自然句子一樣多地選擇合成句子。然而,在現實中,人類參與者明顯更偏好自然句子而不是它們的合成對應物(圖3b),即使合成句子是針對更強大的模型(即GPT-2、RoBERTA或ELECTRA)而生成。針對每個模型對分別評估自然句子的偏好,作者發現即使將一個強模型與一個相對較弱的模型配對(以至于強模型接受合成句子而弱模型拒絕它),也可以揭示這些缺點。

評估整個數據集揭示了模型的層次結構

圖 4

與評估每個模型的預測準確性相比,針對用于比較這個模型與替代模型的特定句子對,作者通過計算每個模型對所有收集到的實驗的平均預測準確性來最大化對于模型的評測能力。此外,作者在這里測量了分級人類選擇(考慮信心)與每個候選模型分配的句子概率的對數比率之間的序數對應關系。使用這個更敏感的基準(圖4),作者發現GPT-2與人類最一致,其次是RoBERTa,然后是ELECTRA、BERT、XLM和LSTM,以及RNN、3-gram和2-gram模型。造成雙向transformer(RoBERTa、ELECTRA、BERT和XLM)性能較差的一個可能原因是,與單向transformer(GPT-2)相比,這些模型中的句子概率計算較為復雜。作者開發的概率估計器也可能不是最優的;事實上,偽對數似然(PLL)方法在隨機抽樣的自然句子對上提供了稍高的準確性。然而,當作者通過生成新的合成的有爭議的句子來直接比較當前采用的估計器與PLL時,發現作者的估計器更好地與人類判斷一致。 參考資料 Golan, T., Siegelman, M., Kriegeskorte, N. et al. Testing the limits of natural language models for predicting human language judgements. Nat Mach Intell (2023). //doi.org/10.1038/s42256-023-00718-1

付費5元查看完整內容

編譯 | 曾全晨 審稿 | 王建民 今天為大家介紹的是來自Daniel Shu Wei Ting的一篇綜述論文。大型語言模型(LLMs)可以在沒有特定訓練的情況下回應各種文本查詢,這引發了人們對其在醫療環境中使用的興趣。ChatGPT是通過對LLM進行復雜的微調而生成的生成式人工智能聊天機器人,其他類似的工具也正在通過類似的開發過程中涌現出來。在這里,作者概述了像ChatGPT這樣的LLM應用的開發過程,并討論了它們在臨床環境中的應用。作者考慮了LLMs的優勢和局限性,以及它們在醫學的臨床、教育和研究工作中提高效率和效果的潛力。

大型語言模型(LLMs)是人工智能(AI)系統,它們經過數十億字的訓練,這些字來自于文章、書籍和其他基于互聯網的內容。通常情況下,LLMs使用神經網絡架構來利用深度學習,這種方法已經在醫學領域取得了令人印象深刻的成果,用于表示文本訓練數據集中單詞之間的復雜關聯關系。通過這個訓練過程,可能是多階段的,可能涉及不同程度的人工輸入,LLMs學習了單詞在語言中如何與彼此搭配使用,并可以將這些學習的模式應用于完成自然語言處理任務。自然語言處理描述了一個廣泛的計算研究領域,旨在以模仿人類能力的方式促進對語言的自動分析。生成式人工智能開發者的目標是生產出可以按需創建內容的模型,并在應用程序中與自然語言處理相交。經過多年的發展,LLMs現在正出現“少樣本”或“零樣本”屬性,這意味著它們可以在幾乎沒有特定微調的情況下,識別、解釋和生成文本。這些少樣本和零樣本屬性是在模型規模、數據集規模和計算資源足夠大的情況下出現的。隨著深度學習技術、強大的計算資源以及用于訓練的大型數據集的發展,具有潛在顛覆認知工作的能力的LLM應用已經開始在各個領域中出現,包括醫療領域。

ChatGPT(OpenAI)是一種LLM聊天機器人,現在可以對多模態輸入產生文本回應(之前只能接受文本輸入)。它的后端LLM是GPT-3.5或GPT-4。ChatGPT的影響源于它的對話互動性以及在各個領域中的認知任務中接近人類水平或與人類水平相等的表現,包括醫學。ChatGPT已經在美國醫學執照考試中取得了及格級別的表現,并且有人提出LLM應用可能已經準備好在臨床、教育或研究環境中使用。然而,自主部署的潛在應用和能力是有爭議的:書面考試不能驗證臨床表現,缺乏良好的基準使得評價性能變得相當具有挑戰性。目前的LLM技術很可能最有效地作為一種在密切監督下使用的工具。

LLM聊天機器人的發展

圖 1

盡管LLM GPT-3.5并未展現出最多的參數數量(圖1),但ChatGPT目前在醫療研究中引起了最大的關注。這得益于精細調整,特別是為了恰當地回應人類輸入查詢而進行的調整。首個版本的GPT(GPT-1)于2018年發布。GPT-1的訓練是半監督的,包括初始的無監督預訓練,用于編程單詞之間在語言中的聯想關系,然后是有監督的精細調整,以優化指定的自然語言處理任務的性能。GPT-2(2019年發布)擁有15億個參數,是其前任的10倍大。其訓練數據來自WebText,這是一個40 GB的數據集,來源于800多萬份文檔。GPT-2最初在幾項自然語言處理任務中進行了評估,包括閱讀理解、摘要、翻譯和問題回答。在2020年,GPT-3發布了,擁有1750億個參數,比GPT-2大100多倍。其更廣泛的訓練賦予了它更強的few-shot和zero-shot能力,在各種自然語言處理任務中實現了最先進的性能。訓練數據集包括五個文集,共45 TB。總的來說,GPT-3的發展專門解決了前任模型的弱點,構建了迄今為止最復雜的LLM。GPT-4現已發布,并在自然語言處理以及各種專業能力測試中獲得了比GPT-3更高的性能。此外,GPT-4可以接受多模態輸入,其體系結構、開發和訓練數據仍然保密。

從LLM到生成式聊天機器人

圖 2

為了開發有用的應用程序,LLM需要進一步的精調,正如GPT-3.5的設計工程所示,它可以對自由文本輸入提示做出適當的回應(圖2)。在這里,精調包括將GPT-3暴露于由人類研究人員扮演應用程序用戶和AI助手角色產生的提示和回應中,這有助于模型學習如何正確回答定制查詢。接下來,使用由人類評分員根據一組查詢對GPT-3.5的回應進行排名生成的數據進行“從人類反饋中的強化學習”(RLHF),以此進行強化學習。該獎勵模型使得自主RLHF的規模遠遠超過了通過人工對每個模型回應進行評分所能達到的規模。為了提高安全性和安全性,還使用模型生成的輸入查詢和輸出完成了進一步的自主對抗訓練。ChatGPT的后端現在集成了GPT-4,新的體系結構、數據集和訓練是保密的。即使在單個對話中,ChatGPT也表現出了非常出色的“學習”能力,特別是通過提供任務示例來提高性能。

除了ChatGPT之外,還有其他的LLM聊天機器人可以供臨床醫生和患者使用。必應的AI聊天機器人(Microsoft)可在沒有ChatGPT高級訪問權限的情況下訪問GPT-4。Sparrow(DeepMind)是使用LLM“Chinchilla”構建的,通過利用谷歌搜索結果、人類反饋和一個包含23條明確規則的長達591個字的初始化提示來減少不準確和不適當的使用情況。BlenderBot 3(Meta Platforms)利用互聯網訪問來提高準確性,其在發布后可能會通過使用有機生成的數據來持續改進性能,就像ChatGPT一樣(圖2中的虛線箭頭)。Google Bard最初是使用LaMDA構建的,但現在利用PaLM 2為基礎,其在部分領域能力方面與GPT-4相媲美。

以它們當前的表現,LLMs并不能取代醫生,因為在專業考試中的表現還遠非完美,存在嚴重的不準確和不確定性問題。盡管最近報告的專業基準性能令人印象深刻,但需要具體的評估和驗證來證明在任何特定背景下的有效性和實用性。從根本上講,臨床實踐與正確回答考試問題并不相同,找到適當的基準來衡量LLMs的臨床潛力是一個重大挑戰。然而,鼓舞人心的結果表明,現有的技術已經適用于影響臨床實踐,并且進一步的發展可能會加速和擴大自然語言處理人工智能在醫學領域的應用。

LLM的醫學應用

圖 3

在最近幾個月中,LLM(大型語言模型)技術,特別是ChatGPT,已經被廣泛應用于各種場景(如圖3所示)。盡管有必要進行高質量的研究來了解新技術的優勢和局限性,但目前仍然缺乏經過良好設計和實用性試驗,旨在評估將創新的LLM基礎工具引入臨床、教育或研究環境的實際效用。

ChatGPT在醫學領域引起了特別的關注,因為它在美國醫學許可考試中取得了及格分數,而GPT-4的表現明顯優于其前身GPT-3.5。最近,Google推出的Med-PaLM 2,一種在醫療數據上進行細調的PaLM 2版本,取得了最先進的成果,達到了接近專業人類臨床醫生水平。當將ChatGPT對患者問題的回答與醫生提供的回答進行比較時,根據醫生評判的定性指標,LLM的輸出在質量和共情方面更受歡迎。這導致了有人提出AI已經可以取代醫生,但事實并不如此。即使在醫學生考試中,其性能也遠非完美,沒有任何已知報告的分數接近100%。ChatGPT在醫生專科考試中失敗,并在回答有關心血管疾病預防的真實問題時提供不準確的信息。

ChatGPT在不需要專業知識或在用戶提示中提供專業知識的任務中表現出更強的性能。這為其在實施方面提供了比臨床決策輔助工具更為直接的前景。LLM能夠快速吸收、概括和重新表述信息,從而減輕臨床醫生的行政負擔。出院總結是一個有意義的例子,它涉及到對信息的解釋和壓縮,幾乎不需要問題解決或回憶。新興的多模態模型將擴展模型能力,并與更多的數據源兼容;甚至醫生的手寫字也可以自動準確地解釋。

GPT-4和Med-PaLM 2在醫學測試中的強勁表現表明,LLM可能是學生在這些測試中獲得較低分數時有用的教學工具。GPT-4的元提示功能允許用戶在對話過程中明確描述聊天機器人所扮演的期望角色;有用的示例包括“蘇格拉底導師模式”,通過逐漸降低難度的問題來鼓勵學生自己思考,直到學生能夠解決更全面的問題。對話記錄可以使人類教師監測進展并根據學生的弱點進行教學,以直接解決學生的不足之處。非盈利教育機構卡恩學院(Khan Academy)正在積極研究如何在“卡恩米格”中利用AI工具,來優化在線教學。

生成型AI LLMs的障礙

表 1

有幾個問題和限制阻礙了ChatGPT和其他類似應用在臨床規模上的實施(見表格1)。首先,訓練數據集不足以確保生成的信息準確和有用。其中一個原因是缺乏最新性:GPT-3.5和GPT-4主要使用截至2021年9月的文本進行訓練。由于研究和創新在各個領域,包括醫學,都是持續不斷的,缺乏更新的內容可能會加劇不準確性。在語言突然變化的情況下,問題尤為嚴重,例如研究人員發明新術語或更改用于描述新發現和方法的特定詞匯的用法。問題還會在范式轉變中出現,例如,一些被認為不可能實現的事情實際上被實現了。案例包括以前所未有的速度開發新冠病毒病2019(COVID-19)疫苗以及針對先前被認為“無法藥物靶向”的目標如KRAS的抗腫瘤藥物。如果類似事件超出了訓練數據集的截止日期,模型無疑會對相關查詢提供質量較差的響應。因此,與醫療專業人員的咨詢仍然至關重要。

結論

LLMs已經徹底改變了自然語言處理領域,最先進的模型,如GPT-4和PaLM 2,現在在醫學領域的人工智能創新中占據著核心地位。這項新技術在臨床、教育和研究工作中充滿了機遇,特別是在多模態和插件工具的新興應用中。然而,潛在的風險引發了專家和社會的廣泛關注。目前,自主部署LLM醫學應用是不可行的,醫療專業人員仍將負責為患者提供最佳和人性化的護理。經過驗證的應用程序可能是改善患者和醫療保健的有價值工具,但前提是解決倫理和技術問題。

參考資料 Thirunavukarasu, A.J., Ting, D.S.J., Elangovan, K. et al. Large language models in medicine. Nat Med (2023). //doi.org/10.1038/s41591-023-02448-8

付費5元查看完整內容

編譯 | 曾全晨 審稿 | 王建民

今天為大家介紹的是來自Mamoon Rashid的一篇關于深度學習在基因測序方面應用的綜述論文。基因組學正朝著數據驅動的科學方向發展。隨著高通量數據生成技術在人類基因組學中的出現,我們被大量的基因組數據所淹沒。為了從這些基因組數據中提取知識和模式,人工智能尤其是深度學習方法起到了重要作用。在當前的綜述中,作者討論了深度學習方法/模型在人類基因組學不同子領域中的發展和應用。

理解多樣物種的基因組,特別是對超過30億個堿基對的智人DNA進行研究,是基因組學研究的重要目標。基因組學從全面的視角出發,涉及一個生物體內的所有基因,包括編碼蛋白質的基因、RNA基因、順式和反式元件等。這是一門數據驅動的科學,涉及到下一代測序(NGS)高通量技術的發展,可以生成一個生物體的完整DNA數據。這些技術包括全基因組測序(WGS)、全外顯子組測序(WES)、轉錄組學和蛋白質組學分析。隨著這些組學數據的快速積累,人們越來越關注在多個基因組學應用中表現優越的生物信息學和機器學習(ML)工具。這些應用包括尋找基因型與表型之間的關聯、生物標記物的鑒定、基因功能預測,以及繪制生物醫學活躍的基因組區域,例如轉錄增強子等。

機器學習(ML)被認為是人工智能(AI)的核心技術,它使得算法可以基于數據學習并做出關鍵預測,而不僅僅是遵循指令。它有廣泛的技術應用;然而,標準的ML方法在處理復雜、自然、高維度的原始數據方面,比如基因組數據,過于狹窄。相反,深度學習(DL)方法是目前在基因組學中應用廣泛的一種有前景且令人興奮的領域。它是ML的一個派生,通過自動應用神經網絡(NN)來提取特征。深度學習已經成功應用于圖像識別、音頻分類、自然語言處理、在線網絡工具、聊天機器人和機器人技術等領域。在這方面,將DL作為基因組學的方法是完全適合分析大量數據的。盡管DL在基因組學中仍處于初級階段,但它有望更新臨床遺傳學和功能基因組學等領域。毫無疑問,DL算法已經在計算建模方法中占據主導地位,目前不斷擴展以回答各種基因組學問題。

圖 1

盡管深度學習(DL)理論的第一個概念源自20世紀80年代,基于感知器模型和神經元概念,但在過去十年中,DL算法已經成為處理大數據的先進預測技術。在基因組學中,DL預測模型的初次高效實現發生在2000年代(圖1)。DL模型要求訓練大量的數據集,并且需要強大的計算資源,這限制了它們的應用。現在,DL模型(也稱為DNNs)的架構已經在各個領域實現。傳統的神經網絡只包含兩到三個隱藏層,而DL網絡將這個層數擴展到200層。因此,"深度"一詞反映了信息傳遞的層數。然而,DL要求優越的硬件和大量的并行處理才能應用。

在基因組學中,軟件、硬件(GPU)和大數據的演進促進了基于深度學習的預測模型的發展,用于預測基因組中的功能元素。這些來自NGS數據的遺傳變異可以預測基因組DNA中的剪接位點,通過分類任務預測轉錄因子結合位點(TFBSs),對錯義突變的致病性進行分類,并預測藥物反應和協同作用。增強DL實現的技術演進的一個例子是云平臺,它提供GPU資源作為DL解決方案。GPU可以顯著提高訓練速度,因為神經網絡訓練風格在某些模型架構情況下可以更靈活,從而通過使用更多的處理單元和更大的內存容量進行快速數學處理。云計算平臺的主要例子包括亞馬遜網絡服務(Amazon Web Services)、谷歌計算引擎(Google Compute Engine)和微軟Azure。

對于所有機器學習(ML)模型,評估指標對于理解模型性能至關重要。在基因組數據集中,通常生成高度不平衡的類別,這使得它們在應用于ML和DL模型時更具挑戰性。在這種情況下,通常采用一些解決方案,如遷移學習和Matthews相關系數(MCC)。一般來說,每個ML任務可以分為回歸任務(例如預測疾病的某些結果/效果)或分類任務(例如預測是否存在某種疾病);此外,從這些任務中獲得多個測量指標。通常,用于ML基于回歸的方法的一些性能指標包括:平均絕對誤差(MAE)、均方誤差(MSE)、均方根誤差(RMSE)和決定系數(R2)。相比之下,ML基于分類的方法中的性能指標包括:準確率、混淆矩陣、曲線下面積(AUC)或/和接收者操作特征曲線下面積(AUROC)以及F1分數。分類任務最常用于基因組學研究領域的問題,并用于比較不同模型的性能。例如,AUC是評估模型性能最廣泛使用的指標,范圍在[0, 1]之間。它衡量了真陽性率(TPR)或敏感性、真陰性率(TNR)或特異性以及假陽性率(FPR)。此外,F1分數用于在高度不平衡的數據集中測試模型的準確性,它是精確度和召回率之間的調和平均值(也在[0, 1]之間)。對于AUC和F1分數,數值越大表示模型性能越好。此外,混淆矩陣通過測量模型準確性來描述完整的模型性能,計算真陽性值加上真陰性值,并將總和除以樣本總數。

基因組學中的深度學習工具/軟件/流程

圖 2

多個基因組學領域(例如變異調用和注釋、疾病變異預測、基因表達和調控、表觀遺傳學和藥物基因組學)充分利用高通量數據的生成,并利用深度學習算法的強大功能進行復雜預測(圖2)。DNA/RNA測序技術和機器學習算法特別是深度學習的現代演進開辟了一個新的研究篇章,能夠將大型生物數據轉化為基因組學各個子領域的新知識或新發現。作者提供了一個短列表,其中包含變異調用和注釋的工具/算法及其源代碼鏈接(表1),以便于為特定數據類型選擇最合適的深度學習工具。

表 1

新一代測序(NGS),包括全基因組或全外顯子組測序,為個性化醫學的早期發展奠定了基礎,并在孟德爾病研究中有著已知的影響。隨著大規模并行高通量測序技術的出現,測序數千個人類基因組以鑒定遺傳變異已成為基因組學中的日常實踐,包括癌癥研究。對于變異調用,現有復雜的生物信息學和統計學框架可供使用。高通量測序過程的缺陷在于存在顯著高的技術和生物信息學誤差率。由于大量中等或低覆蓋度的基因組序列、短讀取片段以及個體間的遺傳變異,產生了許多計算問題。這些缺點使得NGS數據依賴于生物信息學工具進行數據解釋。在下一代測序領域,現代深度學習工具已被提出,以克服傳統解釋流程的局限性。例如,Kumaran等人證明了將基于深度學習的變異調用器DeepVariant與傳統的變異調用器(如SAMtools和GATK)結合使用,可以提高單核苷酸變異和Indel檢測的準確性評分。在DNA測序數據解釋中實施深度學習算法還處于初期階段,就像最近由Google開發的先驅性例子DeepVariant一樣。DeepVariant依賴于輸入圖像中的圖形差異來執行從NGS短讀取中的遺傳變異調用的分類任務。它將映射的測序數據集視為圖像,并將變異調用轉換為圖像分類任務。然而,該模型沒有提供有關變異信息的細節,例如確切的替代等位基因和變異類型。

后來,引入了幾種用于變異調用和注釋的深度學習模型。例如DeepSV,一種遺傳變異調用器,旨在預測從測序讀取圖像中提取的長基因組缺失(> 50 bp),而不是其他類型的結構變異,如長插入或倒位。它以BAM格式或VCF文件作為輸入,并將結果輸出為VCF形式。在評估DeepSV時,它與另外八種缺失調用工具和一種名為Concod的機器學習工具進行了比較。結果顯示,盡管在樣本較少的情況下Concod的訓練時間較短,但DeepSV在使用相同數據集時顯示出更高的準確性評分和更少的訓練損失。另一個基因組變異過濾工具,GARFIELD-NGS,可以直接應用于變異調用器的輸出。它依賴于一個多層感知器(MLP)算法來研究來自Ion Torrent和Illumina平臺的外顯子測序數據中的真實和假變異。它通過處理標準VCF文件,在低覆蓋度數據(高達30X)下表現出強大的性能,并生成另一個VCF文件。

表 2

基于深度學習的用于預測致病變異的模型,它們的應用以及輸入/輸出格式和源代碼列在表2中。考慮到來自患者親屬或相關群體的額外數據,醫學遺傳學家在變異調用和注釋后經常對觀察到的基因變異進行優先級排序和過濾。變異優先級排序是一種確定在遺傳篩查中最可能的致病變異的方法,這些變異損害了基因功能并導致疾病表型。變異優先級排序包括對變異進行注釋以發現臨床上無意義的變異,如同義變異、深入內含子變異和良性多態性。隨后,剩余的變異,如已知變異或未知臨床意義的變異(VUS),變得可行。此外,解釋個體中罕見遺傳變異的復雜性,例如了解它們對疾病風險的影響,影響了診斷測序的臨床能力。例如,在罕見遺傳疾病中眾多且不常見的VUS代表了個性化醫學和健康人群評估中測序實施的一大挑戰。盡管統計方法,如GWAS,已經在將遺傳變異與疾病相結合方面取得了巨大成功,但它們仍需要大量樣本來區分罕見遺傳變異,并且無法提供關于新生變異的信息。因此,當前的注釋方法在優先選擇致病變異方面具有一定的優勢,盡管面臨一些缺點。對于這些問題,已經實現了基于深度學習的模型,以利用深度神經網絡(DNN)體系結構對變異進行優先選擇。

表 3

作者列出了聚焦于基因組中基因表達和調控領域中最高效的基于深度學習的工具應用各種深度學習算法的幾種模型,并在可用的情況下總結了關于剪接和基因表達應用的信息和源代碼(表3)。基因表達涉及初始轉錄調控因子(例如pre-mRNA剪接、轉錄和多聚腺苷酸化)到功能蛋白質的產生。測試數千個合成序列的高通量篩選技術已經提供了關于基因表達的定量調控方面豐富的知識,盡管仍存在一些限制。主要的限制是無法使用實驗或計算技術來探索大的生物序列區域。盡管最近的NGS技術在基因調控領域提供了巨大的知識,但大部分自然mRNA篩選方法仍然利用染色質可及性、ChIP-seq和DNase-seq信息,它們著重研究啟動子區域。因此,需要一種強大的方法來理解基因調控結構的各個區域之間的關系以及它們的網絡表達連接。同樣,目前的RNA測序技術已經賦予了單個細胞直接測序的能力,稱為單細胞RNA測序(scRNA-seq),它允許在獨特的意圖上查詢生物系統。例如,scRNA-seq數據為細胞異質性提供了有價值的信息,可以擴展對人類疾病和生物學的解釋。scRNA-seq數據的主要應用涉及檢測細胞的類型和狀態。然而,兩個主要的計算問題是如何對數據進行聚類以及如何檢索它們。

表 4

作者總結了表觀基因組學中最新的深度學習模型、它們的實現、數據類型和源代碼(表4)。基因型未發生變化的表型改變被稱為表觀遺傳學。它被定義為研究基因表達中可遺傳的修改,不包括DNA序列的修改。包括DNA甲基化、組蛋白修飾和非編碼RNA在內的表觀基因組學機制被認為在理解疾病發展和尋找新的治療靶點方面是基礎性的。盡管在臨床實施中,表觀遺傳學尚未完全得到應用。近年來,由于下一代測序和微陣列技術的進步,產生了大量的表觀遺傳學數據,導致了數據解釋工具的發展困難。目前缺乏適用且高效的計算方法,導致當前研究將重點放在單個表觀標記上,盡管在體內可能存在多個標記相互作用和基因型。之前的幾項研究揭示了深度學習模型在表觀基因組學中的基本應用。它們在預測三維染色質相互作用、單細胞數據集中的甲基化狀態和基于DNase-Seq數據的組蛋白修飾位點方面取得了巨大成功。

表 5

作者列出了最值得關注的深度學習藥物基因組學模型,它們的常見目的、輸入/輸出格式和源代碼(表5)。盡管在過去幾年中對深度學習方法產生了極大興趣,但直到最近,深度學習工具在藥物基因組學問題中的應用仍很少,比如預測藥物反應。關于巨大基因群集甚至整個基因組中的遺傳變異與不同藥物的影響之間的關聯的知識被稱為藥物基因組學[87]。現代治療方法面臨的一個主要挑戰是理解變異性的潛在機制。有時候,通過某個人群的藥物反應分布明顯是雙峰的,表明一個變量起主導作用,通常是遺傳因素。然而,對藥代動力學或藥效學潛在機制的理解可用于檢測候選基因,其中這些基因變體的功能可能解釋了不同的藥物反應。在調查藥物組合效果時,臨床實驗會產生各種錯誤,這是耗時和費用高昂的。此外,它可能使患者接受過多的風險治療。為了在不傷害患者的情況下確定替代藥物協同策略,可以利用高通量篩選(HTS)來使用幾種濃度的幾種藥物對癌細胞系進行實驗。利用現有的HTS協同性數據集允許使用準確的計算模型來研究巨大的協同空間。這些可靠的模型將為體外和體內研究提供指導,并為個性化醫學邁出重要的一步,例如預測抗癌協同治療、系統生物學、動力學方法和基于計算的基因表達模型,可用于單藥和劑量反應處理后的篩選。然而,這些方法僅限于特定的靶標、途徑或某些細胞系,并且有時需要特定化合物處理的細胞系的特定組學數據。 基因組學中使用的深度學習算法/技術

表 6

深度學習是機器學習的一個當代且快速發展的子領域。它通過構建多層次的深度神經網絡(DNNs)來對各種數據進行建模,從而創建數據的邏輯,如圖片、聲音和文本。通常,深度學習具有兩個特點:第一,非線性處理部分的結構是多層次的;第二,每個層次上的特征提取方式可以是監督或非監督方法。在1980年代,初始的深度學習架構是建立在人工神經網絡(ANNs)上的,但真正的深度學習的實力在2006年開始顯現。從那時起,深度學習已經在多個領域得到應用,包括基因組學、生物信息學、藥物發現、自動語音檢測、圖像識別和自然語言處理。

人工神經網絡(ANNs)受到人類大腦神經元及其網絡的啟發。它們由完全連接的節點或神經元組成,通過神經網絡展示了大腦中突觸的刺激傳遞。這種深度學習網絡的架構被用于特征提取、分類、數據降維或作為更深層次框架(如CNN)的子元素。多組學研究產生了大量數據,如前面提到的,主要是由于基因組學的進步和生物技術的改進。典型的例子包括高通量技術,其范圍包括數千個基因表達或非編碼轉錄,如miRNA。此外,基因分型平臺和NGS技術以及相關的GWAS產生可測量的基因表達數據,例如RNA-Seq,發現了各種人群中的許多遺傳變異和其他基因組改變。然而,一些深度學習模型僅依賴于DNA序列數據,似乎缺乏對特定細胞系方法的預測能力,因為不同細胞系的DNA序列是相同的。為了克服這個缺陷,已經提出了幾種混合的深度學習模型,并通過將DNA序列數據與生物實驗信息結合,某些研究顯示出明顯的改進。

表 7

作者收集了基于深度學習架構開發的最高效、用戶友好的基因組學資源(表7)。盡管這些工具在基因組學和生物信息學中取得了巨大的成功,但采用不同的深度學習解決方案和模型仍然受到限制。其中一個原因是缺乏基于深度學習的已發布協議,以適應需要進行大量數據工程的新的異質數據集。在基因組學中,高通量數據被用于訓練神經網絡,并已成為疾病預測或理解調控基因組學的典型方法。類似地,開發新的DL模型并在新的數據集上測試現有模型面臨巨大的挑戰,原因是缺乏全面、可推廣、實用的面向生物學的深度學習庫。在這方面,軟件框架和基因組包對于快速采用新的研究問題或假設、整合原始數據或使用不同的神經網絡結構進行研究至關重要。

結論

作者對基因組學的不同子領域中開發的不同深度學習工具/軟件進行了分類,以滿足各種基因組學分析的預測任務。詳細討論了不同基因組學測定中的數據類型,使讀者能夠對使用人類基因組學數據集開發基于深度學習的預測模型的基本要求有初步了解。在文章的后部分,作者簡要介紹了不同的深度學習架構,幫助基因組學科學家決定適合其特定數據類型和/或問題的深度學習網絡架構。作者還簡要討論了深度學習技術在基因組學中的最新應用及其潛在原因和解決方案。 參考資料 Alharbi, W. S., & Rashid, M. (2022). A review of deep learning applications in human genomics using next-generation sequencing data. Human Genomics, 16(1), 1-20.

付費5元查看完整內容

編譯 | 程昭龍

審稿 | 林榮鑫,王靜 本文介紹由同濟大學控制科學與工程系的洪奕光和中國科學院數學與系統科學研究院的萬林共同通訊發表在 Nature Communications 的研究成果:單細胞數據集成可以提供細胞的全面分子視圖。然而,如何整合異質性單細胞多組學以及空間分辨的轉錄組學數據仍然是一個重大挑戰。為此,作者提出了uniPort,這是一種結合耦合變分自動編碼器(coupled-VAE)和小批量不平衡最優傳輸(Minibatch-UOT)的統一單細胞數據集成框架。它利用高度可變的通用基因和數據集特異性基因進行集成,以處理數據集之間的異質性,并可擴展到大規模數據集。uniPort 將異質性單細胞多組學數據集嵌入到共享的潛在空間。它還可以進一步構建一個用于跨數據集基因插補的參考圖譜。同時,uniPort提供了一個靈活的標簽傳輸框架,以使用最優傳輸計劃去卷積異構的空間轉錄組數據,而不是嵌入潛在空間。作者通過應用uniPort集成多種數據集,包括單細胞轉錄組學、染色質可及性和空間分辨轉錄組學數據,從而證明了uniPort的能力。

簡介

單細胞RNA測序(scRNA)和單細胞染色質轉座酶可及性測序(scATAC)等高通量單細胞多組學測序技術的發展,能夠對構成組織的異質性細胞群、發育過程的動力學以及控制細胞功能的潛在調節機制進行全面研究。單細胞數據集的計算集成是機器學習和數據科學領域的重要研究方向。

現有的單細胞集成方法中,大量工作致力于同時集成來自同一細胞的多個數據集。然而,這些配對數據集在技術上具有挑戰性,且獲取成本高昂。因此,針對來自相同或相似群體的不同細胞的數據,開發了大量的集成方法。例如,Seurat平臺使用典型相關分析(CCA)將特征空間投影到公共子空間中,從而最大化數據集間的相關性。LIGER和DC3采用非負矩陣分解尋找共同特征的共享低維因子來匹配單細胞組學數據集。Harmony在最大多樣性聚類和基于混合模型的線性批次校正之間進行協調迭代,提供了一個潛在空間來去除批次效應。然而,這些方法依賴于線性操作,因此缺乏處理跨細胞模態的非線性變形的能力。此外,它們只利用過濾后的常見基因,而忽略了數據集特異性基因對于識別細胞群的重要性,而這些細胞群通常能捕獲不存在于常見基因中的細胞類型異質性。為了解決這些缺點,多種對比方法在集成單細胞多組學數據集方面取得了很有前景的結果。然而,流形對齊方法受到相對較高的計算復雜度限制,并且不能擴展到大規模數據集。

隨著深度學習的發展,現已提出了許多基于自動編碼器的方法,并證明了它們在跨模態數據集成中的能力。然而,其中大多數方法需要來自相同細胞的配對數據集以利用細胞配對信息,如DCCA和Cobolt。當細胞配對信息不可用時,替代方法是同時訓練不同的自動編碼器,并在潛在空間中跨不同的模態對齊細胞。最近,出現了大量的方法來解釋非配對數據。例如,scDART和跨模態自動編碼器通過自動編碼器學習潛在空間,并通過基于核或基于判別器的差異來對齊潛在表示。然而,這些方法需要進行全局比對,這對于整合異質細胞群往往具有限制性。此外,已開發的基于遷移學習的方法,通過學習模態不變的潛在空間,將知識(如細胞標簽)從一個模態遷移到另一個模態,從而建立源圖譜。這雖然取得了較好的結果,但僅限于使用帶有標注細胞標簽的源模態。

最近發表的單細胞基因組學集成方法,如scMC和SCALEX,在一種模式的批次效應校正方面表現出了最佳性能,但它們尚未成為單細胞多組學數據集成的基準。GLUE是另一種最先進的單細胞多組學集成和集成調控推理方法,其開發了基于高級圖的自動編碼器。同時,許多其他方法被提出用于空間轉錄組學(ST)和scRNA數據的集成分析。其中,gimVI和Tangram取得了最優性能。然而,目前尚未開發出統一集成單細胞多組學以及空間分辨轉錄組學數據的方法。

為此,作者提出了uniPort,這是一個精確、穩健和高效的計算平臺,用于將異構單細胞數據集與最佳傳輸(OT)集成。為了克服傳統VAE在單細胞異質性或非配對數據集成方面的局限性,作者提出了一個通過結合耦合變分自動編碼器(coupled-VAE)和小批量不平衡最優傳輸 (Minibatch-UOT) 的統一計算框架(圖1)。該框架允許利用高度可變的常見基因和數據集特異性基因進行集成,以處理不同數據集的異質性。實驗結果表明,uniPort可以準確、穩健地集成來自外周血單核細胞(PBMC)和小鼠脾臟的scATAC和scRNA數據集。它還可以通過scRNA數據精確填補未測量的空間分辨多重誤差穩健的熒光原位雜交(MERFISH)基因。此外,通過輸出OT計劃,作者證明了uniPort可以準確地破譯小鼠大腦的典型結構,幫助定位乳腺癌區域的三級淋巴結構(TLS),并在基于微陣列的空間數據中揭示癌癥異質性。

圖1 uniPort算法概述

結果

uniPort通過coupled-VAE和Minibatch-UOT嵌入和集成數據集 uniPort在不同模式或技術中采用不同異構單細胞數據集作為輸入。uniPort通過耦合變分自編碼器(coupled-VAE),利用無數據集編碼器將不同數據集的高度可變公共基因集投射到廣義細胞嵌入的潛在空間中。然后uniPort重構兩個輸入項,一個由具有數據集特定批量規范化(DSBN)層的無數據集解碼器輸入;另一個是通過與每個數據集對應的數據集特定解碼器形成的高度可變基因集(圖1)。由于一些常見基因在每個數據集中也高度可變,因此在兩個輸入項之間經常會發現一些重疊的基因。在集成期間,uniPort最大限度地減少了來自不同數據集的潛在空間中細胞嵌入之間的Minibatch-UOT損失。為了獲得更好的校準結果,有必要引入損失,特別是當特定數據集的解碼器被認為增加了潛在空間中不同數據集的異質性時。同時,小批量策略大大提高了OT的計算效率,使其可擴展到大數據集,而不平衡OT更適合異構數據集成。

作者使用了不同的評估指標來評估uniPort集成單細胞數據的能力。為了量化數據集混合和細胞類型分離,作者使用SCALEX計算了兩種評分:批次熵分數用來評估跨數據集混合細胞的程度,輪廓系數用來評估生物學特征的分離。為了對標注聚類的準確性進行基準測試,作者采用了調整蘭德指數(ARI)、歸一化互信息(NMI)和使用細胞類型標注的F1分數。然后,對于配對數據集,作者使用比真實匹配更接近的樣本的平均分數(FOSCTTM)來衡量跨數據集細胞間對應關系的保持情況。

uniPort集成scATAC和scRNA數據 在一個配對的scATAC和scRNA數據集(配對的PBMC數據集)和兩個不配對的scATAC和scRNA數據集(基于微流體的PBMC數據集和小鼠脾臟數據集)上,作者將uniPort與目前最先進的單細胞基因組學集成方法進行了基準測試,同時采用一致的流形近似和投影(UMAP)將積分結果進行可視化。

作者首先應用uniPort來集成配對的PBMC數據集(圖2),配對信息僅用于性能評估。實驗結果表明,uniPort和GLUE的性能最佳,且結果相當(圖2c-e)。在所有比較的方法中,uniPort,、Seurat、 Harmony、 SCOT和GLUE在兩種模式中準確集成了大多數細胞類型(圖2b)。

圖2 uniPort集成了配對的PBMC數據集

除了集成配對的PBMC數據集,作者還在基于非配對微流體的PBMC數據集上進一步評估了uniPort。結果顯示,uniPort準確地集成了scATAC和scRNA數據,并且具有與GLUE、MultiMAP和Harmony相當的競爭性能。此外,作者還在另一個來自小鼠脾臟數據集的未配對的scATAC和scRNA上測試了uniPort (圖3)。uniPort、scMC、Harmony和Seurat都取得了較好的性能。總之,在所有方法中,uniPort與最近發表的最先進方法相比表現良好,且在配對和非配對數據集中均顯示出準確和穩健的結果。

圖3 uniPort集成了非配對的小鼠脾臟數據集

uniPort執行異構數據集的非平衡匹配任務 uniPort最大限度地減少了Minibatch-UOT的損失,適用于不平衡匹配,為異構數據集成提供了強有力的保障。為了評估uniPort在異構數據集成方面的性能,作者分別從小鼠脾臟的scATAC或scRNA中去除一些細胞類型,進行了兩項不平衡匹配任務。去除scATAC數據部分類型的集成任務命名為ATAC不平衡匹配(“UBM-ATAC”),將在scRNA數據中刪除相同細胞類型的集成任務表示為RNA不平衡匹配(“UBM-RNA”)。同時,為了進行比較,將完整小鼠脾臟數據的集成定義為平衡匹配(“BM”)。

在兩種不平衡匹配的情況中,uniPort準確地識別并分離了“DC”、“Granulocyte”、“Macrophage”和“NK”細胞與其他細胞類型,同時很好地對齊了模態共享細胞類型(圖4a, b)。將uniPort與GLUE、Harmony、Seurat、MultiMAP和scMC進行比較,可以發現這些方法都在“BM”任務中取得了較高的準確性。但在所有方法中,只有uniPort和Seurat在三種情況下都取得了穩定的性能(圖4c, d)。因此,與“BM”的情況相比,當數據集中呈現異質性時,uniPort比其他方法更穩健。

圖4 uniPort集成了細胞類型不平衡的小鼠脾臟數據

uniPort集成了MERFISH和scRNA數據 作者進一步考慮了ST和scRNA數據的集成。ST測序技術主要有兩種類型:基于高復雜度RNA成像的ST測序技術和基于條形碼的ST測序技術。基于高復雜度RNA成像的空間測序具有單細胞精度更高、深度更大的優勢,但局限于覆蓋率較低的部分測量。為了測試uniPort在基于高復雜度RNA成像數據上的性能,作者應用uniPort集成了MERFISH和scRNA數據。

在MERFISH數據的155個基因中,使用scRNA和MERFISH中的153個共同基因進行集成。應用UMAP將uniPort、Harmony、Seurat、SCALEX、scVI、gimVI和MultiMAP的細胞嵌入結果可視化(圖5a,b)。從圖中可以看出,uniPort和scVI在鑒別和分離OD 未成熟細胞和其他細胞類型方面的表現優于其他方法。通過再次使用輪廓系數和總分對uniPort與其他方法的集成性能進行基準測試(圖5c, d),可發現uniPort優于其他方法。

uniPort為MERFISH數據插補基因 uniPort訓練了一個編碼器網絡,以將跨數據集中具有共同基因的細胞投射到共同細胞嵌入的潛在空間,同時訓練了一個解碼器網絡,以重建具有共同基因和特定基因的細胞。因此,一旦coupled-VAE訓練良好,就可以將其視為參考圖譜,從而允許uniPort通過圖譜根據另一個數據集的共同基因來對一個數據集中的共同基因和特定基因進行插補。插補基因可用于增強空間轉錄組學的分辨率。

為了探索uniPort的基因插補能力,作者采用gimVI方案從MERFISH的scRNA中插補缺失基因。首先隨機選擇MERFISH中80%的基因作為訓練基因,并保留剩余20%的基因作為測試基因。重復上述步驟12次,得到12個訓練和測試基因集。然后用每個訓練基因集訓練uniPort網絡,同時對相應的測試基因集進行插補,并將實驗結果與兩種最先進的基因插補方法進行比較:gimVI和Tangram。通過應用uniPort、gimVI和Tangram對測試基因進行插補,并使用UMAP對訓練和測試基因進行可視化(圖5e)。在MERFISH數據集上,與兩種比較方法相比,uniPort具有較優的性能 (圖5e,f)。

圖5 uniPort為MERFISH數據插補

uniPort去卷積合成的STARmap數據 基于條形碼的ST更容易獲得轉錄本,覆蓋率更高,但僅限于分辨率較低的混合點。接下來,通過將scRNA數據中的標簽轉移到混合點來實現基于條形碼的ST數據的去卷積。uniPort可以提供一個OT計劃,該計劃代表scRNA和ST數據之間的細胞到混合點的概率對應關系,從而能夠根據scRNA數據中的細胞注釋來對ST數據的單細胞簇比例進行去卷積。為了評估性能,將uniPort與兩種最先進的細胞類型去卷積方法Tangram和SpaOTsc進行了基準測試。實驗結果表明,uniPort對比兩種方法表現較好。

uniPort破譯小鼠大腦的典型結構 作者應用uniPort來去卷積現實世界中基于條形碼的ST示例。為了估計每個捕獲點的細胞類型組成和破譯典型的組織結構,作者首先整合了成年小鼠腦ST數據的前切片(10× Visium)。

正如清晰的邊界所示,uniPort準確地重建了結構良好的層并去卷積了28種細胞類型(圖6a)。多皮質層和區域特異性細胞類型等代表性簇的比例和位置與過往研究高度一致。盡管其解剖結構復雜,但uniPort仍精確地重塑和排列了從邊界延伸到中心區域的L2/3L6亞簇 (圖6b)。此外,L6層的亞群也被清晰地分離,揭示了該方法對幾乎無法察覺的信號的敏感性。因此,無論是標記基因的表達還是大腦的解剖結構,都證明了所提出圖譜的穩健性,且可以在基于基因表達的聚類和解剖注釋之間建立一致性,并提供比通過視覺檢查更徹底和全面的理解。

uniPort幫助定位乳腺癌區域的TLS 癌癥的發生和發展通常受到其與異質性腫瘤微環境(TME)的關聯影響,而ST可以為其提供生物學見解。為了進一步證明其靈活的效用,作者使用uniPort對 HER2陽性乳腺癌的空間數據進行去卷積,其中包含彌漫性浸潤細胞,這使得去卷積位點變得更加困難。如圖6c所示,在空間圖像上分配了9個主要簇,主要涉及T細胞和癌上皮細胞。此外,實驗發現分散在集中富集區域的代表性簇與標記基因表達所顯示的區域相一致(圖6d,e)。

大量研究表明,免疫細胞浸潤的增加與乳腺癌的良好預后高度相關。TLS是近年來在腫瘤或炎癥部位發現的一種異位淋巴樣器官,被認為是腫瘤患者的預后和預測因素。雖然TLS中存在多種細胞類型,但主要是T細胞和B細胞,它們的聯合共定位影響了TME。作者通過對每個點的細胞類型比例進行分析,并通過T細胞和B細胞共定位來識別TLS信號,以使T細胞和B細胞的表達強度相同(圖6f)。總體而言,uniPort可以協調不同模態,并滿足對組織和疾病代表性結構的高分辨率映射和識別。

圖6 uniPort識別空間轉錄組學數據中的標志性結構

uniPort揭示了基于微陣列的空間數據中的癌癥異質性 基于Visium的ST數據區域被限制在每個捕獲點直徑為55 μm的范圍內,這達到了相當于3-30個細胞的中等分辨率。隨著位點分辨率的降低,可能會對集成造成潛在的影響,因為成分的混合增長會帶來更多的噪聲。為了檢驗uniPort在這種情況下的性能,作者使用基于微陣列的胰腺導管腺癌(PDAC)組織的ST數據進行集成,其直徑延伸至100 μm。對1926個單細胞配對的428個位點進行細胞類型去卷積,并分別測量了19736個基因。

通過分解15個主要的簇,可以發現它們表現出正常和腫瘤組成的離散富集和復雜性(圖7a)。正常胰腺細胞類型分為導管細胞和腺泡細胞,與以往研究結果一致,保留了與癌細胞明顯不同的分布和遺傳特征。對于惡性胰腺細胞,根據遺傳差異將其分組為癌癥克隆A簇和B簇。其次,正常和癌變區域的組織學注釋總體上符合其數據驅動的標簽(圖7b), TME的基本成分由其標記基因表示(圖7c, d)。

為了進一步了解癌癥亞型的異質性,進一步分析確認它們的身份,以及每個位點所占最大比例(圖7e)。KEGG通路將它們分離成不同的功能組件(圖7f)。此外,在腫瘤克隆A中,包括紅細胞(RBC)、T細胞和自然殺傷(NK)細胞在內的血源性細胞比例顯著增加(圖7g),這與功能分析的結果一致。綜上所述,該方法可以操作不同分辨率的應用光譜,揭示細微的異質性TME。

圖7 uniPort在基于微陣列的空間數據中識別不同的癌癥亞型

總結

本文介紹了一種用于單細胞數據集成的統一深度學習方法uniPort,并將其應用于集成基于轉錄組學、表觀基因組學、空間分辨的高復雜度RNA成像以及條形碼的單細胞基因組學。uniPort結合了coupled-VAE和Minibatch-UOT,并利用高度可變的常見基因和數據集特異性基因進行集成。它是一種非線性方法,可將所有數據集投射到一個公共潛在空間,并在數據集之間輸出其潛在表示,從而實現可視化和下游分析。

uniPort解決了幾個計算方面的挑戰,首先是通過使用Minibatch-UOT消除其他基于自編碼器模型所需配對細胞的約束。與僅考慮跨數據集常見基因的現有方法不同,作者還利用了每個數據集特有的基因,從而捕獲常見基因中不存在的細胞類型異質性。此外,由于coupled-VAE的泛化能力,uniPort通過構建參考圖譜顯示了其在基因插補方面的能力和潛力。需要指出的是,uniPort甚至可以通過一個數據集中的公共基因來插補另一個數據集中的獨特基因,而無需從頭開始訓練。此外,uniPort還可以輸出用于下游分析的OT計劃,如靈活的標簽遷移學習,用于空間異構數據的去卷積。

在集成大規模異構數據集方面,uniPort具有計算效率和可擴展性,而這對于其他基于OT的方法來說可能是計算上的障礙。目前流行的基于OT的單細胞分析方法是基于全局最優傳輸,但全局最優傳輸使得計算非常昂貴。為了解決這一問題,uniPort在基于VAE的單細胞基因組學分析框架中引入了Minibatch-UOT,在每次迭代中只需要求解一個mini-batch傳輸計劃,從而大大降低了計算成本。因此,它可擴展到大數據集。

由于研究中對scATAC的集成是基于基因活性評分,為此作者還測試了uniPort在以不同方法計算基因活性評分時的性能。集成結果顯示,uniPort在MAESTRO的基因活性評分上取得了更好的表現,所有的評分都高于Signac,這說明了對基因活性評分建模的重要性。

與最近發表的最先進的方法相比,uniPort始終表現良好,并成功地使用OT計劃去卷積空間異構數據。隨著配對數據集和各種異質模態的快速發展,本文還通過使用CITE-seq數據和SNARE-seq數據集或沒有對齊公共基因的數據集,證明了uniPort對其他類型單細胞數據的普遍適用性。

參考資料

Cao, K., Gong, Q., Hong, Y. et al. A unified computational framework for single-cell data integration with optimal transport. Nat Commun 13, 7419 (2022). //doi.org/10.1038/s41467-022-35094-8

數據
代碼

付費5元查看完整內容

編譯 | 姜晶

審稿 | 許俊林 本文介紹由美國俄亥俄州立大學醫學院Qin Ma副教授團隊和美國密蘇里大學哥倫比亞分校許東教授團隊聯合發表在Nature Communications的研究成果。本文作者提出了scDEAL,這是一個通過整合大規模bulk細胞系數據在單細胞水平上預測癌癥藥物反應的深度遷移學習框架。scDEAL的亮點在于協調藥物相關的bulk RNA-seq數據與scRNA-seq數據,并通過遷移學習把在bulk RNA-seq數據上訓練的模型用以預測scRNA-seq中的藥物反應。scDEAL的另一個特點是整合梯度特征解釋來推斷耐藥機制的特征基因。作者在六個scRNA-seq數據集上對scDEAL進行了基準測試,并通過三個專注于藥物反應標簽預測、基因特征識別和偽時間分析的案例證明了模型的可解釋性。作者相信scDEAL可以幫助研究細胞重編程、藥物選擇和再利用以提高治療效果。

1 簡介 癌癥的藥物治療因不同狀態或細胞命運之間的癌癥異質性而導致治療效率低和復發率高。這種異質性是導致單個細胞對藥物產生不同反應的原因,從而導致體內仍存在極少數量的癌性殘留物,最終導致癌癥復發。單細胞RNA測序(scRNA-seq)技術為發現癌癥亞群對特定藥物的異質基因表達提供了前所未有的機會。現有的針對bulk數據開發的藥物反應預測方法不能直接用于單細胞數據,因此,迫切需要在單細胞水平上開發推斷癌癥藥物反應的計算方法。然而,開發用于預測單細胞藥物反應的基于深度學習的工具面臨的主要障礙是由于公共領域的基準數據數量有限,訓練能力不足。幸運的是,深度遷移學習(DTL)可以將知識和關系模式從bulk數據遷移到單細胞數據中。DTL模型已作為一種有效的策略應用于多個bulk數據進行癌癥藥物反應預測;然而,到目前為止,其將bulk水平上的知識遷移到單細胞水平上的能力尚未得到充分研究。

作者通過調整域自適應神經網絡(DaNN)來開發scDEAL(單細胞藥物反應分析),根據bulk和scRNA-seq數據預測藥物反應。scDEAL在預測單細胞水平的藥物敏感性方面非常強大,因為它在藥物敏感性、單細胞的基因特征和bulk樣本的基因特征之間建立了橋梁。scDEAL突出了以下幾個方面:(i)它可以使用來自癌癥藥物敏感性基因組學(GDSC)數據庫和癌細胞系百科全書(CCLE)的大量bulk RNA-seq藥物反應信息來訓練和優化模型;(ii)為了考慮bulk數據和scRNA-seq數據之間的數據結構差異,scDEAL協調單細胞和bulk數據的嵌入,以確保藥物反應標簽可從bulk數據轉移到單細胞數據;(iii)為了避免在scRNA-seq數據中丟失異質性,scDEAL在每個訓練epoch代入細胞簇標簽;(iv)scDEAL整合梯度解釋推斷藥物反應預測的特征基因,從而提高了模型的可解釋性。作者對六個基準藥物治療的scRNA-seq數據進行綜合分析和評估,scDEAL在預測細胞類型藥物反應方面上有高準確率。作者通過追蹤和累積DTL模型中每個神經元的積分梯度,進一步識別被認為直接導致細胞中藥物敏感性或耐藥性的基因特征。最后,證明預測的藥物反應與治療程序的表達軌跡很好地吻合。總體而言,作者相信scDEAL能夠在單細胞藥物反應預測中部署DTL模型,這可能有利于藥物開發、再利用和癌癥治療選擇研究。

2 結果 scDEAL框架概述 首先,scDEAL在bulk水平上對基因表達特征和藥物反應之間的關系進行建模;然后,識別單細胞和bulk數據之間共享的低維特征空間,以協調兩種數據類型之間的關系。通過共享的低維特征空間捕獲bulk水平的基因表達-藥物反應關系。訓練DTL模型來學習上述兩種關系的優化方案。最后,單細胞-藥物反應關系可以通過DTL模型中的單細胞水平的基因表達、bulk水平的基因表達和藥物反應的元關系來建立。總體而言,scDEAL可以推斷單個細胞的藥物反應,而無需在單細胞水平上進行監督訓練(圖1a)。

scDEAL框架包括五個主要步驟:(1)提取bulk基因特征,(2)使用在步驟1中提取的特征預測每個bulk細胞系中的藥物反應,(3)提取單細胞基因特征,(4)聯合訓練和更新前面步驟中的所有模型,(5)將訓練好的模型遷移并應用到scRNA-seq數據以預測藥物反應(圖1b)。scDEAL的訓練由一個僅使用bulk數據確定bulk特征降維和藥物反應預測的初始參數的源模型,以及一個包含scRNA-seq數據并部署遷移學習策略來訓練和更新單細胞藥物反應預測的整個框架的目標模型組成。訓練了兩個去噪自動編碼器(DAE),以分別從bulk數據和scRNA-seq數據中提取低維基因特征;DTL模型以多任務學習的方式同時更新兩個DAE模型和預測器模型。該框架協調bulk表達數據和scRNA-seq數據,并將可信的基因-藥物關系從bulk水平遷移到單細胞水平。scDEAL的輸出是預測的單個細胞的潛在藥物反應。

模型訓練的關鍵挑戰之一是在協調scRNA-seq數據與bulk數據時保持單細胞異質性。為了解決這種挑戰,作者應用了兩種策略。首先,由于bulk RNA-seq和scRNA-seq數據中的噪聲特征非常不同,使用DAE模型,而不是常見的自編碼器或變分自編碼器,在特征降維之前在bulk和scRNA-seq中誘導噪聲。通過這種方式,可以避免不平衡訓練的風險,這種風險只會迫使scRNA-seq數據中的基因表達接近于bulk RNA-seq數據。其次,整合了細胞聚類結果以正則化scDEAL的整體損失函數,以便在訓練過程中保留細胞異質性。

圖1 scDEAL框架

在scDEAL中對單細胞藥物反應預測進行基準測試 作者評估了由五種藥物(即順鉑、吉非替尼、I-BET-762、多西他賽和埃羅替尼)治療的六個公共scRNA-seq數據集的藥物反應預測性能。所有數據集都提供了單個細胞的真實藥物反應注釋(即藥物敏感或耐藥)。ground truth標簽是從原始手稿中提取的二進制指示符(0表示抗性,1表示敏感)。大多數研究根據治療條件確定對整個細胞群的藥物反應,例如,二甲基亞砜(DMSO)治療的細胞都是敏感的,治療后存活的細胞都是耐藥的。與真實標簽相比,scDEAL預測使用七個指標進行評估:F1得分、AUROC、AP得分、準確率、召回率、AMI和ARI。作者展示了基于scDEAL優化超參數在六個數據集上的F1得分、AUROC和AP得分的結果(圖2a)。

如上所述,scDEAL在所有六個數據集中的單細胞藥物反應預測方面取得了相當高的性能。此外,為了闡明scDEAL框架設計的基本原理,作者替換或刪除了scDEAL中的特定組件,并將結果與最終框架的結果進行了比較。如果最終的scDEAL框架能夠勝過所有替代模型,它將得到全面驗證。

首先,通過僅在bulk數據上訓練模型,直接將其用于scRNA-seq數據預測,無需步驟3(遷移學習) ,進行比較測試。對于每個數據,實驗重復50次。所有六個數據集的結果顯示,與不使用遷移策略相比,使用轉移策略時F1得分顯著增加(圖2b)。比較表明,遷移學習有助于提高單細胞藥物反應預測的性能。

其次,為了評估遷移模型的訓練能力是否依賴于bulk資源,僅使用來自GDSC數據庫、僅CCLE數據庫以及GDSC和CCLE數據庫的組合的bulk數據對scDEAL進行基準測試。結果表明,結合來自GDSC和CCLE數據庫的bulk數據可以顯著提高預測能力(圖2c)。

第三,驗證使用DAE和細胞類型正則化是否有助于減少單細胞異質性的損失并提高預測性能。比較使用常見的自編碼器在bulk和scRNA-seq數據中提取特征的框架、使用DAE但未按細胞類型正則化的框架和最終的scDEAL框架(包括DAE和細胞類型正則化)的結果。對于所有六個數據集,在框架中使用DAE和細胞類型正則化獲得了比其他兩個選項更好的性能(圖2d)。為了進一步闡明添加細胞類型正則化如何更好地保持scRNA-seq數據的異質性,作者使用來自具有和不具有細胞類型正則項的scDEAL的潛在表示展示了具有細胞簇和藥物反應注釋的細胞(圖2e)。UMAP結果表明,在應用細胞類型正則項后,細胞在簇內變得更加有序和緊湊。

最后,作者展示了一個網格參數調整結果,包括6個超參數的480種組合。總體而言,結果顯示單個參數選擇對scDEAL性能沒有顯著影響。對于任何新數據集,作者建議調整bulk采樣方法和瓶頸維度,因為在實現最佳預測性能時,這兩個參數在六個數據集之間存在很大差異。為了評估scDEAL的魯棒性,作者對六個數據集進行了隨機分層抽樣測試(n?=?20) (圖2f)。根據F1得分、AUROC、AP得分、精準率、召回率、AMI和ARI的變化,表明scDEAL在多次隨機抽樣中是魯棒的。

圖2 scDEAL的基準測試結果

scDEAL在多種I-BET治療條件下對白血病細胞的的藥物反應預測結果良好 作者展示了scDEAL對數據6的分析能力,包括用BET抑制劑(I-BET)處理的1419個混合譜系白血病-AF9(MA9)白血病細胞(圖3a)。接下來,引入一個基因評分來反映敏感(或抗性)細胞簇中鑒定的差異表達基因的整體基因表達水平。分數背后的假設是準確的預測會給細胞分配正確的反應標簽。因此,用于準確預測的抗性和敏感狀態之間的DEGs基因評分應與源自ground truth的DEGs相關。此外,作者的DEG顯示的基因評分模式可以比使用真實標簽識別的DEG更好地區分抗性和敏感細胞(圖3b)。對于敏感的DEG列表,預測的DEG分數與地面真實DEG分數之間的相關性高達R2?=?0.90,對于抗性DEG列表,R2?=?0.77(圖3c)。作者進行了經驗零模型檢驗來評估相關性的顯著性。隨機選擇與作者預測的DEG相同數量的基因,并如上所述計算相關性1000次。經驗檢驗(n?=?1000)結果顯示,對敏感和抗性DEG評分相關性的p值低于0.001,表明作者的相關性顯著且具有統計學意義(圖3d)。

圖3 I-BET治療的數據6的案例研究

scDEAL可以識別負責藥物反應的關鍵基因 盡管scDEAL對單細胞藥物反應提供了準確的預測,但對模型中活躍的遺傳特征的理解是必不可少的。作者在數據1中對順鉑治療的口腔鱗狀細胞癌(OSCC)進行了scDEAL分析。順鉑通過與DNA上的嘌呤堿基相互作用產生DNA交聯來發揮其抗癌活性,干擾DNA復制并導致額外的有害DNA雙鏈斷裂,如果不修復,會導致癌細胞凋亡。因此,任何可以增強DNA修復或/和抑制細胞凋亡的因素都能夠使癌細胞對順鉑治療產生抗性。使用scDEAL,85%的細胞被正確預測為對順鉑敏感或耐藥 (圖4a)。調整后的p值<0.05、log-fold變化<0.1且在任何一個比較組中細胞百分比高于0.2的基因被定義為影響藥物反應的關鍵基因(CG)。在HN120P(敏感細胞組)中識別出936個藥物敏感CGs,在HN120PCR(順鉑治療四個月后的耐藥細胞組)中識別出868個耐藥CGs,IG評分差異顯著(圖4b)。作者觀察到幾種預測最高的抗性CG,例如BCL2A1和DKK1,具有抗凋亡活性(圖4c)。已證明這些基因的過表達介導對順鉑的抗性。

圖4 具有順鉑藥物反應的數據1的scDEAL案例研究

scDEAL藥物反應預測與偽時間分析高度相關 應用Monocle3對數據6(用I-BET治療)進行軌跡推斷,以驗證作者預測的藥物反應是否與藥物治療的進展相關。基于基因表達的偽時間分析顯示了從DMSO樣品開始向1000ml I-BET治療樣品的軌跡趨勢(圖5a)。當將偽時間結果與相同擴散UMAP上的藥物反應進行比較時,觀察到DMSO對照對治療樣品的抗性增加(圖5b)。這些結果表明,在高劑量藥物后測序的剩余活細胞表現出顯著的藥物耐受性,這也與實驗藥物反應標簽(ground-truth標簽)非常吻合。除了預測和軌跡拓撲之間的一致性外,作者還進一步解釋了scDEAL中識別的CG的抗性發展趨勢。作者展示了兩個代表性的I-BET抗性CG的表達值,即Eid2和Galnt17(圖5c),以及兩個代表性的I-BET敏感基因,即Emilin1和Ramp1(圖5d)。觀察到這些基因的表達水平與偽時間分析的軌跡和預測的藥物反應概率評分相匹配。

關于預測的CG和DEG的比較以及軌跡的進一步研究表明,預測的CG列表在區分敏感和耐藥細胞狀態方面具有更明顯的表達(圖5e)。Pearson評分與pseudotime值之間的相關性高達0.81(正相關)和-0.93(負相關),這表明scDEAL的預測可能暗示藥物反應發展。敏感和耐藥細胞組中的前十名CG顯示出不同的表達模式,并且與偽時間分數高度相關(圖5f)。總之,作者證實了scDEAL中預測的藥物反應結果和CG與I-BET處理的細胞偽時間軌跡有很強的相關性。

圖5 用偽時間軌跡驗證預測的藥物反應

3 總結與討論 scDEAL使用bulk基因表達數據增強了scRNA-seq數據分析和解釋,可用于預測癌癥scRNA-seq數據和其他疾病中細胞群的藥物反應。適應scRNA-seq數據的神經網絡可以在bulk細胞系數據上進行初步訓練。因此,可以從scRNA-seq數據預測藥物敏感性。需要注意的是,scDEAL僅根據訓練好的模型和scRNA-seq基因表達矩陣預測單細胞藥物反應,不需要標簽。

未來工作展望: * 通過整合額外的bulk數據庫來更新scDEAL訓練數據,提高scDEAL中預測結果的準確性。 * 增加實驗驗證的藥物反應scRNA-seq數據,有助于確定更好的模型超參數,甚至有助于開發直接的單細胞到單細胞深度遷移學習模型。 * 跨不同物種的單細胞藥物反應預測,如人類到小鼠。

scDEAL在單細胞水平上改進藥物開發方面具有相當大的潛力。首先,它可用于預測藥物反應并將基因特征與治療效果聯系起來。其次,CG可用于CRISPR篩選或細胞重編程的潛在目標簽名。第三,它可以應用于現有的未經藥物治療的scRNA-seq數據,以預測多個細胞簇中的潛在藥物反應,可以選擇用于動物藥物測試。從長遠來看,作者相信該工作可以為細胞重編程、藥物選擇和再利用以及聯合用藥以提高治療效果做出貢獻并提供見解。

參考資料 Chen, J., Wang, X., Ma, A. et al. Deep transfer learning of cancer drug responses by integrating bulk and single-cell RNA-seq data. Nat Commun 13, 6494 (2022). //doi.org/10.1038/s41467-022-34277-7

數據

代碼

付費5元查看完整內容

編譯 | 程昭龍

審稿 | 林榮鑫,王靜本文介紹由浙江大學基礎醫學院的郭國驥、韓曉平和良渚實驗室的王晶晶共同通訊發表在 Nature Genetics 的研究成果:目前研究人員在生成和分析基因組方面做了大量努力,但大多數物種仍缺乏預測基因調控和細胞命運決定的遺傳模型。在該研究中,作者利用自主構建的高通量單細胞測序平臺Microwell-seq繪制了斑馬魚、果蠅和蚯蚓的全身單細胞轉錄組圖譜,并探究了八種代表性的后生動物細胞類型的跨物種可比性,揭示了脊椎動物細胞類型保守的調控程序。作者開發了一種基于深度學習的模型Nvwa,用于在單細胞分辨率下預測基因表達和識別調控序列。作者還系統地比較了細胞類型特異性轉錄因子,以揭示脊椎動物和無脊椎動物細胞類型的保守遺傳調控。該工作有助于為研究不同生物系統的調控語法提供寶貴的資源和新的策略。

簡介

單細胞是生命的基本單位。高通量單細胞RNA測序(scRNA-seq)增強了研究人員識別細胞類型的能力。隨著scRNA-seq技術的發展,scRNA-seq分析已被用于繪制各種物種的全生物體細胞圖譜,包括人類、斑馬魚、果蠅、小鼠、線蟲和渦蟲。細胞類型是多細胞生命的基本組成部分,由轉錄因子(TF)等核心調控因子控制。最近,細胞類型被提出作為具有準獨立進化變化潛力的“進化單位”。具有共同譜系祖先的細胞類型共享核心調控TF,其可能在物種進化過程中發生分化。單細胞圖譜為系統比較不同物種的細胞類型和調節因子提供了前所未有的機會。

雖然TF的表達可以用scRNA-seq來測量,但目前尚不清楚基因組是如何在細胞圖譜背后編碼不同的時空遺傳程序的。深度神經網絡是建模高維數據中復雜關系的強大方法,有助于學習在特定條件下從基因組序列到基因表達的映射。目前已經開發了幾種模型來預測DNA序列中的基因表達或染色質譜,如Xpresso、DeepSEA、Basset、 Enformer和AI-TAC。這些深度學習模型在識別復雜序列模式方面顯示出了強大的能力。然而,此類模型尚未應用于多物種的綜合圖譜,并且細胞圖譜水平的深度神經網絡有可能識別出跨生物共享的新細胞類型特異性調控。

在該研究中作者構建了斑馬魚、果蠅和蚯蚓的全身單細胞圖譜。并收集了八種代表性的后生動物圖譜,研究了細胞類型和TF的跨物種相似性。然后,作者開發了一種基于深度學習的模型Nvwa,以從單個細胞的DNA序列預測基因表達。最后,作者還解釋了細胞類型特異性的序列規則,并表征了跨物種細胞類型的保守調控程序。

結果

構建斑馬魚、果蠅和蚯蚓的單細胞圖譜 之前,作者使用Microwell-seq構建了人類和小鼠的全生物體細胞圖譜。在這項研究中,作者使用可以消除組織特異性批次效應的scRNA-seq策略構建了斑馬魚、果蠅和蚯蚓的全身細胞圖譜(圖1a)。其中,斑馬魚圖譜收集了635,228個單細胞數據,果蠅圖譜涵蓋了276,706個單細胞數據,蚯蚓圖譜包含了95,020個單細胞數據。

通過對圖譜數據進行無監督聚類,發現了105種主要的斑馬魚細胞類型(圖1b)、87種主要的果蠅細胞類型(圖1c)和62種主要的蚯蚓細胞類型,它們具有不同的基因表達程序。作者還根據典型細胞類型特異性標記的標準化表達水平對每個細胞類型進行注釋。總共105種斑馬魚細胞被分為11個主要細胞譜系:內皮細胞、上皮細胞、紅系細胞、生殖細胞、肝細胞、免疫細胞、肌肉細胞、神經元細胞、分泌細胞、基質細胞和其他細胞。作者還對105種主要細胞類型中的每一種進行了子聚類分析,并在層次結構中識別出1285個細胞類型子聚類(圖1d)。

果蠅的細胞圖譜中,87種細胞類型被分為12個主要的細胞譜系:上皮細胞、神經元細胞、血細胞、卵泡、腸細胞、生殖細胞、雄性副腺、馬氏小管(MT)、肌肉細胞、增殖細胞、脂肪體和其他細胞。同時,作者使用MetaNeighbor將構建的單細胞圖譜與一個平行的蠅細胞圖譜項目進行了比較。在87種果蠅細胞類型中,約93.1%與組織特異性注釋一致。最后,對87種主要細胞類型中的每一種進行子聚類分析,在層次結構中共識別出1085個子聚類(圖1e)。

圖1 使用Microwell-seq構建斑馬魚和果蠅細胞圖譜

對于蚯蚓細胞圖譜,62種細胞類型被分為8個主要的細胞譜系:消化腺細胞、上皮細胞、神經元細胞、體腔細胞、肌肉細胞、紅細胞、生殖細胞和其他細胞。最后,子聚類分析在蚯蚓層次結構中共識別出462個子聚類,這些子聚類在功能上是有意義的。

斑馬魚、果蠅和蚯蚓的圖譜資源可在//bis.zju.edu.cn/nvwa/獲得。此外,作者還在結構細胞(非免疫細胞)中觀察到顯著的免疫基因活性,包括斑馬魚上皮細胞、果蠅MT細胞和蚯蚓體腔細胞。并且作者證明了哺乳動物的結構細胞,包括上皮細胞、內皮細胞和基質細胞,可能具有免疫特征,從而有助于提高對造血系統外的免疫學理解。

細胞圖譜中的跨物種比較 利用流式細胞術和群體分析在生物體水平上研究和建模基因調控模式一直是一個挑戰。通過統一的單細胞信使RNA測序(mRNA-seq)平臺,作者構建的細胞圖譜數據資源為研究跨物種細胞分類的遺傳調控提供了前所未有的機會。因此,作者旨在分析細胞類型特異性遺傳調控網絡,并通過數據集成和機器學習來評估跨物種遺傳調控的保守性。為了獲得高質量的細胞,作者設置了一個更高的截止值,以生成一個數據集,其中斑馬魚和果蠅平均每個細胞大約有1000個基因,蚯蚓平均每個細胞大約有400個基因。作者總共從八種物種中獲得了480種細胞類型,涵蓋了主要的細胞譜系,包括上皮細胞、免疫細胞、神經元細胞、基質細胞、肌肉細胞、分泌細胞、紅系細胞、生殖細胞、內皮細胞和增殖細胞譜系。然后使用偽細胞算法制作偽體細胞計數矩陣或基于馬爾可夫親和力的細胞圖插補 (MAGIC),以插補缺失的基因表達。

為了檢驗細胞類型的跨物種相似性,對八個轉錄組數據集進行了成對SAMap分析。作者比較了MAGIC、單細胞和偽細胞三種數據集的跨物種比較結果,結果發現脊椎動物的細胞類型是保守的。基于MAGIC數據集,85.9%同源細胞類型對可以基于單細胞和偽細胞數據集重新識別。為了降低結果的假陽性率,作者設置了嚴格的閾值來構建跨物種圖譜。經分析可知脊椎動物的細胞類型是保守的,特別是免疫細胞、基質細胞、神經元細胞、上皮細胞、內皮細胞和生殖細胞(圖2a)。在果蠅的跨物種圖譜中,作者還發現幾乎來自同一細胞譜系的所有細胞類型都顯示出很強的聯系(圖2b)。為了進一步驗證跨物種圖譜的結果,作者對肌肉和神經元中同源細胞類型之間的富集基因對進行了功能富集分析(圖2c),作者發現富集的基因對具有一致功能,這與之前的研究結果是一致的。

圖2 八個物種的跨物種分析

為了評估脊椎動物和無脊椎動物在調控水平上的調控保守性和細胞類型差異,作者計算了每個物種的TF特異性得分(圖3a-h)。總的來說,作者在八個物種中共鑒定出2342個細胞譜系特異性TF。基于八個物種間同源基因的轉換,可以觀察到同源TF中更多保守特征。同源TF分別覆蓋了人類、小鼠和斑馬魚所有細胞類型特異性TF的91.42%(70個中的64個)、98.75%(80個中的79個)和75%(104個中的78個)。總之,作者的研究為保守遺傳調控基因的跨物種篩選提供了保守遺傳調控的詳細信息。

圖3 利用scRNA-seq數據比較物種內部和物種間的調節TF

Nvwa根據DNA序列預測基因表達 TF作為調控網絡中的重要功能節點,可以識別特定的DNA序列來控制染色質狀態和轉錄。然而,確定DNA序列元件與細胞類型特異性基因調控相關的分子機制仍然具有挑戰性。為了更好地理解基因組中編碼的調控元件,作者開發了一種基于深度學習的模型Nvwa。訓練Nvwa模型以從單熱調控序列的輸入中預測單個細胞各基因的表達。對預測的細胞圖譜進行評估,以驗證模型的性能。此后,將學習的序列規則以調控元件的形式進行解釋,如序列基序及其預測影響。Nvwa配備了單細胞分辨率,可以進一步識別特定細胞類型與深度學習衍生序列基序之間的關聯(圖4a)。綜上所述,Nvwa可以僅在單細胞水平上利用基因調控序列預測基因表達并識別特定于細胞類型的候選調控因子。

作者首先獨立訓練了八個物種的Nvwa模型,并評估了Nvwa能否正確預測單細胞基因表達。Nvwa表達預測的準確度是通過檢測數據中受試者操作特征曲線(AUROC)下的平均面積和精確召回曲線(AUPR)下的面積來評估的。Nvwa穩健地預測了八個物種的基因表達,其總體AUROC為0.78,AUPR為0.59。通過比較不同細胞類型的性能,表達預測正確性最高的總是生殖系的細胞。Nvwa在預測單細胞基因表達方面進行了優化,在人類和果蠅數據集中優于Basset、DeepSEA、Beluga和Basenji等標準架構。此外,通過集成相關物種的序列進行多基因組訓練,可以進一步提高Nvwa模型的準確性。Nvwa模型預測再現了細胞之間的關系,包括細胞類型的相似性和多樣性,預測結果與在同一細胞類型中觀察到的表達更為相似。細胞類型特異性進一步通過t分布隨機鄰居嵌入(t-SNE)和預測表達位點在保留基因上的調整互信息(AMI)評分得到證實。總的來說,這些評價證實了Nvwa可以從DNA序列中正確預測單細胞水平的基因表達。

Nvwa可以進一步擴展到掃描全基因組轉錄活性信號,盡管只訓練了基因調控序列(平均約占基因組的13%)。Nvwa模型沿著整個染色體掃描序列,通過識別調控DNA序列來預測信號。通過檢查Nvwa全基因組預測,作者觀察到它們與實驗測量的功能基因組數據相關。此外,通過可視化基因組瀏覽器軌跡,可觀察到Nvwa預測與多種細胞類型和物種中實驗定義的信號之間的一致性(圖4b)。總的來說,實驗分析從外部驗證了Nvwa預測性能的魯棒性。在其應用中,Nvwa模型可以作為在硅片中進行功能基因組研究的輔助工具。

圖4 深度學習模型框架的應用和解釋

Nvwa確定特定細胞類型的調控程序 為了理解為什么Nvwa可以正確預測單細胞基因表達,作者檢查了學習模型的過濾器,其代表了對相應細胞類型重要的特定序列基序。正如預期的那樣,在TSS周圍的窗口內系統地移動輸入序列表明,近端啟動子區域(±1 kbp)的信息量最大。然后,作者基于特征映射和TF-MoDISco方法從每個第一層卷積濾波器中提取深度學習的基序,并發現這兩種方法給出了一致的結果。作者還計算了序列基序的細胞類型特異性,并使用影響評分進行量化。結果表明,與不同TF相關的過濾器也參與了細胞類型的識別和細胞活性(圖4c)。這些結果啟發作者進一步分析模型過濾器及其與細胞類型特異性基序和TF的關系。

Nvwa衍生的序列基序可以分配到已知的TF結合位點(TFBS)。作者還觀察到,帶注釋的濾波器與已知的TFBS高度相似(圖4d)。在交叉驗證分析中,大多數注釋濾波器具有較高的再現性和信息含量,這表明Nvwa解釋的魯棒性。一些影響分數較高的未注釋過濾器可能捕獲了較短的序列模式。

除了生物學注釋,作者還檢查了Nvwa序列基序的細胞類型特異性。對于小鼠和果蠅,50%-80%的細胞類型特異性Nvwa基序通過相應的單細胞ATAC-seq數據被重新識別。作者還發現,細胞類型特異性過濾器與相應TF的已知作用一致(圖4e,f)。作者還在果蠅中鑒定了過濾調節子,這證實了由相同過濾器調控的靶基因具有相似的細胞譜系特異性表達模式(圖5a,b)。總之,這些結果表明,Nvwa可以利用與特定細胞類型相關的TF的深度學習衍生基序,使得能夠直接從序列中篩選細胞類型特異性調控因子。

圖5 Nvwa 確定特定細胞類型的調控程序

Nvwa基序的跨物種比較 為了進一步分析物種間的遺傳網絡,作者比較了基于深度學習的基序在物種間的保守性和差異性。作者在八個物種特異性模型中共識別出663個細胞類型特異性過濾器。約94.9%的細胞類型特異性過濾器至少與來自其他物種特異性模型的一個過濾器同源(圖6)。并且同源過濾器傾向于保持物種間相似的細胞類型特異性。深度學習基序的跨物種比較顯示出揭示特定細胞類型下保守調控因子富集的潛力。

圖6 細胞譜系特異性過濾器的保守水平分布

總結

在這項研究中,作者利用自主構建的高通量單細胞測序平臺Microwell-seq構建了斑馬魚、果蠅和蚯蚓的全生物細胞圖譜。在沒有組織特異性批次效應的情況下測量了整個細胞的平衡狀態。這些細胞圖譜為研究物種,特別是節肢動物和環節動物的細胞分類提供了前所未有的機會。在這項研究中,作者總共分析了八種具有代表性的后生動物物種,以生成一個詳細目錄,來說明動物進化過程中細胞平衡狀態的保守性和多樣性。為了區分趨同進化和協同進化,作者篩選了具有細胞類型特異性的細胞譜系特異性TF。該研究為在單細胞分辨率下深入理解比較基因組學提供了一個框架。未來的研究可能會收集更多的后生動物物種,以追蹤重要細胞類型的出現和研究細胞進化。

同時,作者開發了一個基于深度學習的框架Nvwa,僅從DNA序列預測細胞圖譜水平的基因表達。Nvwa具有與特定細胞狀態相關的預測調控功能,這使作者能夠直接從序列中篩選細胞類型特異性的調控因子。此外,Nvwa僅使用基因組序列就可以模擬多細胞生物的復雜表達模式。Nvwa從未使用任何表觀基因組數據進行訓練,但其全基因組活性預測與使用功能基因組學確定的候選調控元件相關。這些結果有兩個含義。首先,利用基因組共享的基本規則,深度神經網絡可以模擬多細胞基因表達圖譜。第二,譜系特異性轉錄組在很大程度上由調控DNA序列決定。

雖然Nvwa為研究進化過程中細胞類型特異性調控程序提供了一個新的視角,但Nvwa模型的解釋和應用仍需謹慎。首先,超參數和模型體系結構,特別是第一層卷積濾波器控制了序列模式解釋的簡并性和靈敏度之間的權衡,應該根據用戶的特定目的進行調整。例如,可以增加濾波器數量以提高序列基序檢測的靈敏度。其次,使用Nvwa進行全基因組預測可以幫助研究人員進行功能基因組研究,并填充高度重復的基因組區域。但由于Nvwa尚處于概念驗證階段,其預測結果與具體實驗數據并不完全一致;因此,Nvwa應該在實踐中作為輔助工具使用。第三,本研究聚焦于TF調控因子,并將深度學習衍生的序列模式解釋為TF基序。然而,仍然有新的序列模式不能分配到已知的數據庫。第四,通過功能實驗驗證調控元件非常重要。最后,基因調控機制復雜,模型的體系結構、預測性能和調控邏輯解釋仍有待完善。

總之,作者生成了斑馬魚、果蠅和蚯蚓的全身單細胞轉錄組圖譜,并開發了一種基于深度學習的模型Nvwa,來預測基因表達并識別單細胞水平的調控序列,作者還揭示了進化過程中保守調控程序的作用。該研究將為破解多物種調控圖譜提供寶貴的資源。 參考資料

Li, J., Wang, J., Zhang, P. et al. Deep learning of cross-species single-cell landscapes identifies conserved regulatory programs underlying cell types. Nat Genet (2022).

數據

代碼

付費5元查看完整內容

編譯 | 沈祥振 審稿 | 夏忻焱 今天為大家介紹的是來自Maxwell W. Libbrecht,Wyeth W. Wasserman和Sara Mostafavi的一篇關于人工智能對于基因組學的可解釋性的研究的綜述。基于深度學習的人工智能(AI)模型現在代表了基因組學研究中進行功能預測的最先進水平。然而,模型預測的基礎往往是未知的。對于基因組學研究人員來說,這種缺失的解釋性信息往往比預測本身更有價值,因為它可以使人們對遺傳過程有新的認識。作者回顧了可解釋人工智能(xAI)新興領域的進展,以啟發生命科學研究人員對復雜深度學習模型的洞察力。之后,作者分類討論了模型解釋的方法,包括直觀地理解每種方法的工作原理及其在典型高通量生物數據集中的基本假設和局限性。

在接下來的章節中,作者首先介紹了關于深度學習方法在調節基因組學中如何使用的基礎知識,然后對四種解釋方法進行了分類:基于模型的解釋、影響的數學傳播、特征之間相互作用的識別以及透明模型的先驗知識的使用(圖1)。在整個綜述中,作者使用了調控基因組學領域的例子,其所提出的概念可以廣泛推廣。

圖1:可解釋人工智能的概念方法

深度學習之于調控基因組學

神經網絡和序列-活性模型

深度神經網絡(DNN)模型已成為調控基因組學預測模型的主要類型。本綜述重點介紹基于神經網絡的序列-活性模型。這些模型以假定的調控DNA序列(通常為100–10000 bp)為輸入,旨在預測序列活性的某些動態特性(即細胞或環境特異性)。目前對于如何為給定任務設計最佳神經網絡結構沒有共識,因此研究人員通常使用多種結構進行實驗。

DNN模型為何解釋困難?

作者總結了DNN模型的三大挑戰。首先,DNN對潛在特征表示進行編碼的高容量導致了最先進的預測精度,但它也面臨著識別模型所學習的特征和特征組合的挑戰。第二個挑戰是從局部解釋(一次估計給定輸入示例上的特征重要性)到對整個數據集上的重要特征組合的全局理解。另一個關鍵困難是無法系統地評估解釋策略,首先是因為缺乏基準數據集,其中真正的重要特征集是提前知道的,其次是因為各種算法所做假設的有效性取決于輸入數據集的屬性和所涉及的生物過程。

基于模型的解釋

模型解釋的直觀方法是檢查網絡的各個組件,以了解它們代表的(隱藏的)模式及其對預測性能的貢獻。可以考慮基于模型的解釋的兩種主要方法類別:最簡單的方法是直接檢查隱藏神經元的活動,以提取一組相關特征;第二種方法是使用注意機制訓練模型,通過一組學習的注意權重直接產生每個輸入特征的相關性度量。在本節中,作者描述了如何將這些方法應用于序列-活性模型,以了解網絡第一層學習到的單個特征。

解釋第一層卷積節點

在卷積序列-活性模型中,第一層神經元(濾波器)捕獲短序列模體,編碼在卷積權重矩陣中。從數學上講,將卷積權重矩陣應用于序列所執行的操作相當于使用位置權重矩陣(PWM)掃描序列(圖2a)。在實踐中,常見的策略是搜索在選定閾值以上激活給定濾波器的子序列,并根據激活子序列集的對齊情況直接構建PWM(圖2b)。由于神經網絡在設計上過于參數化,僅僅存在PWM并不意味著它是一個預測性、有趣或有用的特征。因此,我們需要測量PWM對模型預測的貢獻。在基于節點的策略中,這是通過依次對每個濾波器進行置零,并測量這種置零對模型預測結果的影響來實現的(圖2c)。

圖2:基于模型的解釋方法

用于可視化特征重要性的注意權重機制

先前的實證研究表明,將注意力權重按順序直接解釋為活動設置方面有一定的前景。注意力可以被視為一種權重正則化形式,其為輸入序列引入了權重,以對輸入中的位置進行優先級排序,盡可能保留相關信息以進行處理。注意力機制可以提高神經網絡模型的性能和可解釋性。顧名思義,當與模型訓練相結合時,注意力權重迫使模型在學習隱藏特征的同時關注輸入的有限部分。在序列-活性模型的情況下,可以直接檢查注意力向量,以幫助識別在模型內部表示中起關鍵作用的輸入部分(圖2d)。

影響的數學傳播

該算法通過在模型中傳播擾動數據并觀察對預測的影響,直接對輸入示例進行操作。基于傳播的歸因方法可以分為兩大類:向前和向后。在本節中,作者討論了最流行的歸因方法背后的概念基礎、它們的缺點以及遺傳數據背景下的緩解策略。

影響的正向傳播

本節主要介紹了硅誘變(ISM)策略。ISM與圖像像素翻轉類似,考慮翻轉與生物序列核苷酸相對應的元素,以確定訓練模型的特征重要性(圖3a)。與單核苷酸ISM不同,輸入序列的較大延伸可以改變,以識別依賴于重要堿基對組合的重要基序(類似于實驗室掃描誘變)(圖3b)。

影響的反向傳播

由于生成準確統計數據需要大量的前向傳遞,因此前向傳播方法的計算成本很高。反向傳播方法是為了解決這個問題而開發的。這些方法通過評估給定輸入序列下模型F的導數來近似ISM,以計算序列的微小變化對模型預測的影響(圖3c)。

從局部傳播結果到全局解釋

為了從基于傳播的方法生成的逐序列屬性圖中進行概括,以揭示對重要模體的全局理解,需要聚合許多輸入示例的結果。可以使用TFMoDisco作為針對DNA輸入序列的方法。

圖3:基于傳播的解釋方法

特征之間相互作用的識別

在基因調控的背景下,人們普遍認識到,轉錄因子(TF)之間的相互作用可以解釋除單獨附著于每個TF之外的活動。本節描述了前面提到的生成局部解釋的方法如何解釋特征之間的相互作用。

基于模型的交互識別

檢查較深層的神經元是一個明顯策略。神經網絡的較深層往往會聚合在較低層中學習到的特征。搜索那些最大限度地激活給定隱藏神經元的輸入,效果最好。可以應用自注意機制模型來實現對神經元重要程度的量化。

通過數學傳播解釋相互作用

基于ISM的傳播方法(向前和向后)可以用于解釋模型內的交互。但該領域應用ISM的計算成本非常高。可以以受限的方式應用來降低其計算成本,這些方式包括:將兩個基序插入隨機序列,對包含特定基序對的序列進行有針對性的分析(圖4a);正向和反向傳播方法的折衷結合,即深層特征交互圖(DFIM)(圖4b)。

圖4:揭示模型特征之間相互作用的方法

透明模型中先驗知識的應用

透明神經網絡模型是這樣一種模型,其中隱藏的節點被構造成在物理上對應于粒度級別上的生物單元,這有助于解釋更深層的隱藏節點(圖5)。圖5a展示了根據已知的TF綁定基序初始化過濾器,以演示如何使用先驗知識來設計網絡架構,構建具有固有可解釋單元的模型。圖5b展示了如何檢查訓練的模型,以深入了解給定上下文中存在的此類先驗交互作用。

圖5:利用先驗知識構造透明神經網絡

結論和未來展望

在本綜述中,作者重點介紹了序列-活性模型,其所述的xAI方法可廣泛應用于基因組學的深度學習應用。模型解釋的目的和效用在很大程度上取決于目標應用,因此應該根據目標指導解釋方法的選擇。解釋模型有其實際意義,但也不可盲目相信。解釋模型可用于識別訓練數據中存在的虛假相關性,防止預測模型通過學習非生物“捷徑”實現高精度。然而,解釋模型的“不可識別性”阻礙了解釋的可靠性。因此,必須謹慎使用解釋模型,并理解某些特性以及由此產生的特征可能是偶然的結果。對于哪種xAI方法最有效還沒有達成共識,作者預計,隨著這一領域的成熟,最佳實踐將得到確立,并集成到可訪問的分析工具中。隨著生物數據集的規模和可用性的增長,使用模型研究特征之間的復雜關系變得越來越重要。從這些模型中提取洞察力需要有效的xAI方法。因此,xAI將在基因組學中發揮越來越重要的作用。 參考資料 Novakovsky, G., Dexter, N., Libbrecht, M.W. et al. Obtaining genetics insights from deep learning via explainable artificial intelligence. Nat Rev Genet (2022). //doi.org/10.1038/s41576-022-00532-2

付費5元查看完整內容

編譯 | 許俊林 審稿 | 姜晶

本文介紹由德國神經退行疾病研究中心、波恩大學Joachim L. Schultze教授團隊發表在Nature Reviews Immunology的研究成果。人類免疫學可能很快就會從人工智能和區塊鏈技術的使用中受益。在這里,作者討論了群體學習如何通過分享見解而非數據,來促進全球免疫學合作研究,充分尊重當地數據隱私法規。

幾十年來,免疫學研究得益于高度標準化的動物模型。然而,隨著知識的增加,從模型系統到人類疾病的轉換問題越來越難,而且失敗率較高。與此同時,從基因組學到單細胞水平的技術進步,將人工智能(AI)引入生物醫學研究領域,以及模擬人類疾病的新方法(包括類器官或芯片實驗室方法)正在徹底改變醫學,包括人類免疫學。單細胞RNA測序(RNA-seq)和質譜流式細胞技術等方法提供了重要的見解,但同時需要新的分析方法,特別是在大型臨床中心研究中。在這里,機器學習(即使用數據自動改進模型的AI分支)是自動縮放和揭示單細胞數據中的分子模式的先決條件。發揮機器學習算法的全部潛力,例如,從高通量數據中進行疾病分類或分層,需要包括數百名患者,以適應由于當地實驗批次、年齡、性別、遺傳背景或種族等因素造成的潛在偏差。收集數據本身就是一項艱巨的任務,世界上很少有研究中心能夠自行開展此類研究。盡管每年采集的血液和生物組織樣本有數百萬份,但由于個人數據保護法,共享這些樣本數據受到很大限制。立法在保護個人的健康數據方面設置了很高的門檻,這是合理的;然而,這些法律同時阻礙了科學進步。

為了克服這些限制,作者最近開發了群體學習 (Swarm Learning, SL)作為一種完全分散的機器學習原則,在充分考慮數據隱私法規的情況下,促進多個站點數據的整合。從概念上講,SL是一種分散的方法,通過參數共享來訓練機器學習模型的聯合的同時,在本地保持私人數據的安全(圖1a)。每個參與站點都是Swarm網絡中的一個節點,這些站點使用本地數據參與模型訓練。通過私有許可的區塊鏈技術確保數據的安全性、機密性和主權。新節點可以通過區塊鏈智能合約進入Swarm網絡,以全自動電子方式調節Swarm網絡成員的條件。新的Swarm成員同意合作條款,獲取模型并進行本地訓練,直到達到聯合訓練目標。這種方法為克服科學合作的局限性提供了機會,因為多個研究站點可以很容易地聯合起來解決相同的研究問題,但可以使用更大的數據進行分析,無需在站點之間共享原始數據。

學習不同站點數據的聯合模型需要就數據集及其預處理以及共同商定的模型達成一致。為了實現高質量的輸入,數據集需要在樣本處理、測量特征的選擇和數據預處理方面達到最低水平的標準化。在基因組學研究中,具有準確基因注釋的人類參考基因組是通用的參考基因組,然后可以將RNA-seq數據與參考進行比對。對于人類來說,所有數據都跨越相同的特征空間,這些特征空間通常包含超過30,000個基因。相比之下,在流式細胞術和質譜流式細胞術以及CITE-seq和Ab-seq中,抗體觀察到的測量特征的數量級在10到100之間(圖1b),但可能的表面分子數量超過1,000。需要注意的是,并非所有表面分子都有可用的抗體對應物。因此,細胞表面蛋白標記技術的實驗局限性,要求進行徹底的標記物選擇。面板設計通常針對研究問題和感興趣的細胞類型,也就是說,T細胞面板包含與B細胞面板不同的標記物,幾乎沒有重疊。當不同站點提供的數據在所選標記物中差異很大時,即使測量相同的疾病,使用這些數據進行聯合建模也變得具有挑戰性。在這里,SL能更廣泛應用,其關鍵是面板和抗體濃度的標準化。例如,白血病的臨床診斷已被EuroFlow聯盟成功標準化,而后商業化。因此,由于更高的標準化水平,診斷社區已經可以從SL中受益,通過使用創新的AI應用程序訪問和分析大型數據集來進一步優化測試開發。此外,使用整合模型對來自相同樣本的多個面板進行分類,允許在標記物選擇方面具有更大的靈活性。機器學習在流式細胞術中的應用都將受益于數據預處理的標準化(圖1c)。例如,由于熒光染料中的光譜重疊,流式細胞術數據預處理涉及微調補償,通過手動處理歸一化可以達到數據處理的標準化要求。尤其是想要結合來自流式細胞儀和質譜流式細胞術以及來自CITE-seq和Ab-seq等不同模式的數據時,輸入數據需要遵守可轉移的標準。細胞表面標記物分析的原理同樣適用于人類免疫學中的其他典型數據類型,例如,基于血漿的蛋白質標記物或體外免疫激活面板。

SL支持不同類型的模型,而且具有廣泛的應用。深度學習模型,尤其是變分自編碼器,在處理高通量、高維單細胞數據時,表現出卓越的性能,例如整合數據任務。此外,它們可用于在一個站點構建參考圖集、共享數據模型以及在不同站點整合新數據。雖然這種方法依賴于創建參考的單個實體,但它表明了在完全分散的設置中使用SL的分布式深度學習模型具有較大的潛力。這些模型的優點是對學習的潛在空間具有直觀的可解釋性,這能夠對細胞而不僅僅是對整個樣本進行分類。作者相信,這種粒度級別對于基于免疫的生物標志物的開發至關重要,并且只能通過整合來自許多不同機構和醫院的足夠大的數據集來實現,而無需在SL設置共享原始數據。

圖1 群體學習

總之,SL為臨床背景下的科學研究開辟了新的視角。在一個足夠大的Swarm網絡中,人們將能夠利用觀察到的人類所有類型的擾動,例如對疫苗接種或傳染病的反應,從大量數據中推斷出人類免疫系統的因果原理。一個協調一致的系統免疫學計劃可以輕松地在全球范圍內收集人類樣本,并創建大型人類群體,為研究人類疾病的分子機制提供足夠的數據。從使用機器學習進行疾病分類到無偏生物標記物發現,這些擴大的群體是成功臨床應用的關鍵。例如,COVID-19大流行病加速了德國COVID-19組學計劃(DeCOI)中的合作,并可能成為未來大流行病的藍圖。

在下一步,作者需證明異構免疫數據確實適用于SL原則。此外,這種SL支持的國際活動將極大地受益于人類免疫學數據標準化的改進。開發能夠方便訪問SL項目的平臺將促進該領域的發展。最后,如果成功,免疫生物標志物和基于AI的疾病分類和分層需要在成為護理標準之前獲得當局的批準,這本身就需要進一步的努力和發展。盡管如此,人類免疫學研究真正一體化時代即將開始。

參考資料 Schultze, J.L., Büttner, M. & Becker, M. Swarm immunology: harnessing blockchain technology and artificial intelligence in human immunology. Nat Rev Immunol (2022). //doi.org/10.1038/s41577-022-00740-1

付費5元查看完整內容

生物醫學數據正變得越來越多,從而捕捉生物過程之間的潛在復雜關系。基于深度學習(DL)的數據融合策略是建模這些非線性關系的一種流行方法。因此,我們回顧了目前這種方法的最新進展,并提出了一個詳細的分類,以促進更明智的選擇融合策略的生物醫學應用,以及新方法的研究。通過這樣做,我們發現深度融合策略往往優于單模態和淺層方法。此外,提出的融合策略子類顯示出不同的優點和缺點。對現有方法的回顧表明,聯合表示學習是首選的方法,特別是對于中間融合策略,因為它可以有效地模擬不同層次生物組織的復雜相互作用。最后,我們注意到,逐步融合,基于先前的生物知識或搜索策略,是一個有前途的未來研究路徑。同樣,利用遷移學習可以克服多模態數據集的樣本大小限制。隨著這些數據集變得越來越容易獲得,多模態DL方法提供了訓練整體模型的機會,這些模型可以學習健康和疾病背后復雜的監管動態。

//pubmed.ncbi.nlm.nih.gov/35089332/

單個細胞和完整的有機體是典型的復雜系統,因為它們由許多不同的部分組成,相互作用,并產生緊急行為[1]。當試圖對復雜疾病進行預測時,了解這些相互作用尤為重要。數據模態是用一個特定的傳感器[2]測量這種現象的結果,因此它本身提供的信息有限。有了多模態數據,就有可能獲得關于單個部件及其應急行為的信息。由于高通量技術的快速發展,我們現在可以前所未有地獲得大規模多模態生物醫學數據,提供了利用這些更豐富信息的機會。

數據融合是將來自不同模態的數據結合起來,對一個共同現象提供不同的觀點,以解決一個推理問題。這有希望解決這樣的問題,比單模態方法的錯誤少[3]。更具體地說,數據融合的優勢可以分為互補特征、冗余特征和協作特征[4,5],盡管這些特征并不相互排斥。

數據融合在生物醫學領域的優勢可以用一個癌癥患者的多模態研究來說明。來自腫瘤的基因組數據能夠識別癌癥驅動基因,而來自活檢的全切片圖像(WSI)提供了關于腫瘤形態和微環境的視圖。這些模態是“互補的”,因為它們提供了關于現象的不同部分的信息,否則就無法觀察到。轉錄組和蛋白質組數據的融合是互補的,因為所有的mRNA都不翻譯成蛋白質,而“冗余的”是因為蛋白質的豐度確定了特定的mRNA翻譯成蛋白質。當數據有噪聲或有許多缺失值時,這種冗余尤為重要。來自同一腫瘤的miRNA和mRNA測序數據可以被認為是“合作的”,因為合并的信息增加了復雜性。兩種模態的融合提供了一種可能的解釋差異豐富的蛋白質,例如,一個致癌基因。這可能在預測病人對某種治療的反應方面起著至關重要的作用。

融合策略的目的是有效地利用不同模態的互補、冗余和合作特征。為了充分利用這些對感興趣的現象的觀點,機器學習(ML)方法必須部署,能夠融合具有不同統計特性的結構化和非結構化數據、非生物變異來源、高維[6]和不同模態的缺失值[2]。

近年來,多模態ML方法在各個領域得到了越來越多的研究和應用[6,11]。圖1說明了生物醫學領域的這一趨勢。在數據融合方面,多模態深度學習(DL)比淺層方法更有優勢。全連接神經網絡(FCNNs)是深度神經網絡(DNNs)的傳統形式,可以看作是一個有向非周期圖,它通過幾個隱藏層的非線性計算操作[12]將輸入x映射到標簽y。表1總結了常見的DL架構。這種算法的目標是學習輸入數據的高級表示,通過找到底層解纏因素之間的簡單依賴關系,從而改進最終分類器的預測。較早的層學習數據的簡單抽象,而較深的層將它們組合成更抽象的表示,為學習任務[13]提供信息。重要的是,多模態DL能夠建模非線性內模態和跨模態關系。這導致了它在各種領域[2]的應用。然而,生物醫學應用面臨著多模態融合的特殊挑戰,如與組合維度相比樣本量較小、缺失整個模態以及模態之間的維數失衡。

盡管生物醫學應用的DL架構已經被綜述過,但針對異構數據的不同的基于DL的融合策略還沒有。這是在目前的綜述,其中我們描述了最先進的基于dl的融合戰略在生物醫學領域。此外,我們提出了一種分類法,不僅概述了早期、中期和晚期融合的標準分類,而且還描述了對希望應用或增強當前方法的研究人員和從業者有用的子類別。此外,本綜述的目的是提供指導,在哪些條件下,不同的融合策略最有可能執行良好。為此,首先概述了主要的融合策略,并提出了較為詳細的分類方法。接下來,對早期、中期和晚期融合類別及其子類別進行了詳細描述,并廣泛地舉例說明了在生物醫學問題上的應用。最后,我們討論了所描述的策略在生物醫學領域的挑戰和機遇,并對未來的研究提出了建議。

付費5元查看完整內容

摘要:近年來,在開發更準確、高效的醫學和自然圖像分割機器學習算法方面取得了重大進展。在這篇綜述文章中,我們強調了機器學習算法在醫學成像領域有效和準確分割中的重要作用。我們特別關注幾個關鍵的研究涉及到應用機器學習方法在生物醫學圖像分割。我們回顧了經典的機器學習算法,如馬爾可夫隨機場、k均值聚類、隨機森林等。盡管與深度學習技術相比,這種經典的學習模型往往精度較低,但它們通常更具有樣本效率,結構也更簡單。我們還回顧了不同的深度學習結構,如人工神經網絡(ANNs)、卷積神經網絡(CNNs)和遞歸神經網絡(RNNs),并給出了這些學習模型在過去三年中獲得的分割結果。我們強調每種機器學習范式的成功和局限性。此外,我們還討論了與不同機器學習模型訓練相關的幾個挑戰,并提出了一些解決這些挑戰的啟發方法。

付費5元查看完整內容
北京阿比特科技有限公司