亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

編譯 | 曾全晨 審稿 | 王建民

今天為大家介紹的是來自Mamoon Rashid的一篇關于深度學習在基因測序方面應用的綜述論文。基因組學正朝著數據驅動的科學方向發展。隨著高通量數據生成技術在人類基因組學中的出現,我們被大量的基因組數據所淹沒。為了從這些基因組數據中提取知識和模式,人工智能尤其是深度學習方法起到了重要作用。在當前的綜述中,作者討論了深度學習方法/模型在人類基因組學不同子領域中的發展和應用。

理解多樣物種的基因組,特別是對超過30億個堿基對的智人DNA進行研究,是基因組學研究的重要目標。基因組學從全面的視角出發,涉及一個生物體內的所有基因,包括編碼蛋白質的基因、RNA基因、順式和反式元件等。這是一門數據驅動的科學,涉及到下一代測序(NGS)高通量技術的發展,可以生成一個生物體的完整DNA數據。這些技術包括全基因組測序(WGS)、全外顯子組測序(WES)、轉錄組學和蛋白質組學分析。隨著這些組學數據的快速積累,人們越來越關注在多個基因組學應用中表現優越的生物信息學和機器學習(ML)工具。這些應用包括尋找基因型與表型之間的關聯、生物標記物的鑒定、基因功能預測,以及繪制生物醫學活躍的基因組區域,例如轉錄增強子等。

機器學習(ML)被認為是人工智能(AI)的核心技術,它使得算法可以基于數據學習并做出關鍵預測,而不僅僅是遵循指令。它有廣泛的技術應用;然而,標準的ML方法在處理復雜、自然、高維度的原始數據方面,比如基因組數據,過于狹窄。相反,深度學習(DL)方法是目前在基因組學中應用廣泛的一種有前景且令人興奮的領域。它是ML的一個派生,通過自動應用神經網絡(NN)來提取特征。深度學習已經成功應用于圖像識別、音頻分類、自然語言處理、在線網絡工具、聊天機器人和機器人技術等領域。在這方面,將DL作為基因組學的方法是完全適合分析大量數據的。盡管DL在基因組學中仍處于初級階段,但它有望更新臨床遺傳學和功能基因組學等領域。毫無疑問,DL算法已經在計算建模方法中占據主導地位,目前不斷擴展以回答各種基因組學問題。

圖 1

盡管深度學習(DL)理論的第一個概念源自20世紀80年代,基于感知器模型和神經元概念,但在過去十年中,DL算法已經成為處理大數據的先進預測技術。在基因組學中,DL預測模型的初次高效實現發生在2000年代(圖1)。DL模型要求訓練大量的數據集,并且需要強大的計算資源,這限制了它們的應用。現在,DL模型(也稱為DNNs)的架構已經在各個領域實現。傳統的神經網絡只包含兩到三個隱藏層,而DL網絡將這個層數擴展到200層。因此,"深度"一詞反映了信息傳遞的層數。然而,DL要求優越的硬件和大量的并行處理才能應用。

在基因組學中,軟件、硬件(GPU)和大數據的演進促進了基于深度學習的預測模型的發展,用于預測基因組中的功能元素。這些來自NGS數據的遺傳變異可以預測基因組DNA中的剪接位點,通過分類任務預測轉錄因子結合位點(TFBSs),對錯義突變的致病性進行分類,并預測藥物反應和協同作用。增強DL實現的技術演進的一個例子是云平臺,它提供GPU資源作為DL解決方案。GPU可以顯著提高訓練速度,因為神經網絡訓練風格在某些模型架構情況下可以更靈活,從而通過使用更多的處理單元和更大的內存容量進行快速數學處理。云計算平臺的主要例子包括亞馬遜網絡服務(Amazon Web Services)、谷歌計算引擎(Google Compute Engine)和微軟Azure。

對于所有機器學習(ML)模型,評估指標對于理解模型性能至關重要。在基因組數據集中,通常生成高度不平衡的類別,這使得它們在應用于ML和DL模型時更具挑戰性。在這種情況下,通常采用一些解決方案,如遷移學習和Matthews相關系數(MCC)。一般來說,每個ML任務可以分為回歸任務(例如預測疾病的某些結果/效果)或分類任務(例如預測是否存在某種疾病);此外,從這些任務中獲得多個測量指標。通常,用于ML基于回歸的方法的一些性能指標包括:平均絕對誤差(MAE)、均方誤差(MSE)、均方根誤差(RMSE)和決定系數(R2)。相比之下,ML基于分類的方法中的性能指標包括:準確率、混淆矩陣、曲線下面積(AUC)或/和接收者操作特征曲線下面積(AUROC)以及F1分數。分類任務最常用于基因組學研究領域的問題,并用于比較不同模型的性能。例如,AUC是評估模型性能最廣泛使用的指標,范圍在[0, 1]之間。它衡量了真陽性率(TPR)或敏感性、真陰性率(TNR)或特異性以及假陽性率(FPR)。此外,F1分數用于在高度不平衡的數據集中測試模型的準確性,它是精確度和召回率之間的調和平均值(也在[0, 1]之間)。對于AUC和F1分數,數值越大表示模型性能越好。此外,混淆矩陣通過測量模型準確性來描述完整的模型性能,計算真陽性值加上真陰性值,并將總和除以樣本總數。

基因組學中的深度學習工具/軟件/流程

圖 2

多個基因組學領域(例如變異調用和注釋、疾病變異預測、基因表達和調控、表觀遺傳學和藥物基因組學)充分利用高通量數據的生成,并利用深度學習算法的強大功能進行復雜預測(圖2)。DNA/RNA測序技術和機器學習算法特別是深度學習的現代演進開辟了一個新的研究篇章,能夠將大型生物數據轉化為基因組學各個子領域的新知識或新發現。作者提供了一個短列表,其中包含變異調用和注釋的工具/算法及其源代碼鏈接(表1),以便于為特定數據類型選擇最合適的深度學習工具。

表 1

新一代測序(NGS),包括全基因組或全外顯子組測序,為個性化醫學的早期發展奠定了基礎,并在孟德爾病研究中有著已知的影響。隨著大規模并行高通量測序技術的出現,測序數千個人類基因組以鑒定遺傳變異已成為基因組學中的日常實踐,包括癌癥研究。對于變異調用,現有復雜的生物信息學和統計學框架可供使用。高通量測序過程的缺陷在于存在顯著高的技術和生物信息學誤差率。由于大量中等或低覆蓋度的基因組序列、短讀取片段以及個體間的遺傳變異,產生了許多計算問題。這些缺點使得NGS數據依賴于生物信息學工具進行數據解釋。在下一代測序領域,現代深度學習工具已被提出,以克服傳統解釋流程的局限性。例如,Kumaran等人證明了將基于深度學習的變異調用器DeepVariant與傳統的變異調用器(如SAMtools和GATK)結合使用,可以提高單核苷酸變異和Indel檢測的準確性評分。在DNA測序數據解釋中實施深度學習算法還處于初期階段,就像最近由Google開發的先驅性例子DeepVariant一樣。DeepVariant依賴于輸入圖像中的圖形差異來執行從NGS短讀取中的遺傳變異調用的分類任務。它將映射的測序數據集視為圖像,并將變異調用轉換為圖像分類任務。然而,該模型沒有提供有關變異信息的細節,例如確切的替代等位基因和變異類型。

后來,引入了幾種用于變異調用和注釋的深度學習模型。例如DeepSV,一種遺傳變異調用器,旨在預測從測序讀取圖像中提取的長基因組缺失(> 50 bp),而不是其他類型的結構變異,如長插入或倒位。它以BAM格式或VCF文件作為輸入,并將結果輸出為VCF形式。在評估DeepSV時,它與另外八種缺失調用工具和一種名為Concod的機器學習工具進行了比較。結果顯示,盡管在樣本較少的情況下Concod的訓練時間較短,但DeepSV在使用相同數據集時顯示出更高的準確性評分和更少的訓練損失。另一個基因組變異過濾工具,GARFIELD-NGS,可以直接應用于變異調用器的輸出。它依賴于一個多層感知器(MLP)算法來研究來自Ion Torrent和Illumina平臺的外顯子測序數據中的真實和假變異。它通過處理標準VCF文件,在低覆蓋度數據(高達30X)下表現出強大的性能,并生成另一個VCF文件。

表 2

基于深度學習的用于預測致病變異的模型,它們的應用以及輸入/輸出格式和源代碼列在表2中。考慮到來自患者親屬或相關群體的額外數據,醫學遺傳學家在變異調用和注釋后經常對觀察到的基因變異進行優先級排序和過濾。變異優先級排序是一種確定在遺傳篩查中最可能的致病變異的方法,這些變異損害了基因功能并導致疾病表型。變異優先級排序包括對變異進行注釋以發現臨床上無意義的變異,如同義變異、深入內含子變異和良性多態性。隨后,剩余的變異,如已知變異或未知臨床意義的變異(VUS),變得可行。此外,解釋個體中罕見遺傳變異的復雜性,例如了解它們對疾病風險的影響,影響了診斷測序的臨床能力。例如,在罕見遺傳疾病中眾多且不常見的VUS代表了個性化醫學和健康人群評估中測序實施的一大挑戰。盡管統計方法,如GWAS,已經在將遺傳變異與疾病相結合方面取得了巨大成功,但它們仍需要大量樣本來區分罕見遺傳變異,并且無法提供關于新生變異的信息。因此,當前的注釋方法在優先選擇致病變異方面具有一定的優勢,盡管面臨一些缺點。對于這些問題,已經實現了基于深度學習的模型,以利用深度神經網絡(DNN)體系結構對變異進行優先選擇。

表 3

作者列出了聚焦于基因組中基因表達和調控領域中最高效的基于深度學習的工具應用各種深度學習算法的幾種模型,并在可用的情況下總結了關于剪接和基因表達應用的信息和源代碼(表3)。基因表達涉及初始轉錄調控因子(例如pre-mRNA剪接、轉錄和多聚腺苷酸化)到功能蛋白質的產生。測試數千個合成序列的高通量篩選技術已經提供了關于基因表達的定量調控方面豐富的知識,盡管仍存在一些限制。主要的限制是無法使用實驗或計算技術來探索大的生物序列區域。盡管最近的NGS技術在基因調控領域提供了巨大的知識,但大部分自然mRNA篩選方法仍然利用染色質可及性、ChIP-seq和DNase-seq信息,它們著重研究啟動子區域。因此,需要一種強大的方法來理解基因調控結構的各個區域之間的關系以及它們的網絡表達連接。同樣,目前的RNA測序技術已經賦予了單個細胞直接測序的能力,稱為單細胞RNA測序(scRNA-seq),它允許在獨特的意圖上查詢生物系統。例如,scRNA-seq數據為細胞異質性提供了有價值的信息,可以擴展對人類疾病和生物學的解釋。scRNA-seq數據的主要應用涉及檢測細胞的類型和狀態。然而,兩個主要的計算問題是如何對數據進行聚類以及如何檢索它們。

表 4

作者總結了表觀基因組學中最新的深度學習模型、它們的實現、數據類型和源代碼(表4)。基因型未發生變化的表型改變被稱為表觀遺傳學。它被定義為研究基因表達中可遺傳的修改,不包括DNA序列的修改。包括DNA甲基化、組蛋白修飾和非編碼RNA在內的表觀基因組學機制被認為在理解疾病發展和尋找新的治療靶點方面是基礎性的。盡管在臨床實施中,表觀遺傳學尚未完全得到應用。近年來,由于下一代測序和微陣列技術的進步,產生了大量的表觀遺傳學數據,導致了數據解釋工具的發展困難。目前缺乏適用且高效的計算方法,導致當前研究將重點放在單個表觀標記上,盡管在體內可能存在多個標記相互作用和基因型。之前的幾項研究揭示了深度學習模型在表觀基因組學中的基本應用。它們在預測三維染色質相互作用、單細胞數據集中的甲基化狀態和基于DNase-Seq數據的組蛋白修飾位點方面取得了巨大成功。

表 5

作者列出了最值得關注的深度學習藥物基因組學模型,它們的常見目的、輸入/輸出格式和源代碼(表5)。盡管在過去幾年中對深度學習方法產生了極大興趣,但直到最近,深度學習工具在藥物基因組學問題中的應用仍很少,比如預測藥物反應。關于巨大基因群集甚至整個基因組中的遺傳變異與不同藥物的影響之間的關聯的知識被稱為藥物基因組學[87]。現代治療方法面臨的一個主要挑戰是理解變異性的潛在機制。有時候,通過某個人群的藥物反應分布明顯是雙峰的,表明一個變量起主導作用,通常是遺傳因素。然而,對藥代動力學或藥效學潛在機制的理解可用于檢測候選基因,其中這些基因變體的功能可能解釋了不同的藥物反應。在調查藥物組合效果時,臨床實驗會產生各種錯誤,這是耗時和費用高昂的。此外,它可能使患者接受過多的風險治療。為了在不傷害患者的情況下確定替代藥物協同策略,可以利用高通量篩選(HTS)來使用幾種濃度的幾種藥物對癌細胞系進行實驗。利用現有的HTS協同性數據集允許使用準確的計算模型來研究巨大的協同空間。這些可靠的模型將為體外和體內研究提供指導,并為個性化醫學邁出重要的一步,例如預測抗癌協同治療、系統生物學、動力學方法和基于計算的基因表達模型,可用于單藥和劑量反應處理后的篩選。然而,這些方法僅限于特定的靶標、途徑或某些細胞系,并且有時需要特定化合物處理的細胞系的特定組學數據。 基因組學中使用的深度學習算法/技術

表 6

深度學習是機器學習的一個當代且快速發展的子領域。它通過構建多層次的深度神經網絡(DNNs)來對各種數據進行建模,從而創建數據的邏輯,如圖片、聲音和文本。通常,深度學習具有兩個特點:第一,非線性處理部分的結構是多層次的;第二,每個層次上的特征提取方式可以是監督或非監督方法。在1980年代,初始的深度學習架構是建立在人工神經網絡(ANNs)上的,但真正的深度學習的實力在2006年開始顯現。從那時起,深度學習已經在多個領域得到應用,包括基因組學、生物信息學、藥物發現、自動語音檢測、圖像識別和自然語言處理。

人工神經網絡(ANNs)受到人類大腦神經元及其網絡的啟發。它們由完全連接的節點或神經元組成,通過神經網絡展示了大腦中突觸的刺激傳遞。這種深度學習網絡的架構被用于特征提取、分類、數據降維或作為更深層次框架(如CNN)的子元素。多組學研究產生了大量數據,如前面提到的,主要是由于基因組學的進步和生物技術的改進。典型的例子包括高通量技術,其范圍包括數千個基因表達或非編碼轉錄,如miRNA。此外,基因分型平臺和NGS技術以及相關的GWAS產生可測量的基因表達數據,例如RNA-Seq,發現了各種人群中的許多遺傳變異和其他基因組改變。然而,一些深度學習模型僅依賴于DNA序列數據,似乎缺乏對特定細胞系方法的預測能力,因為不同細胞系的DNA序列是相同的。為了克服這個缺陷,已經提出了幾種混合的深度學習模型,并通過將DNA序列數據與生物實驗信息結合,某些研究顯示出明顯的改進。

表 7

作者收集了基于深度學習架構開發的最高效、用戶友好的基因組學資源(表7)。盡管這些工具在基因組學和生物信息學中取得了巨大的成功,但采用不同的深度學習解決方案和模型仍然受到限制。其中一個原因是缺乏基于深度學習的已發布協議,以適應需要進行大量數據工程的新的異質數據集。在基因組學中,高通量數據被用于訓練神經網絡,并已成為疾病預測或理解調控基因組學的典型方法。類似地,開發新的DL模型并在新的數據集上測試現有模型面臨巨大的挑戰,原因是缺乏全面、可推廣、實用的面向生物學的深度學習庫。在這方面,軟件框架和基因組包對于快速采用新的研究問題或假設、整合原始數據或使用不同的神經網絡結構進行研究至關重要。

結論

作者對基因組學的不同子領域中開發的不同深度學習工具/軟件進行了分類,以滿足各種基因組學分析的預測任務。詳細討論了不同基因組學測定中的數據類型,使讀者能夠對使用人類基因組學數據集開發基于深度學習的預測模型的基本要求有初步了解。在文章的后部分,作者簡要介紹了不同的深度學習架構,幫助基因組學科學家決定適合其特定數據類型和/或問題的深度學習網絡架構。作者還簡要討論了深度學習技術在基因組學中的最新應用及其潛在原因和解決方案。 參考資料 Alharbi, W. S., & Rashid, M. (2022). A review of deep learning applications in human genomics using next-generation sequencing data. Human Genomics, 16(1), 1-20.

付費5元查看完整內容

相關內容

醫學領域的人工智能是使用機器學習模型搜索醫療數據,發現洞察,從而幫助改善健康狀況和患者體驗。 得益于近年來計算機科學和信息技術的發展,人工智能 (AI) 正迅速成為現代醫學中不可或缺的一部分。 由人工智能支持的人工智能算法和其他應用程序正在為臨床和研究領域的醫學專業人員提供支持。

編譯 | 曾全晨 審稿 | 王建民 今天為大家介紹的是來自Euan A. Ashley的一篇綜述論文。

新的方法,如基因組測序和質譜技術,大大增加了科學家和醫療專業人員獲取更精確診斷和增強治療精準度所需的分子數據的數量。雖然在DNA和RNA的基因測序方面取得了最大的進展,但蛋白質和代謝物高維度測量的醫療應用也在增加。為了適應這些分子“大數據”的數量、速度和多樣性,分析工具也得到了改進。機器學習的出現被證明特別有價值。在這些方法中,計算機系統使用大量數據構建預測性統計模型,并通過整合新數據進行迭代改進。深度學習是機器學習的一個強大子集,其中包括使用深度神經網絡,已在圖像對象識別、語音識別、自動駕駛和虛擬助理等領域具有高知名度的應用。現在,這些方法正在醫學領域應用,以提供臨床指導性的醫療信息。在這篇綜述文章中,作者簡要描述了生成高維分子數據的方法,然后重點介紹了機器學習在這些數據的臨床應用中扮演的關鍵角色。

大規模分子數據生成

圖 1

在大規模測量分子的能力方面發生了重大變化,推動了當前個體化醫學的時代(圖1)。幾十年來,基于Sanger技術的基因測序主要集中在長度最多達幾百個堿基的DNA或RNA片段上。在21世紀初,像Illumina的合成測序方法開始流行,允許同時合成和讀取數百甚至數十億個短DNA模板。更近期的方法(來自Pacific Biosciences和Oxford Nanopore)專注于連續測序長的核酸分子,具有額外的優勢。而人類基因組計劃花費了10年時間以數十億美元的成本測序了一個不完整的單倍體基因組,到了2022年,一個更完整的人類基因組只需5小時的時間和幾百美元的成本就能測序完成。這種基因組數據可用性的快速提高引發了對這些數據的快速處理和準確解讀的需求。

基因組測序的過程會生成一個計算機文本文件,其中每一行代表一個單獨“讀取”的DNA或RNA分子。對于基因組測序,通常的目標是生成足夠的重疊數據來覆蓋基因組的每個部分40倍。某些技術可以捕獲基因組的一個子集,并對其進行更多次的覆蓋。這個輸出的文本文件大小為100到200千兆字節(類似于現在入門級筆記本電腦的硬盤容量)。這些讀取數據的長度從幾百個堿基到幾百萬個堿基不等,通過Burrows-Wheeler變換,一種從數據壓縮信息理論導出的方法,將這些讀取數據映射到人類基因組計劃生成的參考基因組上。然后,使用機器學習或算法方法確定正在分析的基因組與參考序列之間的差異。這樣就得到了一個變異調用文件,通常有300萬到400萬行,幾兆字節的大小。為了按照例如在患者中可能導致罕見疾病的概率對文件中的變異進行優先級排序,可以使用過濾或機器學習方法。對于RNA測序,映射后,大多數應用會側重于基因或同工型表達的定量,而不是序列識別,將每個基因或同工型的讀取計數轉換為標準化的定量測量。

基因組學中的機器學習應用

機器學習在基因組學(細胞內一組基因,即基因組的研究)中的應用中,最重要的進展出現在變異檢測領域:即確定分析物序列(例如來自患者的樣本)與參考序列的差異位置。當將個體讀取映射到參考基因組中的相應位置時,它們可以被可視化為"堆積",其中與參考不同的堿基被突出顯示(圖1)。這種可視化表示有助于在基因組的復雜區域進行快速的手動審核,這一發現促使了深度學習方法用于變異識別,借鑒了計算機視覺和圖像識別方面的進展。其他變異檢測方法則在更狹窄的應用領域中使用機器學習,例如用于特定變異或基因組區域的技術校準誤差模型。

深度神經網絡是復雜的非線性函數,適用于大規模數據集。多層次的交替"神經元"權重和非線性變換將數據轉化為對分類有用的抽象和低維表示。層次之間通過激活函數連接,激活函數作為輸出的進一步傳播的門控。在圖像任務中,池化函數用于在特定區域對輸入進行下采樣。然后通過反向傳播過程對神經元權重進行細化,并最終以對幾個輸出選項的置信度估計形式進行分類。卷積神經網絡是一種特定形式的深度神經網絡,通常用于圖像識別,其特點是在圖像輸入上滑動濾波器的過程(圖2和3)。

圖 2

圖 3

憑借神經網絡的強大能力和讀取更長的DNA分子的能力,可能會出現一種新的單倍型分析時代(將DNA鏈映射到原始親本染色體)。單倍型分析方法通過更好地表示起源的DNA分子來提高變異檢測的質量,并可以在臨床管理中發揮作用,例如在復合雜合性的情況下,同一位點上兩個變異體的起源父本的識別可以影響患者的護理。最近,通過將單倍型分析與針對連續數據優化的模型結合起來,然后再采用上述的卷積神經網絡方法,取得了前所未有的準確性。

通過國家標準與技術研究所(National Institute of Standards and Technology)的“基因組在瓶中”聯盟(Genome in a Bottle Consortium)以及美國食品藥品監督管理局(Food and Drug Administration,FDA)的precisionFDA計劃,這些進展使變異檢測的改進成為可能。這兩個組織共同開展了開放的“真實性挑戰”比賽,使用標準化樣本進行競爭。結果顯示,在全基因組范圍內以及染色體上編碼主要組織相容性復合體等基因組中具有挑戰性的區域,變異檢測的準確性不斷提高。機器學習(圖2)在罕見疾病變異的優先級排序中也被證明非常有用。例如,一種方法使用基于邏輯回歸的機器學習在一個大型的基于文獻的數據集中,將表型與候選基因匹配,以幫助確定可能是門德爾遺傳疾病的潛在致病基因。

轉錄組學的機器學習

讀取轉錄組(生物體中所有RNA轉錄本的總和)被用作識別罕見疾病中的致病基因的一種額外工具。最初的努力揭示了通過將每個基因的表達譜與參考范圍進行比較,識別表達異常可以指向未被懷疑的致病基因。為了獲得額外的益處,這種方法后來與預測罕見變異的調節效應的貝葉斯模型相結合。在一大批患有未診斷罕見疾病的患者中,血液轉錄組測序識別出8%的患者的致病變異。隨后,使用包括基因表達、等位基因特異表達和可選擇剪接數據的分層貝葉斯模型來識別遺傳驅動的轉錄組異常。

盡管取得了一些進展,但預測剪切位點仍然是一個具有挑戰性的問題。使用一個32層深度神經網絡的深度學習模型在改善罕見疾病的診斷方面顯示出了希望。使用自編碼器,它可以有效地學習如何將輸入數據編碼為壓縮表示,然后解碼回原始輸入的表示,已經被證明可以改善從RNA測序數據中的異常剪接預測(圖2)。

這些方法被應用于一個12歲女孩的案例中,該女孩出現了發育退化、震顫和癲癇。通過短讀長度的基因組測序,鑒定了96個候選基因變異,但沒有一個看起來與患者的病情有關。通過對患者血液進行RNA測序并應用剪切異常算法,發現了KCTD7中的一個剪切增益變異,該變異并不在最初的候選基因列表中,從而確立了進行性肌陣攣癲癇的診斷。

表觀基因組學應用

表觀基因組學被定義為影響基因表達的一系列修飾。雖然已知表觀遺傳機制在某些罕見病和常見疾病的表現中起作用,但在臨床醫學中,對DNA化學修飾的大規模表征才剛剛開始產生影響。長讀測序方法提供了令人興奮的機會,因為它們在核苷酸通過蛋白質納米孔時產生信號,或者在DNA聚合酶嵌入堿基時產生信號。這些信號可以通過機器學習方法解讀,不僅可以確定該位點的核苷酸,還可以確定該核苷酸的一系列化學修飾。這些方法不需要之前的標準中的亞硫酸鹽轉化,該轉化已被證明會引起DNA斷裂。由于在組織特異性轉錄中扮演關鍵角色,大部分關注集中在將甲基基團加到順序CG二核苷酸序列中稱為CpG位點的C5位點。采用各種神經網絡方法,包括卷積神經網絡、雙向循環神經網絡(圖3),以及兩種類型的組合,已經在甲基化檢測方面達到了超過0.95的C統計量,優于以前的基準模型。

深度學習在蛋白質組學的幾乎所有環節中取得了重大進展。通過對已知化學實體的光譜圖模式進行訓練,深度學習方法改善了候選肽段的光譜預測能力,這是基于串聯質譜的蛋白質組學的關鍵步驟之一。利用基于卷積神經網絡的工具,還能準確預測肽段的保留時間,即肽段從液相色譜柱中洗脫的時間點。除了質譜法外,深度學習應用還集中在新生肽序列和蛋白質鑒定上,采用了卷積神經網絡和長短時記憶方法。此外,最近還將大型語言模型應用于蛋白質功能預測,以加速藥物發現。

蛋白質的翻譯后修飾,如磷酸化等過程對于蛋白質的功能、調節和降解至關重要,但其定量仍然是一個尚未解決的挑戰。通過僅從蛋白質序列預測翻譯后修飾位點的深度學習已經取得了成功,其中的例子包括乙酰化和泛素化等修飾。近期,通過隱藏馬爾可夫模型和卷積神經網絡的組合,預測蛋白質功能的能力也得到了改進。這種綜合方法為360個以前未注釋的人類參考蛋白質提供了功能預測,使標準蛋白質家族數據庫的覆蓋率提高了9%以上。

在蛋白質組學領域,基于神經網絡的AlphaFold(圖3)是一項備受關注的深度學習應用。它在第13屆和第14屆關鍵蛋白質結構預測評估競賽中獲得了勝利。這些是每兩年舉辦一次的盲測競賽,旨在評估蛋白質結構預測的進展。在第13屆競賽中,AlphaFold1為43個自由建模結構中的24個結構提供了高準確性的預測結果,大大超過了以往的方法和排名第二的方法,后者只在43個結構中的14個結構上達到了類似的準確性。在CASP14競賽中,AlphaFold2在這一基礎上取得了進一步的進展,優于許多競爭模型。

近年來,蛋白質組學在生物標志物的預測上成為臨床研究的主要焦點。研究主要集中在單一標志物和多標志物的發現上。在一項研究中,利用一組配體(與蛋白質結合的寡核苷酸)實現了蛋白質定量,利用一系列機器學習模型,包括基于邏輯回歸和隨機森林的模型(圖2和圖3),對約17,000名無重大疾病的個體進行訓練,預測了11個常用于預防醫學的健康指標,這些個體來自五個獨立的隊列研究。

多組學應用

隨著來自多種技術的高維數據更易獲取,結合數據的計算方法變得更加重要。多組學研究的最早例子之一是對單個人進行的縱向分析,結合了基因組、轉錄組、蛋白質組、代謝組和自身抗體譜的數據。其他研究也采用多組學方法構建了反映健康和疾病狀態的相關網絡,并提出了心腦血管疾病的新生物標志物。還有一些利用深度學習的整合方法也被報道。這些方法要么在早期融合數據,將多組學數據串聯起來進行單一分析,要么在后期融合數據,創建一個聯合模型,將幾個單一組學分析的輸出結合起來。一些多組學方法在臨床領域取得了成功,比如利用先前發表的神經網絡等機器學習模型,將類似亮氨酸拉鏈轉錄因子1 (LZTFL1) 鑒定為Covid-19風險位點的候選效應基因。通過指出LZTFL1的表達增加可能與不良預后相關,這一發現揭示了Covid-19預防和治療的新候選靶點。

結論

在過去的十年里,技術的進步極大地增強了我們在規模上測量基本生物過程的能力。由此產生的數據量需要越來越多針對多維生物數據集分析的機器學習方法。結果是對疾病分子軌跡的逐步詳細理解,這些理解現在正在臨床醫學中得到應用,尤其在罕見遺傳疾病的診斷和治療方面取得了最大的進展。仍然存在挑戰,包括數據質量、數據一致性和臨床醫生的認知。然而,隨著單組學發現向多組學應用的轉變,流程標準化、基準指標的擴展以及數據處理速度和準確性的提高將確保對精準醫療產生廣泛影響的潛力得以實現。 參考資料 Gomes, B., & Ashley, E. A. (2023). Artificial Intelligence in Molecular Medicine. New England Journal of Medicine, 388(26), 2456-2465.

付費5元查看完整內容

編譯 | 劉名權 審稿 | 陳睿哲 本文介紹一篇來自于蘇黎世聯邦理工大學的Gisbert Schneider等人的關于幾何深度學習的綜述《Structure-based Drug Design With Geometric Deep Learning》。

基于結構的藥物設計利用大分子的三維幾何信息,如蛋白質或者核酸,來識別合適的配體。幾何深度學習,一個基于神經網絡的新興機器學習概念已經被應用到大分子結構中。作者介紹了幾何深度學習在生物有機化學和藥物化學中的最新應用,突出它在基于結構的藥物發現和設計中的潛力。

介紹

分子表示 大分子結構的表示取決于有關機器學習任務和所選結構。近期文獻中所用到的三種最常見的大分子表示分別是:網格、曲面和圖。這三種表示具有獨特的幾何形狀和對稱性。

3D網格 定義為由三維空間中的體素組成的歐氏數據結構。網格中的每一個體素都有固定的的鄰域幾何特征。即(i)每個體素都有相同的鄰域結構(由鄰居的數量和鄰居間的距離),和(ii)體素具有通過網格的空間維度定義的固定順序。

3D表面 由多邊形(面)組成網格坐標的三維排列(“網格空間”)。這些多邊形可以根據它們的化學特征以及由局部網格的幾何特征進行區分。

3D圖 定義為是由節點(用單個原子)和它們的邊構成的非歐氏數據結構。圖形的非歐氏幾何起源于單個節點具有不同的鄰域結構,即每個節點可以有不同數量的鄰居和不同舉例。節點和邊一般沒有順序。

對稱性 根據分子的輸入表示和目標性質,將對稱性注入到深度學習架構中能更有效的進行學習。和分子系統最相關的三個對稱群分別是:歐式群(Euclidean group,E(3))、特殊歐式群(Special Euclidean group SE(3))、排列群。E(3)和SE(3)都包括3D坐標系統中的旋轉和平移變換,此外,E(3)還包括反射變換。因此,如果一個網絡需要對手性輸入給出不同的結果,需要考慮SE(3)。排列群主要和節點順序對神經網絡性能的影響有關。通常,使用排列不變的池化(求和,取極值)操作。

分子性質預測

主要討論基于大分子(包含配體)結構預測標量的一些方法。比如配體結合能預測或者對接姿勢評分。

基于網格的方法 幾種使用3D網格大分子表示和卷積神經網絡(CNNs)來預測想要性質的方法。KDEEP通過使用3D網格表示蛋白質-配體復合物來預測絕對結合能,其中每一個體素的特征由編碼藥理性質的通道所決定。由于3D-CNN缺少旋轉不變性,通常將輸入進行90°旋轉作為數據增強。3D可控CNNs在傳統的3D-CNN基礎上進行擴展,它能提供SE(3)等變卷積對類網格數據進行處理。SE(3)等變性可以通過可控核的線性組合實現。

基于分子表面的方法 HoloProt,一種用于預測結合能和蛋白質方程的方法,它通過結合基于序列、表面、結構的圖表示,在不同長度規模上進行編碼。表面級別的圖利用三角化的蛋白質表面上的節點,這些節點富含物化和幾何信息,但是結構級別的圖則利用氨基酸殘基節點捕獲3D結構。最后,使用多級消息傳遞網絡對兩種表征進行聚合并結合配體圖輸出最終想要的物理量(用于結合能預測)。

基于3D圖的方法 各種方法使用3D圖捕捉大分子的結構并且將它和配體信息結合,要么使用額外的配體編碼要么直接對大分子-配體復合物進行處理。通過使用3D圖而不是直接對笛卡爾坐標進行操作,這些方法通常關于輸入結構的旋轉平移操作不變。

有不同的方法建立3D圖。他們要么使用節點距離的編碼作為邊特征,要么使用不同的邊類型(例如,分子類和分子間的邊應當不同),要么如果兩個節點之間的距離小于小于某個閾值作為一條邊。這些方法并不相互排斥,可以任意組合使用。

直接使用節點間距離作為邊的一個例子是,SIGN通過迭代的使用帶有角度或者距離考量的相互作用層來預測分子結合能,從而在消息傳遞階段加入空間朝向知識。

通過結合直接距離編碼和不同的邊特征,PIGNet旨在于預測結合能。為了達這個目的,PIGNet使用門-增強的圖注意力網絡建模含有物理信息的成對的相互作用過程。

使用不同的邊類型方法包括PotentiakNet和InteractionGraphNet用于結合能預測,區別在于使用共價和非共價,分子內和分子間的圖卷積。另一種方法是使用無監督的自編碼器生成具有代表性的結合口袋表征,隨后使用基于歐幾里得距離cutoff的蛋白質級別的圖卷積對蛋白質-配體對進行分類。

區別于直接使用蛋白質結構的3D圖最近提出的一種方法“蛋白質-配體相互作用圖(PLIGs)”直接將蛋白質環境的信息加入到配體圖的特征中,因而減小了問題規模。

結合位點/界面預測

結合位點預測旨在于預測大分子結構的部分區域,這些區域可以作為小分子、類藥物配體的結合位點或者其它大分子的反應界面。

基于網格的方法 DeepSite是一種早期的方法,它使用常規的3D網格表示蛋白質,其中,每一個體素特征由相鄰原子類型的藥效特性決定。使用滑動的子網格,該網絡輸出每一個子網格可能接近結合位點的概率。Rnet擴展了這種方法來預測RNA和配體的結合位點。

基于分子表面的方法 MaSIF(分子表面相互作用指紋)以及它的可微分版本dMaSIF使用大分子表面表示用于結合位點預測,同樣也可用于分類。基于表面的方式在測地空間中對蛋白質表面上的每一個點進行描述,這樣表面上的兩個點間的距離由分子表面決定,而不是歐式距離。該方法可以分成三個階段,表面首先分解成獨立的塊。每一個塊中的點的特征由幾何和化學性質決定。使用測地線卷積將這些特征轉換為數值向量用于下游任務。以上兩個步驟對于最初的方法來說非常昂貴,但是dMaSIF是端對端可微的并且直接作用于原子類型和坐標。

基于3D圖的方法 作用于分子結構3D圖表示的網絡已經被廣泛地用于結合位點和相互作用界面的預測當中。一個例子是,使用旋轉平移等變的方式利用邊特征(包含距離和角度)讓模型獲得幾何理解,隨后使用空間圖卷積或者圖Transformer預測成對的殘基級別的作用勢。

其它方法 ScanNet使用E(3)不變的幾何深度學習模型通過基于結構的線性高斯核濾波器預測蛋白質-蛋白質和蛋白質-抗體結合位點。

結合姿勢生成/分子對接

對接姿勢生成,即生成兩個大分子之間或者大分子和配體之間的結合構象。

基于圖表示和混合表示的方法 EquiDock使用一種SE(3)等變的消息傳遞網絡,并結合最優傳輸以一種剛體、盲對接的方式來預測兩個蛋白質分子的結合構象。該網絡預測一個旋轉矩陣和平移向量來移動一個蛋白質結構得到結合姿勢,保持另一個蛋白質固定,從而保證最終的構象與兩個參與者的初始朝向和位置無關。EquiBind對該方法進行擴展,通過改變初始結構的鍵角,考慮小分子配體的靈活性。DeepDock為小分子結合姿勢預測構建了一個幾何深度學習模型,其中,結合位點是用多面體網格表示,小分子使用3D圖表示。DiffDock使用基于擴散的生成模型進行分子對接。該方法在兩個階段生成可控數量的結合姿勢:首先,評分模型使用逆擴散過程將隨機初始的配體姿勢通過旋轉、平移、改變鍵角轉換為預測的姿勢。其次,置信模型預測一個二分類標簽表明生成的配體姿勢的均方誤差是否小于閾值,以此來評估結合姿勢的正確率。其中,評分模型使用蛋白質表示是殘基級別的3D圖,置信模型使用的是原子級別的3D圖表示。

從頭設計

分子設計旨在于從頭設計出具有想要的生物和物理性質的分子結構。

化學語言模型 當前,用于分子從頭設計的最成功的深度學習模型是所謂的化學語言模型(CLMs),它們使用基于序列的分子表示(例如SMILES序列)。使用CLMs進行基于配體的從頭設計在生成想要的物化性質的分子中取得重大成功。這樣的基于配體的深度生成模型已經被拓展到可以利用顯式的靶蛋白信息。如下圖所示:

此外,還有人使用基于3D網格的蛋白質結合位點表示作為輸入,用于學習隱空間然后被編碼成序列。

基于圖的方式 現如今,已經有人提出了根據大分子結合位點的3D結構直接生成配體分子潛在的3D結構。結合位點可以使用3D圖進行表示。他們順序的從預先學習到的的分布中采樣出原子,并且已經被證明具有一系列的分子性質。最近提出了一種E(3)等變的擴散模型,它能夠通過對正態分布的點降噪生成分子的3D圖。該過程也被拓展到在結合位點內進行分子的從頭生成,例如DiffSBDD和TargetDiff。DifferLinker為結合口袋中的片段生成合適的連接器。盡管這些基于圖的3D從頭設計模型能構建大部分新型的分子,它們的實際應用仍然需要探索。

未來展望

以前的研究表明,結合物理學的某些方面和模型中的對稱性往往會增加準確性、普遍性和可解釋性。作者進一步期望基于結構的藥物設計的深度學習研究將跟隨制藥行業的趨勢進行發展。

最近的工作表明,許多深度學習架構僅在 PDBbind 數據集上訓練,僅僅只是記住訓練數據而不是學習蛋白質-配體結構之間有意義的映射和結合親和力,導致泛化能力差。該領域的未來工作可能會受益于合適的基準數據集,以及構建此類數據集的指南。

3D 感知模型,例如基于歸一化流的方法,可能會出現在未來生成模型領域最前沿的研究。全面評估在現實世界中的效用藥物設計背景的新模型,最重要的是實驗驗證建議的分子結構。因為并非所有在該領域工作的研究組都會有專業知識、設備來執行所需的實驗測試、和實驗人員的合作將是非常有價值的。 參考資料 //arxiv.org/abs/2210.11250

付費5元查看完整內容

編譯 | 沈祥振 審稿 | 夏忻焱 今天為大家介紹的是來自Maxwell W. Libbrecht,Wyeth W. Wasserman和Sara Mostafavi的一篇關于人工智能對于基因組學的可解釋性的研究的綜述。基于深度學習的人工智能(AI)模型現在代表了基因組學研究中進行功能預測的最先進水平。然而,模型預測的基礎往往是未知的。對于基因組學研究人員來說,這種缺失的解釋性信息往往比預測本身更有價值,因為它可以使人們對遺傳過程有新的認識。作者回顧了可解釋人工智能(xAI)新興領域的進展,以啟發生命科學研究人員對復雜深度學習模型的洞察力。之后,作者分類討論了模型解釋的方法,包括直觀地理解每種方法的工作原理及其在典型高通量生物數據集中的基本假設和局限性。

在接下來的章節中,作者首先介紹了關于深度學習方法在調節基因組學中如何使用的基礎知識,然后對四種解釋方法進行了分類:基于模型的解釋、影響的數學傳播、特征之間相互作用的識別以及透明模型的先驗知識的使用(圖1)。在整個綜述中,作者使用了調控基因組學領域的例子,其所提出的概念可以廣泛推廣。

圖1:可解釋人工智能的概念方法

深度學習之于調控基因組學

神經網絡和序列-活性模型

深度神經網絡(DNN)模型已成為調控基因組學預測模型的主要類型。本綜述重點介紹基于神經網絡的序列-活性模型。這些模型以假定的調控DNA序列(通常為100–10000 bp)為輸入,旨在預測序列活性的某些動態特性(即細胞或環境特異性)。目前對于如何為給定任務設計最佳神經網絡結構沒有共識,因此研究人員通常使用多種結構進行實驗。

DNN模型為何解釋困難?

作者總結了DNN模型的三大挑戰。首先,DNN對潛在特征表示進行編碼的高容量導致了最先進的預測精度,但它也面臨著識別模型所學習的特征和特征組合的挑戰。第二個挑戰是從局部解釋(一次估計給定輸入示例上的特征重要性)到對整個數據集上的重要特征組合的全局理解。另一個關鍵困難是無法系統地評估解釋策略,首先是因為缺乏基準數據集,其中真正的重要特征集是提前知道的,其次是因為各種算法所做假設的有效性取決于輸入數據集的屬性和所涉及的生物過程。

基于模型的解釋

模型解釋的直觀方法是檢查網絡的各個組件,以了解它們代表的(隱藏的)模式及其對預測性能的貢獻。可以考慮基于模型的解釋的兩種主要方法類別:最簡單的方法是直接檢查隱藏神經元的活動,以提取一組相關特征;第二種方法是使用注意機制訓練模型,通過一組學習的注意權重直接產生每個輸入特征的相關性度量。在本節中,作者描述了如何將這些方法應用于序列-活性模型,以了解網絡第一層學習到的單個特征。

解釋第一層卷積節點

在卷積序列-活性模型中,第一層神經元(濾波器)捕獲短序列模體,編碼在卷積權重矩陣中。從數學上講,將卷積權重矩陣應用于序列所執行的操作相當于使用位置權重矩陣(PWM)掃描序列(圖2a)。在實踐中,常見的策略是搜索在選定閾值以上激活給定濾波器的子序列,并根據激活子序列集的對齊情況直接構建PWM(圖2b)。由于神經網絡在設計上過于參數化,僅僅存在PWM并不意味著它是一個預測性、有趣或有用的特征。因此,我們需要測量PWM對模型預測的貢獻。在基于節點的策略中,這是通過依次對每個濾波器進行置零,并測量這種置零對模型預測結果的影響來實現的(圖2c)。

圖2:基于模型的解釋方法

用于可視化特征重要性的注意權重機制

先前的實證研究表明,將注意力權重按順序直接解釋為活動設置方面有一定的前景。注意力可以被視為一種權重正則化形式,其為輸入序列引入了權重,以對輸入中的位置進行優先級排序,盡可能保留相關信息以進行處理。注意力機制可以提高神經網絡模型的性能和可解釋性。顧名思義,當與模型訓練相結合時,注意力權重迫使模型在學習隱藏特征的同時關注輸入的有限部分。在序列-活性模型的情況下,可以直接檢查注意力向量,以幫助識別在模型內部表示中起關鍵作用的輸入部分(圖2d)。

影響的數學傳播

該算法通過在模型中傳播擾動數據并觀察對預測的影響,直接對輸入示例進行操作。基于傳播的歸因方法可以分為兩大類:向前和向后。在本節中,作者討論了最流行的歸因方法背后的概念基礎、它們的缺點以及遺傳數據背景下的緩解策略。

影響的正向傳播

本節主要介紹了硅誘變(ISM)策略。ISM與圖像像素翻轉類似,考慮翻轉與生物序列核苷酸相對應的元素,以確定訓練模型的特征重要性(圖3a)。與單核苷酸ISM不同,輸入序列的較大延伸可以改變,以識別依賴于重要堿基對組合的重要基序(類似于實驗室掃描誘變)(圖3b)。

影響的反向傳播

由于生成準確統計數據需要大量的前向傳遞,因此前向傳播方法的計算成本很高。反向傳播方法是為了解決這個問題而開發的。這些方法通過評估給定輸入序列下模型F的導數來近似ISM,以計算序列的微小變化對模型預測的影響(圖3c)。

從局部傳播結果到全局解釋

為了從基于傳播的方法生成的逐序列屬性圖中進行概括,以揭示對重要模體的全局理解,需要聚合許多輸入示例的結果。可以使用TFMoDisco作為針對DNA輸入序列的方法。

圖3:基于傳播的解釋方法

特征之間相互作用的識別

在基因調控的背景下,人們普遍認識到,轉錄因子(TF)之間的相互作用可以解釋除單獨附著于每個TF之外的活動。本節描述了前面提到的生成局部解釋的方法如何解釋特征之間的相互作用。

基于模型的交互識別

檢查較深層的神經元是一個明顯策略。神經網絡的較深層往往會聚合在較低層中學習到的特征。搜索那些最大限度地激活給定隱藏神經元的輸入,效果最好。可以應用自注意機制模型來實現對神經元重要程度的量化。

通過數學傳播解釋相互作用

基于ISM的傳播方法(向前和向后)可以用于解釋模型內的交互。但該領域應用ISM的計算成本非常高。可以以受限的方式應用來降低其計算成本,這些方式包括:將兩個基序插入隨機序列,對包含特定基序對的序列進行有針對性的分析(圖4a);正向和反向傳播方法的折衷結合,即深層特征交互圖(DFIM)(圖4b)。

圖4:揭示模型特征之間相互作用的方法

透明模型中先驗知識的應用

透明神經網絡模型是這樣一種模型,其中隱藏的節點被構造成在物理上對應于粒度級別上的生物單元,這有助于解釋更深層的隱藏節點(圖5)。圖5a展示了根據已知的TF綁定基序初始化過濾器,以演示如何使用先驗知識來設計網絡架構,構建具有固有可解釋單元的模型。圖5b展示了如何檢查訓練的模型,以深入了解給定上下文中存在的此類先驗交互作用。

圖5:利用先驗知識構造透明神經網絡

結論和未來展望

在本綜述中,作者重點介紹了序列-活性模型,其所述的xAI方法可廣泛應用于基因組學的深度學習應用。模型解釋的目的和效用在很大程度上取決于目標應用,因此應該根據目標指導解釋方法的選擇。解釋模型有其實際意義,但也不可盲目相信。解釋模型可用于識別訓練數據中存在的虛假相關性,防止預測模型通過學習非生物“捷徑”實現高精度。然而,解釋模型的“不可識別性”阻礙了解釋的可靠性。因此,必須謹慎使用解釋模型,并理解某些特性以及由此產生的特征可能是偶然的結果。對于哪種xAI方法最有效還沒有達成共識,作者預計,隨著這一領域的成熟,最佳實踐將得到確立,并集成到可訪問的分析工具中。隨著生物數據集的規模和可用性的增長,使用模型研究特征之間的復雜關系變得越來越重要。從這些模型中提取洞察力需要有效的xAI方法。因此,xAI將在基因組學中發揮越來越重要的作用。 參考資料 Novakovsky, G., Dexter, N., Libbrecht, M.W. et al. Obtaining genetics insights from deep learning via explainable artificial intelligence. Nat Rev Genet (2022). //doi.org/10.1038/s41576-022-00532-2

付費5元查看完整內容

摘要:近日,來自蒂賓根大學等機構的研究者進行了一項表格數據 SOTA 深度學習方法的調查研究。該研究首先將這些方法分為三組:數據轉換、專用架構和正則化模型,然后全面概述了每個組中的主要方法。

通過解釋表格數據上的深度學習模型,該研究對生成表格數據的深度學習方法展開了詳細的討論。該研究的主要貢獻是對領域內的主要研究流派和現有方法進行分類,同時突出相關挑戰和開放型研究問題。這是領域內首個深入研究基于表格數據的深度學習方法的工作,可作為表格數據深度學習研究者和從業者的寶貴指南。

該調查的目的是為了提供:

  1. 對現有關于表格數據深度學習的科學文獻的徹底審查;
  2. 對異構表格數據進行分類和回歸任務的可用方法的分類學分類;
  3. 最先進技術的介紹以及對生成表格數據的有希望的路徑的展望;
  4. 表格數據深層模型的現有解釋方法概述;
  5. 關于表格數據深度學習成功有限的主要原因的討論;
  6. 與表格數據深度學習相關的開放挑戰列表。

基于此,數據科學從業者和研究人員將能夠快速為用例或研究問題確定起點和指導。

付費5元查看完整內容

摘要:近年來,深度學習模型在圖像、語音、文本識別等領域內取得了顯著成就。然而,深度學習模型嚴重依賴于大量標簽數據,使得其在數據缺乏的特殊領域內應用嚴重受限。面對數據缺乏等現實挑戰,很多學者針對數據依賴小的弱監督機器學習方法開展研究,出現了很多典型研究方向,如小樣本學習、零樣本學習等。針對弱監督機器學習方法,系統闡述了小樣本學習、零樣本學習、零—小樣本學習的問題定義、當前主要方法以及主流實驗設計,最后基于當前研究中出現的問題,對下一階段研究方向進行了總結展望。

付費5元查看完整內容
北京阿比特科技有限公司