王建民 本文介紹Max-Planck生物化學研究所計算系統生物化學研究組的Jürgen Cox近期發表在Nature Biotechnology的綜述Prediction of peptide mass spectral libraries with machine learning。最近開發的機器學習方法用于識別復雜的質譜數據中的肽,是蛋白質組學的一個重大突破。長期以來的多肽識別方法,如搜索引擎和實驗質譜庫,正在被深度學習模型所取代,這些模型可以根據多肽的氨基酸序列來預測其碎片質譜。這些新方法,包括遞歸神經網絡和卷積神經網絡,使用預測的計算譜庫而不是實驗譜庫,在分析蛋白質組學數據時達到更高的靈敏度或特異性。機器學習正在激發涉及大型搜索空間的應用,如免疫肽組學和蛋白質基因組學。該領域目前的挑戰包括預測具有翻譯后修飾的多肽和交聯的多肽對的質譜。將基于機器學習的質譜預測滲透到搜索引擎中,以及針對不同肽類和測量條件的以質譜為中心的數據獨立采集工作流程,將在未來幾年繼續推動蛋白質組學應用的靈敏度和動態范圍。
“鳥槍法”蛋白質組學(shotgun proteomics)是一種識別和量化目標樣品中蛋白質的技術。該方法包括兩個主要步驟。首先,蛋白質被蛋白酶消化成肽,其次,肽在質譜儀中被片段化,從而產生片段化質譜。由于肽的寡聚結構和主鏈中鍵斷裂的優勢,碎片質譜顯示出可用于確定其氨基酸序列和氨基酸共價修飾的規律性。因此,與缺乏重復結構的分子相比,肽譜的解釋有些不同。通過了解碎片化的物理方法——例如碰撞誘導解離、高能碰撞解離 (HCD) 或電子轉移解離, 可以很容易地從序列中計算出主要肽片段的質量。然而,預測光譜中碎片峰的相對強度,或者在某些情況下它們在光譜中的缺失,這都是由量子化學決定的,這并非易事。傳統上在“鳥槍法”蛋白質組學中用于識別肽的肽搜索引擎通常會忽略超出簡化規則的強度信息。盡管這些工具已成功應用多年,但強度模式攜帶的信息可用于提高肽識別過程的靈敏度和特異性。
利用強度信息的一種方法是直接從先前測量的質譜中組裝庫,并將它們應用于感興趣的樣品的分析。這種方法的優點是對光譜的內容是無假設的。原則上,它可以容納不屬于任何標準碎片離子系列的非標準峰,目前大多數預測方法都沒有考慮這些峰。缺點是樣品中沒有獲得譜庫質譜的任何新肽都會在分析中丟失。然而,另一種方法也容易在分析中丟失新肽,即獲取項目特定的庫。生成這樣的庫為項目增加了大量的測量工作,并且通常僅限于提高靈敏度的好處遠遠超過肽空間受庫內容限制的缺點的應用。
如果可以從氨基酸序列中快速準確地預測碎片質譜中的峰值強度,無論是檢測新肽的失敗還是生成項目特定庫的額外測量工作都將得到克服。這樣做的第一次嘗試可以追溯到近 20 年前,使用決策樹或單個隱藏層神經網絡。最近的一項突破中,深度學習方法已經開始以接近實驗的精度從氨基酸序列中預測肽片段譜。本綜述側重于準確預測光譜庫的機器學習方法。
機器學習和深度學習方法
碎片譜預測是一個監督學習問題,其中譜是從肽序列預測的,模型在肽序列集和元數據作為輸入變量和片段強度作為輸出變量。有多種回歸方法可用,包括基于樹的模型,如隨機森林和 XGBoost、支持向量回歸和神經網絡。神經網絡因其優越的性能而經常用于頻譜預測。
循環神經網絡 (RNN)已證明對碎片譜預測非常有用。它們旨在處理序列數據,并且可以應用于可變長度的序列,這使得它們特別適用于肽。雙向 RNN 結合了兩個 RNN,一個用于序列中的每個方向,以考慮到某個鍵斷裂的頻率取決于該鍵之前和之后的序列上下文。對于某些肽鍵,它們的斷裂傾向主要由局部分子環境決定,而對于其他更遠的序列特性是相關的。門控 RNN 已被開發用于處理序列中的多個因果距離尺度。門控 RNN 的兩種主要類型,長短期記憶 (LSTM) 和門控循環單元 (GRU) 都已應用于碎片譜預測。此外,傳統上用于圖像分類和識別任務的卷積神經網絡 (CNN) 已應用于光譜。
經過訓練的遷移學習模型的一部分在具有不同但相關任務的模型中重復使用,然后通過較少數量的訓練實例進行微調,如果模型是從頭開始訓練的。這種技術可用于針對特定技術或生物環境預測光譜的應用,為此人們可以從更通用的環境中借用訓練模型的一部分。例如,在未修飾肽的大型數據集上訓練的模型可以部分轉移到攜帶翻譯后修飾 (PTM) 的肽模型,該模型隨后在較小的數據集上進行訓練。最后,有趣的是,諸如形狀加性解釋 (SHAP) 和積分梯度之類的計算方法可用于將輸入特征范圍歸因于特定實例的預測結果。例如,在圖像識別中,這些方法可以指示圖像中對某個決定最負責的像素范圍。類似地,在光譜中,它們可以提供關于最有助于確定碎片離子強度的序列區域的信息。
光譜數據
碎片質譜可以通過兩種方式預測,或者通過關注預定義的離子系列類型,其質量可直接從輸入序列計算并且其強度將被預測,或者通過在不參考離子系列注釋的情況下預測全光譜。訓練預測模型的關鍵是輸入和輸出已知的示例數據集。這樣的基本事實數據集可以從具有定義序列的合成肽中獲得,然后進行質譜分析。這種方法的優點是肽混合物的整個組成是已知的。然而,從這些測量中獲得的光譜并不能反映真實樣品的組成,因為它們僅涵蓋有限的一組肽,合成和分析需要大量的努力。更常見的是利用現有的 DDA 數據集,這些數據集存放在公共原始數據存儲庫中。這種情況下,可以確保肽被正確識別到可選擇的錯誤發現率 (FDR),因此可以作為準基本事實。可選地,可以應用關于附加質量參數的進一步閾值,例如搜索引擎分數。對于預測全譜的方法,重新分析復雜的蛋白質組學數據以訓練模型具有復雜性,即峰可能是由共同片段化的肽引起的,這要么必須通過光譜聚類來減少,要么通過測量閾值來減少。否則,機器學習模型將具有識別由于共同碎片而存在的特征的額外任務。相比之下,在僅預測離子系列強度的方法中,即使在復雜的蛋白質組樣本中,預計共同片段化肽的污染影響也很小。
為了確定機器學習模型的性能,需要將可用數據拆分為訓練、驗證和測試數據集。訓練和驗證集用于模型構建,而測試集完全排除在此過程之外,但隨后用于以無偏見的方式評估模型在預測準確性方面的性能。對于模型構建,訓練數據集用于確定模型的參數,驗證集用于調整模型的超參數并避免在此過程中過度擬合。為了判斷預測的準確性,需要一種光譜相似性度量,它可以量化預測光譜與實驗光譜的接近程度。計算測試集元素上所有預測的相似性度量會產生一個直方圖,該直方圖可用于計算整個預測群體的平均準確度、置信區間或箱線圖。在可用數據有限的情況下,可以使用交叉驗證來增加準確度直方圖的統計數據。
模型的預測性能取決于可用訓練實例的數量。如果訓練集太小,該方法的全部潛力可能還沒有達到,需要獲得更多實例才能達到漸近性能的平臺期。實踐中重要的是模型如何在有限數量的訓練實例下執行,因為在給定的技術或生物環境中可用光譜的數量可能會受到限制。對于相同的肽段和相同的元數據參數值,串聯質譜 (MS/MS) 光譜的相似技術復制的預測準確性存在實際限制。 離子序列強度預測
大多數流行的離子序列強度預測深度學習模型都使用 RNN,這pDeep、DeepMass:Prism、Prosit 和 Guan 等人中已經實現,但也使用了 CNN。Prosit 基于 GRU,而其他基于 RNN 的模型使用 LSTM 層。例如,DeepMass:Prism 的架構使用編碼器-解碼器架構,該架構是在機器翻譯的背景下開發的。編碼器部分將可變長度的肽序列作為輸入,并將其轉換為固定長度的表示,這是通過三個 LSTM 層實現的。與元數據參數的值一起,由多層感知器組成的解碼器生成離子序列強度的“轉換”序列。Prosit 也遵循編碼器-解碼器架構,但其結構略有不同,因為它將歸一化的碰撞能量作為額外的元數據參數輸入。
傳統的機器學習也已應用于離子序列強度預測。這些方法可以細分為固定長度和基于窗口的方法。前者中,在 MS2PIP 中實現,為每個可能的肽長度訓練一個單獨的模型。因此,不同長度的肽沒有協同作用,就像 RNN 的情況一樣。由于可變長度輸入沒有復雜性,原則上任何傳統的機器學習算法都可以使用隨機森林作為首選。對于基于窗口的方法,例如 wiNNer,由于其神經網絡包含多個隱藏層,因此被歸類為深度學習,不同長度的肽段有助于同一模型。該模型預測了由一次斷裂一個肽鍵形成的離子相對于光譜中最高峰的峰高。特征空間是固定長度的,可以認為是表示當前考慮的鍵周圍的序列窗口以及一些附加特征。特征包括以所考慮的肽鍵為中心的序列窗口中的 one-hot 編碼氨基酸、肽的長度、到 C 和 N 末端的距離(殘基數)、末端的 one-hot 編碼氨基酸加上值元數據參數也被饋送到基于 RNN 的模型中。通過沿序列滑動窗口,將從一個肽創建多個基于窗口的訓練數據實例。其他幾種方法也屬于這一類,因為它們的預測一次只關注一個肽鍵,并且特征部分是從具有小窗口大小的鍵周圍的氨基酸中招募的。盡管與基于 RNN 的預測相比,基于窗口的預測的預測精度通常較低,但它可以接近,并且具有減少訓練實例數量和降低計算復雜度的潛在優點。
全光譜預測
開發了一種基于 CNN 的架構,用于預測包括非骨架離子在內的全光譜。該方法不依賴于峰注釋,而是使用最高 2,000?Da 的分箱 m/z 范圍,分箱寬度為 0.1,從而生成 20,000 維向量作為預測強度的目標。輸入序列的 one-hot 編碼用于預測雙電荷和三電荷未修改的 HCD 光譜,許多訓練實例可用。大約需要 150 萬個光譜才能達到預測精度的飽和。由于可用于訓練的電荷一和四個 HCD 光譜要少得多,因此將多任務學習應用于預測不太頻繁的電荷狀態。一個輔助預測任務,即前體電荷預測,作為一種聚焦方法被集成到模型中,以避免災難性遺忘。通過包含碎片類型的偽預測器,通過與 HCD 模型類似的集成來實現電子轉移解離譜的預測。全光譜預測的未來工作可能包括擴展到其他碎片化方法。此外,特征歸因方法的應用可能會揭示非骨架離子產生背后的機制。
修飾和交聯的多肽
PTMs是對蛋白質的共價修飾,可以發生在氨基酸側鏈或末端。它們的存在改變了離子序列成員的質量,也可以對峰強度產生深遠的影響。此外,由于特定于修改的中性損失,它們可能會產生額外的碎片。遷移學習用于修改 pDeep2以預測包含修改的光譜。該模型首先在來自未修飾肽的大型光譜數據集上進行了預訓練。完整模型由一個輸入層、兩個雙向 LSTM 層和一個輸出層組成,輸出層增加了代表由 PTMs中性損失引起的 b 和 y 離子的節點。遷移學習步驟中,只有第一個 LSTM 層和輸出層被微調,而模型的其余部分被凍結在其預訓練狀態。結果發現,特別是當只有少量攜帶 PTMs 的光譜可用時,遷移學習模式的性能優于從頭訓練的模型的性能。一個模型最近被用于修飾肽的保留時間預測。將來可能會改進表示,因為它不能充分表示復雜的 PTMs,例如糖基化,不能區分異構體,并且固有地在修飾的原子組成之間進行插值,這可能不是表示化學性質的最佳選擇。DeepPhospho 是另一種深度學習模型,它通過使用轉換器網絡預測肽碎片模式,將光譜庫預測集成到 DIA 工作流程中。
交聯質譜法中產生了另一類需要專門方法進行光譜預測的肽。此處產生了成對的肽,它們通過連接兩個氨基酸的接頭共價連接,兩個氨基酸中的一個來自兩個肽中的每一個。每個肽的片段化模式都受到其他肽存在的影響,這使得它們的預測比線性肽更難。一些片段包括接頭和相應的其他肽,這使它們平均更重和更高的電荷。與線性肽相比,交聯肽的可用數據較少,并且由于許多可用的交聯試劑,它們顯示出高度的多樣性。交聯劑可以通過質譜法裂解或不可裂解,從而產生兩種不同類型的碎片光譜。pDeepXL 是一個深度神經網絡,它在可切割和不可切割交聯數據上分別進行訓練,從而產生兩個基于遷移學習的預測模型。深度學習架構的未來迭代可能與交聯肽的保留時間預測器一起在集成到其分數中時可能會提高交聯搜索引擎的敏感性。
DDA 應用
準確片段質譜強度預測的一個重要應用是其用于改進實驗光譜與候選肽段的匹配。在 DDA 中,肽數據庫搜索引擎為每個給定的碎片譜做出決定,通常在幾個候選中構成最佳肽譜匹配 (PSM)。PSM 分配正確性的整體改進導致更好的靈敏度、特異性或兩者兼而有之。強度整合的早期嘗試表明,這在原則上是可行的。最近表明,通過使用強度信息,可以在標準蛋白質組搜索中針對來自智人UniProt蛋白質序列的物種特異性序列數據庫進行標準蛋白質組搜索,從而進一步提高分配的正確性,該數據庫包含所有胰蛋白酶肽,最多有幾個缺失的切割。一種方法直接將強度信息集成到Andromeda搜索引擎分數中,另一種方法使用滲透器將光譜比較特征與 MS-GF+ 搜索引擎分數集成。靈敏度的提高取決于 q 值,并且在 q 值較小時更高。在 1% 的標準 FDR 下,深度學習預測的改進約為 4%。盡管對標準蛋白質組的鑒定增加只是適度的,但預計在更大的搜索空間中,強度預測的好處更高,因為在某個公差窗口內,每個前體質量平均存在更多潛在的 PSM,其中正確的 PSM 需要被發現。具有較大肽搜索空間的應用包括免疫肽組學、蛋白質組學和元蛋白質組學。
免疫肽組學專注于與人類白細胞抗原 (HLA) 結合的肽,這些肽由細胞內蛋白質的蛋白酶體降解產生,然后重新定位到細胞表面。定義呈現在癌細胞上的 HLA 肽組是生物醫學研究的一個深入研究領域,因為這些肽為治療干預提供了靶標。與必須由特定蛋白酶消化才能進行鳥槍法蛋白質組學的蛋白質相比,HLA 肽可以通過質譜直接測量,但由于非特異性切割而帶來了搜索空間增加的挑戰。此外,管理片段化的規則與胰蛋白酶肽的規則不同。因此,預測 HLA 肽片段化的模型也需要在非胰蛋白酶肽上進行廣泛的訓練。基于深度學習的強度預測用于改進免疫肽組學中的肽鑒定。
蛋白質組學是借助基因組或轉錄組序列對蛋白質組的研究,允許識別不屬于參考蛋白質組序列的肽。這種擴展序列空間的計算機翻譯導致肽搜索空間膨脹,在確定光譜的最佳 PSM 時必須考慮這一點。搜索空間膨脹的程度取決于科學問題,范圍可以從包含轉錄本的非翻譯區域到整個基因組的六幀翻譯。蛋白質組學還受益于通過在基于滲濾器的方法中對 PSM 重新評分來整合預測的光譜強度。蛋白質組學搜索空間是通過核糖體分析和基于使用納米孔的 RNA 測序 (RNA-seq) 的三幀翻譯數據庫生成的。后者導致序列數據庫大小增長超過 50 倍,相關的氨基酸含量增加了 20 倍。
盡管應用于標準蛋白質組、蛋白質基因組學和免疫肽組的方法不同,不能直接比較,但結果表明,到目前為止,免疫肽組學的改進是最大的。深度學習在多肽識別問題上的另一個有前途的應用是DeepMatch,它規避了光譜的預測,直接預測PSM分數。盡管該方法在識別率方面顯示出有希望的結果,但其計算要求太高,無法將其整合到常規的肽搜索引擎中。
DIA 應用
DIA 數據分析工作流程可細分為以光譜為中心和以肽為中心的方法。以光譜為中心的軟件工具從 DIA 數據的前體和碎片特征中組裝偽 DDA 光譜,然后將其提交給傳統的搜索引擎。在以肽為中心的方法中,專用光譜庫用于查詢 DIA 樣品中由庫光譜表示的肽。因此,以肽為中心的方法可以直接受益于文庫預測。已經開發了幾個以肽為中心的軟件框架,原則上它們都可以與預測的庫一起操作。對于沒有額外富集的單一物種的標準蛋白質組學樣品,例如磷酸化,發現使用無偏的完整蛋白質組計算機預測庫進行胰蛋白酶消化是可行和有益的。此外,蛋白質鑒定的錯誤率處于良好的統計控制之下,即使在使用如此大的計算機庫時也是如此。
結論
目前質譜庫預測工具的預測準確性正在推進DDA和DIA數據分析。在DDA中對PSMs的重新評分正在改善其敏感性-特異性特征。DIA數據分析現在可以在光譜庫的無偏全蛋白質組預測的基礎上常規進行,消除了測量項目特定庫的需要。盡管取得了這些進展,蛋白質組學仍然面臨著靈敏度方面的挑戰。盡管細胞蛋白質組可以常規地進行足夠深度的量化,但大多數蛋白質的序列覆蓋還遠未完成,并且落后于RNA-seq的轉錄組分析。這意味著,由于缺乏敏感性,在鳥槍法蛋白質組學中往往不能解決因替代剪接而存在的蛋白質形態。同樣,單細胞蛋白質組學和血漿蛋白質組學將大大受益于靈敏度和動態測量范圍的改善。通過將強度信息更好地整合到現有的搜索引擎中,碎片光譜的預測將有助于解決這些挑戰。為此,也為了適應PTMs,強度預測模型必須具有計算效率。此外,需要考慮的肽類的多樣性,使得一個什么都知道的大型深度學習模型似乎不太可能成為首選方式。相反,許多專門的模型,每一個都可以通過適度的努力和有限的訓練數據進行訓練,應該能更好地滿足需求。 參考資料 Cox, J. Prediction of peptide mass spectral libraries with machine learning. Nat Biotechnol (2022). //doi.org/10.1038/s41587-022-01424-w
作者 | 鄭仰昆 審稿 | 楊崇周 指導 | 閔小平(廈門大學) 今天帶來的是美國馬薩諸塞州波士頓哈佛醫學院系統藥理學實驗室發表在nature biotechnology上的Single-sequence protein structure prediction using a language model and deep learning。
單序列結構預測是較為基礎的研究方向,蛋白質設計和量化序列變異對功能或免疫原性影響的研究等都需要單序列結構預測作為支持。AlphaFold2 和相關計算系統使用以多序列比對 (MSA) 編碼的深度學習和共同進化關系來預測蛋白質結構。盡管這些系統有很高的預測準確性,但其對于無法生成 MSA 的孤兒蛋白質的預測、快速設計結構仍然有些不足。
本文針對以上兩個問題設計了一個端到端可微循環幾何網絡 (RGN2),該網絡使用蛋白質語言模型 (AminoBERT) 從未對齊的蛋白質中學習潛在的結構信息,以此改進之前提出的RGN。RGN2 在孤兒蛋白質和設計蛋白質類別上的性能優于 AlphaFold2 和 RoseTTAFold,同時計算時間減少了 106 倍。并證明了蛋白質語言模型在結構預測中相對于 MSA 的實踐和理論優勢。
模型構造
圖1 RGN2的組織與應用
RGN2組成:RGN2 將基于轉換器的蛋白質語言模型(AminoBERT,黃色)與使用 Frenet-Serret 框架生成蛋白質骨架結構(綠色)的 RGN 相結合。在初步構建側鏈和氫鍵網絡后,隨后使用 AF2Rank(藍色)對結構進行細化。
**RGN:**基于機器學習的 RGN,利用源自 MSA 的位置特異性評分矩陣(PSSM)預測蛋白質結構,將PSSM 結構關系參數化為相鄰殘基之間的扭轉角,從而可以在 3D 空間中順序定位蛋白質骨架(骨架幾何結構包括每個氨基酸的 N、Cα 和 C' 原子的排列)。盡管 RGN1 不依賴用于生成 MSA 的協同進化信息,但對 PSSM 的要求需要多個同源序列可用。RGN2改進了RGN,利用了一種自然的方式來描述在整個多肽水平上旋轉和平移不變的多肽幾何形狀。這涉及使用 Frenet-Serret 公式在每個 Cα 碳嵌入參考框架;然后通過一系列轉換輕松構建主干。
**AminoBERT: **AminoBERT 旨在捕獲一串隱含指定蛋白質結構的氨基酸中的潛在信息。為了生成 AminoBERT 語言模型,本文使用從 UniParc 序列數據庫獲得的約 2.5 億天然蛋白質序列訓練了一個 12 層轉換器。訓練任務第一個是預測序列中同時屏蔽的2-8個連續殘基,強調從全局而不是局部上下文中學習。第二個是識別打亂的“塊排列”順序,塊排列是連續的蛋白質片段交換,保留了局部序列信息,但破壞了全局連貫性,鼓勵轉換器從整個蛋白質序列中發現信息。RGN2 的 AminoBERT 模塊以自我監督的方式獨立于幾何模塊進行訓練,無需微調。
**數據:**RGN2 訓練是使用 ProteinNet12 數據集和僅由源自 ASTRAL SCOPe 數據集(版本 1.75)的單個蛋白質域組成的較小數據集進行的。因為本文觀察到兩者之間沒有可檢測到的差異。
圖2比較 RGN2 和 AF2 對孤兒蛋白的結構預測
表1 RGN2 和 AF2、RF 和 trRosetta 跨 330 個目標的預測時間比較
**結果:**本文使用dRMSD 和 GDT_TS 評估了預測準確性。堆積條形圖2顯示了 149 種從頭設計的孤兒蛋白質。條形高度表示蛋白質長度。對于富含單螺旋和彎曲或散布有螺旋的氫鍵轉角的蛋白質,RGN2 優于所有其他方法。表1展示了對于沒有同源序列的蛋白預測時花費的時間是RGN2明顯占優的。
總結
RGN2 是使用機器學習從單個序列預測蛋白質結構的首次嘗試之一。在設計孤兒蛋白質結構的情況下具有許多優勢,因為這些蛋白質通常無法生成多序列比對。RGN2 通過將蛋白質語言模型 (AminoBERT) 與基于 Frenet-Serret 公式的簡單直觀的 Cα 骨架幾何參數化方法融合來實現這一點。AF2 和 RF 的無模板和無 MSA 生成均比 RGN2 慢 >105 倍。本文認為,未來同時使用語言模型和 MSA 的混合方法可能會優于單獨使用任何一種方法。
參考資料 Chowdhury, R., Bouatta, N., Biswas, S. et al. Single-sequence protein structure prediction using a language model and deep learning. Nat Biotechnol (2022). //doi.org/10.1038/s41587-022-01432-w
Drug hunters are moving into the clinic with human-first ‘no-hypothesis’ target discovery, applying the full force of machine learning to massive collections of human omics data.
越來越多的公司認為,基于人工智能 (AI) 的算法策略可以補充假設驅動的藥物靶標發現。今年 4 月,BioAge Labs 宣布,他們已經給他們的第一個試驗參與者服用了一種旨在治療肌肉萎縮的藥物,該藥物是通過對人類衰老研究中一組患者收集的臨床和組學數據進行人工智能分析而確定的。
傳統的藥物開發中,公司通常從臨床前研究中確定和驗證的靶標和機制開始。這迫使他們對這些相同的基因或蛋白質是否真的與患者的病癥有牽連下重注。但是,正在崛起的一代初創公司正在將機器學習(ML)應用于豐富的臨床和分子數據集,而不遵循預先設定的假設。
由人工智能驅動的藥物研發的投資正在涌入。3 月,憑借新獲得的 8300 萬美元資金,Celsius 啟動了一項針對炎癥性腸病 (IBD) 的臨床計劃,該計劃基于來自患者的組織樣本。Verge Genomics 使用人工智能發現神經退行性疾病的新靶標,去年12 月從禮來(Eli Lilly)和默克(Merck)等投資者那里籌集了 9800 萬美元,旨在啟動針對肌萎縮側索硬化癥(ALS)藥物的臨床試驗。今年 1 月,總部位于倫敦的 BenevolentAI 擴大了與阿斯利康(AstraZeneca)為期三年的合作伙伴關系的范圍,以應用該生物技術的疾病不可知論平臺,該平臺已經產生了至少三個新的藥物靶標。
早期的玩家也在加強支持。去年 10 月, Immunai 獲得了 2.15 億美元的 C 輪資金,用于通過將 AI 應用于大量患者免疫數據來確定新的藥物靶標。總部位于倫敦的 Relation Therapeutics 在 6 月份籌集了 2500 萬美元,用于實施一個基于 ML 的平臺,該平臺將單細胞分析與臨床洞察相結合,以發現治療骨病的新靶標。
所有這些公司的區別在于他們的“以人為本”的方法。最初的重點是在患者衍生數據中識別靶標,而不是在動物模型或高通量篩選和基于細胞的分析中識別它們。過去的 20 年中,人類基因數據激發了許多藥物計劃,主要來自被稱為全基因組關聯研究 (GWAS) 的人口規模調查,該調查將患者隊列的遺傳特征與健康對照組的遺傳特征進行比較。更重要的是,龐大的研究生物庫和國家公私合作伙伴關系的興起,如 Genomics England,收集了超過 150,000 個人的表型和基因組數據,為制藥公司提供了充足的工作材料。
大型生物制藥公司已經接受了這種方法。例如,Amgen 于 2012 年收購了冰島初創公司 deCODE Genetics,以受益于該公司深厚的基因組專業知識和數據資源,包括來自大約 50 萬人的基因組和臨床數據。Regeneron 和 AstraZeneca 還通過內部研究、與學術界的合作以及國際生物庫計劃的結合,各自建立了超過 100 萬人的分子和臨床數據的強大集合。
這種規模的數據使發現對健康和疾病具有強大影響的稀有基因變體變得更加容易。但隨著這些數據集變得越來越大,并包含基因組之外的其他組學層,包括轉錄組學、蛋白質組學甚至代謝組學數據,它們的分析變得更具挑戰性。這就是人工智能可以成為強大資產的地方——尤其是當人們在數據中搜索可能不太明顯的信號時。Jeffrey Reid,在某個時候,我們將完成所有唾手可得的成果,也許這就是新方法更具變革性的地方,因為 AI 和 ML 非常擅長在非常微妙的非線性信號中查看廣泛的變量。
這些信號可以包括與疾病相關的各種類型的數據。例如,Insitro 開發了一個基于 ML 的平臺,該平臺可以分析腫瘤組織病理學圖像、基因組序列和臨床醫生報告,以識別與特定病理學相關的獨特特征。最近宣布與 Genomics England 建立合作伙伴關系,將其基于 AI 的靶標發現平臺應用于他們的數據集,以促進藥物靶標發現。4月份的 Genomics England 會議上,Insitro 首席執行官 Daphne Koller 評論說:“人類生物學常常讓人們驚訝于沒有訓練臨床醫生去尋找的東西。”
另一方面,與UK Biobank等數據集相關的醫療記錄:一個來自50萬人的醫療和遺傳數據的存儲庫可以為分子數據提供必要的背景。對于英國生物庫來說,這意味著非常廣泛的范圍——成像數據,甚至一些蛋白質組學分析、醫療記錄數據等。
人工智能可以在分析的各個階段實施,本質上是梳理整個生物醫學數據的大海撈針,以尋找關鍵的可操作數據。例如,Reid 說他在 Regeneron 的團隊偶爾會執行與假設無關的“全部”分析。可以說,向研究人員展示這種基因型與任何表型之間最重要的關聯,然后你就會得到這份清單。” 或者它可以專注于特定的疾病表型和更窄的基因和途徑子集,為特定的病理提供分子解釋。當 Verge 科學家使用 ML 分析 ALS 患者的脊柱組織并檢測到溶酶體功能與疾病病理學之間的聯系時,情況就是如此。
為了尋找新的藥物靶標,BenevolentAI 和 AstraZeneca 梳理了實驗和臨床數據存儲庫,以及科學和醫學文獻。以這種方式收集的數據然后被組裝成“知識圖”,捕捉例如基因和通路之間的關系。阿斯利康基因組學研究中心副總裁兼負責人 Slavé Petrovski 開發了一種機器學習工具,該工具利用來自數十個生物數據庫的知識以及特定疾病的臨床和基因組資源來破譯潛在疾病大型人類數據庫中的相關基因。“它可以為特定表型的 20,000 個人類基因中的每一個分配疾病相關性的概率。
AI 還可以對單個細胞亞型進行分類和表征。Celsius平臺分析來自不同患者群體的單細胞轉錄組數據,以區分特定細胞類型中的某些基因如何與特定表型相關。Magram,其中一種細胞類型是炎癥單核細胞,它是細胞因子產生的關鍵驅動因素,因此關注這些細胞并詢問哪些受體可能驅動那里的生物學。
即使使用最強大的算法,人工智能的輸出通常也只是實現靶標識別的一步。華盛頓大學計算機科學家 Su-In Lee 說,他在生物醫學研究中使用了 AI 和 ML。使用神經網絡來生成這個假設,然后將候選靶標傳遞給實驗者并進行實驗,然后可以再次為模型學習提供信息。
即使人工智能仍然只是藥物開發人員的工具之一,Osbourn仍然熱衷于它以新方式解決老問題的能力。關鍵是計算機算法中的機器學習與某種深厚的跨學科專業知識相結合。 參考資料 Eisenstein, M. Machine learning powers biobank-driven drug discovery. Nat Biotechnol (2022). //doi.org/10.1038/s41587-022-01457-1