作者 | 黃灝尹 審稿 | 陳梓豪 指導 | 閔小平(廈門大學)今天給大家介紹的是由來自Absci公司的Vancouver (WA)團隊發表在bioRxiv上的預印文章《Antibody optimization enabled by artificial intelligence predictions of binding affinity and naturalness》。這篇文章提出利用人工智能對抗體進行優化的基于高通量親和數據訓練的深層語境語言模型(deep contextual language models trained on high-throughput affinity data),并運用名為ACE和SPR的方法,用于生成抗體結合親和力的相對傳統方法而言更優的測量,然后基于兩種不同的抗體證明了可以定量預測未知抗體序列變體的結合。
ACE方法的提出,解決了傳統方法對序列空間探索度較低的問題,從而使得文中提出的深層語境語言模型可以高精度地定量預測未知抗體變體的結合親和力,實現虛擬篩選,并將可訪問序列空間擴大了幾個數量級。 研究背景
傳統的抗體優化方法僅僅只能探索到序列空間的很小區域,這樣的情況下,優化的結果有可能會被限制在僅有次優性質的序列上,這些序列有可能會結合親和力不足、發育受到限制或者具有較差的免疫原性譜。相比之下,深度誘變加上篩選或選擇允許探索更大的抗體序列空間。但是突變本身也具有降低抗體的結合親和力等問題,這將會大大降低篩選效率。深度神經網絡是一種可以有效幫助克服實驗篩選能力的限制的工具,但是現有的模型受到吞吐量和二進制(而非連續)讀數的限制,這可能會在高突變負載下影響其準確性。
在本研究中,作者使用深層語境語言模型和定量、高通量的實驗結合親和性數據,證明了提高抗體與其目標抗原結合親和性的能力。經過驗證,該模型可以高精度地定量預測未知抗體變體的結合親和力,實現虛擬篩選,并將可訪問序列空間擴大了幾個數量級。最后,在實驗室中的預測和后續設計可以確認成功率遠遠高于傳統篩選。
主要結果
使用深度語言模型預測序列變體的結合親和力
圖1 人工智能增強抗體優化示意圖
深度學習模型需要高質量的大量數據進行訓練,為了產生抗體結合親和力的高通量測量,作者提出了基于FACS(熒光激活細胞分類術,Fluorescence-Activated Cell Sorting)和NGS(新一代測序技術,Next-Generation Sequencing)的ACE方法。ACE方法的特點是利用折疊抗體的細胞內可溶性過表達,表達抗體變體的細胞被固定、滲透并用熒光標記的抗原和支架靶向探針染色。然后根據結合親和力和變體的表達水平對細胞進行裝箱和分類。最后,收集的DNA序列通過PCR擴增并測序。SPR方法的特點是低通量,但是準確度更高,因此在數據中用作對ACE數據的補充。所使用的深度語言模型都經過了OAS數據庫的免疫球蛋白序列訓練,最終的結果證明了模型具有預測序列變體的結合親和力的能力。
表1 訓練模型所用數據
圖2 數據集trast-1和trast-2的預測抗體結合親和力結果
如圖1所示,作者使用trast-1數據集對深度語言模型進行訓練,并保留10%的數據用于測試。測試的結果表明數據集的ACE得分和模型的預測得分高度相關。為了進一步評估預測性能,trast-2數據集由從trast-1數據集中采樣了>200個序列,通過SPR重新篩選100個采樣序列,作者證實了該數據集的結合親和度的接近均勻分布并驗證了模型在trast-2的強大預測性能。圖2展示了預測抗體結合親和力結果,其中比較的兩個基線分別為未經過預訓練的深度語言模型和基于XGBoost梯度增強樹。
改進抗體變體的模型引導設計 作者使用模型設計具有期望綁定特性的序列集,然后用專用的SPR實驗進行驗證。首先在trast-2數據集上訓練一個模型,并讓它設計50個跨越兩個數量級平衡解離常數的序列(設計集A),作者發現設計集A的預測和驗證之間非常一致。
圖3 使用trast-2訓練的模型上次的設計集A和B與預測值關系圖
然后用該模型進行比曲妥珠單抗結合更緊密的變體的設計(設計集B),與之前相同,讓模型設計了50個序列,通過SPR驗證這50個序列,發現74%的變體確實比親本抗體更緊密。100%的變體在0.5log的誤差范圍內符合設計要求。
設計集B的驗證結果與單純的、僅在實驗室進行文庫篩選的方法相比有很大的優勢,在該方法中,比曲妥珠單抗更緊密的復合物比例最小。因此人工智能模型提供的變體的強富集可以極大地促進抗體優化。
作者注意到,生成設計集B的模型是通過trast-2數據集訓練得到的,里面有一些比曲妥珠單抗結合性更強的結合劑。在除去這些結合劑訓練后,新得到的模型不再能夠為設計做出準確的KD預測。盡管如此,該模型確實將設計B變體的結合親和度放在其預測分布的頂部。這一結果表明,即使實驗室實驗產生的訓練數據沒有跨越完全的親和度范圍,AI也可以實現高親和度序列的優先級化。
其他的討論
在后續研究中,作者發現當擴展到更大的序列空間時,AI預測的表現仍然能夠保持在不錯的水平上,并且作者提出的深度語言模型具有很高的樣本效率,使抗體結合的可解釋分析成為可能。
在抗體的優化方面,著眼于優化抗體的自然性可以緩解發展障礙。將候選抗體開發為治療藥物是一個復雜的過程,具有高度的臨床前和臨床風險。由于難以獲得信息豐富且相關的數據,對這些風險進行建模一直是行業面臨的巨大挑戰。作者將自然度定義為通過預先訓練的語言模型計算的分數,該分數測量給定抗體序列從感興趣物種(包括人類)衍生的可能性。因此,自然度可以用作抗體設計和工程中的指導指標。
總結
本文在之前的相關模型基礎上提出了運用人工智能進行抗體優化的思路,并引入抗體的自然度定義,提出SPR和ACE方法,大大提高了序列空間的探索度,為人工智能模型提供了足夠優質的高通量數據,最終人工智能模型設計得到的序列展現出了很強的親和力和穩定性,并且在擴展到更大的序列空間時仍然具有很好的預測水平。 參考資料 //www.biorxiv.org/content/10.1101/2022.08.16.504181v1
編譯 | 董靖鑫 審稿 | 張翔今天給大家介紹的是卡內基梅隆大學的研究團隊近期的一篇分子優化工作。識別蛋白質抑制劑通常需要預測配體結合自由能(Binding Free Energy, BFE)。熱力學積分(Thermodynamics integration , TI)是一種能夠準確預測BFE的方法,但其計算成本高、時間長。**在這項工作中,作者利用自動機器學習(Automated machine learning, AutoML)和主動學習(Active Learning, AL)的技術開發了一個高效的自動化工作流程,只需要數百次TI計算能在數千個同源配體中識別BFE最低的化合物。**實驗結果表明,該框架預測的化合物的結合親和度顯著提高。
1 介紹 藥物設計的先導化合物的發現及優化階段旨在發現先導化合物,即通過改變分子的化學結構來改善與生物靶點的結合親和力,以證明其對靶點具有活性。因此,結合自由能的預測至關重要,而相對自由能(relative BFE, RBFE)指的是新配體與先導化合物之間的結合自由能差異。目前基于大規模分子庫的虛擬篩選方法的性能因較差的預測配體排序的能力而受到限制。分子動力學模擬(Molecular Dynamics,MD)方法雖然可以較為準確地計算RBFE,但對計算資源需求高。為了有效地克服這些限制,作者提出了一個自動化框架計算RBFE,以優化先導化合物。
圖1 SARS-CoV-2 PLpro及其抑制劑的結構
SARS-CoV-2木瓜樣蛋白酶(papain-like protease, PLpro)是設計COVID-19抗病毒藥物最有吸引力的藥物靶點之一。研究表明GRL0617通用骨架(N-[(1R)-1-arylethyl]arenecarboxamide, 圖1B)的結構對配體與PLpro結合很重要,并且在具有該骨架的化合物中可能發現更有效的PLpro抑制劑。在這項工作中,作者從13億商業可用化合物庫中篩選,選擇了1萬個N-[(1R)-1-arylethyl]arenecarboxamide衍生物的庫,并最終確定了16種有效的結合劑,其預測的結合親和力提高了100倍以上。
2 模型
圖2 模型流程
2.1 主動學習周期
兩個主要的計算模塊:
(1)AutoML模塊。負責根據第二個計算模塊提供的標記數據開發ML模型。 (2)TI RBFE模塊。負責計算選定化合物與PLpro蛋白的相對結合自由能。
具體流程:
(1) 從分子的種子集開始,執行TI RBFE計算以獲得訓練數據和初始化的ML模型。 (2) 使用該模型篩選化學空間。 (3) 選擇最佳候選分子集用于RBFE的TI MD計算。 (4) 對所選分子進行TI MD計算,并且用更新的數據重新訓練ML模型。
2.2 自動化機器學習模塊
使用基于先驗選擇的ML方法(如神經網絡)和分子表征(如配體-蛋白質相互作用指紋)構建的ML模型可能會導致大量的模型偏差和樣本選擇偏差。AutoML旨在以數據驅動、客觀和自動化的方式為ML模型選擇、數據表示和超參數做出決策。AutoML和AL方法的結合既可以保證對化學空間進行快速、系統、公正的探索,又可選擇最佳候選分子。
2.3 熱力學積分分子動力學模擬模塊
熱力學積分的流程: (1) 生成MD輸入文件(包括分子拓撲結構、原子初始坐標和約束)。 (2) 利用TI設置并行化的GPU加速的 MD模擬。 (3) 收集和處理輸出數據。
3 實驗 3.1 實驗設置
AutoML-AL方法共進行8個AL周期。周期0中,使用多樣的分子初始化AL,以盡可能廣泛地采樣化學空間。為初始分子集進行TI MD 計算,并提供給AutoML模塊用于初始ML模型。周期1-5中,均勻地選擇了具有低RBFE的分子,以獲得庫的化學空間信息。周期6,隨機選擇分子,這種方式有助于克服AL被困在化學空間的局部最小值時可能出現的問題。
3.2 實驗結果
實驗對253個配體進行TI MD RBFE計算。計算133種配體的RBFE為負的,約占TI計算的53%。這說明通過TI MD計算篩選的配體中有一半以上的配體具有比參考配體更高的結合親和力。其中62種配體(占通過TI MD篩選的配體的24.5%)的預測結合親和力提高了10倍以上。通過TI MD篩選得到的16個配體(占6%)與靶蛋白的預測結合親和力提高了100倍以上。
在AL周期0中,ML模型沒有區分有利于結合的化學空間區域。在平衡選擇的周期1-5中,模型探索多個區域,尋找期望的化學空間。由于信息的增加,ML模型的感知發生了明顯的變化,開始識別出低??G分子密集分布的化學空間區域。周期5結束,ML模型得到收斂,化學空間各個區域穩定著色。在隨機選擇分子的周期6中,分子分布在化學空間中,大多數分子如預期的那樣具有正??G。值得注意的是,模型的誤差沒有增加,這也說明了模型已經收斂。
圖5展示了兩個優化的分子S1和S2,它們的結合親和力分別提升了-0.84 kcal/mol和-0.99 kcal/mol。在TI ????為負的配體中,有35個(~26%)分子具有相似的芳香體系。其中9個分子的預測結合親和力提高了100倍以上。
4 總結 在這項工作中,作者提出結合自動機器學習(Automated machine learning, AutoML)和主動學習(Active Learning, AL)的方法對配體進行RBFE計算,實驗表明該方法選擇的配體結合親和力顯著提升。
參考資料 Gusev F, Gutkin E, Kurnikova M G, et al. Active learning guided drug design lead optimization based on relative binding free energy modeling[J]. 2022.
蛋白質數據庫(Protein Data Bank)收錄著成千上萬實驗鑒定的蛋白質結構數據,可惜的是,目前PDB僅收錄35%的人源蛋白質的結構。近年發布的深度學習蛋白質結構預測工具AlphaFold2(AF2)能夠從蛋白序列準確預測蛋白質結構,可以在一定程度上彌補PDB收錄結構數量上的不足。然而如何評價AF2的預測結果的準確程度頗為重要。 近期,丹麥科技大學的Kasper P. Kepp教授團隊提出使用精確計算殘基的相對溶劑可及表面(relative solvent accessible area ,RSA)作為評估指標,可用以評價AF2對蛋白質結構預測的準確度。作者認為殘基的溶劑可及表面積包含著蛋白質功能和進化信息,是一個直接用于深度學習模型訓練或外部驗證的可解釋自然特征。為了驗證猜想,作者建立了一個AF2預測結構和實驗結構相對應的數據對庫并針對RSA進行了一系列測試。該工作近期發表于美國化學會出版的計算化學核心期刊Journal of Chemical Information and Modeling[1]。 首先,作者從AF2預測結構數據庫(AlphaFold Protein Structure Database)獲取人源參考蛋白質組;從PDB中獲取使用X-ray晶體學方法鑒定、分辨率<2.0?的人源蛋白質結構。然后將每個AF2結構先后通過匹配UniProt編號配對、序列比對,產生對應的數據對庫。為了探尋可能影響AF2性能的其他因素,作者依據(1)序列一致性比例(2)實驗結構的分辨率(3) 實驗結構是否為單體為基準,拆分成子數據集,將這些結構進一步整理成分為六個非重疊組。 隨后,研究者計算并比較了AF2生成結構(RSAAF)和實驗結構(RSAEP)中每個殘基主干的RSA,從平均RSAExp值計算出的平均絕對偏差(MAE)、平均符號偏差(MSD)和標準差(SD),發現僅針對蛋白質單體而言,MSD和SD值不依賴于序列一致性或實驗結構的分辨率,說明AF2預測單體結構的性能與配體的存在無關。
圖 1 根據序列一致性、實驗結構分辨率和實驗結構的單體-多聚體狀態分組的結果實驗對比的AF2和RSA值 為了確定AF2預測置信度pLDDT與預測****RSA的準確性是否相互影響,作者將結構對上的殘基按照pLDDT和RSA分別劃分區間,發現RSAAF沒有因殘基pLDDT值低受到影響(圖2A);但在高****RSA的殘基上AF2預測置信度較低,AF2對于低****RSA的包埋殘基預測更準確。(圖2B)
圖 2 pLDDT和RSA相關的偏差.(A)對pLDDT函數的偏差;(B)對RSAExp的偏差 然而,與蛋白質單體相比,多聚體結構更加復雜,存在著不同鏈之間的界面殘基,實驗結果也顯示了這種差異的存在(圖3左)。作者識別并移除了鏈界面可能具有較低溶劑可及性的殘基(與其他鏈殘基距離<3.5?),發現剩余殘基RSAAF和RSAExp之間的相關性更強,達到了單體數據對的相關性水平(圖3右)。實驗結果說明,AF2對多聚體蛋白復合物鏈界面殘基RSA的預測值存在偏高現象。
圖 3 多聚體實驗結構中的實驗與AF2 RSA值。界面殘留物(左)和非界面殘留物(右)的RSAAF和RSAExp的相關性。 研究者還認為AF2預測RSA的準確性也可能取決于氨基酸類型。實驗結果(圖4)說明最易預測的氨基酸往往是非極性的,例如異亮氨酸((I)、亮氨酸(L)等,該類氨基酸更多處于包埋殘基。而位于蛋白質表面區域的極性氨基酸和脯氨酸較難預測,如天冬氨酸(D)和谷氨酸(E)等,尤其是脯氨酸(P)。
圖 4 實驗和AF2結構之間的一致性取決于殘基類型;左:MAE。右:MSD(RSAAF?RSAExp);SDs顯示為藍點小結
****這項工作提出蛋白質局部殘基的相對溶劑可及表面(RSA)是一種包含著蛋白質功能和進化信息的自然特征,可用于評估AF2預測性能。通過作者研究發現RSA與AF2預測性能的相關性高度依賴于人源蛋白的單體/多聚體狀態;與AF2預測置信度高低、結構中輔因子和配體的存在與否、結構鑒定分辨率均無關。小編認為僅蛋白單體預測而言,該工作提出的RSA特征,可作為目前主流的評估AF2預測性能的RMSD、pLDDT等指標的補充,共同對AF預測結構準確性做出精確的評估。 參考文獻[1]B?k KT, Kepp KP. Assessment of AlphaFold2 for Human Proteins via Residue Solvent Exposure. J Chem Inf Model. 2022;62(14):3391-3400.
藥物發現和開發對制藥業和患者具有巨大的潛在利益。預測藥物-靶標親和力 (DTA) 有利于加速藥物發現。圖神經網絡 (GNN) 已廣泛用于 DTA 預測。然而,現有的淺層 GNN 不足以捕捉化合物的全局結構。此外,基于圖的 DTA 模型的可解釋性高度依賴于圖注意力機制,無法揭示分子中每個原子之間的全局關系。
近日,中山大學智能工程學院陳語謙教授團隊在國際知名雜志Chemical Science 在線發表了題為“MGraphDTA: deep multiscale graph neural network for explainable drug–target binding affinity prediction”的研究論文。該研究提出提出了一種基于化學直覺的深度多尺度圖神經網絡用于 DTA 預測 (MGraphDTA)。在 GNN 中引入了密集連接,并構建了一個具有 27 個圖卷積層的超深度 GNN,以同時捕獲化合物的局部和全局結構。他們還開發了一種新穎的視覺解釋方法,梯度加權親和激活映射 (Grad-AAM),從化學角度分析深度學習模型。作者使用七個基準數據集評估了他們的方法,并將所提出的方法與最先進的深度學習 (DL) 模型進行了比較。MGraphDTA 在各種數據集上顯著優于其他基于 DL 的方法。此外,結果表明 Grad-AAM 創造了與藥理學家一致的解釋,這可能有助于我們直接從人類感知之外的數據中獲得化學見解。這些優點表明,所提出的方法提高了 DTA 預測建模的泛化和解釋能力。
1 研究背景 藥物-靶標親和力(DTA)預測有利于加速藥物篩選的過程。現有的高通量篩選實驗用于確定藥物和靶標之間的生物活性是一個昂貴費時的過程。因此,基于已經在臨床實驗中測量的藥物-靶標親和力,使用統計學和機器學習模型來估計新的藥物-靶標的親和力是重要的替代方案。由于化合物的信息可以用圖來描述,所以圖神經網絡(GNNs)已經被廣泛應用于DTA預測。為了提高DTA預測的精度,圖神經網絡的設計必須考慮如下三點:第一,為了捕捉到化合物的全局結構,GNNs的深度要足夠深;第二,GNNs要具備保留局部結構的能力;第三,所設計的GNNs模型要具備可解釋性。然而,目前基于淺層GNNs的DTA預測方法既無法捕捉化合物的全局結構,也無法很好地保留化合物的局部結構。例如,兩層的GNN的感受野無法覆蓋到化合物的環狀結構(圖1(a)),也無法很好地保留小的局部結構(圖1(b))。
圖1. 圖神經網絡的設計要點
2 文章簡介 針對上述問題,中山大學智能工程學院智能醫療中心陳語謙教授團隊報道了一種基于深層多尺度圖神經網絡預測藥物-靶標親和力的方法MGraphDTA。MGraphDTA分別通過多尺度圖神經網絡(MGNN)和多尺度卷積神經網絡(MCNN)來提取藥物和靶標的特征,并結合這兩種特征來預測親和力(圖2)。其中,MGNN通過引入稠密連接來拓展網絡的深度和保留局部特征,從而使模型能夠同時捕捉到化合物的全局結構和局部結構。相關研究成果發表在Chemical Science上。
圖 2. MGraphDTA的總體框架
3 研究內容 基于多尺度圖神經網絡(MGNN)的藥物特征提取 GNNs的感受野受網絡深度影響。一般而言,網絡越深,其感受野越大,GNNs能感知的化合物亞結構越大。針對已有的淺層GNNs無法捕捉化合物的全局結構的問題,MGNN引入了稠密連接來拓展網絡的深度和保留局部特征(圖3)。稠密連接可以有效地緩解梯度消失問題,從而拓展了模型的深度。通過稠密連接,不同感受野的特征圖被拼接在一起,從而形成多尺度特征并作為下一個圖卷積模塊的輸入。由于多尺度特征既包含全局特征又包含局部特征,所以MGNN能夠同時捕捉到化合物的全局結構和局部結構。
圖3. MGNN的設計原理
基于多尺度卷積神經網絡(MCNN)的靶標特征提取 MCNN使用三個不同深度的CNN來提取不同尺度的靶標特征(圖4)。在該設計中采用了三個較淺的CNN,這是因為在藥物-靶標相互作用發生在蛋白質口袋,所以靶標的局部特征在DTA預測中比全局特征要更加重要,而設計深層CNN使其感受野覆蓋整個蛋白質可能會引入噪聲,從而降低DTA的預測精度。
圖4. MCNN的設計原理
模型可視化方法 作者開發了一種基于親和力激活的可視化方法Grad-AAM(圖5)。Grad-AAM利用預測的親和力在最后一層圖卷積所產生的梯度大小來計算不同原子在DTA預測中的貢獻。通過Grad-AAM,我們可以了GNNs是如何做出決策的。
圖5. Grad-AAM用于模型可視化
MGraphDTA提高DTA預測模型的泛化能力 我們在7個開源DTA數據集上對MGraphDTA進行測試,MGrahpDTA在所有指標上均優于已有方法,證明該論文所提策略的有效性。同時,當測試集中的藥物不存在于訓練集時,MGraphDTA仍然表現出良好的泛化能力。使用MGNN來提取藥物的特征還有利于減小模型偏差,使模型預測的DTA分布更接近于真實分布(圖6)。
圖6. 不同GNNs模型在Davis數據集上的預測分布和真實分布 MGraphDTA緩解圖神經網絡過平滑問題 當GNNs的網絡深度過深時,會出現過平滑問題。具體而言,隨著層數的增加,GNNs的感受野越來越大,這就導致了以不同原子為中心提取的化合物亞結構差異越來越小。如圖7所示,但GNN只有一層時,以C1和C2原子為中心提取的化合物亞結構差異較大,但是三層GNN提取得到的化合物亞結構差異已經很小了。由于MGNN提取了化合物的多尺度特征,因此較小的化合物亞結構也可以得到保留,從而解決了過平滑問題。
圖7. GNNs過平滑問題
6、基于Grad-AAM的可視化結果 我們利用Grad-AAM在毒性數據集ToxCast上進行可視化測試,結果表明MGraphDTA能夠捕捉到與毒性相關的官能團(圖8),其可視化效果優于基于注意力機制的可視化效果。這些可視化結果表明Grad-AAM可能作為一種強有力的可視化工具幫助化學家分析藥物-靶標相互作用的化學機理。
圖8. 基于Grad-AAM的可視化結果 4 結論與展望 本文基于化學直覺設計一種新穎的圖神經網絡框架MGraphDTA。MGraphDTA通過引入稠密連接將圖神經網絡拓展了27層的深度,使其能夠通過捕捉化合物的全局結構和局部結構,從而提高了模型的泛化性能。同時,作者設計了一種基于親和力激活的可視化方法Grad-AAM,可視化結果表明Grad-AAM可能作為一種強有力的可視化工具幫助化學家分析藥物-靶標相互作用的化學機理
致謝
該研究得到了國家自然科學基金面上項目(No. 62176272)等項目的支持。
Authors: Ziduo Yang?, Weihe Zhong?, Lu Zhao, Calvin Yu-Chian Chen* Title: MGraphDTA: Deep Multiscale Graph Neural Network for Explainable Drug-target Binding Affinity Prediction Published in: Chemical Science, doi: 10.1039/d1sc05180f
編譯 | 董靖鑫 審稿 | 程玉今天給大家介紹的是IBM研究團隊發表在arxiv上的一項有關分子生成的研究。作者提出一種可以編碼3D蛋白質-配體接觸的圖生成模型,該模型利用條件VAE從而可以預測在靶標結合口袋內的分子相互作用,從而實現特定活性的分子生成。實驗結果表明,與基于配體2D生成方法相比,該方法生成的分子與多巴胺D2受體的結合口袋更契合。該研究展現了蛋白靶標的結構信息如何增強分子生成。
1 介紹 小分子生成模型基于一系列深度學習架構設計的,其通常是要生成具有所需物化性質的分子,以增強化學家的創造力,并擴展傳統數據方法或物理方法的規模。大部分模型使用SMILES作為主要的分子表示,因為這樣可以從自然語言處理(NLP)技術中借鑒成功的經驗,但1維字符串遠不能提供小分子的物理直觀表示。在現實中,小分子是由存在于三維構象空間中的原子間連接的復雜網絡構成。雖然復雜的基于文本的深度學習架構,如Transformer,有時可以從簡單的字符串中學習空間關系,但編碼分子結合和三維性質表示的架構提供了一種更自然的方法來捕捉深度學習中的化學和物理信息。最近的一些圍繞著小分子的二維圖表示展開的研究也取得了進步。然而,配體結合最好的理解是在三維受體結構和蛋白配體結合位點內分子間接觸的背景下。最近的一些生成工作已經融入了來自靶標結合位點的信息(基因組或蛋白質序列)以及更具體結構數據(3D體素,空間形狀或分子碎片表示)。
2 模型 本文的模型將三維蛋白質-配體復合物顯式編碼為分子圖,擴展成一個關系圖結構,而不同于以前僅配體的圖生成模型(圖1A)。以分子和接觸圖為輸入,該模型建立在一個由圖卷積編碼器和RNN輔助圖解碼器組成的**條件變分自編碼器架構(cVAE)**上。
通過優化三個目標函數來訓練模型: (1)配體分子圖和蛋白質接觸圖的重建損失, (2)高斯先驗和編碼后驗之間的正則化KL散度, (3)捕獲生成的蛋白質-配體相互作用的精確度的JS散度。
圖1 gen3D模型架構。A.3D蛋白-配體相互作用網絡;B.基于種子和隨機采樣生成的預測蛋白質-配體相互作用(虛線)的分子示例。
為了確定該3D方法的優勢,作者在一個共同的靶標(多巴胺D2受體)、共同的訓練集和測試集上訓練gen3D(本工作)和gen2D,并盡可能在一個共同的圖cVAE架構上訓練。
圖2 gen2D模型架構。 (//doi.org/10.1021/acs.jcim.1c01545)
3 實驗 3.1 實驗設置
生成策略 (1)隨機生成,通過在潛在空間直接隨機抽樣;(2)基于種子的生成,通過在編碼種子的潛在空間鄰域隨機抽樣。
對接 對gen3D和gen2D按照上述兩種生成策略生成的分子進行了大規模的對接模擬,當存在立體中心時,枚舉所有可能的對映體。
3.2 對接結果
圖3 來自種子和隨機抽樣的gen3D和gen2D分子的對接分數,包括前3位的平均對接分數(左)和活性條件和非活性條件分子的平均差異(右)。
基于種子的采樣策略在gen3D產生的top位對接得分比gen2D平均低近一個整體能量單位(~0.8千卡/摩爾),第二位和第三位保持相同的趨勢(圖3)。活性條件下也產生了gen3D比gen2D對接更一致的結果。**實驗表明,用3D蛋白質接觸訓練提高了生成的分子和預期靶標口袋之間的互補性,**這是通過對接分數衡量的。
隨機抽樣策略在gen3D和gen2D之間產生了統計上差不多的對接分數,無論是絕對的,還是活性和非活性條件分子之間。這種在隨機抽樣情況下缺乏三維優勢可能是由于三維潛在空間的復雜性增加,需要更高的維數來編碼蛋白質-配體接觸。
3.3 立體化學性評估
圖4 從gen3D和gen2D生成的分子的立體異構中心計數分布。
圖5 由Gen3D模型生成的選定分子的對接結合方式。生成的分子以經典元素顏色顯示,生成預測的接觸殘基以綠色顯示。
gen3D模型在立體化學方面也產生了更理想的結果。gen3D在生成策略和活性條件下產生與參考種子和訓練集更一致的立體中心計數;相比之下,gen2D方法傾向于更高的立體中心計數,使合成和構象選擇復雜化(圖4)。有趣的是,gen3D方法可以隱式學習匹配參考數據中的立體中心計數,并表明通過訓練蛋白質-配體復合物施加的約束限制了生成的分子的構型多樣性,使其形狀與靶標的結合口袋互補,從而提高對接分數(圖3和圖5)。
3.4 蛋白質配體接觸與對接結合位置的匹配度評估
圖6 對接結合位置接觸的匹配率。
超過90%的基于種子采樣生成的分子和85%的隨機抽樣生成的分子的最佳結合位置能與至少50%的預測接觸匹配。因此,由gen3D預測的幾乎所有結合模式都能以合理的匹配率由對接程序進行采樣。作者還發現對接分數和接觸匹配率有著負相關的關系。gen3D模型可以成功地學習生成的配體對特定結合口袋的適應性,這是通過對接模擬獲得。
4 總結 本文的方法預測了生成分子的假定結合模式,捕捉了配體結合位點的結構信息。實驗結果表明,訓練生成模型明確的三維蛋白質配體復合物可以使得小分子與靶標的結合口袋更契合。這些3D生成方法已經開始了解蛋白質-配體結合的底層物理原理,這是加速基于結構的分子設計藥物發現的重要步驟。
參考資料 Kang S, Weber J K, Morrone J A, et al. In-Pocket 3D Graphs Enhance Ligand-Target Compatibility in Generative Small-Molecule Creation[J].
作者 | 楊千立 審稿 | 陳梓豪 指導 | 閔小平(廈門大學) 這次為大家分享的是來自nature communications上的一篇題為《Co-optimization of therapeutic antibody affinity and specificity using machine learning models that generalize to novel mutational space》的文章,來自密歇根大學生物界面研究所、生物醫學工程系、化學工程系項目組的Peter M.Tessier團隊。
治療性抗體的開發需要高親和力分子的選擇以及其他類藥物的生物物理特性,多種抗體特性的聯合優化仍然是一個困難和耗時的過程,嚴重阻礙藥物開發。在這篇文章中,作者團隊提出了開發了一種簡便的機器學習模型,對治療性抗體的親和力和特異性進行多目標優化。結果表明,機器學習模型的力量極大地擴展了對新型抗體序列空間的探索,并加速了高效的藥物類抗體的開發。 介紹
抗體療法被用于治療人類疾病,從癌癥和自身免疫性疾病到過敏和神經退行性疾病。抗體療法的成功歸功于它們的分子特性,包括它們的高親和力、長半衰期和出色的生物物理特性。然而,從免疫接種或體外文庫中選出的候選抗體通常具有廣泛的生物物理特性。在許多情況下,具有最高生物活性的候選抗體表現出一種或多種阻礙生產、配制和遞送的不良生物物理特性,這通常是在開發過程的后期發現的,并且可能會損害其他候選抗體的治療潛力。因此,在開發的早期階段,需要抗體工程方法來改善其生物物理特性,同時保持高親和力和生物活性。不幸的是,改善給定的次優抗體特性,如特異性或溶解度,會導致其他特性(如親和力)的缺陷。因此,迫切需要一種簡單而可靠的方法來預測CDR突變,以最少的實驗來共同優化抗體親和力和各種生物物理特性。
作者團隊在該項工作中,以共同優化臨床階段抗體(emibetuzumab)的親和力和特異性(非特異性結合)特征開發預測模型,該模型可以從大量但采樣稀疏的抗體CDR庫中學習,并預測未在原始庫中采樣的新CDR突變體的抗體特性,以識別罕見的共同優化變體。作者團隊報告了一種綜合實驗和計算方法,結合深度測序、機器學習和高通量實驗方法來識別共同優化的治療性抗體變體,包括相對于親本臨床期抗體具有優越親和力和非特異性結合組合的變體。
圖1識別共同優化的治療性抗體變體實驗流程 結果與討論
常規分析不能很好地預測共同優化的 emibetuzumab 變體 為了識別具有高親和力和特異性(低非特異性結合)的emibetuzumab 變體目標,通過突變重鏈 CDR 中的位點設計了一個大型抗體文庫(約 107 個變體),接下來將文庫作為單鏈 Fab 片段展示在酵母表面,并通過針對抗原 (HGFR) 的磁激活細胞分選(MACS,第 1-2 輪)對文庫進行分類,以去除片段化或非展示抗體。然后通過熒光激活細胞分選(FACS,第 3 輪)對 MACS 分選的文庫進行分選,以獲得高水平的抗原結合以及與兩種多特異性試劑。最后,對輸入文庫和 FACS 分類文庫進行了深度測序,并選擇了 4000 個在親和力和特異性選擇中觀察到的最常觀察到的抗體突變體,以進行進一步分析。
為了評估預測具有高親和力和低水平非特異性結合的抗體突變體的能力,接下來對來自 FACS 分選文庫的 125 個突變體進行了測序,并評估了它們在酵母表面上的抗原和非特異性結合的相對水平。觀察到抗原結合和頻率之間缺乏統計學上顯著的正相關性。此外,作者還觀察到對于負非特異性結合選擇,非特異性結合和頻率之間缺乏統計學上顯著的負相關性。雖然我們確實觀察到非特異性結合和富集率之間存在顯著的負相關,但缺乏相應的親和力顯著相關性阻礙了使用富集率來可靠地識別高親和力和特異性均最佳的抗體變體。
機器學習預測帕累托最優抗體變體 接下來,作者團隊通過分析陽性類別中相對于陰性類別的文庫突變的富集來評估選擇的 4000 個序列數據集中包含的信息(圖 2),注意到野生型殘基對高親和力和高非特異性結合選擇的強烈富集。
圖2 分選的 emibetuzumab 文庫中的 CDR 殘基富集水平與高親和力和高非特異性結合選擇相似
為了保留這些信息用于模型開發,作者團隊選擇將抗體 V H序列編碼為 one-hot 編碼向量,以捕獲庫中每個位點是否存在突變。假設學習這些單個特征權重的體系結構的分類算法不僅可以準確預測屬性類別,還可以準確預測連續屬性值。為了檢驗這一假設,評估了線性判別分析 (LDA) 模型預測抗體親和力和特異性的能力(圖 3)。
圖3 (AB) (LDA) 模型使用基于序列的特征(one-hot 編碼序列作為二元向量)進行訓練,顯示出對通過深度測序在富集文庫中鑒定的 4000 種抗體的抗體親和力和特異性進行分類的高精度。(CD) LDA 模型的連續預測,與隨機選擇的 125 種單鏈抗體 (Fabs)的相對親和力( C )和非特異性結合( D )的實驗測量密切相關。
因此,作者使用 one-hot 編碼特征訓練 LDA 模型以預測深度測序標簽,本文稱為 OneHot 模型。OneHot 模型對深度測序數據集中抗體突變體的親和力和特異性進行了非常好的分類,兩個模型(親和力和特異性各一個)對抗體親和力和特異性進行分類的準確率為 93%。這一發現與經驗一致,并表明基于深度測序數據對抗體特性(如親和力和特異性)進行分類是一項相對簡單的任務,并且弱依賴于用于預測的模型類型。
然而,特性類別的預測對于鑒定具有最佳特性組合的抗體突變體的作用有限。但是對于LDA預測,表明不僅可用于預測類間差異(例如,低親和力與高親和力的分類),還可用于預測類內差異(例如,高親和力與非常高親和力)。因此,作者團隊還評估了模型預測的能力,文庫分選后通過 Sanger 測序分離(圖 3C,D)。這些抗體突變體中沒有一個出現在用于訓練和測試的 4000 種抗體中。作者觀察到模型預測和實驗測量之間的強相關性,包括親和力和非特異性指標,這些結果表明,與每個屬性相關的連續指標可以以相對較高的準確度預測庫中的序列。 LDA 模型的簡單性引發了一個問題,即更復雜的機器學習模型是否會提高預測抗體親和力和特異性指標的性能。因此,作者團隊開發了全連接神經網絡模型來預測親和力和特異性指標。值得注意的是,神經網絡模型的表現與 LDA 模型相似。兩種模型的親和力和特異性的分類預測準確度相同,即基于深度測序數據的抗體特性分類準確度弱依賴于模型復雜性。對于連續抗體特性的預測,預測抗原結合的性能相同,并且神經網絡模型預測非特異性結合的性能略有提高。
作者團隊接下來繪制了 LDA 模型對 4000 個抗體序列中的每一個的親和力和特異性的預測,以在連續的尺度上直接可視化這兩個屬性之間的權衡(圖 4A)。值得注意的是,emibetuzumab 變體在兩種特性之間表現出強烈的權衡,因為親和力的增加通常需要特異性的降低,反之亦然。
圖4 分選抗體庫中 emibetuzumab 突變體的帕累托最優親和力和特異性的模型預測和實驗評估。
為了評估帕累托最優抗體變體的預測,團隊接下來鑒定并產生了 41 個抗體突變體,這些突變體被預測為處于或接近帕累托邊界(圖 4A),并通過實驗評估了它們的抗原水平(圖 4B)和非特異性 (圖 4C) 結合,結果表明模型預測對親和力和特異性具有很強的預測能力。
預測進一步共同優化抗體的新突變 作者確定了用于進一步優化的主要候選者 (EM1),該候選者表現出抗原結合增加(1.2倍)和非特異性結合減少(0.51倍)。作者還選擇了額外的克隆進行進一步的誘變,以研究優化具有多種特性的抗體突變體的潛力,試圖預測新的 CDR 突變,包括以前未突變的 CDR 位點,以提高 EM1 和相關變體的親和力和特異性。
因此,作者團隊評估了基于抗體VH結構域的另外兩組分子特征,以整合到預測新突變對抗體親和力和特異性的影響的模型中。第一組特征是統一表示 (UniRep) 特征,它是從神經網絡獲得的深度學習特征,該神經網絡在超過 2000 萬個未標記的蛋白質序列上進行訓練,以執行下一個氨基酸預測。第二組特征(PhysChem),稱之為物理化學特征,是基于 V H結構域序列的 26 個物理化學特征。
作者團隊接下來使用 UniRep 和 PhysChem 特征構建 LDA 模型,用于預測抗體親和力和特異性指標。結果表明對抗體親和力進行分類的準確度很高,PhysChem 模型(85%), UniRep 模型(91%),抗體特異性進行分類的準確度很高(兩種模型均為 92%);同樣還在兩個模型上評估預測,結果表明模型預測與親和力和特異性的實驗測量密切相關。我們還使用神經網絡模型重復了這一分析,簡單 (LDA) 和更復雜的 (神經網絡) 模型都能夠預測與抗體特性密切相關的連續指標。基于兩個簡單 (OneHot) 特征集,這些特征集僅限于觀察到的突變,而測序庫和更復雜的(PhysChem 和 UniRep)特征集,可用于預測新的突變特征。受到這些結果的鼓舞,接下來直接測試我們的模型是否可以推廣到新的突變空間(圖 5)。
新突變預測的實驗驗證 為了測試這些預測,生成了 29 種抗體變體作為可溶性 IgG,并評估了它們的親和力和非特異性結合的相對水平(圖 5),總體而言,這些發現表明,與使用傳統物理化學抗體特征訓練的 LDA 模型相比,使用深度學習特征訓練的 LDA 模型在泛化到新的突變空間方面更勝一籌。更一般地說,這些發現證明了使用這些方法預測新 CDR 位點的抗體突變的巨大潛力,這些突變共同優化了與治療性抗體性能相關的多種特性。
圖5 利用深度學習訓練的模型推廣到新的突變空間
接下來繪制了本研究中產生的 70 種 IgG 的相對抗體親和力和非特異性相互結合的實驗測量值,包括原始文庫中不存在的 29 種具有新突變的 IgG,以鑒定具有最多共性的變體。
EM1和 EM2(一種變體)具有比野生型更高的親和力(圖 6B)。盡管這些變體的親和力增加,但與野生型相比,它們都顯示出非特異性結合減少(圖 6C),這與使用卵清蛋白獲得的類似非特異性結合測量結果一致(圖 6A ),此外,EM1 和 EM2 在抑制肝細胞生長因子誘導的人類癌細胞增殖方面至少與野生型抗體一樣有效(圖 6D)總的來說,這些結果證明了使用機器學習來共同優化治療性抗體以提高親和力和特異性,同時保持高生物活性和其他類似藥物的生物物理特性的巨大潛力。
圖6 親和性和特異性協同優化的Emibetuzumab抗體突變體也顯示出很高的生物活性和穩定性
總結
作者團隊開發了一種基于機器學習的方法,用于簡化臨床階段抗體的抗體協同優化,模型表現出親和力和非特異性結合兩個特征之間具有強烈權衡,該方法還可以同時選擇特定水平的多種抗體特性,從而比以前更好地控制抗體工程過程。并且本文使用深度學習訓練的模型能夠預測新的抗體突變,從而協同優化親和性和特異性,還能夠識別原始抗體庫中不存在的有益突變,從而能夠外推到新的突變空間。未來工作如過從更密切相關的蛋白質序列(例如人類抗體庫)中提取深度學習特征將會帶來更好的模型性能,這些模型可以越來越多地推廣到新的突變空間,并減少獲得共同優化的藥物樣抗體所需的實驗量。 參考資料 Makowski, E.K., Kinnunen, P.C., Huang, J. et al. "Co-optimization of therapeutic antibody affinity and specificity using machine learning models that generalize to novel mutational space." Nat Commun 13, 3788 (2022). //doi.org/10.1038/s41467-022-31457-3