藥物發現和開發對制藥業和患者具有巨大的潛在利益。預測藥物-靶標親和力 (DTA) 有利于加速藥物發現。圖神經網絡 (GNN) 已廣泛用于 DTA 預測。然而,現有的淺層 GNN 不足以捕捉化合物的全局結構。此外,基于圖的 DTA 模型的可解釋性高度依賴于圖注意力機制,無法揭示分子中每個原子之間的全局關系。
近日,中山大學智能工程學院陳語謙教授團隊在國際知名雜志Chemical Science 在線發表了題為“MGraphDTA: deep multiscale graph neural network for explainable drug–target binding affinity prediction”的研究論文。該研究提出提出了一種基于化學直覺的深度多尺度圖神經網絡用于 DTA 預測 (MGraphDTA)。在 GNN 中引入了密集連接,并構建了一個具有 27 個圖卷積層的超深度 GNN,以同時捕獲化合物的局部和全局結構。他們還開發了一種新穎的視覺解釋方法,梯度加權親和激活映射 (Grad-AAM),從化學角度分析深度學習模型。作者使用七個基準數據集評估了他們的方法,并將所提出的方法與最先進的深度學習 (DL) 模型進行了比較。MGraphDTA 在各種數據集上顯著優于其他基于 DL 的方法。此外,結果表明 Grad-AAM 創造了與藥理學家一致的解釋,這可能有助于我們直接從人類感知之外的數據中獲得化學見解。這些優點表明,所提出的方法提高了 DTA 預測建模的泛化和解釋能力。
1 研究背景 藥物-靶標親和力(DTA)預測有利于加速藥物篩選的過程。現有的高通量篩選實驗用于確定藥物和靶標之間的生物活性是一個昂貴費時的過程。因此,基于已經在臨床實驗中測量的藥物-靶標親和力,使用統計學和機器學習模型來估計新的藥物-靶標的親和力是重要的替代方案。由于化合物的信息可以用圖來描述,所以圖神經網絡(GNNs)已經被廣泛應用于DTA預測。為了提高DTA預測的精度,圖神經網絡的設計必須考慮如下三點:第一,為了捕捉到化合物的全局結構,GNNs的深度要足夠深;第二,GNNs要具備保留局部結構的能力;第三,所設計的GNNs模型要具備可解釋性。然而,目前基于淺層GNNs的DTA預測方法既無法捕捉化合物的全局結構,也無法很好地保留化合物的局部結構。例如,兩層的GNN的感受野無法覆蓋到化合物的環狀結構(圖1(a)),也無法很好地保留小的局部結構(圖1(b))。
圖1. 圖神經網絡的設計要點
2 文章簡介 針對上述問題,中山大學智能工程學院智能醫療中心陳語謙教授團隊報道了一種基于深層多尺度圖神經網絡預測藥物-靶標親和力的方法MGraphDTA。MGraphDTA分別通過多尺度圖神經網絡(MGNN)和多尺度卷積神經網絡(MCNN)來提取藥物和靶標的特征,并結合這兩種特征來預測親和力(圖2)。其中,MGNN通過引入稠密連接來拓展網絡的深度和保留局部特征,從而使模型能夠同時捕捉到化合物的全局結構和局部結構。相關研究成果發表在Chemical Science上。
圖 2. MGraphDTA的總體框架
3 研究內容 基于多尺度圖神經網絡(MGNN)的藥物特征提取 GNNs的感受野受網絡深度影響。一般而言,網絡越深,其感受野越大,GNNs能感知的化合物亞結構越大。針對已有的淺層GNNs無法捕捉化合物的全局結構的問題,MGNN引入了稠密連接來拓展網絡的深度和保留局部特征(圖3)。稠密連接可以有效地緩解梯度消失問題,從而拓展了模型的深度。通過稠密連接,不同感受野的特征圖被拼接在一起,從而形成多尺度特征并作為下一個圖卷積模塊的輸入。由于多尺度特征既包含全局特征又包含局部特征,所以MGNN能夠同時捕捉到化合物的全局結構和局部結構。
圖3. MGNN的設計原理
基于多尺度卷積神經網絡(MCNN)的靶標特征提取 MCNN使用三個不同深度的CNN來提取不同尺度的靶標特征(圖4)。在該設計中采用了三個較淺的CNN,這是因為在藥物-靶標相互作用發生在蛋白質口袋,所以靶標的局部特征在DTA預測中比全局特征要更加重要,而設計深層CNN使其感受野覆蓋整個蛋白質可能會引入噪聲,從而降低DTA的預測精度。
圖4. MCNN的設計原理
模型可視化方法 作者開發了一種基于親和力激活的可視化方法Grad-AAM(圖5)。Grad-AAM利用預測的親和力在最后一層圖卷積所產生的梯度大小來計算不同原子在DTA預測中的貢獻。通過Grad-AAM,我們可以了GNNs是如何做出決策的。
圖5. Grad-AAM用于模型可視化
MGraphDTA提高DTA預測模型的泛化能力 我們在7個開源DTA數據集上對MGraphDTA進行測試,MGrahpDTA在所有指標上均優于已有方法,證明該論文所提策略的有效性。同時,當測試集中的藥物不存在于訓練集時,MGraphDTA仍然表現出良好的泛化能力。使用MGNN來提取藥物的特征還有利于減小模型偏差,使模型預測的DTA分布更接近于真實分布(圖6)。
圖6. 不同GNNs模型在Davis數據集上的預測分布和真實分布 MGraphDTA緩解圖神經網絡過平滑問題 當GNNs的網絡深度過深時,會出現過平滑問題。具體而言,隨著層數的增加,GNNs的感受野越來越大,這就導致了以不同原子為中心提取的化合物亞結構差異越來越小。如圖7所示,但GNN只有一層時,以C1和C2原子為中心提取的化合物亞結構差異較大,但是三層GNN提取得到的化合物亞結構差異已經很小了。由于MGNN提取了化合物的多尺度特征,因此較小的化合物亞結構也可以得到保留,從而解決了過平滑問題。
圖7. GNNs過平滑問題
6、基于Grad-AAM的可視化結果 我們利用Grad-AAM在毒性數據集ToxCast上進行可視化測試,結果表明MGraphDTA能夠捕捉到與毒性相關的官能團(圖8),其可視化效果優于基于注意力機制的可視化效果。這些可視化結果表明Grad-AAM可能作為一種強有力的可視化工具幫助化學家分析藥物-靶標相互作用的化學機理。
圖8. 基于Grad-AAM的可視化結果 4 結論與展望 本文基于化學直覺設計一種新穎的圖神經網絡框架MGraphDTA。MGraphDTA通過引入稠密連接將圖神經網絡拓展了27層的深度,使其能夠通過捕捉化合物的全局結構和局部結構,從而提高了模型的泛化性能。同時,作者設計了一種基于親和力激活的可視化方法Grad-AAM,可視化結果表明Grad-AAM可能作為一種強有力的可視化工具幫助化學家分析藥物-靶標相互作用的化學機理
致謝
該研究得到了國家自然科學基金面上項目(No. 62176272)等項目的支持。
Authors: Ziduo Yang?, Weihe Zhong?, Lu Zhao, Calvin Yu-Chian Chen* Title: MGraphDTA: Deep Multiscale Graph Neural Network for Explainable Drug-target Binding Affinity Prediction Published in: Chemical Science, doi: 10.1039/d1sc05180f
編譯 | 董靖鑫 審稿 | 張翔今天給大家介紹的是卡內基梅隆大學的研究團隊近期的一篇分子優化工作。識別蛋白質抑制劑通常需要預測配體結合自由能(Binding Free Energy, BFE)。熱力學積分(Thermodynamics integration , TI)是一種能夠準確預測BFE的方法,但其計算成本高、時間長。**在這項工作中,作者利用自動機器學習(Automated machine learning, AutoML)和主動學習(Active Learning, AL)的技術開發了一個高效的自動化工作流程,只需要數百次TI計算能在數千個同源配體中識別BFE最低的化合物。**實驗結果表明,該框架預測的化合物的結合親和度顯著提高。
1 介紹 藥物設計的先導化合物的發現及優化階段旨在發現先導化合物,即通過改變分子的化學結構來改善與生物靶點的結合親和力,以證明其對靶點具有活性。因此,結合自由能的預測至關重要,而相對自由能(relative BFE, RBFE)指的是新配體與先導化合物之間的結合自由能差異。目前基于大規模分子庫的虛擬篩選方法的性能因較差的預測配體排序的能力而受到限制。分子動力學模擬(Molecular Dynamics,MD)方法雖然可以較為準確地計算RBFE,但對計算資源需求高。為了有效地克服這些限制,作者提出了一個自動化框架計算RBFE,以優化先導化合物。
圖1 SARS-CoV-2 PLpro及其抑制劑的結構
SARS-CoV-2木瓜樣蛋白酶(papain-like protease, PLpro)是設計COVID-19抗病毒藥物最有吸引力的藥物靶點之一。研究表明GRL0617通用骨架(N-[(1R)-1-arylethyl]arenecarboxamide, 圖1B)的結構對配體與PLpro結合很重要,并且在具有該骨架的化合物中可能發現更有效的PLpro抑制劑。在這項工作中,作者從13億商業可用化合物庫中篩選,選擇了1萬個N-[(1R)-1-arylethyl]arenecarboxamide衍生物的庫,并最終確定了16種有效的結合劑,其預測的結合親和力提高了100倍以上。
2 模型
圖2 模型流程
2.1 主動學習周期
兩個主要的計算模塊:
(1)AutoML模塊。負責根據第二個計算模塊提供的標記數據開發ML模型。 (2)TI RBFE模塊。負責計算選定化合物與PLpro蛋白的相對結合自由能。
具體流程:
(1) 從分子的種子集開始,執行TI RBFE計算以獲得訓練數據和初始化的ML模型。 (2) 使用該模型篩選化學空間。 (3) 選擇最佳候選分子集用于RBFE的TI MD計算。 (4) 對所選分子進行TI MD計算,并且用更新的數據重新訓練ML模型。
2.2 自動化機器學習模塊
使用基于先驗選擇的ML方法(如神經網絡)和分子表征(如配體-蛋白質相互作用指紋)構建的ML模型可能會導致大量的模型偏差和樣本選擇偏差。AutoML旨在以數據驅動、客觀和自動化的方式為ML模型選擇、數據表示和超參數做出決策。AutoML和AL方法的結合既可以保證對化學空間進行快速、系統、公正的探索,又可選擇最佳候選分子。
2.3 熱力學積分分子動力學模擬模塊
熱力學積分的流程: (1) 生成MD輸入文件(包括分子拓撲結構、原子初始坐標和約束)。 (2) 利用TI設置并行化的GPU加速的 MD模擬。 (3) 收集和處理輸出數據。
3 實驗 3.1 實驗設置
AutoML-AL方法共進行8個AL周期。周期0中,使用多樣的分子初始化AL,以盡可能廣泛地采樣化學空間。為初始分子集進行TI MD 計算,并提供給AutoML模塊用于初始ML模型。周期1-5中,均勻地選擇了具有低RBFE的分子,以獲得庫的化學空間信息。周期6,隨機選擇分子,這種方式有助于克服AL被困在化學空間的局部最小值時可能出現的問題。
3.2 實驗結果
實驗對253個配體進行TI MD RBFE計算。計算133種配體的RBFE為負的,約占TI計算的53%。這說明通過TI MD計算篩選的配體中有一半以上的配體具有比參考配體更高的結合親和力。其中62種配體(占通過TI MD篩選的配體的24.5%)的預測結合親和力提高了10倍以上。通過TI MD篩選得到的16個配體(占6%)與靶蛋白的預測結合親和力提高了100倍以上。
在AL周期0中,ML模型沒有區分有利于結合的化學空間區域。在平衡選擇的周期1-5中,模型探索多個區域,尋找期望的化學空間。由于信息的增加,ML模型的感知發生了明顯的變化,開始識別出低??G分子密集分布的化學空間區域。周期5結束,ML模型得到收斂,化學空間各個區域穩定著色。在隨機選擇分子的周期6中,分子分布在化學空間中,大多數分子如預期的那樣具有正??G。值得注意的是,模型的誤差沒有增加,這也說明了模型已經收斂。
圖5展示了兩個優化的分子S1和S2,它們的結合親和力分別提升了-0.84 kcal/mol和-0.99 kcal/mol。在TI ????為負的配體中,有35個(~26%)分子具有相似的芳香體系。其中9個分子的預測結合親和力提高了100倍以上。
4 總結 在這項工作中,作者提出結合自動機器學習(Automated machine learning, AutoML)和主動學習(Active Learning, AL)的方法對配體進行RBFE計算,實驗表明該方法選擇的配體結合親和力顯著提升。
參考資料 Gusev F, Gutkin E, Kurnikova M G, et al. Active learning guided drug design lead optimization based on relative binding free energy modeling[J]. 2022.
本文介紹一篇來自浙江大學侯廷軍教授和謝昌諭教授課題組、武漢大學陳曦課題組、中南大學曹東升教授課題組和碳硅智慧聯合發表的論文。該論文提出了一種全新的生成特定性質的可合成分子生成新方法ChemistGA,該算法將傳統的啟發式算法與深度學習算法相結合,使用基于Transformer的反應預測算法作為遺傳算法雜交的核心,并且加入回交操作,不僅保留了傳統遺傳算法的優勢,而且極大地提高了生成擁有期望特性分子的比例與可合成性。實驗結果表明,ChemistGA取得了優異的表現,它為生成模型在真實藥物發現場景中的應用開辟了一條新途徑。
1 研究背景 新藥研發是一項周期長、投入高、風險大的復雜系統工程。先導化合物的發現與優化在新藥研發過程中至關重要,高質量的先導化合物能夠有效縮短藥物探索的時間,提高成藥的可能性。在先導化合物的設計過程中,要綜合考慮候選分子的生物活性、結構新穎性、靶點選擇性、成藥性和安全性等特性,這些性質與后續的結構修飾和優化、生物學活性評價以及臨床試驗密切相關。據估計,目前可開采的化學空間約為1023至1060,如何從如此龐大的化學空間中智能地發現或生成高質量的先導結構一直是從頭藥物設計長期努力的目標。
基于遺傳算法(GA)的分子生成方法不需要模擬訓練數據集的分布,因此它們表現出更強的探索能力。然而基于GA的分子生成算法存在一些固有的缺點,一是生成的分子通常難以合成,因為它們通常是通過片段的拼接替換進行生成,另一個問題是在遺傳進化的過程中容易陷入局部最優。這些缺點無疑限制了GA從頭設計分子的實用性。
為了解決傳統基于GA的分子生成方法的缺陷,本工作將基于深度學習(DL)的正向反應預測模型與傳統GA相結合,提出了ChemistGA方法及其變體Reduce-label-ChemistGA (R-ChemistGA)。ChemistGA采用的方法重新定義了GA的初始化、雜交和突變。新方法既保留了傳統GA方法的優勢,又大大提高了生成分子的可合成性。實驗結果表明,與現有模型相比,ChemistGA和R-ChemistGA都取得了更為優秀的表現。
2 方法
圖1. ChemistGA和R-ChemistGA的工作流程,G為生成代數
ChemistGA ChemistGA算法的框架如圖1所示。首先,在初始數據集C中隨機選取N對分子作為初始父種子種群A和B,然后在A和B之間進行雜交,得到A和B中每對分子的推薦子代的Top-50輸出;突變的第二種方法可以應用于任何后代分子,概率為1%。之后,將轉換為,然后作者計算的適應度分數,并選擇中分數最高的分子。最后,作者將所有的并集作為下一代分子種群池。最后含有個分子。從種群池中隨機抽取下一代交叉種群和。
R-ChemistGA 在藥物發現過程中,分子性質的實驗驗證非常耗時耗力。大多數DL生成模型尚未將這一挑戰納入設計過程。為了讓ChemistGA在設計上更清楚地意識到這一限制,作者提出了一種增強的ChemistGA,簡稱為R-ChemistGA。圖1顯示了R-ChemistGA的算法流程。
使用有噪聲的預測模型來估計優化分數會使計算偏離正確的路徑。此外,在選擇后代種群的決策中引入噪音可以提升方法的魯棒性。最終,R-ChemistGA可以生成比原始算法ChemistGA更多樣化的分子。R-ChemistGA的成功依賴于生成進化每隔幾代獲得正確的校準和準確的反饋。在圖1所示的框架中,這種校準每隔五代就會發生一次。同時,作者在這里每隔10代進行回交,以確保一些活性結構在遺傳過程中不會被消除。
實驗設置 在以下場景中,作者使用靶向三個靶點的活性化合物進行評估,包括DRD2、JNK3和GSK3β。
場景1:為了顯示GA的特征,將初始種群分為兩組,分別命名為種群A和種群B。這兩個種群分別含有靶點A和靶點B的活性分子。使用種群A和群B通過GA生成具有所需性質(靶點活性、QED,SAScore)的分子。在這個場景中,作者采用JNK3和GSK3β作為活性靶點(見任務2)。
場景2:該場景的目的是從現有的真實活性分子中生成新的期望分子(初始分子是真正的期望分子)。為了使結果更有說服力,作者考慮了與真實世界藥物發現相關的兩項任務,并設計了針對這些靶點的活性靶點和理化性質的組合。 * 任務1:DRD2、QED和SA。
在這項任務中,目標是生成DRD2活性≥0.5、QED≥0.6和SA≤4的分子。
任務2:JNK3、GSK3β、QED和SA。
在這項任務中,目標是生成JNK3、GSK3β活性≥0.5、QED≥0.6和SA≤4的分子。
這里所生成的具有所需性質的分子被稱為“成功分子”,可以被合成的“成功分子”被稱為“完美分子”。“成功分子”與總生成分子的比率被定義為成功率。
雜交 ChemistGA中的雜交過程是通過正向反應預測模型Molecular Transformer(MT)實現的。該模型以一對分子作為輸入(格式為SMILES.SMILES),并輸出轉換后的SMILES。但作者指出不應嚴格按照反應的角度理解這個雜交過程,作者將在化學合成預測部分進一步解釋這一點。當在GA工作流中使用MT時,MT被輸入任意分子對,這些分子對是極有可能不會發生化學反應的,然而,MT依然會推薦新的分子。為了在廣闊的化學空間中引導分子種群進化走向合適的區域,從MT每次預測兩個輸入分子給出的前50個分子中評分最高的3個分子,這3個分子將被添加到后代種群池中。每次選擇3個后代也可以讓生成的結果保持更多樣化的后代群體。
變異 在此框架下,突變以兩種形式出現。一個是MT推薦的隨機性,更準確地說,生成模型MT并沒有嚴格地按照一套簡單的規則雜交兩個輸入分子。許多輸出分子不僅繼承部分父代結構,而且可能插入全新的片段。這是因為MT是用反應數據集訓練的,許多反應會添加、替代或移除分子片段(反應預測的誤差)。
第二種突變類型與Virshu等人使用的突變類型相似,作者將隨機將SMART定義的反應模板應用于分子,以產生模板定義的突變。這些突變可分為7大類,具體如下:1、附加原子(15%);2、插入原子(15%);3、刪除原子(14%);4、改變原子類型(14%);5、改變鍵的順序(14%);6、刪除環中的鍵(14%);7、在環中添加鍵(14%)。
優化函數 **標準優化函數:**SA評分為二值函數,滿足時為1,不滿足時為0。QED和DRD2或其他生物活性評分是0到1之間的連續值。
**離散優化函數:**所有分數均采用二進制表示設計,滿足要求時為1,不滿足要求時為0。
活性預測模型 作者訓練了兩種類型的預測模型:一種是標準的預測模型,另一種是精度明顯較低的預測模型。所有模型均在DRD2、JNK3和GSK3β數據集上訓練,以摩根分子指紋作為輸入,隨機森林分類模型作為標準預測模型,最后以分類模型預測的陽性概率作為生物活性評分。
基準模型 本研究以RationaleRL、REINVENT和GB-GA這3個在多約束分子設計任務中表現出色的模型作為基線。
一個經過訓練的RationaleRL模型被用作任務2的基線。因為RationaleRL需要大量的時間來從頭開始訓練,所以作者沒有在任務1中包含RationaleRL的結果。REINVENT在他們報道的數據集中進行了基于強化學習的預訓練(該數據集包含來自ChEMBL的超過100萬個分子),以便在任務中進行微調。
評價標準 論文中采用的評價標準分別為完美分子可合成率、多樣性、新穎性、骨架數量,其中完美分子可合成率由Retro*逆合成規劃算法預測得到;多樣性是基于Tanimoto距離計算得到;新穎性的標準被定義為生成的分子與其最近鄰居之間的相似性低于0.4;分子骨架由Murcko骨架提取算法計算。
3 結果與討論 場景1 場景1實驗是證明ChemistGA優于其他傳統GA算法,如GB-GA。作者的基準指標包括比較每代分子的最高分數,以及每代中成功分子與所有生成分子的比率。圖2左側第一行顯示了兩種方法(ChemistGA和GB-GA)生成分子的成功率與生成代數的關系,其中ChemistGA的成功率隨著進化代數的增加而持續上升,最終穩定在0.45左右。然而,在整個進化過程中,GB-GA的成功率始終保持在0左右,這意味著GB-GA不能結合兩種分子的優勢成功地產生后代。
然后,作者通過拆分四個評分(圖2的剩余子圖)來比較GB-GA和ChemistGA。在進化過程中,ChemistGA在除SA(開始時已經很高)之外的所有評分上都顯示出明顯的群體優化趨勢,而GB-GA的群體優化對于JNK3評分來說極其緩慢甚至退化。GB-GA很有可能是隨機切斷親本分子,然后隨機組合產生子代分子,從而產生具有高度隨機性(分子結構差異巨大)的子代群體,由于消除了大量分子,非常不利于活性結構的遺傳,使得優化效率極低。
圖2. 在場景1中分析兩種方法的分子性質和生成之間的關系。
圖3. ChemistGA和GB-GA的單步雜交結果示意圖。
如圖3所示,ChemistGA與GB-GA相比,采用了化學反應約束的雜交方法,對分子結構的繼承更加合理,對四個任務的優化效率更高,使所生成的后代更有可能保留親代的子代結構,并確保了后代的可合成性。相比之下,GB-GA在雜交過程中采用隨機剪切和拼接策略(50%環內剪切和50%非環內剪切,隨機確定切割位點)。這種雜交方法容易破壞活性分子的結構,不能保證生成分子的可合成性。而且,隨著代數的增加,低分數的后代(即GB-GA中的分子4和5)可能會聚集并在新生成的后代分子中占優勢,使得高分數的分子所占的比例逐漸變小,逐漸從生成的分子集合中消失。
場景2 作者在這個場景中用多個指標來評估生成的分子,包括分子合成率、多樣性、新穎性和包含的分子骨架數量,隨機選擇5000個具有期望性質的生成分子來評估每個模型。作者將生成的可以合成的分子稱為完美分子,并對其新穎性、多樣性和骨架進行了評估。
在任務1中,對REINVENT、GB-GA和ChemistGA進行了基準測試;在任務2中,對REINVENT 、RationaleRL、GB-GA和ChemistGA進行了基準測試。正如前面所解釋的,因為RationaleRL的訓練需要太高的計算成本,并且RationaleRL的原始工作的實驗設置只與任務2匹配,所以作者在只在任務2中單獨應用RationaleRL。
任務1結果 如表1的上半部分所示,雖然在可合成性方面,REINVENT取得了最好的性能,但它的新穎性出乎意料地低,這意味著生成的分子與真正的活性化合物非常相似。此外,在三種測試方法中,它提供的獨特骨架的多樣性和數量最少。對于GB-GA,可合成性和新穎性都很低。因此,這兩種方法都無法與ChemistGA競爭,而ChemistGA在這些評估指標上實現了更全面的性能。此外,與REINVENT相比,GB-GA和ChemistGA在分子新穎性、多樣性和骨架種類方面具有壓倒性的優勢。
表1. 比較場景2-任務1中各種算法生成的分子區別。
在任務2中的表現 表2的上半部分顯示了任務2的性能。在這項任務中,GB-GA在成功合成分子方面面臨著重大挑戰。對于REINVENT,盡管它取得了令人印象深刻的88.2%的合成率,但在分子多樣性和新穎性方面表現不佳。RationaleRL的合成率為47.1%,ChemistGA的合成率為72.8%。在新穎性方面,三種模型(除GB-GA外)表現出比較接近的結果,新穎性得分在45%~50%之間。在多樣性方面,REINVENT和RationaleRL的表現都比ChemistGA差(多樣性分數分別為0.653和0.687),ChemistGA的多樣性分數為0.785。唯一骨架的數量差距最大,其中ChemistGA生成的骨架(完美分子)數量為1665個,明顯高于REINVENT和RationaleRL生成的骨架數量(分別為564和254個),這意味著ChemistGA的骨架數量遠高于純機器學習生成模型(即REINVENT和RationaleRL)生成的骨架數量。此外,與GB-GA等傳統遺傳算法相比,ChemistGA在生成具有良好QED性質和可合成性的成功分子方面表現出了更優越的能力。
表2. 比較場景2-任務2中各種算法生成的分子區別。
使用離散優化策略性能 對于場景2中的兩個任務,ChemistGA表現出更平衡的性能,在所有評估指標上沒有明顯的缺陷。雖然ChemistGA作為一種基于GA的算法在可合成性方面已經做得很好(參見表1中的GB-GA的數值),但作者預計它的可合成性可以被進一步提高,以縮小它與REINVENT之間的差距。為了解決這個問題,作者決定對所有基于GA的算法使用離散適應度函數,并重新評估它們在相同任務中的表現。
如表1和表2的下半部分所示,使用離散適應度評分后,GB-GA和ChemistGA的新得分得到了很大的提高,其中ChemistGA和GB-GA在任務1中的新得分分別提高了33.7%和35.9%,而ChemistGA在任務2中的新新得分提高了31.0%。
圖4. 生成分子的可合成性解釋。
為了更直觀地反映生成的分子,作者展示了一個樣例,從圖4的B圖中可以看出,由REINVENT生成的分子更合理,但分子相似、結構單一,RationaleRL和GB-GA生成的分子更多樣,但存在一些明顯的錯誤。其中分子的紅色部分是Retro*算法找不到任何逆合成模板的子結構。ChemistGA合成的分子多樣性高、合成率高,未發現明顯的不合理分子,與以上報道的評價指標高度一致。
為了進一步證明MT作為雜交核心的作用,作者在圖4 A中總結了三種交叉行為(這里A和B代表輸入分子,C代表輸出分子):(1)輸入 輸出正常反應產物;(2)輸入 輸出A/B子結構組裝的;(3)輸入 輸出A/B子結構+MT化學反應知識庫中所包含的官能團組裝的 。MT中的雜交包含了雜交和突變操作。最后,作者在圖4D中可視化了一些與可購買的分子數據集的片段不匹配的分子片段,并發現這些分子片段大多數包含化學上不穩定的基團。這一結果也證實,所生成的分子中含有的化學不穩定基團的百分比越高,它們的合成能力就越低。
骨架分析 在本節中,作者對任務2中的1,000個分子進行了Murcko骨架分析,將其與真正的活性化合物的骨架進行比較。記錄生成的分子骨架與活性化合物的骨架之間最高的相似性。表3顯示了相似度小于或等于某一數值的分子骨架數量。最后一行是相似度的平均值。從表3可以看出,GA模型在骨架新穎性方面比REINVENT和RationaleRL表現得好得多。ChemistGA和ChemistGA(F)的比較表明,離散的優化策略可以使GA在一定程度上跳出局部最優,從而生成更多的新型骨架。
表3. 真實活性分子和生成分子之間骨架的相似性。
4 總結 綜上所述,作者提出了兩種分子生成算法ChemistGA和R-ChemistGA,它們在GA框架下加入了Molecular Transformer來驅動基于反應的進化策略。與純機器學習的生成模型相比,這些算法具有以下優點:無需訓練模型,所需的初始數據較少,生成的分子結構多樣性較高。此外,與基于遺傳算法的生成模型相比,生成的分子結構具有更高的可合成性和多樣性。除了突出的可合成性,ChemistGA在許多其他指標上也表現出非常令人印象深刻的表現,如新穎性、多樣性和骨架。與基準中的其他模型相比,ChemistGA在幾乎所有的評價指標下都具有明顯的優勢。此外,為了解決真實藥物發現過程中難以標記分子性質的問題,作者還提出了一種魯棒性更高的算法R-ChemistGA。具有ChemistGA的所有優點,R-ChemistGA還大大減少了對準確預測模型的依賴,當使用相同數量的準確預測模型時,可以生成比ChemistGA多兩倍以上的所需分子,這證明了R-ChemistGA對實際應用中經常出現的標簽的靈活性。使模型更適合用于真實世界的藥物從頭設計。雖然目前將分子生成應用于真正的藥物發現還存在許多困難,但是ChemistGA的出現可能為藥物從頭設計提供一些啟示。 參考資料 ChemistGA:A Chemical Synthesizable Accessible Molecular Generation Algorithm for Real-World Drug Discovery, Journal of Medicinal Chemistry, 2022. //pubs.acs.org/doi/10.1021/acs.jmedchem.2c01179
本文介紹由浙江大學智能創新藥物研究院侯廷軍教授/潘培辰研究員團隊和中南大學曹東升團隊聯合在綜合期刊Research上發表的一篇文章。該文章提出一種新型的基于圖表示的深度學習方法DeepCoSI用于共價藥物結合位點(半胱氨酸)的預測。DeepCoSI網絡由兩個模塊構成,分別是PocketGNNLayer和CysInteractLayer,前者用于對半胱氨酸所在口袋的環境進行表征,后者用于表征半胱氨酸與周圍原子之間的非鍵相互作用,二者結合實現了半胱氨酸共價可靶性的預測。作者在兩個外部測試集上驗證了該模型區分共價可靶半胱氨酸與其他半胱氨酸的能力,均表現出較好的預測效果。
研究背景
根據與靶標結合的不同方式,小分子抑制劑可以分為非共價抑制劑和共價抑制劑(TCI)兩大類。共價抑制劑與靶標的結合親和力強,在結合位點具有較長的保留時間,有望解決部分靶標的選擇性與不可靶向性的問題,也因此共價抑制劑受到了越來越多的關注。共價抑制劑與靶標的相互作用既包含非共價部分的非鍵相互作用,也包括共價彈頭與結合口袋親核氨基酸之間的共價成鍵作用。然而,我們對共價結合位點的認識非常有限,對于共價抑制劑的研究也局限在很少部分的靶標中。因此,開發準確快速分析蛋白質結構中氨基酸的共價可靶性的方法,可以擴大共價抑制劑的研究范圍,加速共價藥物的發現。
數據集
作者構建了一個基準數據集用于模型的訓練和評估,包含1042個晶體結構,涉及259種蛋白,這些結構中有7490個半胱氨酸,其中,1076個半胱氨酸連接有共價抑制劑,作為正樣本,其余的半胱氨酸為負樣本。為了盡可能降低訓練集和測試集之間的相似性,在數據集劃分之前,使用cd-hit對蛋白質進行聚類,根據聚類結果進行訓練集、驗證集和測試集的劃分。
DeepCoSI模型
半胱氨酸的共價可靶性主要由以下兩個方面決定:(1)其周圍是否有合理的口袋便于藥物分子的結合?(2)其是否有足夠的內在反應性(親核性)與親電彈頭發生共價反應?作者基于這兩個問題設計了模型的結構框架,其中PocketGNNLayer模塊用于表征半胱氨酸周圍口袋的結構,CysInteractLayer模塊用于表征半胱氨酸的內在反應性。模型結構如圖所示:
圖 1. DeepCoSI模型結構框架
作者截取目標半胱氨酸一定范圍內(15埃)的氨基酸作為該半胱氨酸所在口袋(pocket),并將此口袋結構作為模型的輸入。在PocketGNNLayer模塊中,原子作為圖結構中的節點,共價鍵作為圖結構中的邊,通過圖卷積模塊,將化學信息和三維結構特征轉化為表征“口袋輪廓”的向量;在CysInteractLayer模塊中,半胱氨酸的巰基與周圍原子之間的隱式非共價相互作用作為圖結構中的邊,通過圖卷積模塊產生巰基的特征向量,用于表征半胱氨酸的“內在反應性”。最后用“口袋輪廓”與“內在反應性”特征共同預測半胱氨酸的共價可靶性。
實驗
作者首先對比了DeepCoSI與基于描述符的傳統支持向量機模型的預測能力,采用相同的數據集進行訓練和測試,二者的AUPRC值分別為0.82和0.71。進一步查看二者對正負樣本預測值的分布差異,SVM模型對負樣本的識別能力比較強,預測值主要分布在0-0.2之間,而正樣本則均勻分布在0-1之間,由DeepCoSI得到的正負樣本的預測值則具有明顯不同的分布。這說明,與傳統模型相比,DeepCoSI具有更強的區分共價可靶半胱氨酸與其他半胱氨酸的能力。
圖2. DeepCoSI與支持向量機模型的性能對比
隨后,作者通過微調輸入的口袋結構,來查看DeepCoSI是否學習到了共價可靶半胱氨酸的隱范式。半胱氨酸的內在反應性與靜電相互作用有密切關系,因此,通過調節其與周圍帶電氨基酸之間的距離,可以改變其質子化狀態,進而影響其共價可靶性。作者選取了幾個正電氨基酸和負電氨基酸分別進行了調整,模型預測值的改變方向符合預期。作者又進一步對整個測試集進行了分析,得到相同的實驗結果。這說明,模型可以感知任務相關的因素對結果的影響,從而識別出共價可靶半胱氨酸的隱范式。
圖 3. DeepCoSI對輸入口袋結構變化的響應
為了進一步驗證模型在真實應用場景中的表現,作者構建了兩個外部測試集。第一個外部測試集與原測試集的蛋白質種類相同,但所用晶體結構為apo形式(沒有共價配體的結合)。第二個外部測試集來源于化學蛋白質組學數據(isoTOP-ABPP)。作者根據DeepCoSI的預測值給每個晶體結構中的半胱氨酸排序,結果顯示,正負樣本的排序值表現出明顯的分布差異,這進一步說明在真實的應用場景中,DeepCoSI具有識別共價可靶半胱氨酸的能力。以歸一化后的排序值(陽性樣本排序/半胱氨酸數目)作為標準,當閾值設為0.5時,模型在兩個測試集中的預測成功率分別可以達到98%和82.9%。
圖 4. DeepCoSI在外部測試集上的表現
最后,作者將RCSB PDB中所有人源蛋白結構中的半胱氨酸進行了共價可靶性分析,研究人員可在共價抑制劑數據庫CovalentInDB(//cadd.zju.edu.cn/cidb/deepcosi/cys)中檢索這部分預測數據。
圖 5. 對RCSB PDB中半胱氨酸共價可靶性預測數據
總結
本文作者首次將深度學習應用在共價藥物結合位點預測的問題上,構建了新型圖神經網絡模型DeepCoSI,結合物理化學特征和幾何特征,分別對“口袋”和半胱氨酸“內在反應性”進行表征,模型能夠學習到共價可靶半胱氨酸的隱范式,從而具備從結構中識別出共價可靶半胱氨酸的能力,將共價抑制劑研究范圍擴大到蛋白質結構組學范圍,促進新型共價藥物的發現。 參考資料 Jiang, Y.Z., Wu, Z., Shen, C. and Lei Xu, D., Proteome-wide Profiling of the Covalent-Druggable Cysteines with a Structure-based Deep Graph Learning Network 2.