亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

2022年9月12日,哈爾濱醫科大學生物信息科學與技術學院程亮教授團隊和南京醫科大學生物醫學工程與信息學院劉云教授團隊合作在Bioinformatics上發表文章《MGPLI: Exploring multigranular representations for protein-ligand interaction prediction》。作者提出了一個多粒度的蛋白-配體相互作用預測模型MGPLI。模型利用Transformer和CNN網絡分別提取了蛋白和藥物的子序列級和字符級信息,并將兩者融合用于預測蛋白-配體相互作用。模型在不同的數據集上進行了評估,性能表現優秀。

1 摘要

目標:預測針對蛋白質-靶標的潛在藥物結合親和力的能力一直是計算藥物發現的基本挑戰。傳統的體外和體內實驗成本高且耗時,需要在大的化合物空間上進行搜索。近年來,基于深度學習的藥物-靶標結合親和力(drug-target binding affinity, DTA)預測模型取得了顯著成功。

結果:隨著Transformer模型最近的成功,作者提出了一種多粒度蛋白質-配體相互作用(Multi-Granularity Protein Ligand Interaction, MGPLI)預測模型,該模型采用Transformer編碼器來表示字符級(character-level)特征和片段級(fragment-level)特征,建模殘基和原子或其片段之間可能的相互作用。此外,作者使用卷積神經網絡(CNN)提取基于transformer編碼器輸出的高級特征,并使用highway層融合蛋白質和藥物特征。作者在不同的蛋白質-配體相互作用數據集上評估MGPLI,與最先進的基線相比,本模型表現出更好的預測性能。

2 問題形式化可以將DTI預測視為一個回歸任務,即預測給定藥物-靶標蛋白對之間的親和力.藥物的SMILES序列可以表示為:.蛋白的氨基酸序列可以表示為:.則,數據集中的樣本可以表示為一個元組:

模型的目標則是通過建立一個從

的映射來預測藥物-靶標蛋白之間的親和力。

3 方法如圖1所示,論文的主要步驟為:

  1. Tokenization:劃分SMILES和氨基酸序列為字符級別和子序列級別的token序列。
  2. Token Embedding + Position Embedding,將1中劃分的token嵌入向量,且為每個token添加位置嵌入,將兩者之和作為token的最終嵌入。
  3. Transformer:利用Transformer對Token的嵌入進行編碼,分別學習到藥物和靶標蛋白不同粒度的高級特征。
  4. CNN:將3中的高級特征進行全局最大池化(global max pooling)進一步提煉特征,得到不同粒度的特征向量(Multi-grained feature vectors)。
  5. HighWay Layer:采用highway層融合4中得到的特征。
  6. Multi-Layer Perceptron:使用三個全連接層來預測結合親和力。

下面詳細介紹部分模塊。

圖1 MGPLI的模型架構

3.1 Tokenization

作者采用了名為sentence piece tokenization的算法對藥物和蛋白序列進行片段化。sentence piece tokenization是一種數據驅動的算法,可以直接使用原始序列數據進行訓練,并分詞。對于蛋白,作者在來自于UniprotKB數據庫的0.56M蛋白序列上進行了預訓練;對于藥物,作者在來自于ChEMBL數據庫的1.6M化合物上進行了預訓練。 作者將藥物和蛋白分別進行子序列化和字符化,這是兩種不同粒度的特征,可以互補。對于蛋白的氨基酸序列:,可以轉化為子序列的序列:,和字符序列:.對于藥物的SMILES序列:可以轉化為子序列的序列:,和字符序列:. 3.2 多粒度嵌入(Multigranular embedding)對于得到的四種序列,作者首先將其通過四個可訓練的矩陣, , , 進行嵌入。為了建模不同位置元件的關系,作者加入了絕對位置編碼(absolute positional encoding):為了避免過擬合和不穩定的訓練過程,作者添加了層標準化技術: 和dropout技術。綜上可以將四種序列信息表示為,即

**3.3 Transformer-CNN **Transformer-CNN的結構如圖2所示。transformer-CNN的優勢是可以同時提取對預測DTA重要的全局序列信息和局部特征信息。

圖2 提出的transformer-CNN的結構如右圖所示,transformer-CNN單元如左圖所示對于具體的transformer編碼器,自然包括多頭注意力層(multihead attention layer)、位置前饋網絡(positionwise feedforward network)、殘差連接(residual connection)和層標準化(layer normalization)。可以形式化表示為:

接著作者使用了一維卷積(one-dimensional CNNs)和最大池化(max pooling)操作來提取高級特征,可以將這個特征映射表示為:最后,則可分別得到藥物和靶標蛋白的不同粒度特征:,,,.

3.4 蛋白-配體預測結構親和力預測

由于不同粒度的子序列和原子級別的特征存在重疊(overlap),如果使用簡單的拼接操作可能會造成冗余且影響模型的學習能力。為了高效地整合不同粒度的信息,作者設計了一個簡單的帶有門控機制(gating mechanism)的highway 前饋網絡來控制信息的流動。每個highway層包括一個信息攜帶門(carry gate, Cr)和一個變換門(transform gate, Tr)。為了保持簡潔,作者定義。 最后作者采用均方差(Mean square error, MSE)作為loss函數,即 作者也給出了詳細的參數設置情況,如表1所示。表1 參數設置情況

4 數據和結果

4.1 數據作者采用了3個流行的數據集用于評估模型:KIBA數據集、Davis數據集、Binding DB數據集。數據的統計情況如表2所示。表2 使用的3個數據集的統計情況

4.2 評估指標作者采用了CI、MSE和Pearson相關系數定量衡量模型的性能。

4.3 模型比較

 圖3 MGPLI和對比方法在Davis、KIBA和BindingDB數據集上的性能表現。誤差線表示標準誤差。 如圖3所示,作者將MGPLI與其他基準模型進行了比較。作者也進行了消減實驗、藥物的靶標選擇性(target selectivity)、PDBBind數據集上的性能評估和比較等分析。

5 總結

在本文中,作者提出了一種新的深度學習模型MGPLI,用于DTA預測任務。MGPLI使用來自藥物和蛋白質序列的多粒度信息;也就是說,它整合了SMILES和氨基酸序列中的原子級和子序列級信息。利用這種多粒度信息,MGPLI通過使用transformer編碼器和CNN學習原子級和子序列級的表示。為了有效地融合這些表示,MGPLI采用highway層來調節連續訓練周期中的信息流。在三個公共數據集上的實驗結果表明,MGPLI在隨機劃分和盲劃分場景中都顯著優于最先進的模型。盡管MGPLI在PDBbind數據集上的表現并不優于最先進的方法,但本方法仍然是對蛋白質-配體相互作用預測任務上的有效貢獻,并可能在未來的工作中進一步增強。

參考資料

Junjie Wang, Jie Hu, Huiting Sun, MengDie Xu, Yun Yu, Yun Liu, Liang Cheng, MGPLI: Exploring Multigranular Representations for Protein-Ligand Interaction Prediction, Bioinformatics, 2022;, btac597,

//doi.org/10.1093/bioinformatics/btac597

--------- End ---------

付費5元查看完整內容

相關內容

醫學領域的人工智能是使用機器學習模型搜索醫療數據,發現洞察,從而幫助改善健康狀況和患者體驗。 得益于近年來計算機科學和信息技術的發展,人工智能 (AI) 正迅速成為現代醫學中不可或缺的一部分。 由人工智能支持的人工智能算法和其他應用程序正在為臨床和研究領域的醫學專業人員提供支持。

作者 | 夏宇航 審核 | 劉 旋今天給大家介紹的是來蘭州大學張瑞生教授團隊發表在Bioinformatics 2022上的文章"MultiGran-SMILES: multi-granularity SMILES learning for molecular property prediction".原子水平表示是分子的一種常見表示,在一定程度上忽略了分子的子結構或支鏈信息;而子串水平表示則相反。原子級別和子串級別的表示都可能丟失分子的鄰域或空間信息。而聚集分子鄰域信息的分子圖表示法在表示手性分子或對稱結構方面能力較弱。在這篇文章中,作者利用不同粒度表示法的優勢同時用于分子性質預測,提出了一種融合模型MultiGran-SMILES,與分子的單一粒度表示相比,作者的方法同時利用了各種粒度表示的優點,并自適應地調整每種表示對分子性質預測的貢獻。

1.摘要

分子性質預測是物理、化學和材料科學領域的熱點問題。提取有用的分子特征對于分子性質預測至關重要。原子級表示通過原子級標記化,根據SMILES串給出了分子的細節。與原子級別的表示相比,子串級別的表示詳細地提供了分子的一些子結構信息或片段。原子級別和子串級別的表示都可能丟失分子的鄰域或空間信息。而聚集分子鄰域信息的分子圖表示法在表示手性分子或對稱結構方面能力較弱。圖1為分子的三種粒度表示。為了充分利用不同分子表示的優勢,本文提出了一種多粒度融合學習模型,該模型同時利用了不同粒度表示的優勢,并自適應地調整每種粒度對分子性質預測的貢獻。作者的方法在廣泛使用的數據集上得到了驗證。此外,作者還與單粒度表示(即原子級別、子串級別或分子圖)以及分子圖和SMILES串的融合方法進行了比較。

2.模型介紹

模型由五個組件組成,包括輸入數據的預處理(a)、輸入層(b)、編碼器(c)、特征融合(d)和最后一層預測(e)。將分子序列送入前處理部分。輸入層由三種粒度表示(即原子級、子串級和分子圖)組成。該模型的編碼器由兩種類型的子編碼器組成。BiGRU編碼器利用共享參數對原子級和子級信息進行編碼。GraphSAGE用于對分子圖進行編碼。融合層結合了原子級表示(記為AE)、子串表示(記為BE)和分子圖表示(記為GE)的輸出,便于同時融合不同粒度的優勢。

2.2 Bi-GRU雙向編碼器

作者使用GRU作為RNN單元,每個循環單元可以通過GRU自適應捕獲不同時間尺度的依賴性。重置門和更新門是兩種類型的門,和的計算方法如下:

新的隱藏單位ht的計算方法如下:

2.3 分子圖編碼器

本文使用GraphSAGE作為分子圖的編碼器,它可以通過采樣和聚合節點的鄰居嵌入來有效地捕捉圖的結構信息。SMILES字符串可以表示為, 被送入GraphSAGE編碼器,輸出,具有相同的長度。 2.4 多粒度SMILES特征表示融合

作者融合了三種類型的編碼器的輸出,并自適應地調整每種粒度對分子性質預測的貢獻,稱為。是來自原子級Ha、子串級Hb和分子圖Hg的表示的融合。融合層如圖2d所示。融合表示的計算如下:

表示三個隱藏狀態的權重,門的大小與H的隱藏態相同。是提出的多粒度分子表示。作者借鑒前人的工作也對樣本進行了填充,以統一它們的長度。因此,可以將不同長度的三種不同粒度的表示直接相加,得到用于預測的融合表示。在這項工作中,作者將定義為向量,計算方法如下:

3.實驗

作者廣泛使用的MoleculeNet中選擇數據集,即BACE、BBBP、HIV、Tox21和ClinTox。另一類數據集如LogP和FDA來自ZINC數據集。 BACE、BBBP、LogP和FDA數據集的ROC-AUC評估指標結果表2所示。可以看出作者的三種粒度融合的表示學習方法優于基準方法。

為了進一步驗證模型性能,作者將Tox21和ClinTox上的每個任務視為單個屬性,然后在每個任務中相互比較ROC-AUC。圖3顯示了使用不同粒度的不同模型對Tox21上12種屬性的ROC-AUC進行比較,作者的模型在12個任務中的6個任務上達到了最先進的性能。圖4顯示了兩種屬性在ClinTox上的ROC-AUC比較****

作者還比較了一些有關LogP、FDA和HIV的最先進模型的準確性。實驗結果如表3所示,說明了FDA和HIV的準確性。表4顯示了在LogP上的比較結果。

上述實驗結果表明,通過融合不同分子粒度的表示可以捕獲分子特征,對于具有明顯官能團或分支的分子,該方法的增益更大。因此,作者的方法能夠自適應地調整和選擇分子屬性預測的有利特征,并對不同的數據集具有較好的泛化能力。 4.總結

本文通過充分利用各種粒度表示法的優勢,并自適應地調整每種粒度表示法的貢獻度,從而為分子性質預測提供了一種綜合的方法,大大緩解了單一粒度表示法的不足。與現有的融合方法相比,該方法通過引入子串級別的表示或分子片段,具有更好的泛化能力。 參考文獻****

文章地址//doi.org/10.1093/bioinformatics/btac550

代碼地址

付費5元查看完整內容

今天給大家介紹一篇由廈門大學研究團隊發表在Briefings in Bioinformatics的文章。作者在該論文中將DTI預測視為一個鏈路預測問題,并提出了一種基于具有注意機制的異構圖的端到端模型(DTI-HETA)。

摘要藥物-靶標相互作用(DTI)預測在藥物重新定位、藥物發現和藥物設計中起著重要作用。然而,由于化學和基因組空間的龐大以及藥物和靶標之間相互作用的復雜性,DTI的實驗鑒定具有成本高且耗時長的問題。近年來,新興的圖神經網絡(GNN)被應用于DTI預測,因為DTI可以有效地用圖表示。然而,其中的部分方法僅基于齊次圖,另外部分方法由兩個不可聯合訓練的解耦步驟組成。為了通過整合異構圖信息進一步探索基于GNN的DTI預測,本研究將DTI預測視為一個鏈路預測問題,并提出了一種基于具有注意力機制的異構圖的端到端模型(DTI-HETA)。該模型在藥物靶標信息構造的異構圖上利用圖卷積神經網絡獲得藥物和靶標的嵌入表示,并在節點的信息聚合過程中引入了圖注意機制。在得到藥物和靶標的嵌入表示后,模型應用內積解碼器來進行DTI預測。為了評估DTIHETA的性能,本研究在兩個數據集上進行了實驗。實驗結果表明,本文的模型優于現有的方法。 1.****研究背景盡管在藥物研究和開發方面取得了許多進展,但傳統的藥物發現過程仍然具有風險。風險主要體現在耗時和成本上,統計表明藥物新分子實體研發的時間周期估計為12年,成本估計為18億美元。目前,加速藥物發現過程的關鍵是確定藥物是否能與靶相互作用,因為識別藥物和靶點之間的相互作用有助于候選新藥的有效篩選工作。盡管有成千上萬的化合物存儲在各種數據庫中,但大多數化合物沒有相應的目標信息。隨著藥物和靶點可用數據的增長,越來越多的學者試圖研究有效的計算方法來識別新的藥物-靶點相互作用(DTI)。目前,DTI預測的計算方法主要有三類:基于配體的方法、對接模擬和化學基因組學方法。雖然在生物學上被廣泛接受,但基于配體的方法和對接模擬面臨許多限制,例如已知配體的數量不足、蛋白質的3D結構未知等等。化學基因組學方法可進一步分為幾類,如基于機器學習的方法和基于相似性的方法。在這些化學基因組學方法中,基于機器學習和深度學習的模型因其可靠的預測結果而備受關注。在這些方法中,關于藥物和靶點的知識被編碼為特征以訓練模型。然后將訓練后的模型用于預測新的DTI。這些方法通常涉及特征提取和DTI預測兩方面,但在構建模型時很少考慮藥物-靶點對的潛在有效相互作用,并且不能利用藥物-藥物和靶點-靶點相似關系。此外,這種方法僅使用DTI矩陣作為用于訓練的標記矩陣,忽略了異構生物數據中包含的信息。最近,圖形神經網絡(GNN)的快速發展將深度學習的應用擴展到了圖結構領域,相關方法也應用于藥物發現。然而,現有的一些基于圖的方法一方面是為齊次圖設計的,缺少異構數據源的各種信息。另外,這些方法在聚合中心節點信息時沒有考慮不同相鄰節點的貢獻,導致預測性能較差。本文基于對相關工作中不足的分析,提出了一種應用注意力機制和圖卷積方法基于異構圖的端到端DTI預測模型。 2.模型方法

圖1.DTI-HETA模型架構圖在本模型中,首先基于藥物-藥物和靶標-靶標相似度矩陣和DTI矩陣構建異構圖。然后,利用圖卷積神經網絡獲得藥物和目標的嵌入表示。為了突出不同鄰域節點在聚集圖卷積信息中對中心節點的貢獻,在節點嵌入過程中引入了圖注意機制(GAT)。最后,應用內積解碼器來預測DTI。模型的整體架構如圖1所示。模型的圖卷積模塊使用圖G中中心節點的相鄰節點來定義信息傳播框架,在這里稱為節點的局部計算圖。參數和權重在所有局部計算圖之間共享,在同一局部計算圖中應使用相同的信息傳播方法。如圖1的圖嵌入部分所示,有四種不同的局部計算圖:(a)、(b)、(c)和(d)。在(a)中,中心節點是藥物d1,并且其所有相鄰節點是藥物;在(b)中,中心節點d3是藥物,并且存在兩種類型的相鄰節點:藥物d1和d5以及靶標t4。(c)和(d)是另兩種情況,其中目標節點位于中心。在GCN的每一層中,根據原始圖中的邊類型計算四個局部計算圖。局部計算圖隱藏狀態的計算先對中心節點的相鄰節點進行線性變換,相同邊類型共享權重系數,然后求和并使用ReLu函數進行激活,從而得到該局部計算圖的隱藏狀態。藥物和靶標節點的隱藏狀態由節點在各自局部計算圖上的隱藏狀態相加得到。另外,模型考慮到不同相鄰節點的貢獻不同,引入了圖注意機制(GAT)。GAT在中心節點信息聚合過程中學習得到一個注意力系數e,為相鄰節點分配不同的權重。以節點i和j為例,GAT分別對兩個節點執行線性變換,然后使用一個映射函數f將注意力系數eij分配給圖中的節點。映射函數f通過一個單層前向傳播神經網絡學習得到。為了比較不同節點之間的注意力系數,再使用softmax函數進行歸一化。在計算節點i和j之間的注意力系數之后,GAT可以將不同的權重分配給中心節點的相鄰節點。 作者認為本模型的優點有: 1.基于異構圖設計預測模型,可以充分利用數據所攜帶的信息。2.為異構圖設計相應的圖卷積策略,并引入GAT以突出相鄰節點的不同貢獻。3.以端到端的方式訓練模型,模型參數可以更有效地更新。 **3.**驗證實驗

模型驗證實驗包括三個方面:1.作者基于自己構建的數據集,分析模型中涉及的參數,包括節點嵌入維數和卷積層數,獲得一組最優模型參數。

圖2.模型參數實驗結果圖

實驗結果如圖2所示。其中,隨著節點嵌入維數的增大,模型性能先提高,然后逐漸降低。作者分析當d太小時,節點嵌入攜帶的信息過少,導致擬合不足并影響最終的預測性能。而當d太大時,提取的節點嵌入可能包含噪聲,這也會影響預測性能。而卷積層數的增加則會一直導致模型性能的逐漸下降。這是因為圖卷積會使相鄰節點的表示更加接近,層數過度增加將導致節點表示收斂到一個點,從而導致過度平滑。同時,層數的增加也導致模型參數數量急劇增加,這可能導致過度擬合,影響預測性能。 2. 對比分析了不同解碼器對預測性能的影響。

圖3.解碼器實驗結果圖

實驗結果如圖3所示,結果表明內積解碼器比雙線性解碼器有更好的預測結果。這可能是因為雙線性解碼器引入了可訓練權重矩陣,增加了模型中的參數并導致過擬合。此外,DTI-HETA模型使用簡單解碼器,可以獲得更好的預測結果,表明該模型不依賴于特定解碼器。 3. 將本文提出的模型在兩個數據集上與其他方法進行比較,以驗證其優越性

表1.作者數據集上不同模型的AUC和AUPR比較表1顯示了DTI-HETA在作者自己構建數據集上與其他六個其他模型之間的比較結果。

表2 .Yamanishi-Enzyme數據集上不同模型的AUC和AUPR比較

表3 Yamanishi-Ion數據集上不同模型的AUC和AUPR比較

** **表4 Yamanishi-Enzyme數據集上不同模型的Accuracy , Sensitivity和Specificity比較

** **表5 Yamanishi-Ion數據集上不同模型的Accuracy , Sensitivity和Specificity比較

另外,由于Yamanishi數據集廣泛用于其他研究,因此選擇了一些最先進的模型與DTI-HETA進行比較,具體比較結果見表2-表5。實驗結果表明,本文提出的模型在性能上比其他模型均具有一定的優勢。 **4.**總結

目前,藥物和靶蛋白的異構圖已成為DTI預測的有力工具。但是基于藥物-靶點異構圖的GNN模型的巨大潛力尚未得到充分利用。面臨的問題比如正負數據的類別不平衡可能會影響GNN方法的性能。此外,GNN可以容易地捕獲數據集中可能存在的偏差模式。 在本研究中,本文提出了DTI-HETA,一種用于預測異構數據源DTI的端到端GCN模型。DTI-HETA通過定義圖卷積獲得藥物和目標的節點嵌入表示,該圖卷積將注意力機制引入異構圖中,然后使用解碼器預測潛在的DTI。實驗結果表明,DTI-HETA優于最先進的端到端模型和非端到端模式。 此外,作者認為盡管DTI-HETA顯示了良好的預測性能,但該研究仍面臨一些挑戰。 首先,數據處理時隨機選擇未知藥物-靶點對作為陰性樣本,這可能限制模型的預測精度,未來希望可以將實驗測量的陰性樣品作為陰性樣本。另一個挑戰是,下一步的工作可以考慮合并和探索更多與藥物和靶點相關的異質網絡,如代謝網絡和藥物-疾病網絡。這些不同的異構網絡將提供有助于DTI預測的豐富語義信息。 總的來說,DTI-HETA模型可以通過縮小DTI的搜索空間,推動新型DTI的發現工作,并且可能為理解藥物作用的潛在機制提供重要提示。

付費5元查看完整內容

編譯 | 董靖鑫 審稿 | 張翔今天給大家介紹的是卡內基梅隆大學的研究團隊近期的一篇分子優化工作。識別蛋白質抑制劑通常需要預測配體結合自由能(Binding Free Energy, BFE)。熱力學積分(Thermodynamics integration , TI)是一種能夠準確預測BFE的方法,但其計算成本高、時間長。**在這項工作中,作者利用自動機器學習(Automated machine learning, AutoML)和主動學習(Active Learning, AL)的技術開發了一個高效的自動化工作流程,只需要數百次TI計算能在數千個同源配體中識別BFE最低的化合物。**實驗結果表明,該框架預測的化合物的結合親和度顯著提高。

1 介紹 藥物設計的先導化合物的發現及優化階段旨在發現先導化合物,即通過改變分子的化學結構來改善與生物靶點的結合親和力,以證明其對靶點具有活性。因此,結合自由能的預測至關重要,而相對自由能(relative BFE, RBFE)指的是新配體與先導化合物之間的結合自由能差異。目前基于大規模分子庫的虛擬篩選方法的性能因較差的預測配體排序的能力而受到限制。分子動力學模擬(Molecular Dynamics,MD)方法雖然可以較為準確地計算RBFE,但對計算資源需求高。為了有效地克服這些限制,作者提出了一個自動化框架計算RBFE,以優化先導化合物。

圖1 SARS-CoV-2 PLpro及其抑制劑的結構

SARS-CoV-2木瓜樣蛋白酶(papain-like protease, PLpro)是設計COVID-19抗病毒藥物最有吸引力的藥物靶點之一。研究表明GRL0617通用骨架(N-[(1R)-1-arylethyl]arenecarboxamide, 圖1B)的結構對配體與PLpro結合很重要,并且在具有該骨架的化合物中可能發現更有效的PLpro抑制劑。在這項工作中,作者從13億商業可用化合物庫中篩選,選擇了1萬個N-[(1R)-1-arylethyl]arenecarboxamide衍生物的庫,并最終確定了16種有效的結合劑,其預測的結合親和力提高了100倍以上。

2 模型

圖2 模型流程

2.1 主動學習周期

兩個主要的計算模塊:

(1)AutoML模塊。負責根據第二個計算模塊提供的標記數據開發ML模型。 (2)TI RBFE模塊。負責計算選定化合物與PLpro蛋白的相對結合自由能。

具體流程:

(1) 從分子的種子集開始,執行TI RBFE計算以獲得訓練數據和初始化的ML模型。 (2) 使用該模型篩選化學空間。 (3) 選擇最佳候選分子集用于RBFE的TI MD計算。 (4) 對所選分子進行TI MD計算,并且用更新的數據重新訓練ML模型。

2.2 自動化機器學習模塊

使用基于先驗選擇的ML方法(如神經網絡)和分子表征(如配體-蛋白質相互作用指紋)構建的ML模型可能會導致大量的模型偏差和樣本選擇偏差。AutoML旨在以數據驅動、客觀和自動化的方式為ML模型選擇、數據表示和超參數做出決策。AutoML和AL方法的結合既可以保證對化學空間進行快速、系統、公正的探索,又可選擇最佳候選分子。

2.3 熱力學積分分子動力學模擬模塊

熱力學積分的流程: (1) 生成MD輸入文件(包括分子拓撲結構、原子初始坐標和約束)。 (2) 利用TI設置并行化的GPU加速的 MD模擬。 (3) 收集和處理輸出數據。

3 實驗 3.1 實驗設置

AutoML-AL方法共進行8個AL周期。周期0中,使用多樣的分子初始化AL,以盡可能廣泛地采樣化學空間。為初始分子集進行TI MD 計算,并提供給AutoML模塊用于初始ML模型。周期1-5中,均勻地選擇了具有低RBFE的分子,以獲得庫的化學空間信息。周期6,隨機選擇分子,這種方式有助于克服AL被困在化學空間的局部最小值時可能出現的問題。

3.2 實驗結果

實驗對253個配體進行TI MD RBFE計算。計算133種配體的RBFE為負的,約占TI計算的53%。這說明通過TI MD計算篩選的配體中有一半以上的配體具有比參考配體更高的結合親和力。其中62種配體(占通過TI MD篩選的配體的24.5%)的預測結合親和力提高了10倍以上。通過TI MD篩選得到的16個配體(占6%)與靶蛋白的預測結合親和力提高了100倍以上。

在AL周期0中,ML模型沒有區分有利于結合的化學空間區域。在平衡選擇的周期1-5中,模型探索多個區域,尋找期望的化學空間。由于信息的增加,ML模型的感知發生了明顯的變化,開始識別出低??G分子密集分布的化學空間區域。周期5結束,ML模型得到收斂,化學空間各個區域穩定著色。在隨機選擇分子的周期6中,分子分布在化學空間中,大多數分子如預期的那樣具有正??G。值得注意的是,模型的誤差沒有增加,這也說明了模型已經收斂。

圖5展示了兩個優化的分子S1和S2,它們的結合親和力分別提升了-0.84 kcal/mol和-0.99 kcal/mol。在TI ????為負的配體中,有35個(~26%)分子具有相似的芳香體系。其中9個分子的預測結合親和力提高了100倍以上。

4 總結 在這項工作中,作者提出結合自動機器學習(Automated machine learning, AutoML)和主動學習(Active Learning, AL)的方法對配體進行RBFE計算,實驗表明該方法選擇的配體結合親和力顯著提升。

參考資料 Gusev F, Gutkin E, Kurnikova M G, et al. Active learning guided drug design lead optimization based on relative binding free energy modeling[J]. 2022.

付費5元查看完整內容

——背景——

分子的物理化學性質,如水溶性、親脂性、膜通透性和解離度,對藥物開發先導化合物的篩選具有重要意義。準確、高效地預測分子性質是藥物研發的基本問題之一。表征學習已被證明大大提高了分子性質預測的性能。然而,基于監督學習的分子表示算法由于標記數據有限,只能在有限的化學空間內進行搜索,泛化能力較差。為了應對這一問題,2022年8月6日,中南大學的鄧磊課題組提出了一種基于attention-wise masking的對比學習預訓練模型ATMOL,改進對分子的編碼與分子性質的預測。該工作發表在Briefings in Bioinformatics,題為“Attention-wise masked graph contrastive learning for predicting molecular property”。 ——方法——

圖1:分子性質預測算法ATMOL的流程示意圖。如圖1所示,完整的算法分為兩大部分,第一部分是對分子進行編碼的預訓練模型,第二部分是用于下游分子性質預測的遷移學習。其中預訓練模型的數據來自ZINC數據庫,遷移學習的數據來自MoleculeNet數據庫。第一部分預訓練模型包含3個關鍵的步驟:(a)首先作者基于SMILES對輸入的分子構建分子圖,然后使用圖注意力網絡(Graph Attention Network,GAT)將分子圖編碼到隱空間。(b)對編碼后的分子圖,根據GAT編碼器學習到的attention權重對邊或節點添加mask,從而產生增廣的分子圖。(c)通過最小化增廣分子圖與原始分子圖之間的對比損失(Contrastive loss)來捕獲重要結構和高階語義,優化分子表示。對于訓練好的分子表示模型,第二部分將固定預訓練模型的參數不變,提取分子表示用于遷移學習,僅通過訓練兩個全連接層來預測分子性質。**——預測效果——**作者從多個維度對算法的設置進行了檢驗,并對預測效果進行了評估。對于分子性質的預測,作者在包含多種分子性質的7個數據庫上進行測試。首先,作者將基于Attention-wise mask的預訓練模型與基于監督學習的方法進行比較,發現算法ATMOL所用的對比學習預訓練模型對分子性質的預測效果顯著好于基于監督學習的方法,并且同時對分子圖的邊和節點添加mask比只對邊或節點添加mask效果更好。表1:比較ATMOL方法與基于監督學習的方法預測分子性質的結果。表頭表示在7個不同的數據庫上的預測結果。

添加mask的方式包括隨機添加或根據attention權重添加,結果顯示對attention權重最大的邊和節點添加mask效果最好,而以往常用的隨機添加mask則效果最差(圖2,左)。經過測試,作者發現添加25%(占所有邊和節點的比例)的mask效果最好,說明低比例的mask無法產生有效的增廣圖,而高比例的mask則可能破壞了重要的分子結構從而導致預測結果變差(圖2,右)。除此之外,作者還利用不同大小的數據集分別訓練模型,結果顯示基于大數據集上的結果優于基于小數據集上的結果。

圖2:左,4種添加mask的方式對預測結果的影響。右,添加mask的比例對預測結果的影響。作者還將ATMOL與前人報道的5種基于自監督的分子表征算法同時用于分子性質的預測,進行比較。結果顯示ATMOL總體優于其它5種算法,且基于大數據集的ATMOL算法在某些測試集上效果提升格外明顯(表2)。表2:ATMOL與其它5種算法預測分子性質結果比較。

最后,作者試圖探索算法的可解釋性,通過可視化attention權重,作者發現在圖3所示的例子中,算法學習到的高attention權重與已報道的關乎分子性質的重要組分相匹配。

圖3:Attention權重可視化示例。(a)和(c)代表同一個分子;(b)和(d)代表同一個分子。**——總結與討論——**鄧磊課題組提出的ATMOL算法,構建了一個基于attention-wise masking的對比學習預訓練模型,在預測分子性質的任務上取得了不錯的提升。值得注意的是,作者認為對attention權重最大的部分添加mask,能夠擴展負樣本并使其更加多樣化,從而有利于提高對比學習的效果。作者對算法可解釋性的探索,也顯示了ATMOL具有提取分子關鍵結構的潛力。參考文獻:

[1] Liu, H., Huang, Y., Liu, X. & Deng, L. "Attention-wise masked graph contrastive learning for predicting molecular property." Briefings in Bioinformatics, bbac303. DOI: 10.1093/bib/bbac303 點擊左下角的"閱讀原文"即可查看原文章。


作者:陳佳曉 審稿:謝維新 編輯:黃志賢

GoDesign ID:Molecular_Design_Lab ( 掃描下方二維碼可以訂閱哦!)

本文為GoDesign原創編譯,如需轉載,請在公眾號后臺留言。

付費5元查看完整內容
北京阿比特科技有限公司