亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

作者 | 夏宇航 審核 | 劉 旋今天給大家介紹的是來蘭州大學張瑞生教授團隊發表在Bioinformatics 2022上的文章"MultiGran-SMILES: multi-granularity SMILES learning for molecular property prediction".原子水平表示是分子的一種常見表示,在一定程度上忽略了分子的子結構或支鏈信息;而子串水平表示則相反。原子級別和子串級別的表示都可能丟失分子的鄰域或空間信息。而聚集分子鄰域信息的分子圖表示法在表示手性分子或對稱結構方面能力較弱。在這篇文章中,作者利用不同粒度表示法的優勢同時用于分子性質預測,提出了一種融合模型MultiGran-SMILES,與分子的單一粒度表示相比,作者的方法同時利用了各種粒度表示的優點,并自適應地調整每種表示對分子性質預測的貢獻。

1.摘要

分子性質預測是物理、化學和材料科學領域的熱點問題。提取有用的分子特征對于分子性質預測至關重要。原子級表示通過原子級標記化,根據SMILES串給出了分子的細節。與原子級別的表示相比,子串級別的表示詳細地提供了分子的一些子結構信息或片段。原子級別和子串級別的表示都可能丟失分子的鄰域或空間信息。而聚集分子鄰域信息的分子圖表示法在表示手性分子或對稱結構方面能力較弱。圖1為分子的三種粒度表示。為了充分利用不同分子表示的優勢,本文提出了一種多粒度融合學習模型,該模型同時利用了不同粒度表示的優勢,并自適應地調整每種粒度對分子性質預測的貢獻。作者的方法在廣泛使用的數據集上得到了驗證。此外,作者還與單粒度表示(即原子級別、子串級別或分子圖)以及分子圖和SMILES串的融合方法進行了比較。

2.模型介紹

模型由五個組件組成,包括輸入數據的預處理(a)、輸入層(b)、編碼器(c)、特征融合(d)和最后一層預測(e)。將分子序列送入前處理部分。輸入層由三種粒度表示(即原子級、子串級和分子圖)組成。該模型的編碼器由兩種類型的子編碼器組成。BiGRU編碼器利用共享參數對原子級和子級信息進行編碼。GraphSAGE用于對分子圖進行編碼。融合層結合了原子級表示(記為AE)、子串表示(記為BE)和分子圖表示(記為GE)的輸出,便于同時融合不同粒度的優勢。

2.2 Bi-GRU雙向編碼器

作者使用GRU作為RNN單元,每個循環單元可以通過GRU自適應捕獲不同時間尺度的依賴性。重置門和更新門是兩種類型的門,和的計算方法如下:

新的隱藏單位ht的計算方法如下:

2.3 分子圖編碼器

本文使用GraphSAGE作為分子圖的編碼器,它可以通過采樣和聚合節點的鄰居嵌入來有效地捕捉圖的結構信息。SMILES字符串可以表示為, 被送入GraphSAGE編碼器,輸出,具有相同的長度。 2.4 多粒度SMILES特征表示融合

作者融合了三種類型的編碼器的輸出,并自適應地調整每種粒度對分子性質預測的貢獻,稱為。是來自原子級Ha、子串級Hb和分子圖Hg的表示的融合。融合層如圖2d所示。融合表示的計算如下:

表示三個隱藏狀態的權重,門的大小與H的隱藏態相同。是提出的多粒度分子表示。作者借鑒前人的工作也對樣本進行了填充,以統一它們的長度。因此,可以將不同長度的三種不同粒度的表示直接相加,得到用于預測的融合表示。在這項工作中,作者將定義為向量,計算方法如下:

3.實驗

作者廣泛使用的MoleculeNet中選擇數據集,即BACE、BBBP、HIV、Tox21和ClinTox。另一類數據集如LogP和FDA來自ZINC數據集。 BACE、BBBP、LogP和FDA數據集的ROC-AUC評估指標結果表2所示。可以看出作者的三種粒度融合的表示學習方法優于基準方法。

為了進一步驗證模型性能,作者將Tox21和ClinTox上的每個任務視為單個屬性,然后在每個任務中相互比較ROC-AUC。圖3顯示了使用不同粒度的不同模型對Tox21上12種屬性的ROC-AUC進行比較,作者的模型在12個任務中的6個任務上達到了最先進的性能。圖4顯示了兩種屬性在ClinTox上的ROC-AUC比較****

作者還比較了一些有關LogP、FDA和HIV的最先進模型的準確性。實驗結果如表3所示,說明了FDA和HIV的準確性。表4顯示了在LogP上的比較結果。

上述實驗結果表明,通過融合不同分子粒度的表示可以捕獲分子特征,對于具有明顯官能團或分支的分子,該方法的增益更大。因此,作者的方法能夠自適應地調整和選擇分子屬性預測的有利特征,并對不同的數據集具有較好的泛化能力。 4.總結

本文通過充分利用各種粒度表示法的優勢,并自適應地調整每種粒度表示法的貢獻度,從而為分子性質預測提供了一種綜合的方法,大大緩解了單一粒度表示法的不足。與現有的融合方法相比,該方法通過引入子串級別的表示或分子片段,具有更好的泛化能力。 參考文獻****

文章地址//doi.org/10.1093/bioinformatics/btac550

代碼地址

付費5元查看完整內容

相關內容

醫學領域的人工智能是使用機器學習模型搜索醫療數據,發現洞察,從而幫助改善健康狀況和患者體驗。 得益于近年來計算機科學和信息技術的發展,人工智能 (AI) 正迅速成為現代醫學中不可或缺的一部分。 由人工智能支持的人工智能算法和其他應用程序正在為臨床和研究領域的醫學專業人員提供支持。

2022年9月12日,哈爾濱醫科大學生物信息科學與技術學院程亮教授團隊和南京醫科大學生物醫學工程與信息學院劉云教授團隊合作在Bioinformatics上發表文章《MGPLI: Exploring multigranular representations for protein-ligand interaction prediction》。作者提出了一個多粒度的蛋白-配體相互作用預測模型MGPLI。模型利用Transformer和CNN網絡分別提取了蛋白和藥物的子序列級和字符級信息,并將兩者融合用于預測蛋白-配體相互作用。模型在不同的數據集上進行了評估,性能表現優秀。

1 摘要

目標:預測針對蛋白質-靶標的潛在藥物結合親和力的能力一直是計算藥物發現的基本挑戰。傳統的體外和體內實驗成本高且耗時,需要在大的化合物空間上進行搜索。近年來,基于深度學習的藥物-靶標結合親和力(drug-target binding affinity, DTA)預測模型取得了顯著成功。

結果:隨著Transformer模型最近的成功,作者提出了一種多粒度蛋白質-配體相互作用(Multi-Granularity Protein Ligand Interaction, MGPLI)預測模型,該模型采用Transformer編碼器來表示字符級(character-level)特征和片段級(fragment-level)特征,建模殘基和原子或其片段之間可能的相互作用。此外,作者使用卷積神經網絡(CNN)提取基于transformer編碼器輸出的高級特征,并使用highway層融合蛋白質和藥物特征。作者在不同的蛋白質-配體相互作用數據集上評估MGPLI,與最先進的基線相比,本模型表現出更好的預測性能。

2 問題形式化可以將DTI預測視為一個回歸任務,即預測給定藥物-靶標蛋白對之間的親和力.藥物的SMILES序列可以表示為:.蛋白的氨基酸序列可以表示為:.則,數據集中的樣本可以表示為一個元組:

模型的目標則是通過建立一個從

的映射來預測藥物-靶標蛋白之間的親和力。

3 方法如圖1所示,論文的主要步驟為:

  1. Tokenization:劃分SMILES和氨基酸序列為字符級別和子序列級別的token序列。
  2. Token Embedding + Position Embedding,將1中劃分的token嵌入向量,且為每個token添加位置嵌入,將兩者之和作為token的最終嵌入。
  3. Transformer:利用Transformer對Token的嵌入進行編碼,分別學習到藥物和靶標蛋白不同粒度的高級特征。
  4. CNN:將3中的高級特征進行全局最大池化(global max pooling)進一步提煉特征,得到不同粒度的特征向量(Multi-grained feature vectors)。
  5. HighWay Layer:采用highway層融合4中得到的特征。
  6. Multi-Layer Perceptron:使用三個全連接層來預測結合親和力。

下面詳細介紹部分模塊。

圖1 MGPLI的模型架構

3.1 Tokenization

作者采用了名為sentence piece tokenization的算法對藥物和蛋白序列進行片段化。sentence piece tokenization是一種數據驅動的算法,可以直接使用原始序列數據進行訓練,并分詞。對于蛋白,作者在來自于UniprotKB數據庫的0.56M蛋白序列上進行了預訓練;對于藥物,作者在來自于ChEMBL數據庫的1.6M化合物上進行了預訓練。 作者將藥物和蛋白分別進行子序列化和字符化,這是兩種不同粒度的特征,可以互補。對于蛋白的氨基酸序列:,可以轉化為子序列的序列:,和字符序列:.對于藥物的SMILES序列:可以轉化為子序列的序列:,和字符序列:. 3.2 多粒度嵌入(Multigranular embedding)對于得到的四種序列,作者首先將其通過四個可訓練的矩陣, , , 進行嵌入。為了建模不同位置元件的關系,作者加入了絕對位置編碼(absolute positional encoding):為了避免過擬合和不穩定的訓練過程,作者添加了層標準化技術: 和dropout技術。綜上可以將四種序列信息表示為,即

**3.3 Transformer-CNN **Transformer-CNN的結構如圖2所示。transformer-CNN的優勢是可以同時提取對預測DTA重要的全局序列信息和局部特征信息。

圖2 提出的transformer-CNN的結構如右圖所示,transformer-CNN單元如左圖所示對于具體的transformer編碼器,自然包括多頭注意力層(multihead attention layer)、位置前饋網絡(positionwise feedforward network)、殘差連接(residual connection)和層標準化(layer normalization)。可以形式化表示為:

接著作者使用了一維卷積(one-dimensional CNNs)和最大池化(max pooling)操作來提取高級特征,可以將這個特征映射表示為:最后,則可分別得到藥物和靶標蛋白的不同粒度特征:,,,.

3.4 蛋白-配體預測結構親和力預測

由于不同粒度的子序列和原子級別的特征存在重疊(overlap),如果使用簡單的拼接操作可能會造成冗余且影響模型的學習能力。為了高效地整合不同粒度的信息,作者設計了一個簡單的帶有門控機制(gating mechanism)的highway 前饋網絡來控制信息的流動。每個highway層包括一個信息攜帶門(carry gate, Cr)和一個變換門(transform gate, Tr)。為了保持簡潔,作者定義。 最后作者采用均方差(Mean square error, MSE)作為loss函數,即 作者也給出了詳細的參數設置情況,如表1所示。表1 參數設置情況

4 數據和結果

4.1 數據作者采用了3個流行的數據集用于評估模型:KIBA數據集、Davis數據集、Binding DB數據集。數據的統計情況如表2所示。表2 使用的3個數據集的統計情況

4.2 評估指標作者采用了CI、MSE和Pearson相關系數定量衡量模型的性能。

4.3 模型比較

 圖3 MGPLI和對比方法在Davis、KIBA和BindingDB數據集上的性能表現。誤差線表示標準誤差。 如圖3所示,作者將MGPLI與其他基準模型進行了比較。作者也進行了消減實驗、藥物的靶標選擇性(target selectivity)、PDBBind數據集上的性能評估和比較等分析。

5 總結

在本文中,作者提出了一種新的深度學習模型MGPLI,用于DTA預測任務。MGPLI使用來自藥物和蛋白質序列的多粒度信息;也就是說,它整合了SMILES和氨基酸序列中的原子級和子序列級信息。利用這種多粒度信息,MGPLI通過使用transformer編碼器和CNN學習原子級和子序列級的表示。為了有效地融合這些表示,MGPLI采用highway層來調節連續訓練周期中的信息流。在三個公共數據集上的實驗結果表明,MGPLI在隨機劃分和盲劃分場景中都顯著優于最先進的模型。盡管MGPLI在PDBbind數據集上的表現并不優于最先進的方法,但本方法仍然是對蛋白質-配體相互作用預測任務上的有效貢獻,并可能在未來的工作中進一步增強。

參考資料

Junjie Wang, Jie Hu, Huiting Sun, MengDie Xu, Yun Yu, Yun Liu, Liang Cheng, MGPLI: Exploring Multigranular Representations for Protein-Ligand Interaction Prediction, Bioinformatics, 2022;, btac597,

//doi.org/10.1093/bioinformatics/btac597

--------- End ---------

付費5元查看完整內容

今天給大家介紹中南大學曹東升教授/國防科技大學趙文濤教授、吳城堃教授/浙江大學侯廷軍教授團隊共同在國際期刊Bioinformatics上發表的分子圖片識別的文章《MICER: A Pre-trained Encoder-Decoder Architecture for Molecular Image Captioning》。該文章受編碼器-解碼器架構的啟發,提出了MICER分子圖像識別架構,結合遷移學習、注意力機制和幾種數據構造策略增強不同數據集的有效性和可塑性;并評估了不同因素對該架構的影響以及數據集錯誤分析,為后續研究提供方向。該方法在構造的數據集以及基準測試集上較傳統的方法取得了顯著的提升。

1 摘要 動機 從分子圖像中自動識別化學結構為重新發現化合物提供了一個重要途徑。傳統的基于規則的方法依賴于專家知識,未考慮分子圖像的所有風格變化,通常存在識別過程繁瑣和泛化能力低的問題。基于深度學習的方法可以整合不同的圖像風格并自動學習有價值的特征,這種方法很靈活。但目前研究不足,存在局限性,因此沒有得到充分的利用。

結果 MICER是一個基于編碼器-解碼器的、用于分子圖像識別的重構架構,它結合了遷移學習、注意機制和幾種策略,以加強不同數據集的有效性和可塑性。評估了立體化學信息、分子復雜性、數據量和預訓練的編碼器對MICER性能的影響。實驗結果表明,分子圖像的內在特征和子模型的匹配對該任務的性能有很大影響。這些發現啟發了我們設計訓練數據集和最終驗證模型的編碼器。實驗結果表明,MICER模型在四個數據集上的表現一直優于最先進的方法。MICER由于其可解釋性和遷移能力而更加可靠和可擴展,并為開發全面和準確的自動分子結構識別工具提供了一個實用的框架,以探索未知的化學空間。

2 方法 2.1 模型架構 MICER采用經典編碼器-解碼器架構,編碼器和解碼器分別使用卷積神經網絡和循環神經網絡(圖1a)。在該方法中,編碼器使用ResNet網絡,解碼器使用LSTM網絡。在解碼器中加入注意力機制,每個時間步模型學習特征圖64塊(將圖像均分割成8*8塊)的注意力分數,并指導SMILES字符的生成。

2.2 解碼器字典 為了在解碼器中表示和操作SMILES字符,作者將所有的字符類型添加到一個字典中。字典包括以下標記。[pad], [sos], [eos], [0], [1], [2], [3], [4], [5], [6], [7], [8], [9], [C], [l], [c], [O], [N], [f], [H [o], [S], [s], [B], [r], [I], [i], [P], [p], [(], [)], [=], [[], [@], []], [#], [/], [-], [+], [\] 和 [%]。根據文章報告,即使按字符進行標記,如[B]和[r],模型也能學到相應的原子組成范式。

2.3 評估指標 * 序列準確度(SA,強約束) * 平均Levenstein距離(ALD,序列相似度) * 平均Tanimoto相似度和[email protected](AMFTS和MFTS @1.0,分子指紋相似度)生成的分子指紋和原始分子指紋之間的相似性用Tanimoto系數來衡量。平均Tanimoto相似度和[email protected](Tanimoto相似度為1.0的百分比)被分別計算。該指標在分子相似度層面上進行分析,可以為下游任務如分子特性預測打下基礎。文中,作者選擇ECFP4指紋來代表分子,然后根據Tanimoto系數計算分子相似度。

圖1 工作流程圖。(a) MICER模型的概述。(b) 實驗數據預處理。(c) 模型的一般結構。(d) 注意機制的例子。當進行解碼時,在每個時間步驟,模型將計算出特征圖和隱藏向量的注意力得分,并根據得分生成下一個字符。

3 模型評估 因素對比實驗探索了MICER架構在不同因素影響下的性能,并可以在數據和模型層面對最終驗證模型的性能進行更有針對性的指導和改進。

3.1 立體化學信息和分子復雜度 這一部分對比了分子圖中有無立體化學信息和不同分子復雜度對模型的影響。分子的復雜性越高,分子圖像在準確的分辨率下包含的信息就越多。過于詳細的分子圖像可能會導致錯誤的模型;例如,"F "可能會被誤認為是一個虛線鍵。在SI實驗中,產生了兩個數據集,有立體結構的和沒有立體結構的;兩個數據集都來自同一個原始SMILES。在MC實驗中,五個生成的數據集是根據分子量劃分的。如圖2b所示,SMILES序列的原子數和長度都顯示出與分子復雜性的正相關關系(其中最大的序列長度為245)。

如表1所列,沒有立體化學的MICER模型(以下簡稱'WO')比有立體化學的模型(以下簡稱'W')具有更好的識別性能,其中SA值增加了約6.1%。第一和第二數據集的ALD分別為1.78和1.12,表明每個預測的SMILES平均有1.78和1.12個錯誤識別的字符。值得注意的是,雖然兩個數據集的SA值相差6.1%,但AMFTS和MFTS @1.0都達到了預期的效果。差異不超過2%,說明與 "W "相比,"W "預測的SMILES字符串中的大多數錯誤字符都不是原子型錯誤。換句話說,這些錯誤識別的字符大部分屬于原子型字符以外的字符,比如'@@'、'@'、'['和']'。作者推測,這種錯誤的識別可能是由于楔形和虛線鍵造成的干擾,在SMILES中,楔形和虛線鍵是由'[@@]'和'[@]'表示的。

表1 立體信息和分子復雜度對性能的影響

3.2 數據量 根據圖3所示的比較結果,訓練數據與模型識別性能呈正相關關系。訓練數據從64萬增加到1000萬,SA值提高了約10%(從87.58%到98.91%)。然而,對于超過六百萬的訓練數據,模型識別性能趨于穩定。在六百萬數據量的水平上,模型的準確度達到了98.84%,這已經是一個令人滿意的結果。

圖2 原子數和SMILES序列長度統計圖以及識別性能與分子復雜性的趨勢

圖3 數據量對識別性能的影響

表2預訓練編碼器對性能的影響

3.3 預訓練編碼器 Base CNN是一個簡單的淺層CNN,包含三個CB。前兩個CB包含一個卷積層和一個最大池化層,最后一個包含三個卷積層和一個最大池化層。如表2所示,Base CNN的SA值僅約為15.78%, Base CNN模型未能提取分子圖像字幕的固有特征信息。InceptionV3模型有超過40層,其SA值達到了72.81%。這一結果表明,在編碼器-解碼器訓練過程中加入深度CNN,即讓一些模型層參與梯度更新,可以更有效地提取圖像表征。對于DenseNet121和VGG16的結果也可以得出類似的結論,它們包含121層和16層,SA值分別為81.41%和71.38%。然而,作者希望找出更多有效的模型用于分子圖像字幕。如表2所示,ResNet18、ResNet50和ResNet101取得了比InceptionV3更好的結果,表明DECIMER在模型方面仍有改進空間。作者認為ResNet的性能提高可能歸功于它的剩余機制,它能在一定程度上解決梯度分散、梯度爆炸和網絡退化的問題。此外,作者還探討了ResNet層數的影響。實驗結果表明,ResNet101在三個網絡中取得了最好的識別結果,SA值為87.58%。這一結果也為最終的公開審查版本提供了重要的參考價值。此外,從表2也可以看出,SqueezeNet和MobileNetV2的識別精度分別只有18.06%和39.83%。SqueezeNet和MobileNetV2是高度壓縮的深度模型,其卷積核很小;因此,它們只能提供有限的感受野和特征提取能力。上述計算結果表明,不同網絡的預訓練模型對分子識別有明顯影響。在未來,將探索更先進的預訓練框架來適應編碼器或解碼器。

3.4 與其他工具的對比 表2與其他工具的對比結果

總的來說,MICER在所有測試集上都取得了極具競爭力的結果,在前三個數據集上的SA值超過94%,在UOB數據集上的SA值為82.33%。前三個是基于規則的工具。在這三個基于規則的工具中,OSRA在四個實驗中取得了最好的性能,而Imago取得了最差的性能。更具體地說,OSRA在前三個數據集上的SA值低于25%,而Imago的SA值低于3%,這是一個非常不理想的結果。三種基于規則的方法在噪聲數據集上的表現很差,這可能是因為它們沒有納入對噪聲進行判別的規則。表3還顯示,基于規則的工具在多風格數據集上表現出比在噪聲數據集上更低的性能,這表明它們對分子圖像內容的風格變化比對噪聲的變化更敏感。這也表明OSRA對圖像噪聲的敏感度低于MolVec和Imago,這可能是由于OSAR中包含了一個更穩健的OCR算法。OSRA和MolVec在真實世界的數據集上的表現是可以接受的,這表明這些專家規則比通過化學工具箱生成的規則更符合作者的習慣。此外,三個基于規則的工具在前三個數據集上的識別時間超過了100分鐘,因為基于規則的工具的識別步驟繁瑣,無法進行批量操作。

值得注意的是,DECIMER的結果并不令人滿意,在兩個數據集上的SA值都低于40%。此外,據觀察,DECIMER生成的SMILES字符串中有很大一部分具有相同的特征,這可以歸因于DECIMER使用預訓練的模型作為分子圖像的特征提取器,而沒有微調步驟,這一點是不可或缺的。此外,作為一個基于DL的模型,Base CNN可以通過在與MICER訓練數據相等的大量數據上進行訓練,在類似的分子圖像上取得理想的結果,即使該模型很簡單。如表3所示,Base CNN在前三個數據集上的表現優于DECIMER,尤其是uni-style數據集。它的SA值達到了88.61%,驗證了關鍵的編碼器學習過程。然而,它在現實世界的UOB數據集上表現不佳,表明這個模型的魯棒性是不可接受的。

從表3也可以看出,MICER在前三個數據集上取得了超過94%的SA值和超過99%的AMFTS指標,這是一個令人震驚的結果,并且超過了所有其他的工具。此外,對真實世界數據集的比較顯示,MICER表現良好,其SA值為82.33%。此外,基于ALD結果,我們比較了MICER預測的SMILES和原始SMILES之間的差異,發現它們之間的差異只有一到兩個原子。

3.5 樣例分析 四個數據集的代表性例子如圖4a所示。此外,圖4c和圖4d分別顯示了使用MICER架構建立的模型正確和錯誤的識別樣本。從圖中可以看出,在前三個數據集中,MICER可以識別SMILES長度大于150的分子圖像。預測錯誤的樣本表明,MICER的錯誤一般是由于存在太多的立體化學鍵造成的。對于現實世界的數據集,MICER可以識別大多數標準的分子圖像,但對于訓練期間沒有學習過的樣本卻不能正確識別。

圖4 樣本分析和錯誤比較

最后,作者生成了預測分子的圖像,并與原始圖像進行比較,如圖4b所示。從圖中可以看出,大部分錯誤屬于單個原子的誤分類,其中'C'、'O'和'Cl'原子的誤分類率較高,因為這些原子在低分辨率的圖像中比較相似。此外,在噪聲數據中,作者發現在Cl原子周圍有噪聲點的情況下,模型會把它們錯誤地分類為O原子;這也許可以通過減少關注塊的面積來改善。帶有噪聲的復雜分子圖像更容易被模型誤判;例如,模型會把多個噪聲點判斷為單鍵,把楔形鍵判斷為雙鍵,等等。總的來說,未來的研究將關注識別超級原子、R-基團、不規則立體化學鍵和超復雜原子。

3.6 模型注意力分析 圖1d顯示了對注意力機制的直觀解釋。從圖中可以看出,在每個時間步驟中,對原始分子圖像模型分配不同的權重分數,其中顏色較深的塊表示模型對該區域的關注度較高。一些正確預測的例子顯示在圖5中。左邊的圖像代表原始分子圖,右邊的色塊作為注意力分數的參考。每個例子的注意權重圖由14個子圖組成。每個子圖上面的特征表示第n個預測步驟的結果。每個子圖是一個256×256的加權圖像,其中每個加權的圖像塊是8×8像素。圖像塊的顏色越深,其注意力得分越高,其中模型幾乎能準確識別所有的原子字符。總的來說,注意力機制的引入提高了模型的特征解碼能力,獲得了更好的可解釋性。

圖5 注意力權重圖示

4 總結 本文中,作者介紹了一種基于編碼器-解碼器的架構,稱為MICER,用于分子圖像字幕,具有良好的可塑性。MICER結合了遷移學習和注意力機制。此外,作者還介紹了幾種策略,在四個數據集上全面驗證了其有效性。作者通過四組因素對比實驗,探討了不同的內在數據特征和模型變化對MICER架構的影響。在這個架構中,一個預先訓練好的CNN作為編碼器,一個具有注意力機制的RNN作為解碼器,它們可以共同學習高維表征,這對于涉及分子圖像的許多下游任務來說是很重要的。此外,作者還對注意力權重和代表性樣本進行了可視化分析,這為未來的研究提供了直觀的見解。未來將繼續探索基于MICER架構的解釋性和穩健性模型。 參考資料 Jiacai Yi, Chengkun Wu, Xiaochen Zhang, Xinyi Xiao, Yanlong Qiu, Wentao Zhao, Tingjun Hou, Dongsheng Cao, MICER: A Pre-trained Encoder-Decoder Architecture for Molecular Image Captioning, Bioinformatics, 2022;, btac545,

付費5元查看完整內容

論文剖析

生物信息學|逆合成預測的學習圖模型 ///////////////

  1. 摘要

逆合成預測是有機合成中的一個基本問題,其任務是識別可用于合成目標分子的前體分子。為這一任務建立神經模型的一個關鍵考慮因素是將模型設計與化學家采用的策略相一致。基于這一觀點,本文介紹了一種基于圖的方法,該方法利用了前驅體分子的圖拓撲結構在化學反應中基本不變的觀點。該模型首先預測了一組將目標轉化為不完整分子的合成子。接下來,該模型通過附加相關的離去基來學習將合成子擴展成完整的分子。這種分解簡化了體系結構,使其預測更具可解釋性,也可以手動修正。我們的模型達到了53.7%的top1精度,優于以前的無模板和基于半模板的方法。 2. 介紹

逆合成預測,首先由E.J.Corey提出是有機合成中的一個基本問題,它試圖識別合成目標分子的一系列化學轉化。在單步逆合成中,任務是識別一組給定一個目標的反應物分子。除了簡單的反應之外,許多涉及復雜有機分子的實際任務,即使對專家化學家來說也是困難的。因此,需要進行大量的實驗探索來彌補分析方法的不足。這激發了人們對計算機輔助逆合成的興趣。

在計算上,主要的挑戰是如何探索能夠產生目標分子的反應的組合空間。在很大程度上,以前的逆合成預測方法可以分為基于模板的和無模板的方法。基于模板的方法將目標分子與一組大型模板進行匹配,這些模板是在化學反應過程中突出變化的分子子圖模式。盡管這些方法具有可解釋性,但它們并不能推廣到新的反應中。無模板的方法通過學習從SMILES的產物表示到反應物的直接映射來繞過模板。盡管這些方法具有更大的泛化潛力,但它們會逐個生成反應物SMILES特征,從而增加了生成的復雜性。

在建立逆合成模型時的另一個重要考慮因素是將模型設計與專家化學家采用的策略保持一致。這些策略受到化學反應的基本性質的影響,獨立于復雜性水平:(i.)產物原子總是反應物原子的子集,和(ii)從產物到反應物,分子圖拓撲在很大程度上沒有改變。例如,在標準的逆合成數據集中,產物中只有6.3%的原子的連通性發生了變化。

這種考慮在最近的基于半模板的方法中得到了更多的關注,該方法分兩個階段生成反應物:(i.)首先識別被稱為合成子的中間分子,(ii)然后通過連續生成原子或SMILES特征將合成子完成成反應物。我們的模型graphretro也使用了類似的工作流。然而,我們通過從預先計算的詞匯表中選擇被稱為leaving groups的子圖來避免完成合成子的順序生成。這個詞匯表是在預處理過程中通過提取合成物和相應反應物之間不同的子圖來構建的。該詞匯表的大小較小(USPTO-50k為170),表明存在顯著的冗余,同時覆蓋了99.7%的測試集。在這些子圖的水平上進行操作,大大降低了反應物生成的復雜性,并提高了經驗性能。這個公式還簡化了我們的體系結構,并使我們的預測更加透明、可解釋和易于手動校正。

評估合成模型的基準數據集是USPTO-50k,它包含了10個反應類別的50000個反應。數據集包含了一個預測編輯(化學反應前后發生變化鍵和原子)的意外快捷方式,因為在75%的情況下,具有原子映射1的產品原子是編輯的一部分,允許依賴于原子位置的預測高估性能。我們規范化產品SMILES并重新映射現有數據集,從而刪除快捷方式。在這個重新映射的數據集上,當反應類別未知時,graphretro方法達到了53.7%的top-1精度,優于無模板和基于半模板的方法。 3. 相關工作

現有的逆合成預測機器學習方法可以分為基于模板的方法、無模板的方法和最近的基于半模板的方法。

基于模板:模板要么由專家手工制作,要么從大型數據庫中算法提取。由于涉及子圖匹配過程,應用大型模板集的代價很高。因此,基于模板的方法利用不同的方式對模板進行優先排序,通過學習模板集上的條件分布,根據先前反應的分子相似性對模板進行排名,或使用邏輯變量直接對模板和反應物的聯合分布建模。盡管具有可解釋性,但這些方法無法在其規則集之外泛化。

無模板:無模板方法利用神經機器翻譯結構學習從產物到反應物的直接轉化。將分子線性化并不利用固有的豐富的化學結構。此外,反應物的SMILES是從頭開始產生的。人們試圖通過添加語法校正器和混合模型來提高建議的多樣性,但在標準逆合成數據集上的性能仍然低于基于模板的方法。Sun等人利用基于能量的模型制定了逆合成,并附加了參數化和損失項,以加強正向(反應預測)和反向(逆合成)預測之間的對稱性。

基于半模板:我們的工作與最近提出的基于半模板的方法,首先識別合成子,然后擴展合成子到反應物。為了降低反應物生成的復雜性,我們使用從預先計算的詞匯表中選擇的稱為leaving groups的子圖來完成合成子。這允許我們將合成子擴展視為一個分類問題,而不是一個生成問題。我們還利用了可能的編輯之間的依賴性圖,并使用該圖上的消息傳遞網絡(MPN)更新編輯預測。與以前的基于半模板的方法相比,這兩種創新的性能分別提高了4.8%和3.3%。

反應中心識別覆蓋了少量參與反應的原子。我們的工作還與預測反應結果的模型有關,通過學習對位于反應中心的可能性進行排序。識別反應中心的任務與在我們的公式中推導合成子的步驟有關。我們還利用可能的編輯之間的依賴圖,并使用此圖上使用MPN更新編輯預測。 4. 模型設計

我們的方法利用了圖拓撲從產物到反應物基本不變的特性。為了實現這一點,我們首先從被稱為合成子的產物中獲得合適的構建塊,然后通過添加leaving groups,將它們完成成有效的反應物。我們首先訓練一個神經網絡來預測可能的編輯的分數。然后將得分最高的編輯應用于產物,以獲得合成子。由于唯一的leaving groups的數量較少,我們將leaving groups的選擇建模為預先計算的詞匯表上的一個分類問題。為了產生候選反應物,我們通過化學約束規則將預測的離去基附加到相應的合成物上。圖1概述了整個過程。

  1. 結論

以往的單步逆合成方法要么限制對模板集的預測,要么對分子圖結構不敏感,要么從頭開始生成分子。我們通過引入一個受化學家工作流程啟發的基于圖的半模板模型來解決這些缺點,增強了逆合成模型的可解釋性。給定一個目標分子,我們首先確定合成的構建模塊,然后實現為有效的反應物,從而避免從零開始生成分子。我們的模型在基準數據集上比以前的半模板方法有顯著的優勢。未來的工作目標是擴展該模型,使其從多個合成物中實現單一反應物,并引入更多具有化學意義的成分,以提高此類逆合成預測工具與從業人員專業知識之間的協同作用。 原論文名稱: Learning Graph Models for Retrosynthesis Prediction

付費5元查看完整內容

作者 | 王郅巍

審核 | 付海濤

??今天給大家介紹的是來自中山大學智能工程學院的陳語謙教授團隊發表在Briefings in Bioinformatics上的文章"3DGT-DDI: 3D graph and text based neural network for drug–drug interaction prediction".傳統的DDI預測模型只考慮分子的2D拓撲結構,忽略了其3D結構信息。本文提出一種新的方法,3DGT-DDI,由3D圖神經網絡和預訓練的文本注意機制共同組成。該方法創新之處在于利用了3D分子圖結構和位置信息來增強模型對DDI的預測能力。實驗表明,3DGT-DDI的預測性能優于其他基線模型。此外,該模型還通過DrugBank數據集上的權重可視化證明了自身的可解釋性。

1.摘要

??藥物-藥物相互作用(DDI)發生在藥物組合過程中。識別潛在的 DDI 有助于我們研究聯合用藥或不良反應背后的機制,從而避免副作用。盡管已有許多挖掘和預測潛在DDI的方法被提出,但它們都忽略了藥物分子的3D結構信息,沒有充分考慮分子亞結構在DDI中的貢獻。基于此,本文提出了一種新的深度學習架構,3DGT-DDI,由3D圖神經網絡和預訓練文本注意機制組成,用3D分子圖結構和位置信息來增強模型對DDI的預測能力,使模型能深入探索藥物亞結構對DDI關系的影響。結果表明,3DGT-DDI的預測性能優于其他最先進的模型。此外,對文本和分子圖結構的特征權重可視化證明了3DGT-DDI的可解釋性。

2.模型介紹??3DGT-DDI的整體框架如下:

該模型主要由3部分組成:3D圖神經網絡、預訓練的文本注意力機制和位置嵌入。 2.1 3D圖神經網絡

??3D圖用表示,其中為全局特征向量,為節點特征向量,為邊集,為節點的位置信息。一般的 3D 圖模型消息傳遞更新方程類似于: ??3DGT-DDI使用SchNet作為3D圖模型,輸入原子的位置表示和類型,進行幾何建模: ??1. 輸入藥物的SMILES,生成3D構象,利用MMFF94優化得最優構象的原子位置表示和類型; ??2. 代表個原子的特征表示; ??3. SchNet的濾波器函數將位置(距離)映射到具體的濾波器值,從而更新原子特征: ??4. 聚合上述信息,SchNet的消息更新函數如下: ??5. 最后,利用CNN融合SchNet得到的特征,得最終特征表示: 2.2 文本及位置嵌入

??輸入文本信息,通過融合SCIBERT的多個隱藏層得到文本嵌入,此外還加入位置嵌入,以便提取更完善的上下文信息。 ??1. 輸入文本 ??2. 對于每一個,生成三個向量Query,Key,Value: ??3. 計算Attention: ??4. 最后,融合SCIBERT的多個隱藏層,利用CNN進行卷積,獲得最終的文本嵌入: 其中,為融合的隱藏層數。

3.實驗??本文在DDI extraction 2013和DrugBank數據集上進行實驗。 3.1. 模型性能

??結果表明,3DGT-DDI的預測性能優于目前最先進的模型。 3.2. 消融實驗

??結果表明,使用所有組件(3D圖神經網絡、預處理的文本注意力機制和位置嵌入)的3DGT-DDI模型表現最好。 3.3. 誤差分析

3.4. 可解釋性

??3D 圖網絡的最后一層輸出上,分子上每個原子的注意力權重代表其對分類的影響。 ??光敏劑Verteporfin位于圖的中心,周圍是與其發生反應以增強光敏性的藥物: ?

??硝酸鹽藥物與PDE5抑制劑產生相互作用: ?

??結合文本信息及藥物結構的注意力權重: ?

4.總結

??本文提出了一個基于注意力的深度學習框架3DGT-DDI,由預訓練的文本模型和3D圖模型組成,用于預測和深入解釋DDI。與傳統方法使用分子2D信息不同,本文引入了3D信息,將其與文本藥物描述信息相結合。實驗表明,3DGT-DDI性能優于其他基線模型;且通過可視化文本和分子圖結構的特征權重,3DGT-DDI具有較好的可解釋性。總的來說,3DGT-DDI學習了藥物分子的3D結構,并結合了藥物分子的文本信息,提高了DDI預測效果;可視化DDI可以有效幫助醫學研究人員更深入地了解聯合用藥或不良反應背后的機制。

參考文獻

文章地址 //academic.oup.com/bib/article-abstract/23/3/bbac134/6576451

代碼地址

付費5元查看完整內容

本文介紹一篇來自浙江大學宋明黎教授課題組和侯廷軍教授課題組聯合發表的一篇文章。該文章提出了一種用于化學反應預測的緊湊的分子字符串表示。該方法基于分子的SMILES字符串表示和Transformer語言翻譯模型,通過在預處理階段對訓練集中的輸入輸出字符串進行對齊操作,來約束輸入與輸出之間的編輯距離并保證兩者的一一對應關系。這使得模型能從學習復雜的SMILES語法中解脫出來,而專注于學習與化學反應相關的化學知識。

1 研究背景 如何高效地設計有效的分子合成路徑是藥物設計與發現的一個重要研究領域。傳統的基于規則的分子合成專家系統往往需要大量的人工編碼規則。這種做法不但會受到規則的限制,而且隨著反應規則的增加,人工編碼規則的成本會越來越高,因此人們開始探索通過計算的方法來預測反應路徑。近年來隨著人工智能技術的興起,利用深度學習模型來進行反應預測成為了一種可行的方案。這些反應預測模型大體上可以劃分成兩類方法:基于選擇的以及基于生成的。基于選擇的方法將合成預測轉化成一個打分或分類問題,其目的是為了盡可能挑出可行的反應模板或目標分子來完成反應預測。這類方法由于在一定程度上引入了編碼后的化學知識,更容易完成反應預測,但都無法預測訓練集以外的模板或目標分子,這使得其難以泛化到復雜的實際應用中。基于生成的方法則可以緩解這一問題,因此如何提升基于生成的方法的效果成為了一個重要問題。

在當前基于生成的方法中,一種流行的計算模式是先將分子用SMILES字符串表示,再使用Transformer等自然語言翻譯模型來將反應預測建模成機器翻譯的問題。SMILES(simplified molecular-input line-entry specification)是一種根據分子圖的深度優先遍歷(depth-first traversal)而生成的分子的字符串表示形式,由于其本身的易讀性和易使用性,在反應預測領域得到了廣泛應用。由于SMILES是由深度優先遍歷而生成的,所以一個分子往往可以通過枚舉的方式,來獲得多個有效的SMILES表示形式,稱之為randomized SMILES。因此,一個化學反應通常也可以用多組不同的輸入輸出來表示,這作為深度模型的數據增強的一種手段而被許多模型所使用。但因為缺乏輸入與輸出之間明確的對應關系,這種數據增強實際上隱含了輸入和輸出之間的一對多關系,這使得計算模型不僅得掌握用于化學反應的相關知識,還得學習復雜的SMILES語法。盡管當前有一些標準化算法(canonicalization algorithm)可以將保證一個分子只能有一個canonical SMILES來表示,但這些標準化算法往往是針對單一分子而設計的,沒有考慮化學反應中反應物和生成物的SMILES之間的關系。因此通過這些算法而獲得的輸入輸出SMILES對,盡管保證了輸入和輸出的一一對應關系,但往往使得輸入和輸出之間較大的編輯距離(edit distance),最終導致了模型的搜索空間過大;同時這些算法也使得模型無法枚舉SMILES來進行數據增強來緩解模型的過擬合問題。

如圖1所示,與前人使用的randomized SMILES和 canonical SMILES不同,本研究提出的Root-aligned SMILES(R-SMILES),通過將輸入和輸出的根原子進行對齊的方式,不僅保證了輸入和輸出之間的一一對應關系,也大大約束了輸入和輸出之間的編輯距離,使得兩者之間高度相似。這些性質使得模型從學習復雜的SMILES語法中解脫出來,并專注于學習化學反應相關的化學知識。作者將R-SMILES應用到Transformer模型上,在正向反應和逆向反應的多個反應預測任務都進行了實驗,都取得了當前最先進的效果。作者還通過可視化Transformer模型中的交叉注意力,來進一步證明模型掌握到了想要的化學反應知識。此外,作者還證明了R-SMILES相比于以往的SMILES表示,在復雜反應(如手性反應)上更加具有優勢。最后作者通過讓模型預測了多條文獻中切實存在的多步反應路徑,來闡述在該方法在復雜的現實場景中的應用潛力。

圖1. 在逆向反應預測中基于不同的分子表示的輸入和輸出的對比。

2 實驗方法 實驗任務 作者在反應物到生成物、生成物到反應物、生成物到合成子、合成子到反應物等多個化學反應預測任務上都進行了實驗。為了簡化,將反應物(Reactant)簡寫為R,生成物(Product)簡寫為P,合成子(Synthon)簡寫為S,對應的反應預測任務也簡寫為P2R,R2P,P2S,S2R等。

數據集 本研究中使用了三個公開的分子反應數據集:USPTO-50K,USPTO-MIT與USPTO-FULL,這三個數據集分別包括大約50,000、400,000、1,000,000條反應數據。作者是用了與前人相同的數據劃分方式來保證對比的公平性。考慮到現實場景中往往無法獲知反應類型,在本研究中進行的所有實驗都不包括反應類型的信息。

R-SMILES 在逆向反應的P2R階段中,獲得R-SMILES的流程如表1所示,其中包含以下主要步驟:(1)隨機挑選一個帶有原子映射的反應SMILES作為原始數據;(2)在生成物SMILES中隨機挑選一個原子作為根原子,在表1中挑選了[Cl:8]作為根原子;(3)根據挑選的根原子,獲得一個新的生成物SMILES(4)移除生成物SMILES中的原子映射信息。(5)從左往右遍歷新的生成物SMILES的原子映射,如果該原子映射在某一個反應物分子的SMILES中出現,那么這個原子映射就作為該反應物SMILES的根原子。在表1中,[C:1]和[Cl:8]被選為兩個反應物分子的根原子;(6)根據新的根原子,獲得新的反應物SMILES;(7)將(4)和(6)中獲得的反應物和生成物的SMILES進行字符劃分,獲得模型最終的輸入和輸出。逆向反應的P2S階段的根對齊操作也與此類似。對于逆向反應的S2R階段,作者將生成物和合成子拼湊在一起作為模型的輸入。為了最小化輸入和輸出之間的編輯距離,作者將具有一一對應關系的合成子和反應物之間進行根對齊操作,而生成物則是向最大的合成子對齊。在正向反應的R2P階段,作者將生成物向最大的反應物進行對齊。 表1. 在逆向合成的P2R階段進行根對齊操作

3 實驗結果 使用R-SMILES后的編輯距離 表2. 有無根對齊下的編輯距離比較。Datasetxm::m為數據增強的倍數。Pro.:生成物SMILES。Rea.:反應物SMILES。

作者首先分析了在有無根對齊操作下,對于逆向預測的P2R階段的輸入輸出之間的編輯距離的變化。編輯距離指的是由一個字符串通過增加、修改、刪除字符來獲得另一個字符串所需要的操作數。可以看到與canonical SMILES對比時(即不進行數據增強的情況),使用R-SMILES后在三個數據集上編輯距離分別下降了21%、21%和16%。而在與randomized SMILES對比時(即進行數據增強的情況),R-SMILES減小編輯距離的效果變得更加顯著。在USPTO-50K數據集上進行5倍數據增強時,在使用R-SMILES后編輯距離保持不變,而不使用R-SMILES時編輯距離從17.9增長到了28.3,甚至達到了使用R-SMILES后的編輯距離的兩倍以上。

表3. 在USPTO-MIT數據集上R2P階段的top-K正確率。

表4. 在USPTO-50K(上)、USPTO-MIT(中)、USPTO-FULL(下)數據集上的P2R階段的top-K正確率。

與其他先進方法的比較 作者在這里主要選擇了top-K正確率來與其他方法進行比較,top-K正確率代表的是預測的前K個結果中出現正確結果的百分比。

**正向反應預測:**作者在兩種不同的實驗設置“separated”和“mixed”下進行了實驗。這兩種實驗設置的區別是是否在輸入的反應物中區分出試劑。如表3所示,可以看到無論是在哪一種實驗設置下,作者所提出的方法在除了top-1之外的所有正確率都取得了最好的效果。

逆向反應預測:作者在三個數據集上都進行了實驗。實驗證明,在數據量較小的USPTO-50K數據集上,作者提出的R-SMILES的方法在同類別的無模板(template-free)和半模板(semi-template)方法中的多個top-K正確率都達到了最先進的效果,其中無模板的方法甚至取得了與基于模板(template-based)的方法相媲美的效果。在數據量更大的USPTO-MIT和USPTO-FULL數據集上,作者的方法不僅在同類方法中取得了最先進的效果,且也大大優于基于模板的方法。在這里作者指出,在較大的數據集上,基于模板的方法的準確率會隨著模板數量增多而下降,同時也無法覆蓋測試集上的模板,最終導致了較低的準確率。

注意力可視化 作者進一步展示了在分別使用canonical SMILES和R-SMILES情況下訓練出來的模型進行逆合成預測時的注意力可視化的對比。作者隨機從測試集中挑選了四個分子的canonical SMILES作為輸入,并將Transformer的交叉注意力進行可視化,結果如圖2所示。在圖2a中,作者指出對于使用canonical SMILES訓練的模型,當輸入和目標輸出是高度相似的情況,模型可能可以捕捉到兩者之間的對齊信息并做出正確的預測,但對于每一個輸出的字符而言,都需要過分地關注于SMILE語法相關的字符,如‘)’,且這一現象存在于所有基于canonical SMILES所獲得的注意力圖中。而基于R-SMILES所獲得的注意力圖則不存在該現象,同時也做出了正確的預測。在圖2c中,盡管輸入和目標輸出是高度相似的,但基于canonical SMILES訓練的模型則給出了一張無序的注意力圖并做出了錯誤的預測。作者認為這表示了其捕捉對齊能力的不足。而對于圖2e, g中的輸入和輸出并不相似的反應,基于canonical SMILES訓練的模型再次給出了無序的注意力圖并且預測失敗。而基于R-SMILES的訓練的模型,對于這三個反應則成功地給出了有序的注意力圖并預測出了想要的R-SMILES。作者認為這些結果都說明了R-SMILES使得模型能夠專注于反應的化學知識,最終達到提高模型的預測準確性的目的。

圖2. 由canonical SMILES(左)和R-SMILES(右)所獲得的注意力可視化。

圖3. 在復雜反應上的top-10逆向反應預測正確率。(a) 根據新增原子數的正確率;(b)在反應有無手性時的正確率。

對復雜反應的正確率提升 新增原子數量:在圖3a中,作者指出,無論新增原子是多少,在使用R-SMILES的情況下總能取得更好的效果,而且這一提升會隨著新增原子數量的增多而增大,尤其是對于數據量較少的情況。這是因為R-SMILES減少了輸入和輸出之間的差異后,模型能夠更多地專注于新增的片段。

手性反應:手性是在立體化學中一項重要的分子屬性。在圖3b中可以看到,在不使用R-SMILES的情況,手性反應的正確率明顯低于沒有手性的反應的正確率(下降13.3%),而在使用R-SMILES后這一差距大大縮小(下降4.3%)。作者指出R-SMILES在兩方面上幫助了手性反應的預測正確率的提升:(1)這是由于手性反應的編輯距離減小的程度更加顯著;(2)對于USPTO數據集,進行R-SMILES對齊后的手性標志在反應前后往往是一致的,這大大降低了模型的學習難度。

多步逆合成反應預測 作者通過迭代使用基于R-SMILES訓練的逆合成預測模型,成功地復現了多種分子在文獻中報告的逆合成路徑,進一步驗證了方法的有效性。其中對于抗痛風藥非布索坦,作者除了復現了文獻中報告的逆合成路徑之外,還通過模型預測,提出了一條潛在的新的合成路徑,如圖4a所示。作者分別從產率和價格上分析了這兩條路徑:(1)作者指出第二條路徑中使用的硼酸酯,相比于第一條路徑的硼酸有更好的熱穩定性,且硼酸頻哪醇的引入可以有效地減少副反應的產生,即可以有效地提高產率;(2)在Reaxys數據庫中可以發現,第二條路徑的原材料相比于第一條路徑要便宜得多,因此作者認為他們的方法可能為非布索坦提出了一條更好的合成路徑。

圖4. 由R-SMILES訓練的模型所提出的多步逆合成預測路徑。

4 總結 本文提出了一種用于反應預測的新的分子表示形式R-SMILES,這一方法可以大大縮小輸入和輸出之間的編輯距離并保證輸入和輸出之間的一一對應關系。基于這一方法的Transformer模型能在當前主流的公開數據集USPTO上取得最先進的反應預測效果。作者還進一步展示了這一方法在復雜反應、多步逆合成預測上的效果來驗證方法的有效性。文章最后作者也指出R-SMILES可以與當前已有的自動化原子映射工具如Indigo、RXNMapper等相結合,應用到沒有原子映射的其他數據集上。這些結果表明對于反應預測而言,R-SMILES是一種更為合理的分子字符串表示形式,有望能幫助到相關領域的研究人員。

參考資料 Root-aligned SMILES: A Tight Representation for Chemical Reaction Prediction. Chem. Sci. 2022. DOI: 10.1039/D2SC02763A

付費5元查看完整內容

今天給大家介紹韓國江原國立大學Umit V.等人在2022年在Nature Communications發表的一篇名為“Retrosynthetic reaction pathway prediction through neural machine translation of atomic environments”的文章[1]。盡管有機化學的知識已經積累了幾十年,但為藥物分子設計有效的合成路線仍然是有機合成中的一項關鍵任務。在這項工作中,作者提出一種新的單步逆合成預測方法:RetroTRAE,即通過學習參與化學反應的原子的環境變化來預測候選反應物。結果顯示,在UPSTO測試數據集上的Top-1準確率為58.3%,在相似化合物較多的情況下,準確率為61.6%,優于其他基于神經機器翻譯的逆合成方法。同時該方法可有效解決基于SMILES方法的不可解釋性以及生成無效字符串等問題研究背景

逆合成設計是有機化學的關鍵問題之一。現有的逆合成方法可分為基于模板的方法和無模板的方法。其中基于模板的逆合成方法不僅需要克服枚舉反應模板而導致的高計算成本,且只能預測模板庫中的反應。而無模板方法可有效避免上述的問題,在預測逆合成時表現出更強的泛化能力。無模板方法可進一步細分為基于圖神經網絡的逆合成預測算法和基于序列的逆合成預測算法。其中,基于序列的逆合成預測算法將反應路線的預測問題看作一項語言翻譯任務來處理,將產物的SMILES轉化為反應物的SMILES。但目前生成的無效SMILES字符串數量較多,可分為兩種類型:(1)語法無效的SMILES字符串;(2)語法有效但語義無效的SMILES。 這項研究通過將反應物的原子環境(Atom Environments, AE)與目標分子相關聯,使用原子環境替代傳統的SMILES進行單步逆合成預測。該方法使我們通過關注與反應中心相關片段來捕捉化學變化。實驗結果表明該算法的性能大大優于現有方法。************模型與方法****************1.模型框架

作者使用原子環境(AE)替代SMILES進行逆合成預測,AE是指以特定原子為中心,不同“半徑”的圓形拓撲鄰域片段,也包含所涵蓋原子之間的所有化學鍵。其中,“特定原子”稱為中心原子,“半徑”指的是中心原子和所有共價鍵原子之間允許的最大拓撲距離。因此半徑為 r 的AE包含分子中與中心原子的拓撲距離為 r 或更小的所有原子,以及它們之間的所有鍵。根據定義,r = 0 的AE只包括中心原子類型的原子,表示為AE0。r = 1的AE包含中心原子、與中心原子相鄰的所有原子,以及中心原子與這些原子之間的所有鍵,表示為AE2。如圖1(b)所示,化合物苯的文本描述是以常見的SMILES、SMARTS模式,和新開發的SELFIES模式,以及代表ECFP指紋的AE。 圖1(a)提供了該模型的整體流程。首先將產物分解為一組AEs。由SMART模式描述的每個AE都與一個特殊的整數值有關。將AEs列表作為模型RetroTRAE的輸入序列,用該模型來預測反應物的AE序列。

圖1 (a):RetroTRAE模型流程圖;(b)苯的字符串表示以SMILES、SELFIES以及SMARTS模式。在AEs渲染中,中心原子以藍色突出,而芳香族和脂肪族環狀原子分別以黃色和灰色突出。通配符[*]被用來代表任何原子******[1]**********************2.分子片段比較

找到一組最準確地代表分子結構的最佳片段是提高逆合成預測性能的關鍵因素。因此作者使用多個不同的分子片段描述在單反應物測試集中進行逆合成預測評估。如表1所示,作者一共選擇了三種分子片段的描述方法進行比較,并分別使用不同的模型框架,性能評價選擇衡量相似度的谷本系數(Tanimoto Coefficient, Tc)。 首先,基于Transformer的逆合成模型,在準確性方面與以前基于BiLSTM的方法相比有很大的改進。其次,在MACCS、ECFP2、ECFP4、AE2、AE0∪AE2幾種不同的分子片段描述方法中,基于AE0∪AE2的分子Transformer模型性能最佳,達到了55.4%的精確匹配精度。增加生物活性相似的預測(Tc ≥ 0.85)后,準確率也相應提高,模型的總體準確率達到68.1%。因此,作者把具有AE0和AE2聯合的Transformer模型命名為RetroTRAE。 表1 在單反應物測試集中使用不同分子片段方案訓練的Transformer模型的性能總結以及與基于BiLSTM的模型的比較******[1]**********

**************結果與討論**************1.RetroTRAE模型性能

與基于SMILES的方法不同,使用AEs的一個優點是解碼不會生成無效或完全不同的分子。模型可解碼生成與真實分子高度相似的AEs預測集,為逆合成預測提供有用的信息。 除了采用精準匹配(Tc = 1.0)方式來評估準確率以外,作者在評估模型性能時又增加了四個不同評價節點,四個節點可以分為兩類:(a)硬閾值;(b)軟閾值。作者將硬閾值定義為單片段(SM)或雙片段(DM)差異。反之,將基于Tanimoto系數的任意閾值稱為軟閾值,如Tc ≥ 0.85,用來篩選具有相似生物活性的分子。作者更強調硬閾值的使用,與軟閾值相比,硬閾值(SM/DM)預測分子與真實分子相比,只有某些子結構、官能團等差異,這些小的差異很容易通過與真實分子的視覺比較,找到與真實反應物不同的片段類型和數量,然后進行改正。 作者使用經過過濾的美國專利反映數據集USPTO-full的子集進行模型的性能評估和比較。忽略數據集中的多組分反應,因為此類反應在整個數據集中所占比例不足1.65%。然后根據反應物的數量,最終確定兩個不同的數據集,分別包括單反應物(R—>P)和雙反應物(R1+R2—>P)類型的反應,大小分別為100 K 和314 K。 此外,作者就使用數據增強、是否使用位置編碼等問題對模型進行更廣泛的訓練。研究表示,使用數據增強、位置編碼以及超參數優化等方法均可提高模型準確率,穩定模型訓練。評估結果匯總在表2中。結果表示,在擴增10倍的單反應物和雙反應物數據集上,RetroTRAE在精確匹配(Tc = 1.0)方面達到了56.4%和60.1%的準確率。同時,作者適當放寬閾值提高模型成功率,當允許單片段突變(SM)時,單反應物和雙反應物的成功率分別增加到58.1%和60.9%。允許雙片段突變(DM)時,相應的預測結果提高為60.5%和62.7%。 表2 RetroTRAE模型預測準確率******[1]**********

2.模型的可解釋性

作者通過觀察注意力權重,以解釋該模型實際上學到了什么。RetroTRAE模型更關注反應中心附近的AEs變化,例如開環反應等,如圖2所示。這充分證明,與SMILES描述符相比,AE描述符是有化學意義的,而且本身是可以完全解釋的。且該模型可與適當的搜索算法(如蒙特卡羅樹搜索)相結合,預測多步逆合成路線。 圖2 解碼注意力可視化及RetroTRAE模型的可解釋性(a)單反應物數據集的開環反應;(b)雙反應物數據集的解離反應******[1]******3.逆合成預測樣例

如圖3所示,作者介紹針對硬閾值產生的三種預測結果,首先是為精確預測(圖3a),RetroTRAE模型在測試集中的精確預測率為58.1%。其次是發生SM和DM的情況(圖3b、圖3c)。據統計,解碼發生SM和DM的數量共占總預測量的3.3%。為了證明硬閾值(SM/DM)設定的可行性,作者隨機選擇了10個SM對和10個DM對,比較單片段和雙片段突變與真實分子之間的相似性。研究表明,20對結構的平均Tc為0.91,RDKit產生的指紋圖譜兩兩相似度為0.97,這些結果表明,硬閾值(SM/DM)所獲得的預測結果是較為可靠的。 在單片段突變(SM)情況下,所有相連的原子類型都要與真實分子相同,因此只可能會發生有兩種類型的結構變化。首先,由于單一原子環境的錯位(例如,在鄰位/間位/對位),可能出現一個新的原子環境(或現有的環境消失)。其次,在化合物末端增加或減少一個現有的AE。雙片段突變(DM)的情況一般發生在錯位的側鏈AE或單原子的替換。

圖3 RetroTRAE模型樣例(a)精準預測(b)單片段突變(c)雙片段突變,顏色表示原子級對總體相似度的貢獻(綠色:相似度得分增加,紅色:相似度得分減少,未著色:無影響)******[1]**********4.與現有模型比較

由于模型沒有預先提供反應類信息,因此作者將該方法與其他不考慮反應類標記的逆合成預測方法進行了比較。結果如表3所示。RetroTRAE模型達到了58.3%的平均top-1準確率,超過了現有的基于NMT的無模板模型。允許SM和DM時,模型準確率提高到61.6%,是目前逆合成模型的最佳水平。表3 無反應類別的逆合成預測模型的top-1準確率比較******[1]**********

5.通過原子環境檢索候選反應物

使用RetroTRAE模型進行預測后,得到的結果是預測反應物的AE的集合,可以通過數據庫搜索來檢索,成功檢索到即證明模型預測的AEs可以完全還原為真實分子或高度相似的分子。作者使用PubChem研究了1000個USPTO測試分子檢索反應物候選的成功率。檢索測試結果顯示,超過一半的預測(55.7%)可以被準確檢索(圖4)。允許SM后,檢索成功率提高了約30%。當允許DM時,所有的測試分子都能被成功檢索到。這證明模型得到的所有結果最多只有兩個AE的差異。以上結果表明,用AEs表示和預測分子是一種可行實用的方法。

圖4 在大型PubChem化合物庫檢索候選反應物****[1]********************總結

作者提出結合Transformer架構和原子環境(AE)表示法,開發了新的無模板逆合成預測模型,即RetroTRAE。實驗證明,與傳統的基于SMILES的逆合成預測模型相比,使用AE作為描述符進行逆合成預測精度提高,且具有可解釋性,同時解決結構指紋在無模板的逆合成方法中的應用問題。該研究結果將為利用序列數據開發化學的NMT模型提供新的可能性,相信這種方法在有機化學中具有廣闊的應用前景。 **參考文獻 **

[1] Ucak UV, Ashyrmamatov I, Ko J, et al. Retrosynthetic reaction pathway prediction through neural machine translation of atomic environments. Nat Commun, 2022. 13(1): p. 1186.


供稿:張紅文

校稿:刁妍妍/張夢婷編輯:毛麗韞華東理工大學/上海市新藥設計重點實驗室/李洪林教授課題組▼招聘博后▼華東理工大學李洪林教授團隊誠聘博士后

Li's Lab地址:上海市梅隴路130號 電話:課題組網站: 長按掃碼可關注

付費5元查看完整內容
北京阿比特科技有限公司