亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

今天要為大家介紹的是清華大學唐杰教授課題組發表在 bioRxiv 上的文章 Improve the Protein Complex Prediction with Protein Language Models。本文提出了 ColAttn 方法,該方法利用蛋白質語言模型識別復合物的間相互作用,并進一步結合多序列比對方法來提升結構預測準確性。

1 介紹 現在有許多深度學習模型在計算生物結構。AlphaFold-Multimer 就提升了蛋白質復合物結構的預測水平,但其準確性依然取決于多序列比對(MSA)結果。相對于 AlphaFold2,AlphaFold-Multimer 需要構建間相互作用 MSA,但如何構建依舊是一個問題。同時,蛋白質語言模型也在不同的工作中被廣泛應用,它可以捕捉到序列中的約束和共進化信息。

本文中,作者首次提出了 MSA 配對算法 ColAttn,該算法把蛋白語言模型的輸出組合成聯合 MSAs 形式,利用 MSA Transformer 中的注意力得分從單鏈中識別配對同源物。該方法在異二聚體上展現了最好的結構預測準確率。作者同時把 ColAttn 與其他的 MSA 配對算法進行結合,準確率得到了進一步提升。

2 方法 本文提出的 ColAttn 模型如圖 1 所示。模型輸入一對查詢序列后,利用 JackHMMER 查詢 UniProt 數據庫生成 MSA,同類序列歸為同一個簇,MSA Transformer 評估每個 MSA 同源序列與查詢序列的注意力得分,再用相似的注意力得分匹配同類型的同源序列,直接拼接匹配的序列得到間相互作用,間相互作用 MSA 作為 AlphaFold-Multimer 的輸入來預測復合物結構。

圖 1:ColAttn 模型

列注意力(ColAttn)。列注意力權重矩陣由 MSA 的每一列通過 MSA Transformer 計算得來,其值可以視為每列中對齊氨基酸的相似性指標。把列注意力矩陣經過聚合得到對稱矩陣,第一行 S1 可看作查詢序列與 MSA 中其他序列的相似性。

對于一個查詢序列,首先得到每個MSA 的 S1,再根據 S1 中的相似性來對序列進行排序,最后把不同種的 MSA 拼接起來得到間相互作用。

余弦相似性(Cosine Similarity)。語言模型為每個序列生成了殘基水平的嵌入,序列的嵌入又由氨基酸嵌入聚合而成,序列相似性即為嵌入的余弦相似性。

Intra-ranking(IntraCos)。獲得每個序列的嵌入后,計算查詢序列與 MSA 序列的相似性,即得到了 S1,再像 ColAttn 一樣構建間相互作用。

Inter-ranking。給定兩個 MSA,計算這兩個 MSA 中序列兩兩之間的相似性,并提出了 InterGlobalCos 和 InterLocalCos 兩個構建間相互作用算法。

3 結果 作者從 PDB 中挑選了 801 個相似性最高只有 40%的異質二聚體靶標,利用 AlphaFold-Multimer 來預測復合物結構。作者根據置信度得分或 DockQ 得分,把置信度小于 0.7 的 92 個靶標作為 pConf70 測試集,同理整理出 168 個靶標的 pConf80 測試集,以及 DockQ 小于 0.49 的 155 個靶標的 DockQ49 測試集。

對每個測試靶標,用 AlphaFold-Multimer 模型生成 5 個三維結構,取 top-k DockQ 得分的平均值和相應的成功率,結果圖表 1 所示。本文的方法效果最好。Block 方法最差,這說明鏈間共進化信息有助于復合物結構預測。

表 1:DockQ 得分和成功率

作者還比較了 ColAttn、AF-Multimer 和 Genome 方法在不同生物上的 DockQ 分布,如圖 2 所示,結果顯示 ColAttn 在真核生物上可以構建有效的間相互作用。

圖 2:不同方法在不同域上的 DockQ 比較

作者還可視化了 5D6H、6KIP、6FYH、4LJO 這 4 個 PDB 結構,如圖 3 所示,結果顯示用 ColAttn 方法能精準預測而使用 AlphaFold-Multimer 不能。

圖 3:結構可視化

不同 MSA 方法具有不同的優勢,作者任意結合兩種方法組合成 10 個模型,取 Top-5 DockQ 平均得分,如圖 4 所示,混合策略都顯著好于相應的單個策略。

圖 4:混合策略 Top-5 DockQ 得分平均結果

作者還研究了 ColAttn 與一些關鍵因素之間的聯系,如列注意力得分(ColAttn_score)、有效序列的數量(#Meff)、物種數量(#Species)和 MSA 深度(MSA_Depth),結果如圖 5 所示。

圖 5:不同因素對結果的影響

作者使用預測結構的 DockQ 得分評估 ColAttn 構建的間相互作用質量,當層數為 6 或 7 時,效果是最好的。在第 6-12 層構造的 ColAttn 在識別同源序列上比前幾層更加精確。

圖 6:不同層上 DockQ 得分

4 總結 本文基于預訓練蛋白語言模型,探索了一些 MSA 配對算法構建有效間相互作用的效果,這篇文章也是首次將蛋白語言模型用來構造聯合 MSA,實驗結果證明本文提出的 ColAttn 方法取得了最佳效果,特別是對于真核生物。本文也證明了混合的 MSA 配對策略也能提升結構預測準確性。 參考資料 Chen, B., Xie, Z., Xu, J., Qiu, J., Ye, Z. and Tang, J., 2022. Improve the Protein Complex Prediction with Protein Language Models. bioRxiv.

付費5元查看完整內容

相關內容

醫學領域的人工智能是使用機器學習模型搜索醫療數據,發現洞察,從而幫助改善健康狀況和患者體驗。 得益于近年來計算機科學和信息技術的發展,人工智能 (AI) 正迅速成為現代醫學中不可或缺的一部分。 由人工智能支持的人工智能算法和其他應用程序正在為臨床和研究領域的醫學專業人員提供支持。

作者 | 鄭仰昆 審稿 | 楊崇周 指導 | 閔小平(廈門大學) 今天帶來的是美國馬薩諸塞州波士頓哈佛醫學院系統藥理學實驗室發表在nature biotechnology上的Single-sequence protein structure prediction using a language model and deep learning。

單序列結構預測是較為基礎的研究方向,蛋白質設計和量化序列變異對功能或免疫原性影響的研究等都需要單序列結構預測作為支持。AlphaFold2 和相關計算系統使用以多序列比對 (MSA) 編碼的深度學習和共同進化關系來預測蛋白質結構。盡管這些系統有很高的預測準確性,但其對于無法生成 MSA 的孤兒蛋白質的預測、快速設計結構仍然有些不足。

本文針對以上兩個問題設計了一個端到端可微循環幾何網絡 (RGN2),該網絡使用蛋白質語言模型 (AminoBERT) 從未對齊的蛋白質中學習潛在的結構信息,以此改進之前提出的RGN。RGN2 在孤兒蛋白質和設計蛋白質類別上的性能優于 AlphaFold2 和 RoseTTAFold,同時計算時間減少了 106 倍。并證明了蛋白質語言模型在結構預測中相對于 MSA 的實踐和理論優勢。

模型構造

圖1 RGN2的組織與應用

RGN2組成:RGN2 將基于轉換器的蛋白質語言模型(AminoBERT,黃色)與使用 Frenet-Serret 框架生成蛋白質骨架結構(綠色)的 RGN 相結合。在初步構建側鏈和氫鍵網絡后,隨后使用 AF2Rank(藍色)對結構進行細化。

**RGN:**基于機器學習的 RGN,利用源自 MSA 的位置特異性評分矩陣(PSSM)預測蛋白質結構,將PSSM 結構關系參數化為相鄰殘基之間的扭轉角,從而可以在 3D 空間中順序定位蛋白質骨架(骨架幾何結構包括每個氨基酸的 N、Cα 和 C' 原子的排列)。盡管 RGN1 不依賴用于生成 MSA 的協同進化信息,但對 PSSM 的要求需要多個同源序列可用。RGN2改進了RGN,利用了一種自然的方式來描述在整個多肽水平上旋轉和平移不變的多肽幾何形狀。這涉及使用 Frenet-Serret 公式在每個 Cα 碳嵌入參考框架;然后通過一系列轉換輕松構建主干。

**AminoBERT: **AminoBERT 旨在捕獲一串隱含指定蛋白質結構的氨基酸中的潛在信息。為了生成 AminoBERT 語言模型,本文使用從 UniParc 序列數據庫獲得的約 2.5 億天然蛋白質序列訓練了一個 12 層轉換器。訓練任務第一個是預測序列中同時屏蔽的2-8個連續殘基,強調從全局而不是局部上下文中學習。第二個是識別打亂的“塊排列”順序,塊排列是連續的蛋白質片段交換,保留了局部序列信息,但破壞了全局連貫性,鼓勵轉換器從整個蛋白質序列中發現信息。RGN2 的 AminoBERT 模塊以自我監督的方式獨立于幾何模塊進行訓練,無需微調。

**數據:**RGN2 訓練是使用 ProteinNet12 數據集和僅由源自 ASTRAL SCOPe 數據集(版本 1.75)的單個蛋白質域組成的較小數據集進行的。因為本文觀察到兩者之間沒有可檢測到的差異。

圖2比較 RGN2 和 AF2 對孤兒蛋白的結構預測

表1 RGN2 和 AF2、RF 和 trRosetta 跨 330 個目標的預測時間比較

**結果:**本文使用dRMSD 和 GDT_TS 評估了預測準確性。堆積條形圖2顯示了 149 種從頭設計的孤兒蛋白質。條形高度表示蛋白質長度。對于富含單螺旋和彎曲或散布有螺旋的氫鍵轉角的蛋白質,RGN2 優于所有其他方法。表1展示了對于沒有同源序列的蛋白預測時花費的時間是RGN2明顯占優的。

總結

RGN2 是使用機器學習從單個序列預測蛋白質結構的首次嘗試之一。在設計孤兒蛋白質結構的情況下具有許多優勢,因為這些蛋白質通常無法生成多序列比對。RGN2 通過將蛋白質語言模型 (AminoBERT) 與基于 Frenet-Serret 公式的簡單直觀的 Cα 骨架幾何參數化方法融合來實現這一點。AF2 和 RF 的無模板和無 MSA 生成均比 RGN2 慢 >105 倍。本文認為,未來同時使用語言模型和 MSA 的混合方法可能會優于單獨使用任何一種方法。

參考資料 Chowdhury, R., Bouatta, N., Biswas, S. et al. Single-sequence protein structure prediction using a language model and deep learning. Nat Biotechnol (2022). //doi.org/10.1038/s41587-022-01432-w

付費5元查看完整內容

2022年9月12日,哈爾濱醫科大學生物信息科學與技術學院程亮教授團隊和南京醫科大學生物醫學工程與信息學院劉云教授團隊合作在Bioinformatics上發表文章《MGPLI: Exploring multigranular representations for protein-ligand interaction prediction》。作者提出了一個多粒度的蛋白-配體相互作用預測模型MGPLI。模型利用Transformer和CNN網絡分別提取了蛋白和藥物的子序列級和字符級信息,并將兩者融合用于預測蛋白-配體相互作用。模型在不同的數據集上進行了評估,性能表現優秀。

1 摘要

目標:預測針對蛋白質-靶標的潛在藥物結合親和力的能力一直是計算藥物發現的基本挑戰。傳統的體外和體內實驗成本高且耗時,需要在大的化合物空間上進行搜索。近年來,基于深度學習的藥物-靶標結合親和力(drug-target binding affinity, DTA)預測模型取得了顯著成功。

結果:隨著Transformer模型最近的成功,作者提出了一種多粒度蛋白質-配體相互作用(Multi-Granularity Protein Ligand Interaction, MGPLI)預測模型,該模型采用Transformer編碼器來表示字符級(character-level)特征和片段級(fragment-level)特征,建模殘基和原子或其片段之間可能的相互作用。此外,作者使用卷積神經網絡(CNN)提取基于transformer編碼器輸出的高級特征,并使用highway層融合蛋白質和藥物特征。作者在不同的蛋白質-配體相互作用數據集上評估MGPLI,與最先進的基線相比,本模型表現出更好的預測性能。

2 問題形式化可以將DTI預測視為一個回歸任務,即預測給定藥物-靶標蛋白對之間的親和力.藥物的SMILES序列可以表示為:.蛋白的氨基酸序列可以表示為:.則,數據集中的樣本可以表示為一個元組:

模型的目標則是通過建立一個從

的映射來預測藥物-靶標蛋白之間的親和力。

3 方法如圖1所示,論文的主要步驟為:

  1. Tokenization:劃分SMILES和氨基酸序列為字符級別和子序列級別的token序列。
  2. Token Embedding + Position Embedding,將1中劃分的token嵌入向量,且為每個token添加位置嵌入,將兩者之和作為token的最終嵌入。
  3. Transformer:利用Transformer對Token的嵌入進行編碼,分別學習到藥物和靶標蛋白不同粒度的高級特征。
  4. CNN:將3中的高級特征進行全局最大池化(global max pooling)進一步提煉特征,得到不同粒度的特征向量(Multi-grained feature vectors)。
  5. HighWay Layer:采用highway層融合4中得到的特征。
  6. Multi-Layer Perceptron:使用三個全連接層來預測結合親和力。

下面詳細介紹部分模塊。

圖1 MGPLI的模型架構

3.1 Tokenization

作者采用了名為sentence piece tokenization的算法對藥物和蛋白序列進行片段化。sentence piece tokenization是一種數據驅動的算法,可以直接使用原始序列數據進行訓練,并分詞。對于蛋白,作者在來自于UniprotKB數據庫的0.56M蛋白序列上進行了預訓練;對于藥物,作者在來自于ChEMBL數據庫的1.6M化合物上進行了預訓練。 作者將藥物和蛋白分別進行子序列化和字符化,這是兩種不同粒度的特征,可以互補。對于蛋白的氨基酸序列:,可以轉化為子序列的序列:,和字符序列:.對于藥物的SMILES序列:可以轉化為子序列的序列:,和字符序列:. 3.2 多粒度嵌入(Multigranular embedding)對于得到的四種序列,作者首先將其通過四個可訓練的矩陣, , , 進行嵌入。為了建模不同位置元件的關系,作者加入了絕對位置編碼(absolute positional encoding):為了避免過擬合和不穩定的訓練過程,作者添加了層標準化技術: 和dropout技術。綜上可以將四種序列信息表示為,即

**3.3 Transformer-CNN **Transformer-CNN的結構如圖2所示。transformer-CNN的優勢是可以同時提取對預測DTA重要的全局序列信息和局部特征信息。

圖2 提出的transformer-CNN的結構如右圖所示,transformer-CNN單元如左圖所示對于具體的transformer編碼器,自然包括多頭注意力層(multihead attention layer)、位置前饋網絡(positionwise feedforward network)、殘差連接(residual connection)和層標準化(layer normalization)。可以形式化表示為:

接著作者使用了一維卷積(one-dimensional CNNs)和最大池化(max pooling)操作來提取高級特征,可以將這個特征映射表示為:最后,則可分別得到藥物和靶標蛋白的不同粒度特征:,,,.

3.4 蛋白-配體預測結構親和力預測

由于不同粒度的子序列和原子級別的特征存在重疊(overlap),如果使用簡單的拼接操作可能會造成冗余且影響模型的學習能力。為了高效地整合不同粒度的信息,作者設計了一個簡單的帶有門控機制(gating mechanism)的highway 前饋網絡來控制信息的流動。每個highway層包括一個信息攜帶門(carry gate, Cr)和一個變換門(transform gate, Tr)。為了保持簡潔,作者定義。 最后作者采用均方差(Mean square error, MSE)作為loss函數,即 作者也給出了詳細的參數設置情況,如表1所示。表1 參數設置情況

4 數據和結果

4.1 數據作者采用了3個流行的數據集用于評估模型:KIBA數據集、Davis數據集、Binding DB數據集。數據的統計情況如表2所示。表2 使用的3個數據集的統計情況

4.2 評估指標作者采用了CI、MSE和Pearson相關系數定量衡量模型的性能。

4.3 模型比較

 圖3 MGPLI和對比方法在Davis、KIBA和BindingDB數據集上的性能表現。誤差線表示標準誤差。 如圖3所示,作者將MGPLI與其他基準模型進行了比較。作者也進行了消減實驗、藥物的靶標選擇性(target selectivity)、PDBBind數據集上的性能評估和比較等分析。

5 總結

在本文中,作者提出了一種新的深度學習模型MGPLI,用于DTA預測任務。MGPLI使用來自藥物和蛋白質序列的多粒度信息;也就是說,它整合了SMILES和氨基酸序列中的原子級和子序列級信息。利用這種多粒度信息,MGPLI通過使用transformer編碼器和CNN學習原子級和子序列級的表示。為了有效地融合這些表示,MGPLI采用highway層來調節連續訓練周期中的信息流。在三個公共數據集上的實驗結果表明,MGPLI在隨機劃分和盲劃分場景中都顯著優于最先進的模型。盡管MGPLI在PDBbind數據集上的表現并不優于最先進的方法,但本方法仍然是對蛋白質-配體相互作用預測任務上的有效貢獻,并可能在未來的工作中進一步增強。

參考資料

Junjie Wang, Jie Hu, Huiting Sun, MengDie Xu, Yun Yu, Yun Liu, Liang Cheng, MGPLI: Exploring Multigranular Representations for Protein-Ligand Interaction Prediction, Bioinformatics, 2022;, btac597,

//doi.org/10.1093/bioinformatics/btac597

--------- End ---------

付費5元查看完整內容
北京阿比特科技有限公司