蛋白質數據庫(Protein Data Bank)收錄著成千上萬實驗鑒定的蛋白質結構數據,可惜的是,目前PDB僅收錄35%的人源蛋白質的結構。近年發布的深度學習蛋白質結構預測工具AlphaFold2(AF2)能夠從蛋白序列準確預測蛋白質結構,可以在一定程度上彌補PDB收錄結構數量上的不足。然而如何評價AF2的預測結果的準確程度頗為重要。 近期,丹麥科技大學的Kasper P. Kepp教授團隊提出使用精確計算殘基的相對溶劑可及表面(relative solvent accessible area ,RSA)作為評估指標,可用以評價AF2對蛋白質結構預測的準確度。作者認為殘基的溶劑可及表面積包含著蛋白質功能和進化信息,是一個直接用于深度學習模型訓練或外部驗證的可解釋自然特征。為了驗證猜想,作者建立了一個AF2預測結構和實驗結構相對應的數據對庫并針對RSA進行了一系列測試。該工作近期發表于美國化學會出版的計算化學核心期刊Journal of Chemical Information and Modeling[1]。 首先,作者從AF2預測結構數據庫(AlphaFold Protein Structure Database)獲取人源參考蛋白質組;從PDB中獲取使用X-ray晶體學方法鑒定、分辨率<2.0?的人源蛋白質結構。然后將每個AF2結構先后通過匹配UniProt編號配對、序列比對,產生對應的數據對庫。為了探尋可能影響AF2性能的其他因素,作者依據(1)序列一致性比例(2)實驗結構的分辨率(3) 實驗結構是否為單體為基準,拆分成子數據集,將這些結構進一步整理成分為六個非重疊組。 隨后,研究者計算并比較了AF2生成結構(RSAAF)和實驗結構(RSAEP)中每個殘基主干的RSA,從平均RSAExp值計算出的平均絕對偏差(MAE)、平均符號偏差(MSD)和標準差(SD),發現僅針對蛋白質單體而言,MSD和SD值不依賴于序列一致性或實驗結構的分辨率,說明AF2預測單體結構的性能與配體的存在無關。
圖 1 根據序列一致性、實驗結構分辨率和實驗結構的單體-多聚體狀態分組的結果實驗對比的AF2和RSA值 為了確定AF2預測置信度pLDDT與預測****RSA的準確性是否相互影響,作者將結構對上的殘基按照pLDDT和RSA分別劃分區間,發現RSAAF沒有因殘基pLDDT值低受到影響(圖2A);但在高****RSA的殘基上AF2預測置信度較低,AF2對于低****RSA的包埋殘基預測更準確。(圖2B)
圖 2 pLDDT和RSA相關的偏差.(A)對pLDDT函數的偏差;(B)對RSAExp的偏差 然而,與蛋白質單體相比,多聚體結構更加復雜,存在著不同鏈之間的界面殘基,實驗結果也顯示了這種差異的存在(圖3左)。作者識別并移除了鏈界面可能具有較低溶劑可及性的殘基(與其他鏈殘基距離<3.5?),發現剩余殘基RSAAF和RSAExp之間的相關性更強,達到了單體數據對的相關性水平(圖3右)。實驗結果說明,AF2對多聚體蛋白復合物鏈界面殘基RSA的預測值存在偏高現象。
圖 3 多聚體實驗結構中的實驗與AF2 RSA值。界面殘留物(左)和非界面殘留物(右)的RSAAF和RSAExp的相關性。 研究者還認為AF2預測RSA的準確性也可能取決于氨基酸類型。實驗結果(圖4)說明最易預測的氨基酸往往是非極性的,例如異亮氨酸((I)、亮氨酸(L)等,該類氨基酸更多處于包埋殘基。而位于蛋白質表面區域的極性氨基酸和脯氨酸較難預測,如天冬氨酸(D)和谷氨酸(E)等,尤其是脯氨酸(P)。
圖 4 實驗和AF2結構之間的一致性取決于殘基類型;左:MAE。右:MSD(RSAAF?RSAExp);SDs顯示為藍點小結
****這項工作提出蛋白質局部殘基的相對溶劑可及表面(RSA)是一種包含著蛋白質功能和進化信息的自然特征,可用于評估AF2預測性能。通過作者研究發現RSA與AF2預測性能的相關性高度依賴于人源蛋白的單體/多聚體狀態;與AF2預測置信度高低、結構中輔因子和配體的存在與否、結構鑒定分辨率均無關。小編認為僅蛋白單體預測而言,該工作提出的RSA特征,可作為目前主流的評估AF2預測性能的RMSD、pLDDT等指標的補充,共同對AF預測結構準確性做出精確的評估。 參考文獻[1]B?k KT, Kepp KP. Assessment of AlphaFold2 for Human Proteins via Residue Solvent Exposure. J Chem Inf Model. 2022;62(14):3391-3400.
今天要為大家介紹的是清華大學唐杰教授課題組發表在 bioRxiv 上的文章 Improve the Protein Complex Prediction with Protein Language Models。本文提出了 ColAttn 方法,該方法利用蛋白質語言模型識別復合物的間相互作用,并進一步結合多序列比對方法來提升結構預測準確性。
1 介紹 現在有許多深度學習模型在計算生物結構。AlphaFold-Multimer 就提升了蛋白質復合物結構的預測水平,但其準確性依然取決于多序列比對(MSA)結果。相對于 AlphaFold2,AlphaFold-Multimer 需要構建間相互作用 MSA,但如何構建依舊是一個問題。同時,蛋白質語言模型也在不同的工作中被廣泛應用,它可以捕捉到序列中的約束和共進化信息。
本文中,作者首次提出了 MSA 配對算法 ColAttn,該算法把蛋白語言模型的輸出組合成聯合 MSAs 形式,利用 MSA Transformer 中的注意力得分從單鏈中識別配對同源物。該方法在異二聚體上展現了最好的結構預測準確率。作者同時把 ColAttn 與其他的 MSA 配對算法進行結合,準確率得到了進一步提升。
2 方法 本文提出的 ColAttn 模型如圖 1 所示。模型輸入一對查詢序列后,利用 JackHMMER 查詢 UniProt 數據庫生成 MSA,同類序列歸為同一個簇,MSA Transformer 評估每個 MSA 同源序列與查詢序列的注意力得分,再用相似的注意力得分匹配同類型的同源序列,直接拼接匹配的序列得到間相互作用,間相互作用 MSA 作為 AlphaFold-Multimer 的輸入來預測復合物結構。
圖 1:ColAttn 模型
列注意力(ColAttn)。列注意力權重矩陣由 MSA 的每一列通過 MSA Transformer 計算得來,其值可以視為每列中對齊氨基酸的相似性指標。把列注意力矩陣經過聚合得到對稱矩陣,第一行 S1 可看作查詢序列與 MSA 中其他序列的相似性。
對于一個查詢序列,首先得到每個MSA 的 S1,再根據 S1 中的相似性來對序列進行排序,最后把不同種的 MSA 拼接起來得到間相互作用。
余弦相似性(Cosine Similarity)。語言模型為每個序列生成了殘基水平的嵌入,序列的嵌入又由氨基酸嵌入聚合而成,序列相似性即為嵌入的余弦相似性。
Intra-ranking(IntraCos)。獲得每個序列的嵌入后,計算查詢序列與 MSA 序列的相似性,即得到了 S1,再像 ColAttn 一樣構建間相互作用。
Inter-ranking。給定兩個 MSA,計算這兩個 MSA 中序列兩兩之間的相似性,并提出了 InterGlobalCos 和 InterLocalCos 兩個構建間相互作用算法。
3 結果 作者從 PDB 中挑選了 801 個相似性最高只有 40%的異質二聚體靶標,利用 AlphaFold-Multimer 來預測復合物結構。作者根據置信度得分或 DockQ 得分,把置信度小于 0.7 的 92 個靶標作為 pConf70 測試集,同理整理出 168 個靶標的 pConf80 測試集,以及 DockQ 小于 0.49 的 155 個靶標的 DockQ49 測試集。
對每個測試靶標,用 AlphaFold-Multimer 模型生成 5 個三維結構,取 top-k DockQ 得分的平均值和相應的成功率,結果圖表 1 所示。本文的方法效果最好。Block 方法最差,這說明鏈間共進化信息有助于復合物結構預測。
表 1:DockQ 得分和成功率
作者還比較了 ColAttn、AF-Multimer 和 Genome 方法在不同生物上的 DockQ 分布,如圖 2 所示,結果顯示 ColAttn 在真核生物上可以構建有效的間相互作用。
圖 2:不同方法在不同域上的 DockQ 比較
作者還可視化了 5D6H、6KIP、6FYH、4LJO 這 4 個 PDB 結構,如圖 3 所示,結果顯示用 ColAttn 方法能精準預測而使用 AlphaFold-Multimer 不能。
圖 3:結構可視化
不同 MSA 方法具有不同的優勢,作者任意結合兩種方法組合成 10 個模型,取 Top-5 DockQ 平均得分,如圖 4 所示,混合策略都顯著好于相應的單個策略。
圖 4:混合策略 Top-5 DockQ 得分平均結果
作者還研究了 ColAttn 與一些關鍵因素之間的聯系,如列注意力得分(ColAttn_score)、有效序列的數量(#Meff)、物種數量(#Species)和 MSA 深度(MSA_Depth),結果如圖 5 所示。
圖 5:不同因素對結果的影響
作者使用預測結構的 DockQ 得分評估 ColAttn 構建的間相互作用質量,當層數為 6 或 7 時,效果是最好的。在第 6-12 層構造的 ColAttn 在識別同源序列上比前幾層更加精確。
圖 6:不同層上 DockQ 得分
4 總結 本文基于預訓練蛋白語言模型,探索了一些 MSA 配對算法構建有效間相互作用的效果,這篇文章也是首次將蛋白語言模型用來構造聯合 MSA,實驗結果證明本文提出的 ColAttn 方法取得了最佳效果,特別是對于真核生物。本文也證明了混合的 MSA 配對策略也能提升結構預測準確性。 參考資料 Chen, B., Xie, Z., Xu, J., Qiu, J., Ye, Z. and Tang, J., 2022. Improve the Protein Complex Prediction with Protein Language Models. bioRxiv.
本文介紹華盛頓大學的蛋白質設計科學家D. Baker在2022年9月15發表在Science研究工作Robust deep learning–based protein sequence design using ProteinMPNN。研究團隊開發了一種基于深度學習的蛋白質序列設計方法 ProteinMPNN,它在計算機和實驗測試中均具有出色的性能。天然蛋白質骨架上,ProteinMPNN 的序列恢復率為 52.4%,而 Rosetta 為 32.9%。不同位置的氨基酸序列可以在單鏈或多鏈之間偶聯,從而能夠應用于當前廣泛的蛋白質設計任務。研究團隊使用 X-ray晶體學、cryoEM 和功能研究通過挽救以前失敗的蛋白質單體設計(使用 Rosetta 或 AlphaFold設計的蛋白質單體、環狀同源寡聚體、四面體納米顆粒和靶結合蛋白)證明了 ProteinMPNN 的廣泛實用性和高精度,
蛋白質序列設計問題是在給定感興趣的蛋白質骨架結構的情況下,找到一個可以折疊成該結構的氨基酸序列。Rosetta基于物理的方法將序列設計視為能量優化問題,尋找對于給定輸入結構具有最低能量的氨基酸同一性和構象的組合。深度學習方法已顯示出在給定單體蛋白質骨架的情況下快速生成候選氨基酸序列的前景,而無需對側鏈旋轉異構狀態進行大量計算。然而,迄今為止所描述的方法并不適用于當前蛋白質設計挑戰的全部范圍,并且尚未經過廣泛的實驗驗證。
研究團隊試圖開發一種基于深度學習的蛋白質序列設計方法,該方法廣泛適用于單體、環狀低聚物、蛋白質納米顆粒等。從具有 3 個編碼器和 3 個解碼器層以及 128 個隱藏維度的消息傳遞神經網絡 (MPNN) 開始,使用蛋白質骨架特征-Cα-Cα 原子之間的距離,相對Cα-Cα-Cα 幀方向和旋轉,以及主干二面角作為輸入。首先尋求改善模型在恢復天然單鏈蛋白的氨基酸序列方面的性能,因為它們具有骨架結構。基于CATH蛋白質分類,來自PDB 的一組 19,700 個高分辨率單鏈結構被分成訓練集、驗證集和測試集 (80/10/10 )。研究人員發現,包括 N、Cα、C、O 和基于其他主鏈原子放置的虛擬 Cβ 之間的距離作為附加輸入特征導致序列恢復從 41.2%(基線模型)增加到 49.0%。
為了能夠應用于廣泛的單鏈和多鏈設計問題,將固定的 N 到 C 端解碼順序替換為與順序無關的自回歸模型,其中解碼順序是從所有可能排列的集合中隨機采樣的,這也導致序列恢復的適度改進。順序不可知解碼可以在某些情況下進行設計。對于多鏈設計問題,為了使模型與蛋白質鏈的順序等價,將每條鏈的相對位置編碼保持在 ±32 個殘基并添加了一個二進制特征,指示相互作用對殘基是否來自相同或不同的鏈。研究人員使用靈活的解碼順序來固定對應位置集合中的殘基身份。對于偽對稱序列設計,鏈內或鏈之間的殘基可以類似地受到約束;例如對于重復蛋白質設計,每個重復單元中的序列可以保持固定。通過預測每個狀態的非歸一化概率然后取平均值,可以實現編碼兩個或多個所需狀態的單個序列的多狀態設計;更一般地,預測的非歸一化概率與一些正系數和負系數的線性組合可用于提升或降低特定骨架狀態的權重,以實現明確的正序列或負序列設計。這種多鏈和對稱感知模型的架構,我們稱之為ProteinMPNN。. 研究人員針對 PDB 中的蛋白質組裝(截至 2021 年 8 月 2 日)訓練 ProteinMPNN,通過 X -ray晶體學或cryoEM確定其分辨率優于3.5?,殘基少于 10,000 個。
用骨架噪音訓練提高了蛋白設計的模型性能
雖然蛋白序列設計方法通常側重于從高分辨率晶體結構中最大限度地恢復蛋白質骨架的序列,但這對于實際的蛋白質設計應用來說并不一定是最佳的。研究團隊發現,在添加了高斯噪聲的骨架上的訓練模型提高了 UniRef50 的 AlphaFold(平均 pLDDT>80.0)生成的蛋白質結構模型的序列恢復,而在未受干擾的 PDB 結構上的序列恢復顯著降低。 ProteinMPNN 加強了設計骨架的序列到結構映射:在一組從頭設計的包含使用 Rosetta 生成的骨架的配體結合口袋中,預測只有 2.7% 的原始設計序列折疊到設計目標結構,但在 ProteinMPNN 重新設計之后54.1% 被預測折疊到接近目標結構,將大大增加這些支架在設計小分子結合和酶功能方面的效用。
噪聲ProteinMPNN 模型生成的序列通過 AlphaFold 更穩健地解碼為 3D 坐標,這可能是因為噪聲模型更關注整體拓撲特征,例如由整體極性-非極性序列模式編碼,而不是局部結構細節。
ProteinMPNN的實驗評估
雖然計算機中的天然蛋白質序列恢復是一個有用的基準,但蛋白質設計方法的最終測試是其生成折疊成所需結構并在實驗測試時具有所需功能序列的能力。研究團隊針對一組具有代表性的設計挑戰評估了 ProteinMPNN,這些挑戰包括蛋白質單體設計、蛋白質納米籠設計和蛋白質功能設計。在每種情況下,都嘗試使用 Rosetta 或 AlphaFold 生成的序列來挽救先前失敗的設計。獲得了編碼設計的合成基因,蛋白質在大腸桿菌中表達,并在生化和結構上進行了表征。
結論
ProteinMPNN 解決序列設計問題的時間比 Rosetta 等基于物理的方法所需的時間少,該方法可進行大規模側鏈計算,在天然骨架上實現更高的蛋白質序列恢復,并挽救了以前失敗的使用 Rosetta 或 AlphaFold 設計的蛋白質單體、組件和蛋白質-蛋白質界面。與 Rosetta 和其他基于物理的方法不同,ProteinMPNN 不需要針對特定設計挑戰進行專家定制,因此它應該使蛋白質設計更廣泛地可訪問。這種穩健性反映了如何構建序列設計問題的根本差異。在傳統的基于物理的方法中,序列設計映射到識別其最低能量狀態是所需結構的氨基酸序列的問題。然而,這在計算上是棘手的,因為它需要計算所有可能結構的能量,包括不需要的低聚和聚合狀態。
ProteinMPNN 的高實驗設計成功率,以及計算效率、適用于幾乎所有蛋白質序列設計問題以及無需定制的要求,使其在蛋白質設計中具有非常廣泛的用途。ProteinMPNN 生成的序列也具有更高的結晶傾向,極大地促進了設計蛋白質的結構確。預測ProteinMPNN 生成的序列比原始天然序列更可靠和更準確地折疊成天然蛋白質骨架的觀察結果表明 ProteinMPNN 也可能廣泛用于改善重組表達的天然蛋白質的表達和穩定性。
參考資料 Robust deep learning based protein sequence design using ProteinMPNN. Justas Dauparas, Ivan Anishchenko, Nathaniel Bennett, Hua Bai, Robert J. Ragotte, Lukas F. Milles, Basile I. M. Wicky, Alexis Courbet, Robbert J. de Haas, Neville Bethel, Philip J. Y. Leung, Timothy F. Huddy, Sam Pellock, Doug Tischer, Frederick Chan, Brian Koepnick, Hannah Nguyen, Alex Kang, Banumathi Sankaran, Asim Bera, Neil P. King, David Baker. DOI: 10.1126/science.add2187