本文介紹華盛頓大學的蛋白質設計科學家D. Baker在2022年9月15發表在Science研究工作Robust deep learning–based protein sequence design using ProteinMPNN。研究團隊開發了一種基于深度學習的蛋白質序列設計方法 ProteinMPNN,它在計算機和實驗測試中均具有出色的性能。天然蛋白質骨架上,ProteinMPNN 的序列恢復率為 52.4%,而 Rosetta 為 32.9%。不同位置的氨基酸序列可以在單鏈或多鏈之間偶聯,從而能夠應用于當前廣泛的蛋白質設計任務。研究團隊使用 X-ray晶體學、cryoEM 和功能研究通過挽救以前失敗的蛋白質單體設計(使用 Rosetta 或 AlphaFold設計的蛋白質單體、環狀同源寡聚體、四面體納米顆粒和靶結合蛋白)證明了 ProteinMPNN 的廣泛實用性和高精度,
蛋白質序列設計問題是在給定感興趣的蛋白質骨架結構的情況下,找到一個可以折疊成該結構的氨基酸序列。Rosetta基于物理的方法將序列設計視為能量優化問題,尋找對于給定輸入結構具有最低能量的氨基酸同一性和構象的組合。深度學習方法已顯示出在給定單體蛋白質骨架的情況下快速生成候選氨基酸序列的前景,而無需對側鏈旋轉異構狀態進行大量計算。然而,迄今為止所描述的方法并不適用于當前蛋白質設計挑戰的全部范圍,并且尚未經過廣泛的實驗驗證。
研究團隊試圖開發一種基于深度學習的蛋白質序列設計方法,該方法廣泛適用于單體、環狀低聚物、蛋白質納米顆粒等。從具有 3 個編碼器和 3 個解碼器層以及 128 個隱藏維度的消息傳遞神經網絡 (MPNN) 開始,使用蛋白質骨架特征-Cα-Cα 原子之間的距離,相對Cα-Cα-Cα 幀方向和旋轉,以及主干二面角作為輸入。首先尋求改善模型在恢復天然單鏈蛋白的氨基酸序列方面的性能,因為它們具有骨架結構。基于CATH蛋白質分類,來自PDB 的一組 19,700 個高分辨率單鏈結構被分成訓練集、驗證集和測試集 (80/10/10 )。研究人員發現,包括 N、Cα、C、O 和基于其他主鏈原子放置的虛擬 Cβ 之間的距離作為附加輸入特征導致序列恢復從 41.2%(基線模型)增加到 49.0%。
為了能夠應用于廣泛的單鏈和多鏈設計問題,將固定的 N 到 C 端解碼順序替換為與順序無關的自回歸模型,其中解碼順序是從所有可能排列的集合中隨機采樣的,這也導致序列恢復的適度改進。順序不可知解碼可以在某些情況下進行設計。對于多鏈設計問題,為了使模型與蛋白質鏈的順序等價,將每條鏈的相對位置編碼保持在 ±32 個殘基并添加了一個二進制特征,指示相互作用對殘基是否來自相同或不同的鏈。研究人員使用靈活的解碼順序來固定對應位置集合中的殘基身份。對于偽對稱序列設計,鏈內或鏈之間的殘基可以類似地受到約束;例如對于重復蛋白質設計,每個重復單元中的序列可以保持固定。通過預測每個狀態的非歸一化概率然后取平均值,可以實現編碼兩個或多個所需狀態的單個序列的多狀態設計;更一般地,預測的非歸一化概率與一些正系數和負系數的線性組合可用于提升或降低特定骨架狀態的權重,以實現明確的正序列或負序列設計。這種多鏈和對稱感知模型的架構,我們稱之為ProteinMPNN。. 研究人員針對 PDB 中的蛋白質組裝(截至 2021 年 8 月 2 日)訓練 ProteinMPNN,通過 X -ray晶體學或cryoEM確定其分辨率優于3.5?,殘基少于 10,000 個。
用骨架噪音訓練提高了蛋白設計的模型性能
雖然蛋白序列設計方法通常側重于從高分辨率晶體結構中最大限度地恢復蛋白質骨架的序列,但這對于實際的蛋白質設計應用來說并不一定是最佳的。研究團隊發現,在添加了高斯噪聲的骨架上的訓練模型提高了 UniRef50 的 AlphaFold(平均 pLDDT>80.0)生成的蛋白質結構模型的序列恢復,而在未受干擾的 PDB 結構上的序列恢復顯著降低。 ProteinMPNN 加強了設計骨架的序列到結構映射:在一組從頭設計的包含使用 Rosetta 生成的骨架的配體結合口袋中,預測只有 2.7% 的原始設計序列折疊到設計目標結構,但在 ProteinMPNN 重新設計之后54.1% 被預測折疊到接近目標結構,將大大增加這些支架在設計小分子結合和酶功能方面的效用。
噪聲ProteinMPNN 模型生成的序列通過 AlphaFold 更穩健地解碼為 3D 坐標,這可能是因為噪聲模型更關注整體拓撲特征,例如由整體極性-非極性序列模式編碼,而不是局部結構細節。
ProteinMPNN的實驗評估
雖然計算機中的天然蛋白質序列恢復是一個有用的基準,但蛋白質設計方法的最終測試是其生成折疊成所需結構并在實驗測試時具有所需功能序列的能力。研究團隊針對一組具有代表性的設計挑戰評估了 ProteinMPNN,這些挑戰包括蛋白質單體設計、蛋白質納米籠設計和蛋白質功能設計。在每種情況下,都嘗試使用 Rosetta 或 AlphaFold 生成的序列來挽救先前失敗的設計。獲得了編碼設計的合成基因,蛋白質在大腸桿菌中表達,并在生化和結構上進行了表征。
結論
ProteinMPNN 解決序列設計問題的時間比 Rosetta 等基于物理的方法所需的時間少,該方法可進行大規模側鏈計算,在天然骨架上實現更高的蛋白質序列恢復,并挽救了以前失敗的使用 Rosetta 或 AlphaFold 設計的蛋白質單體、組件和蛋白質-蛋白質界面。與 Rosetta 和其他基于物理的方法不同,ProteinMPNN 不需要針對特定設計挑戰進行專家定制,因此它應該使蛋白質設計更廣泛地可訪問。這種穩健性反映了如何構建序列設計問題的根本差異。在傳統的基于物理的方法中,序列設計映射到識別其最低能量狀態是所需結構的氨基酸序列的問題。然而,這在計算上是棘手的,因為它需要計算所有可能結構的能量,包括不需要的低聚和聚合狀態。
ProteinMPNN 的高實驗設計成功率,以及計算效率、適用于幾乎所有蛋白質序列設計問題以及無需定制的要求,使其在蛋白質設計中具有非常廣泛的用途。ProteinMPNN 生成的序列也具有更高的結晶傾向,極大地促進了設計蛋白質的結構確。預測ProteinMPNN 生成的序列比原始天然序列更可靠和更準確地折疊成天然蛋白質骨架的觀察結果表明 ProteinMPNN 也可能廣泛用于改善重組表達的天然蛋白質的表達和穩定性。
參考資料 Robust deep learning based protein sequence design using ProteinMPNN. Justas Dauparas, Ivan Anishchenko, Nathaniel Bennett, Hua Bai, Robert J. Ragotte, Lukas F. Milles, Basile I. M. Wicky, Alexis Courbet, Robbert J. de Haas, Neville Bethel, Philip J. Y. Leung, Timothy F. Huddy, Sam Pellock, Doug Tischer, Frederick Chan, Brian Koepnick, Hannah Nguyen, Alex Kang, Banumathi Sankaran, Asim Bera, Neil P. King, David Baker. DOI: 10.1126/science.add2187
作者 | 鄭仰昆 審稿 | 楊崇周 指導 | 閔小平(廈門大學) 今天帶來的是美國馬薩諸塞州波士頓哈佛醫學院系統藥理學實驗室發表在nature biotechnology上的Single-sequence protein structure prediction using a language model and deep learning。
單序列結構預測是較為基礎的研究方向,蛋白質設計和量化序列變異對功能或免疫原性影響的研究等都需要單序列結構預測作為支持。AlphaFold2 和相關計算系統使用以多序列比對 (MSA) 編碼的深度學習和共同進化關系來預測蛋白質結構。盡管這些系統有很高的預測準確性,但其對于無法生成 MSA 的孤兒蛋白質的預測、快速設計結構仍然有些不足。
本文針對以上兩個問題設計了一個端到端可微循環幾何網絡 (RGN2),該網絡使用蛋白質語言模型 (AminoBERT) 從未對齊的蛋白質中學習潛在的結構信息,以此改進之前提出的RGN。RGN2 在孤兒蛋白質和設計蛋白質類別上的性能優于 AlphaFold2 和 RoseTTAFold,同時計算時間減少了 106 倍。并證明了蛋白質語言模型在結構預測中相對于 MSA 的實踐和理論優勢。
模型構造
圖1 RGN2的組織與應用
RGN2組成:RGN2 將基于轉換器的蛋白質語言模型(AminoBERT,黃色)與使用 Frenet-Serret 框架生成蛋白質骨架結構(綠色)的 RGN 相結合。在初步構建側鏈和氫鍵網絡后,隨后使用 AF2Rank(藍色)對結構進行細化。
**RGN:**基于機器學習的 RGN,利用源自 MSA 的位置特異性評分矩陣(PSSM)預測蛋白質結構,將PSSM 結構關系參數化為相鄰殘基之間的扭轉角,從而可以在 3D 空間中順序定位蛋白質骨架(骨架幾何結構包括每個氨基酸的 N、Cα 和 C' 原子的排列)。盡管 RGN1 不依賴用于生成 MSA 的協同進化信息,但對 PSSM 的要求需要多個同源序列可用。RGN2改進了RGN,利用了一種自然的方式來描述在整個多肽水平上旋轉和平移不變的多肽幾何形狀。這涉及使用 Frenet-Serret 公式在每個 Cα 碳嵌入參考框架;然后通過一系列轉換輕松構建主干。
**AminoBERT: **AminoBERT 旨在捕獲一串隱含指定蛋白質結構的氨基酸中的潛在信息。為了生成 AminoBERT 語言模型,本文使用從 UniParc 序列數據庫獲得的約 2.5 億天然蛋白質序列訓練了一個 12 層轉換器。訓練任務第一個是預測序列中同時屏蔽的2-8個連續殘基,強調從全局而不是局部上下文中學習。第二個是識別打亂的“塊排列”順序,塊排列是連續的蛋白質片段交換,保留了局部序列信息,但破壞了全局連貫性,鼓勵轉換器從整個蛋白質序列中發現信息。RGN2 的 AminoBERT 模塊以自我監督的方式獨立于幾何模塊進行訓練,無需微調。
**數據:**RGN2 訓練是使用 ProteinNet12 數據集和僅由源自 ASTRAL SCOPe 數據集(版本 1.75)的單個蛋白質域組成的較小數據集進行的。因為本文觀察到兩者之間沒有可檢測到的差異。
圖2比較 RGN2 和 AF2 對孤兒蛋白的結構預測
表1 RGN2 和 AF2、RF 和 trRosetta 跨 330 個目標的預測時間比較
**結果:**本文使用dRMSD 和 GDT_TS 評估了預測準確性。堆積條形圖2顯示了 149 種從頭設計的孤兒蛋白質。條形高度表示蛋白質長度。對于富含單螺旋和彎曲或散布有螺旋的氫鍵轉角的蛋白質,RGN2 優于所有其他方法。表1展示了對于沒有同源序列的蛋白預測時花費的時間是RGN2明顯占優的。
總結
RGN2 是使用機器學習從單個序列預測蛋白質結構的首次嘗試之一。在設計孤兒蛋白質結構的情況下具有許多優勢,因為這些蛋白質通常無法生成多序列比對。RGN2 通過將蛋白質語言模型 (AminoBERT) 與基于 Frenet-Serret 公式的簡單直觀的 Cα 骨架幾何參數化方法融合來實現這一點。AF2 和 RF 的無模板和無 MSA 生成均比 RGN2 慢 >105 倍。本文認為,未來同時使用語言模型和 MSA 的混合方法可能會優于單獨使用任何一種方法。
參考資料 Chowdhury, R., Bouatta, N., Biswas, S. et al. Single-sequence protein structure prediction using a language model and deep learning. Nat Biotechnol (2022). //doi.org/10.1038/s41587-022-01432-w
近日,索邦大學、巴黎大學、巴黎城市大學巴斯德研究所、以色列特拉維夫大學聯合發表了題為“Computational protein design with evolutionary-based and physics-inspired modeling:current and future synergies“的蛋白設計綜述文章。
蛋白質設計的機器學習方法正沿著兩條平行軌道快速發展:基于進化的方法和物理啟發的方法。兩種方法具有高度互補性。
基于進化的方法,前者推斷具有所需結構或功能的蛋白質序列集合共享的序列特征。后者使用機器學習surrogates估計關鍵生化特性,例如結構自由能、構象熵或結合親和力。
總結
1 基于進化的方法
(1) 目標特性的顯著優化需要探索含有來自野生型蛋白的許多突變的序列。然而,據估計多達50%的單點突變對功能有害,導致多個位點突變時成功率呈指數下降。
一種解決方案是將搜索限制在蛋白質自然進化過程中先前遇到或可能遇到的突變或突變組合。例如,Russ等人[9] 利用DCA設計了數百種不同的具有天然功能的脊索酸變位酶,成功率高(~30%)。最近各種機器學習生成模型,在各種酶和納米設計任務中取得了成功[10,11,12,13,14]。
(2) family-level模型缺點:不能在跨蛋白質家族中得到泛化,因此需要大量序列進行訓練。
克服這些限制的一個可能途徑是蛋白質語言模型,因為它們可以同時模擬不相關的蛋白質序列集。
2 物理啟發的方法
**(1)**蛋白質設計問題相當于在規定的構象狀態下(作為單體結構,與配體結合)找到具有低自由能的序列。基于力場的蛋白質設計的局限性包括計算成本高(基于蒙特卡洛的優化速度慢且效率低)、骨架結構的序列恢復率不令人滿意(30%-50%)以及實驗成功率有限。
a) Norn等人提出將負對數似然解釋為自由能的代理。他們用模型預測的幾何特征的概率來近似玻爾茲曼系綜中構象的概率。對于具有多個低能構象的序列,trRosetta預測的幾何特征分布通常很寬或多峰。因此,trRosetta估計的自由能比Rosetta能量更好地預測折疊到目標構象。
b) 模型預測分布的香農熵可以作為構象玻爾茲曼分布物理熵的代理。
**(2) **基于物理的方法的兩個基本挑戰:1)需要對結構構象空間進行廣泛采樣以估計熱力學量,以及2)探索巨大序列空間的高計算成本。
基于AlphaFold2, AlphaFold2-multimer和RoseTTAfold的幻覺方案其中預測不確定性(pLDDT或PAE)可以用作構象熵的代理。
3 基于進化和物理啟發的協同建模
(1)進化模型可以用于快速生成不同的序列庫,然后,根據計算密集型物理啟發模型中獲得的分數對候選序列進行優先排序。
(2) 訓練MSA和結構的聯合模型。使用進行信息對基于結構的序列生成模型進行微調,或者相反,使用結構信息對進化模型進行正則化。
(3) 將已知結構信息合并為先驗,例如使用結構感知transformer模型,如EvoFormer(其中結構作為模板提供)。
(4) 基于ML的分子動力學[60]或神經力場[76]的未來發展可能為理解目標蛋白的高親和力結合物的合理設計中的挑戰,擴展到其他類型的配體提供了重要動力。
01 基于進化的設計
基于進化的設計的主要步驟。從氨基酸序列開始,從序列數據庫中檢索同源序列,并構建多序列比對(MSA)。MSA具有多種進化模式,包括保守、成對共同進化和反映結構的高階共同進化以及功能約束。無監督機器學習從進化模式中提取適應度景觀fitness landscapes和表示,然后用于設計。
許多設計方案涉及對預先存在的天然蛋白質進行修飾,以獲得改進的或新穎的功能特性。目標特性的顯著優化需要探索含有來自野生型蛋白的許多突變的序列。然而,據估計,多達50%的單點突變對功能有害,導致多個位點突變時成功率呈指數下降。
一種解決方案是將搜索限制在蛋白質自然進化過程中先前遇到或可能遇到的突變或突變組合。
基于進化的設計包括三個主要步驟:**(i)收集和比對一組與野生型蛋白同源的序列,這些序列具有相似的結構和功能,(ii)構建統計/機器學習模型,該模型捕獲這些序列之間共享的共同模式,例如保守和共同進化,以及(iii)**生成不同于自然序列但保留共同模式的人工序列。
早期的模型,如**位置特異性評分矩陣(PSSM)**僅專注于捕獲位點特異性氨基酸頻率,而基于自監督機器學習的越來越復雜的統計模型已經開發出來。
Direct Coupling Analysis(DCA)方法捕獲了由協同進化產生的單點和成對相關性,允許對上位效應(epistatic effect)進行建模,并大幅減少搜索空間。
例如,Russ等人[9] 利用DCA設計了數百種不同的具有天然功能的脊索酸變位酶,成功率高(~30%)。基于序列分布的熵,他們估計,在10125個長度相同的可能序列中,1085個是基于單點模型的潛在設計候選,而當包括成對相關性時,只有1025個是合適的。
為了包含額外的高階統計數據,最近各種機器學習生成模型,在各種酶和納米設計任務中取得了成功[10,11,12,13,14]。重要的是,這些方法一些還學習到了蛋白質低維潛在空間表示,促進了序列空間的探索和多輪設計小規模實驗數據的整合。
除了直接生成新的蛋白質序列,進化模型還可以預測適應度改善突變,指導大規模篩選的文庫設計實驗,或者相反,從定向進化推斷適應度景觀實驗。
這種family-level模型的一個缺點是它們不能在跨蛋白質家族中得到泛化,因此需要大量序列進行訓練。
這對于僅在真核生物中保守的蛋白質尤其成問題。克服這些限制的一個可能途徑是蛋白質語言模型,因為它們可以同時模擬不相關的蛋白質序列集。
在大型、未標注的蛋白質序列數據庫熵訓練的蛋白質語言模型(UniRep, ESM-1b, ProVis, ProtTrans, ProteinBERT)旨在從約10-20%的殘基被mask或隨機突變的版本重建序列。
蛋白質化學一般理解源于masked語言模型,如氨基酸、二級結構元素或三級接觸之間的相似性。然后,可以進一步微調模型,以考慮蛋白質家族的特異性,甚至是具有低序列數和/或多樣性的家族。
Hie等人[27] 使用ESM-1b語言模型提出了各種抗病毒抗體的單點突變,并減少了重建誤差。在對最佳突變體進行實驗表征和重組后,他們發現4/7的測試抗體的結合親和力可以提高,masked語言模型也可用于MSA,而不是單個序列,如MSA transformer和EvoFormer(AlphaFold的子模塊)。
與單序列語言模型相比,MSA級模型顯示了改進的序列重建、接觸圖預測和zero-shot fitness預測,同時需要更少的參數。然而,我們注意到,目前還沒有從這些模型生成新序列的既定協議,因為它們不容易定義可直接或通過馬爾可夫鏈蒙特卡洛采樣的概率分布。
02 物理啟發的方法
物理啟發設計的主要步驟。從(部分或完全規定的)目標結構開始,首先構建適合相關深度學習算法的特征化表示。接下來,兩種互補的方法是可能的。首先,可以利用序列到結構預測算法來構建構象景觀的代理。后者然后用于設計一個自由能最小值位于目標構象的序列。第二,結構到序列算法可用于從結構生成合適的序列。它們依賴于目標和序列之間的匹配分數,該匹配分數可被優化以找到合適的序列。
蛋白質設計問題相當于在規定的構象狀態下(作為單體結構,與配體結合)找到具有低自由能的序列。設計方案的一個常見驗證指標是其序列恢復率:從蛋白質的結構開始,剝離其序列定義的側鏈,并從剩余的骨架原子重建新序列。序列恢復率是設計序列和原始序列之間的平均序列同一性:高值表明協議很好地概括了結構誘導的序列約束。
為此,已經開發了大量用于蛋白質設計應用的近似力場,包括Rosetta和FoldX。然而,這些力場是啟發式,不能faithfully解釋潛在的量子動力學和序列從非折疊狀態有效折疊到所述結構中能力。
**此外,評估自由能還涉及對目標狀態之外構象狀態的徹底探索。 **
基于力場的蛋白質設計的局限性包括計算成本高(基于蒙特卡洛的優化速度慢且效率低)、骨架結構的序列恢復率不令人滿意(30%-50%)以及實驗成功率有限。
在[37]中,Norn等人提出將負對數似然解釋為自由能的代理。換句話說,他們用模型預測的幾何特征的概率來近似玻爾茲曼系綜中構象的概率。盡管模型預測概率相對于構象空間沒有精確歸一化,但這種近似繞過了對構象空間進行廣泛采樣以進行自由能估計的要求。他們發現,對于具有多個低能構象的序列,trRosetta預測的幾何特征分布通常很寬或多峰。因此,trRosetta估計的自由能比Rosetta能量更好地預測折疊到目標構象。
類似地,模型預測分布的香農熵可以作為構象玻爾茲曼分布物理熵的代理[38]。熵最小化(所謂的幻覺協議)使蛋白質設計具有良好定義的結構,改結構僅部分指定或完全未指定。最近,還提出了基于AlphaFold2、AlphaFold2-multimer和RoseTTAfold的幻覺方案其中預測不確定性(pLDDT或PAE)被用作構象熵的代理[39,40]。這是由于觀察到AlphaFold2低置信度預測通常對應于蛋白質的無序區域[41]。
最后,對于蛋白質復合物的設計,Gainza等人[42,43]使用DL計算分子表面pathces之間的匹配分數作為結合親和力的代理。
重要的是,這些ML模型中的一些模型使得 **i)**它們的輸入蛋白質序列被表示為連續變量(例如,通過one-hot)并且 **ii)**它們的輸出相對于它們的輸入是可微的。
因此,可以在一階近似精度下,在單個反向傳播過程中同時評估輸入序列的所有單點突變。這使得基于梯度的優化比proposal/rejection Metropolis蒙特卡洛方案更有效[38]。
根據這些方法,一些研究小組成功設計了具有完全指定的或從頭骨架結構的蛋白質,并通過雙目標部分幻覺圍繞功能基序構建折疊。
一個潛在的限制是序列多樣性和氨基酸組成偏差。事實上,具有多種構象(例如,多個側鏈扭轉角)的氨基酸以及因此固有的不確定結構在這種置信度最大化方案中是不利的。因此,這些設計協議可能不包括可以有效采用目標折疊的序列的全部多樣性。這些協議的另一個弱點是可能存在“對抗性”最優值:序列對一組網絡權重具有高度自信的預測,但對另一組權重沒有,即“trick”網絡,而不是解決設計問題。
或者,可以嘗試直接預測給定折疊的合適序列,即所謂的逆折疊問題。與折疊問題不同,許多序列可以采用完全相同的折疊,因此,應該構造序列的分布。
一種方法是沿著目標骨架"thread“序列,計算序列和backbone之間的兼容性分數,并迭代地對其進行變異以提高其分數。
給定目標骨架構象,Zhou等人[48]基于其組成結構基序及其在蛋白質數據庫中的經驗氨基酸分布構建了粗粒度統計勢。然后,他們通過蒙特卡洛對相應的玻爾茲曼分布進行采樣,以生成不同的候選序列。
Anand等人使用三維卷積神經網絡,根據當前結構預測可能的氨基酸取代和相應的旋轉異構體狀態,并迭代突變蛋白質以生成折疊成TIM-barrel。這種協議在數學上等同于從Boltzmann分布采樣,其中能量函數是模型計算的負偽似然。
第二種方法是直接建立易于取樣的序列分布:基于粗粒度、基于圖的蛋白質骨架表示的自回歸生成模型允許在單次通過中生成完整序列。這些模型實現了更高的序列恢復率,并且與基于力場的方法相比計算強度低的多。它們已被用于固定骨架單體設計,以及多聚體和抗體設計。
最近,Dauparas等人使用自回歸信息傳遞神經網絡成功地設計了各種蛋白質。然而,我們注意到,與目標構象的兼容性并不保證沒有其他穩定構象。
對于單體設計,低溫取樣系統地丟棄不常見的氨基酸排列(例如,溶劑暴露的疏水性氨基酸),可能足以消除替代的穩定構象。然而,尚不清楚這是否足以進行多聚體設計,因為多聚體的設計需要暴露的疏水殘基,而疏水殘基更容易錯折疊。
總得來說,自回歸模型與物理模型之間的聯系尚不清楚。一方面,它們包括基于物理的先驗,如歐幾里得變換的局部性和不變性,并且它們學習與物理性質相關的氨基酸之間的相似性,以及有利的締合(如二硫鍵、鹽橋等)。
進一步表明,leave-one-out條件分布P(s_i | s_-i, backbone)可以預測突變對適應度的影響[39][40],因此可以解釋為物理能量的代理。另一方面,序列似然P(s| backbone) 的值取決于序列的解碼順序,不清楚選擇哪一個。可以說,自回歸重建P(s_1 | backbone)的初始分布更具統計性,而非物理性:該模型根據過去的經驗從骨架構型“猜測”氨基酸(例如,蛋白質核心通常由疏水殘基組成)。
盡管最近取得了進展,但這些方法仍有一些范圍局限:通過構建,它們不適合建模無序蛋白質或片段。變構運動或催化活性的微調仍然是一個主要挑戰,因為這些模型是基于靜態結構訓練的,并且是粗粒度的。
對于這種復雜的功能,仍有望取得進展,特別是基于機器學習的分子動力學[60]的發展,這可以解鎖具有復雜動力學行為的蛋白質設計。
另一個令人擔憂的來源是這些模型越來越偏離物理學:例如,AllphaFold隱式假設存在分子輔因子、翻譯后修飾或蛋白質伴侶,以正確折疊結構。因此,在實驗條件下,高度自信的insilico預測可能被證明是錯誤的,并且模型導出的匹配分數與目標物理特性的識別并不總是正確的。例如,基于trRosetta的幻覺方案[38]設計的一些蛋白質在體外形成同源寡聚體或聚集體,與單體insilico預測不一致。
03 Synergisitc methods
基于進化和物理啟發的方法在覆蓋范圍和范圍熵具有高度互補性。雖然受物理啟發的模型預測了一般的生物化學性質(單體和蛋白質配體或蛋白質-蛋白質復合物的穩定性),但基于進化的方法以不可知的方式學習了各種特定于家族的功能約束,包括穩定性或催化活性,還包括變構偶聯或均低聚物狀態的規范。因此,將這兩種方法結合起來來以獲得最佳成功率是很有吸引力的。這可以通過多種方式實現。
首先,進化模型可以用于快速生成不同的序列庫,然后,根據計算密集型物理啟發模型中獲得的分數對候選序列進行優先排序。示例包括RROSS和FUNCLIB網絡服務器,它們使用Rosetta和PSSM信息自動重新設計酶,以提高穩定性或改進催化活性。Tran等人和Das等人分別使用分子動力學的生成模型設計了細胞穿透和抗菌肽。
如果大部分進行設計序列具有令人滿意的物理分數,這種簡單方法就足夠了。否則,可能需要多目標優化/蒙特卡洛采樣來生成具有高進化可能性和物理分數的序列。通過優化Rosetta能量和Potts模型估計的進化分數的加權和,重新設計救援協議序列。
一個懸而未決的問題是,是否需要單獨的物理和進化模型。相反,我們能否從進化中學習物理相互作用,并反過來從結構預測進化?一個有希望的方向是訓練MSA和結構的聯合模型,該模型改編自語言和結構預測模型。其他選項可以包括使用進行信息對基于結構的序列生成模型進行微調,或者相反,使用結構信息對進化模型進行正則化。
關于基于進化的模型,需要更多的努力來開發能夠在蛋白質家族之間進行推廣的模型,同時保持計算可追蹤性(對整個社區的可訪問性)、可解釋性和定義良好的采樣協議。
另一個有趣的方向是將已知結構信息合并為先驗,例如使用結構感知transformer模型,如EvoFormer(其中結構作為模板提供)。此外,進化模型的訓練方案應該更好地考慮樣本之間的系統發育關系。Weinstein等人認為,在沒有適當處理系統發育的情況下,適應度預測性能可能會隨著模型復雜性的增加而穩定或降低,這是最近在語言模型中觀察的現象。概念上和實踐上的限制是進化約束的糾纏:當前模型不能選擇性地丟棄與體內相關但與工程蛋白無關的特定約束(例如,結合抑制劑蛋白的要求,對特定細胞隔室的充分性等)。相反,在家族水平上進化匹配的蛋白質可能不適合特定的生化任務(例如,它們可能結合相關配體,但不同于規定的配體)。
物理啟發的方法在設計具有完全或部分特定結構的單體和均低聚物方面取得了令人印象深刻的進展。
盡管取得了顯著進展,但目標蛋白的高親和力結合物的合理設計仍然極具挑戰性,總體成功率較低,需要通過定向進化進行后續的體外或體內優化[43,74]。
這源于 **i)**復合物失敗,其中設計的蛋白質可能由于錯誤折疊、不能結合靶蛋白或不能結合在所需位置而失敗 **ii)**蛋白質-蛋白質相互作用建模中的固有挑戰,這涉及部分溶劑化效應,并且經常涉及柔性區域,如免疫球蛋白環或肽。更一般而言,靜態構象的粗粒度建模排除了捕獲關鍵功能特征,如無序、中間催化狀態或變構運動。
基于ML的分子動力學[60]或神經力場[76]的未來發展可能為更好地理解這些功能開辟道路。擴展到其他類型的配體,如離子、核苷酸或小有機分子也是重要的未來方向。
雖然沒有系統地采用基于提議/接受或聯合優化的協同方法,但它們證明了成功率的提高,應在短期內更多地考慮。從長遠來看,根據結構預測MSA的模型,或者相反,基于結構的進化模型先驗,可以克服每種方法的當前限制,例如建模靈活性或進化約束的分離。
參考文獻
[9] W. P. Russ et al., An Evolution-Based Model for Designing Chorismate Mutase Enzymes, Science 369, 440 (2020). Evolution-based design. Here, the authors trained a Direct Coupling Analysis generative model on a multiple sequence alignment of chorismate mutase enzymes, and used it to generate a diverse set of artificial sequences. A high fraction (83%) of designed sequences had native-like functionality, despite having limited sequence identity to known natural proteins. [10] A. J. Riesselman, J. B. Ingraham, and D. S. Marks, Deep Generative Models of Genetic Variation Capture the Effects of Mutations, Nat. Methods 15, 10 (2018). 11A. Hawkins-Hooker, F. Depardieu, S. Baur, G. Couairon, A. Chen, and D. Bikard, Generating Functional Protein Variants with Variational Autoencoders, PLOS Comput. Biol. 17, e1008736 (2021). Evolutionary-based design. Here, the authors proposed regular and autoregressive variational autoencoders for generative modeling of protein sequences, and tested it for experimental design of luxA bacterial luciferase variants. They found that models trained on aligned rather than unaligned sequences were more successful at generating active sequences. In a second design iteration, they predicted solubility from learnt latent variables and used conditional sampling to generate soluble variants. [12] J. Tubiana, S. Cocco, and R. Monasson, Learning Protein Constitutive Motifs from Sequence Data, ELife 8, e39397 (2019). [13] D. Repecka et al., Expanding Functional Protein Sequence Spaces Using Generative Adversarial Networks, Nat. Mach. Intell. 3, 4 (2021). [14] J.-E. Shin, A. J. Riesselman, A. W. Kollasch, C. McMahon, E. Simon, C. Sander, A. Manglik, A. C. Kruse, and D. S. Marks, Protein Design and Variant Prediction Using Autoregressive Generative Models, Nat. Commun. 12, 1 (2021). [37] C. Norn et al., Protein Sequence Design by Conformational Landscape Optimization, Proc. Natl. Acad. Sci. 118, e2017228118 (2021). 38 I. Anishchenko et al., De Novo Protein Design by Deep Network Hallucination, Nature 600, 547 (2021). Physics-inspired design In this work, the authors generate a diverse set of sequences with unspecified but stable structures via “network hallucination”, i.e. a conformational entropy minimization scheme based on the trRosetta distogram predictor. About 20% of the designed sequences exhibited a stable fold and of those, the experimentally-determined structure matched well the predicted one. While no novel fold was discovered, hallucination can be used to efficiently scaffold binding motifs. [39] J. Wang et al., Scaffolding Protein Functional Sites Using Deep Learning, Science 377, 387 (2022). [40] P. Bryant and A. Elofsson, EvoBind: In Silico Directed Evolution of Peptide Binders with AlphaFold. [41] E. Porta-Pardo, V. Ruiz-Serra, S. Valentini, and A. Valencia, The Structural Coverage of the Human Proteome before and after AlphaFold, PLOS Comput. Biol. 18, e1009818 (2022). [42] P. Gainza, F. Sverrisson, F. Monti, E. Rodolà, D. Boscaini, M. M. Bronstein, and B. E. Correia, Deciphering Interaction Fingerprints from Protein Molecular Surfaces Using. [48] J. Zhou, A. E. Panaitiu, and G. Grigoryan, A General-Purpose Protein Design Framework Based on Mining Sequence–Structure Relationships in Known Protein Structures, Proc. Natl. Acad. Sci. 117, 1059 (2020). [60] X. Fu, T. Xie, N. J. Rebello, B. D. Olsen, and T. Jaakkola, Simulate Time-Integrated Coarse-Grained Molecular Dynamics with Geometric Machine Learning, arXiv:2204.10348. [76] S.-L. J. Lahey and C. N. Rowley, Simulating Protein–Ligand Binding with Neural Network Potentials, Chem. Sci. 11, 2362 (2020).
來源:智藥局 最近,來自華盛頓大學David Baker教授課題組聯合哈佛大學的科學家,描述了兩種深度學習方法來設計指定的功能位點的蛋白質,而無需指定的的蛋白質二級結構。
7月22日,論文以“Scaffolding protein functional sites using deep learning”為題發表在Science雜志上。
01、文章概述
蛋白質的生化功能通常由構成功能位點的殘基子集執行,因此具有新功能的蛋白質的設計可分為兩個步驟。
第一步:確定功能位點的空間結構和氨基酸序列,這些可以通過量子化學計算、片段對接計算,以及從天然蛋白中提取來獲得。
科學家重點關注第二步:運用給定的功能位點信息,設計折疊成包含該位點的三維(3D)結構的氨基酸序列。 從頭設計功能性蛋白的難題是能夠提出一個有穩定功能區域(活性位點、結合界面等)的整體骨架,并設計折疊成該結構的序列。但通常這這個過程分成兩步。
因此,理想的功能性蛋白不僅能將功能位點嵌入蛋白質骨架中,以保持最小的形變,且蛋白質骨架具有多樣性,還能同時生成骨架結構和氨基酸序列。
基于上述要求,研究人員使用兩種深度學習方法來設計功能蛋白。
第一種方式是**“Hallucination”**(幻覺,預測優化):通過限制功能區域的片段結構,用復合損失函數優化氨基酸序列,以折疊到包含所需功能位點的結構,AI經過不斷地迭代和優化,得到穩定的目標蛋白,并能在實驗室中制造和研究。
簡單來說,就像是對胡言亂語的單詞強加一些要求,然后計算機通過不斷地設計和改變,使之有意義,最終得到一個完整的故事。
第二種被稱為**“ Inpainting”(修復,蛋白質修復):即將特定的序列/活性位點輸入到軟件(RoseTTAFold神經網絡)中,軟件可以在幾秒內填補蛋白質結構的缺失部分,類似于使用語言模型補全給定的幾個單詞,該方法將蛋白質設計簡化為信息缺失—恢復問題。**
Hallucination和Inpainting的流程圖
兩種方式沒有高低優劣之分。
Hallucination(幻覺)耗費的算力更大,每次設計需要5—20分鐘,但準確度更高。因此當信息缺失區域更大時,Hallucination的效果更好,產生的蛋白質結構也更具多樣性。
02、應用案例及展望
實驗測試表明,通過幻覺和修復產生的許多蛋白質都按預期發揮作用,包括生成潛在的潛在的RSV疫苗、金屬結合蛋白、酶、以及結合PD-1 受體的蛋白質,這些設計的蛋白不僅能夠表達特定功能,在結構和序列上和天然蛋白也有較大的差距。
例如對呼吸道合胞病毒(RSV)的驗證,研究人員針對其抗原表位用AI設計了37個新興蛋白質,其中三個以0.9-1.3μM的結合力與RSV的中和抗體結合,為相關疫苗開發提供新的思路。
(淡黃色—天然蛋白質支架,橙色——天然功能基序,灰色—幻覺設計的支架,紫色—幻覺設計的功能基序)
“通過這兩種方式,可以在新設計的蛋白質中得到關鍵特征,這些特征可以是已知的結合基序,甚至是酶活性位點。”研究人員解釋。
可以說,本篇文章證明深度學習可用于設計具有多種功能的蛋白質,包括制造出可用作疫苗、癌癥治療甚至是消除空氣中碳污染的工具的蛋白質,對藥物研發和合成生物學都有重要的應用。
“這些都是非常強大的新方法,但仍有很大的改進空間,”論文通訊作者David Baker說道,“例如,設計高活性酶仍然非常具有挑戰性。”
值得一提的是,這篇論文已經是今年Baker課題組在Science發布的第三篇文章,整個課題組已經從蛋白質結構預測逐漸轉型為蛋白質設計。
本篇文章中也集成了課題組此前的工作,包括hallucination的蛋白質設計方法,從靶點結構設計蛋白質等。參考資料:DOI:10.1126/science.abn2100 //www.technologynetworks.com/drug-discovery/news/scientists-train-ai-to-generate-medicines-and-vaccines-363979
從蛋白質的初級氨基酸序列預測蛋白質的三維結構是結構生物學中一個長期存在的挑戰。最近,AlphaFold等方法通過將深度學習技術與相關蛋白質序列多序列比對的共同進化數據相結合,在這項任務上取得了顯著的性能。共同進化信息的使用對這些模型的準確性至關重要,沒有這些信息,它們的預測性能會大幅下降。然而,在活細胞中,蛋白質的三維結構完全由其原始序列和生物物理定律決定,這些定律使蛋白質折疊成低能量的構型。因此,通過學習一種高度精確的生物物理能量函數,應該可以僅從其原始序列預測蛋白質的結構。我們提供證據表明AlphaFold已經學會了這樣一個能量函數,并使用共同進化數據來解決尋找低能構象的全局搜索問題。我們證明,AlphaFold的學習電位功能可以用于以最先進的精確度對候選蛋白質結構的質量進行排序,而無需使用任何共同進化數據。最后,我們提出了一種方法,利用這個勢函數來預測蛋白質結構,而不需要MSAs。