作者 | 鄭仰昆 審稿 | 楊崇周 指導 | 閔小平(廈門大學) 今天帶來的是美國馬薩諸塞州波士頓哈佛醫學院系統藥理學實驗室發表在nature biotechnology上的Single-sequence protein structure prediction using a language model and deep learning。
單序列結構預測是較為基礎的研究方向,蛋白質設計和量化序列變異對功能或免疫原性影響的研究等都需要單序列結構預測作為支持。AlphaFold2 和相關計算系統使用以多序列比對 (MSA) 編碼的深度學習和共同進化關系來預測蛋白質結構。盡管這些系統有很高的預測準確性,但其對于無法生成 MSA 的孤兒蛋白質的預測、快速設計結構仍然有些不足。
本文針對以上兩個問題設計了一個端到端可微循環幾何網絡 (RGN2),該網絡使用蛋白質語言模型 (AminoBERT) 從未對齊的蛋白質中學習潛在的結構信息,以此改進之前提出的RGN。RGN2 在孤兒蛋白質和設計蛋白質類別上的性能優于 AlphaFold2 和 RoseTTAFold,同時計算時間減少了 106 倍。并證明了蛋白質語言模型在結構預測中相對于 MSA 的實踐和理論優勢。
模型構造
圖1 RGN2的組織與應用
RGN2組成:RGN2 將基于轉換器的蛋白質語言模型(AminoBERT,黃色)與使用 Frenet-Serret 框架生成蛋白質骨架結構(綠色)的 RGN 相結合。在初步構建側鏈和氫鍵網絡后,隨后使用 AF2Rank(藍色)對結構進行細化。
**RGN:**基于機器學習的 RGN,利用源自 MSA 的位置特異性評分矩陣(PSSM)預測蛋白質結構,將PSSM 結構關系參數化為相鄰殘基之間的扭轉角,從而可以在 3D 空間中順序定位蛋白質骨架(骨架幾何結構包括每個氨基酸的 N、Cα 和 C' 原子的排列)。盡管 RGN1 不依賴用于生成 MSA 的協同進化信息,但對 PSSM 的要求需要多個同源序列可用。RGN2改進了RGN,利用了一種自然的方式來描述在整個多肽水平上旋轉和平移不變的多肽幾何形狀。這涉及使用 Frenet-Serret 公式在每個 Cα 碳嵌入參考框架;然后通過一系列轉換輕松構建主干。
**AminoBERT: **AminoBERT 旨在捕獲一串隱含指定蛋白質結構的氨基酸中的潛在信息。為了生成 AminoBERT 語言模型,本文使用從 UniParc 序列數據庫獲得的約 2.5 億天然蛋白質序列訓練了一個 12 層轉換器。訓練任務第一個是預測序列中同時屏蔽的2-8個連續殘基,強調從全局而不是局部上下文中學習。第二個是識別打亂的“塊排列”順序,塊排列是連續的蛋白質片段交換,保留了局部序列信息,但破壞了全局連貫性,鼓勵轉換器從整個蛋白質序列中發現信息。RGN2 的 AminoBERT 模塊以自我監督的方式獨立于幾何模塊進行訓練,無需微調。
**數據:**RGN2 訓練是使用 ProteinNet12 數據集和僅由源自 ASTRAL SCOPe 數據集(版本 1.75)的單個蛋白質域組成的較小數據集進行的。因為本文觀察到兩者之間沒有可檢測到的差異。
圖2比較 RGN2 和 AF2 對孤兒蛋白的結構預測
表1 RGN2 和 AF2、RF 和 trRosetta 跨 330 個目標的預測時間比較
**結果:**本文使用dRMSD 和 GDT_TS 評估了預測準確性。堆積條形圖2顯示了 149 種從頭設計的孤兒蛋白質。條形高度表示蛋白質長度。對于富含單螺旋和彎曲或散布有螺旋的氫鍵轉角的蛋白質,RGN2 優于所有其他方法。表1展示了對于沒有同源序列的蛋白預測時花費的時間是RGN2明顯占優的。
總結
RGN2 是使用機器學習從單個序列預測蛋白質結構的首次嘗試之一。在設計孤兒蛋白質結構的情況下具有許多優勢,因為這些蛋白質通常無法生成多序列比對。RGN2 通過將蛋白質語言模型 (AminoBERT) 與基于 Frenet-Serret 公式的簡單直觀的 Cα 骨架幾何參數化方法融合來實現這一點。AF2 和 RF 的無模板和無 MSA 生成均比 RGN2 慢 >105 倍。本文認為,未來同時使用語言模型和 MSA 的混合方法可能會優于單獨使用任何一種方法。
參考資料 Chowdhury, R., Bouatta, N., Biswas, S. et al. Single-sequence protein structure prediction using a language model and deep learning. Nat Biotechnol (2022). //doi.org/10.1038/s41587-022-01432-w
本文介紹華盛頓大學的蛋白質設計科學家D. Baker在2022年9月15發表在Science研究工作Robust deep learning–based protein sequence design using ProteinMPNN。研究團隊開發了一種基于深度學習的蛋白質序列設計方法 ProteinMPNN,它在計算機和實驗測試中均具有出色的性能。天然蛋白質骨架上,ProteinMPNN 的序列恢復率為 52.4%,而 Rosetta 為 32.9%。不同位置的氨基酸序列可以在單鏈或多鏈之間偶聯,從而能夠應用于當前廣泛的蛋白質設計任務。研究團隊使用 X-ray晶體學、cryoEM 和功能研究通過挽救以前失敗的蛋白質單體設計(使用 Rosetta 或 AlphaFold設計的蛋白質單體、環狀同源寡聚體、四面體納米顆粒和靶結合蛋白)證明了 ProteinMPNN 的廣泛實用性和高精度,
蛋白質序列設計問題是在給定感興趣的蛋白質骨架結構的情況下,找到一個可以折疊成該結構的氨基酸序列。Rosetta基于物理的方法將序列設計視為能量優化問題,尋找對于給定輸入結構具有最低能量的氨基酸同一性和構象的組合。深度學習方法已顯示出在給定單體蛋白質骨架的情況下快速生成候選氨基酸序列的前景,而無需對側鏈旋轉異構狀態進行大量計算。然而,迄今為止所描述的方法并不適用于當前蛋白質設計挑戰的全部范圍,并且尚未經過廣泛的實驗驗證。
研究團隊試圖開發一種基于深度學習的蛋白質序列設計方法,該方法廣泛適用于單體、環狀低聚物、蛋白質納米顆粒等。從具有 3 個編碼器和 3 個解碼器層以及 128 個隱藏維度的消息傳遞神經網絡 (MPNN) 開始,使用蛋白質骨架特征-Cα-Cα 原子之間的距離,相對Cα-Cα-Cα 幀方向和旋轉,以及主干二面角作為輸入。首先尋求改善模型在恢復天然單鏈蛋白的氨基酸序列方面的性能,因為它們具有骨架結構。基于CATH蛋白質分類,來自PDB 的一組 19,700 個高分辨率單鏈結構被分成訓練集、驗證集和測試集 (80/10/10 )。研究人員發現,包括 N、Cα、C、O 和基于其他主鏈原子放置的虛擬 Cβ 之間的距離作為附加輸入特征導致序列恢復從 41.2%(基線模型)增加到 49.0%。
為了能夠應用于廣泛的單鏈和多鏈設計問題,將固定的 N 到 C 端解碼順序替換為與順序無關的自回歸模型,其中解碼順序是從所有可能排列的集合中隨機采樣的,這也導致序列恢復的適度改進。順序不可知解碼可以在某些情況下進行設計。對于多鏈設計問題,為了使模型與蛋白質鏈的順序等價,將每條鏈的相對位置編碼保持在 ±32 個殘基并添加了一個二進制特征,指示相互作用對殘基是否來自相同或不同的鏈。研究人員使用靈活的解碼順序來固定對應位置集合中的殘基身份。對于偽對稱序列設計,鏈內或鏈之間的殘基可以類似地受到約束;例如對于重復蛋白質設計,每個重復單元中的序列可以保持固定。通過預測每個狀態的非歸一化概率然后取平均值,可以實現編碼兩個或多個所需狀態的單個序列的多狀態設計;更一般地,預測的非歸一化概率與一些正系數和負系數的線性組合可用于提升或降低特定骨架狀態的權重,以實現明確的正序列或負序列設計。這種多鏈和對稱感知模型的架構,我們稱之為ProteinMPNN。. 研究人員針對 PDB 中的蛋白質組裝(截至 2021 年 8 月 2 日)訓練 ProteinMPNN,通過 X -ray晶體學或cryoEM確定其分辨率優于3.5?,殘基少于 10,000 個。
用骨架噪音訓練提高了蛋白設計的模型性能
雖然蛋白序列設計方法通常側重于從高分辨率晶體結構中最大限度地恢復蛋白質骨架的序列,但這對于實際的蛋白質設計應用來說并不一定是最佳的。研究團隊發現,在添加了高斯噪聲的骨架上的訓練模型提高了 UniRef50 的 AlphaFold(平均 pLDDT>80.0)生成的蛋白質結構模型的序列恢復,而在未受干擾的 PDB 結構上的序列恢復顯著降低。 ProteinMPNN 加強了設計骨架的序列到結構映射:在一組從頭設計的包含使用 Rosetta 生成的骨架的配體結合口袋中,預測只有 2.7% 的原始設計序列折疊到設計目標結構,但在 ProteinMPNN 重新設計之后54.1% 被預測折疊到接近目標結構,將大大增加這些支架在設計小分子結合和酶功能方面的效用。
噪聲ProteinMPNN 模型生成的序列通過 AlphaFold 更穩健地解碼為 3D 坐標,這可能是因為噪聲模型更關注整體拓撲特征,例如由整體極性-非極性序列模式編碼,而不是局部結構細節。
ProteinMPNN的實驗評估
雖然計算機中的天然蛋白質序列恢復是一個有用的基準,但蛋白質設計方法的最終測試是其生成折疊成所需結構并在實驗測試時具有所需功能序列的能力。研究團隊針對一組具有代表性的設計挑戰評估了 ProteinMPNN,這些挑戰包括蛋白質單體設計、蛋白質納米籠設計和蛋白質功能設計。在每種情況下,都嘗試使用 Rosetta 或 AlphaFold 生成的序列來挽救先前失敗的設計。獲得了編碼設計的合成基因,蛋白質在大腸桿菌中表達,并在生化和結構上進行了表征。
結論
ProteinMPNN 解決序列設計問題的時間比 Rosetta 等基于物理的方法所需的時間少,該方法可進行大規模側鏈計算,在天然骨架上實現更高的蛋白質序列恢復,并挽救了以前失敗的使用 Rosetta 或 AlphaFold 設計的蛋白質單體、組件和蛋白質-蛋白質界面。與 Rosetta 和其他基于物理的方法不同,ProteinMPNN 不需要針對特定設計挑戰進行專家定制,因此它應該使蛋白質設計更廣泛地可訪問。這種穩健性反映了如何構建序列設計問題的根本差異。在傳統的基于物理的方法中,序列設計映射到識別其最低能量狀態是所需結構的氨基酸序列的問題。然而,這在計算上是棘手的,因為它需要計算所有可能結構的能量,包括不需要的低聚和聚合狀態。
ProteinMPNN 的高實驗設計成功率,以及計算效率、適用于幾乎所有蛋白質序列設計問題以及無需定制的要求,使其在蛋白質設計中具有非常廣泛的用途。ProteinMPNN 生成的序列也具有更高的結晶傾向,極大地促進了設計蛋白質的結構確。預測ProteinMPNN 生成的序列比原始天然序列更可靠和更準確地折疊成天然蛋白質骨架的觀察結果表明 ProteinMPNN 也可能廣泛用于改善重組表達的天然蛋白質的表達和穩定性。
參考資料 Robust deep learning based protein sequence design using ProteinMPNN. Justas Dauparas, Ivan Anishchenko, Nathaniel Bennett, Hua Bai, Robert J. Ragotte, Lukas F. Milles, Basile I. M. Wicky, Alexis Courbet, Robbert J. de Haas, Neville Bethel, Philip J. Y. Leung, Timothy F. Huddy, Sam Pellock, Doug Tischer, Frederick Chan, Brian Koepnick, Hannah Nguyen, Alex Kang, Banumathi Sankaran, Asim Bera, Neil P. King, David Baker. DOI: 10.1126/science.add2187
編譯 | 陳睿哲 本文介紹一篇拜羅伊特大學2022年7月發表在nature communications的《ProtGPT2 is a deep unsupervised language model for protein design》。蛋白質設計在自然環境和生物醫學中發揮著重要作用,旨在為特定用途設計全新的蛋白質。受到近期Transformer架構在文本生成領域成功的啟發,作者提出ProtGPT2,一種在蛋白質空間上訓練的語言模型,用于生成遵循自然序列原則的全新蛋白質序列。ProtGPT2生成的蛋白質顯示出天然氨基酸傾向,而無序預測表明,88%的ProtGPT2生成的蛋白質是球狀的,與自然序列一致。蛋白質數據庫中的敏感序列搜索表明,ProtGPT2序列與自然序列有著遠親關系,相似網絡進一步證明,ProtGPT2是對蛋白質空間中未探索區域的采樣。ProtGPT2生成的序列在探索蛋白質空間的未知區域時,保留了天然蛋白質的關鍵特征。
1 簡介 近年來,預訓練大模型極大地推動了自然語言處理領域的發展。作者等人注意到,蛋白質序列與人類語言有著某種相似性。蛋白質序列可以描述為化學定義的字母、天然氨基酸的串聯,與人類語言一樣,這些字母排列形成二級結構元素(“單詞”),單詞的集合形成承擔功能的“句子”。蛋白質序列與自然語言一樣,是信息完整的:它們以極其高效的方式完全按照氨基酸順序存儲結構和功能。隨著自然語言處理領域在理解和生成具有接近人類能力的語言方面的非凡進步,作者假設這些方法為從序列的角度處理蛋白質相關問題打開了一扇新的大門,例如蛋白質設計。
受到自回歸語言模型(如GPT系列)和先前采用自回歸語言模型建模蛋白質序列的成功,作者想知道能否通過自回歸語言模型來建模蛋白質序列,以達到:1)高效地學習蛋白質序列語言;2)生成合適且穩定的蛋白質;3)理解所生成的序列與自然語言處理的關系,模型能否對未知蛋白質空間進行采樣。
因此,作者提出了ProtGPT2,一種具有7.38億參數的GPT架構的自回歸模型,能夠以高通量方式生成從頭蛋白質序列。ProtGPT2在整個蛋白質空間的百萬序列上進行訓練后,有效地學習了蛋白質語言。ProtGPT2生成的蛋白質序列具有與自然序列相同的氨基酸和無序傾向,同時在進化上遠離當前的蛋白質空間。二級結構預測計算出88%的序列是球狀的,與天然蛋白質一致。使用相似網絡表示蛋白質空間表明,ProtGPT2序列通過擴展自然超家族來探索蛋白質空間的未知區域。生成的序列顯示出與自然序列類似的預測穩定性和動態特性。由于蛋白質設計在解決從生物醫學到環境科學等領域的問題方面具有巨大潛力,作者認為ProtGPT2是高效高通量蛋白質工程和設計的重大進步。
2 方法 分詞與詞表 作者通過BPE分詞器在數據集上訓練,最終的詞表大小為50256個tokens,每個token平均包含了4個氨基酸。
數據集 作者以Uniref50作為訓練數據集,包含49874565個序列。隨機選擇10%的序列生成驗證數據集。最終的訓練和驗證數據集分別包含4488萬和499萬個序列。作者生成了兩個數據集,一個使用512的序列大小,另一個使用1024。本文中展示的結果對應于使用512大小訓練的模型(后文主模型)。
模型 作者使用堆疊Transformer decoder作為模型架構,ProtGPT2模型由36層Transformer decoder組成,模型維度為1280。在自回歸語言模型的條件下,每個句子的概率分布被定義為如下:
更具體的,作者通過優化句子中每個單詞與其前綴的負對數似然作為目標函數來進行優化:
模型訓練 輸入序列為BPE分詞器所分詞后得到的token序列。模型權重在訓練之前重新初始化。使用Adam(β1)優化模型?=?0.9, β2?=?0.999),學習率為1e-03。對于主模型,每個batch為512 tokens × 128 GPUs。每個GPU處理8個batch,總計1024個。模型在128個NVIDIA A100上訓練4天。使用DeepSpeed69進行并行訓練。
模型推理 作者使用主模型,使用不同的推理參數,對序列進行采樣。在采樣策略與采樣超參數上,重復懲罰在1.1到3.0之間以0.1進行微調,選擇token的范圍top-k從250到1000不等,每50采樣一次,并且top-p從0.7到1.0,窗口為0.05個單位(top-k采樣,模型會從概率前 k 大的單詞中抽樣選取下一個單詞;top-p采樣,設定概率閾值,取滿足閾值條件的樣本進行采樣)。基于以上的參數設定,為每種采樣參數生成100個序列,并將其氨基酸的頻率與自然序列進行比較。作者觀察了哪些參數在自然序列中七種最常見的氨基酸組中產生的差異較小。作者還探索了50到100范圍的beam search采樣,但在所有情況下都會產生較差的結果。為了確定自然序列中的氨基酸頻率以與ProtGPT2樣本進行比較,作者從Uniref50數據集中隨機選取了100萬個序列。作者通過微調超參數找到了最佳匹配參數,某個采樣過程如圖1所示。
3 結果 統計采樣 自回歸語言生成基于以下假設:序列的概率分布可以分解為條件下一個詞分布的乘積。然而,一個訓練好的語言模型生成不連貫的亂碼或重復文本并不罕見。作者簡要總結了本研究中應用的最常用的語言生成采樣策略與超參數。
貪婪搜索策略是在每次采樣時選擇概率最高的token。雖然算法簡單,但生成的序列是確定性的,很快也會變得重復(圖1a)。Beam search試圖通過保留最可能的候選詞來緩解這一問題,盡管生成的文本仍然存在重復性,人類文本往往會交替使用低概率和高概率token(圖1b)。最后,通過從前k個最可能的詞中隨機選取一個詞,隨機采樣遠離確定性采樣(圖1c,d)。
根據先前關于語言模型采樣策略的研究,受這項工作的啟發,作者按照不同的采樣策略和采樣超參數生成序列(圖1)。為了評估什么樣的采樣過程產生了最自然的相似序列,作者將生成的序列集的氨基酸傾向性與在自然蛋白質序列中發現的進行了比較。作者還觀察到貪婪搜索和Beam search會產生重復的確定性序列,而隨機采樣顯著改善了生成的傾向性(圖1)。此外,作者還觀察到,生成類似于自然序列的序列需要較高的k值,即最佳結果出現在k ?>?800的范圍內,作者特別選擇了k?=?950(圖1h)。作者還發現,當選擇1.2的重復懲罰時,采樣結果得到了改善。因此,本研究的其余部分使用了這些采樣參數。
ProtGPT2序列編碼球狀蛋白 為了在序列和結構屬性的背景下評估ProtGPT2生成的序列,作者創建了兩個數據集,一個是使用前面描述的推理參數從ProtGPT2生成的序列;另一個是從UR50隨機選擇的序列。每個數據集由10000個序列組成。由于ProtGPT2是以無監督的方式訓練的,作者的分析重點是驗證ProtGPT2序列的結構和生化特性。
作者首先研究了數據集中的無序和二級結構內容。之前已經表明,在細菌和古細菌中發現的蛋白質中約有14%是無序的。為此,作者運行IUPred335來分析ProtGPT2生成的序列是否比一組自然序列更容易無序。作者的分析顯示,在ProtGPT2生成的序列(87.59%)和自然序列(88.40%)中,球狀結構域的數量相似。已經報道了幾種檢測短內在無序區域的方法。由于作者的目標是提供跨數據集的球狀度和普遍無序的高水平比較,作者進一步使用IUPred3在氨基酸水平上分析了蛋白質序列。值得注意的是,作者的結果顯示兩個數據集的有序/無序區域分布相似,ProtGPT2和自然數據集中分別有79.71%和82.59%的有序氨基酸(表1)。
接下來,作者研究了無序中的相似性是否是等效二級結構元素含量的結果。為此,作者計算了ProtGPT2和自然序列數據集的PSIPRED預測。自然序列顯示α螺旋、β片和線圈含量分別為45.19%、41.87%和12.93%。ProtGPT2數據集的百分比分別為48.64%、39.70%和11.66%。這些結果表明,ProtGPT2生成的序列類似于球狀結構,其二級結構與在自然界中發現的類似。
ProtGPT2序列與自然序列 蛋白質在進化過程中通過點突變以及復制和重組發生了巨大變化。然而,通過序列比較,即使兩種蛋白質的序列有顯著差異,也可以檢測出它們之間的相似性。作者想知道ProtGPT2序列與自然序列的關系如何。為此,作者使用了HHblits,這是一種敏感的遠程同源性檢測工具,使用配置文件隱馬爾可夫模型根據數據庫搜索查詢序列。作者根據Uniclust30數據庫搜索ProtGPT2數據集中10000個序列的同源性。為了進行比較,作者還使用相同的設置對自然數據集執行了相同的搜索。此外,為了分析完全隨機序列與ProtGPT2序列的比較情況,作者還通過隨機選取詞表中的25個字母進行連接,構建了第三個數據集。
因為作者想對數據集與現代蛋白質空間的相關性進行定量比較,所以作者繪制了個體與序列長度圖(圖2)。具體來說,對于Uniclust30中發現的每一條路線,作者描述了具有最高個體和序列長度的路線。作為序列同一長度空間中的參考點,作者使用HSSP曲線,一個邊界集來定義蛋白質序列相關性的置信度。其特性低于該曲線的蛋白質,不一定具有類似的3D結構,也不可能具有同源性。由于ProtGPT2和隨機數據集中的序列不是蛋白質進化的結果,作者使用曲線作為已知閾值來比較數據集。
當查看曲線上方和下方的點擊分布時,作者觀察到HHblits在Uniclust30數據庫中發現了許多與自然序列數據集相關的點擊(圖2a)。具體來說,在10000個數據集序列中,9621個(96.2%)在HSSP曲線以上顯示出一致性。類似地,9295個ProtGPT2生成的序列(93%)在Uniclust30數據庫中也有對應的序列,它們在HSSP曲線上方對齊(圖2b)。相反,93%的隨機生成序列低于該閾值(圖2c)。盡管natural和ProtGPT2數據集的模式相似,但這兩個數據集在點擊分布上存在差異。一個標準差范圍為31.5–69.7%,自然數據集的平均同一性高于ProtGPT2集,范圍為32.9–64.1%(圖2a,b)。自然和ProtGPT2序列分布之間的差異無統計學意義(p值90%)。盡管ProtGPT2數據集中的365個序列在Uniclust30中具有高同一性序列,但它們在所有情況下都對應于低于15個氨基酸的比對,而自然數據集顯示760個序列超過90%,比對長度在14.8–77.3個氨基酸的一個標準差范圍內。這些結果表明,ProtGPT2有效地生成了與自然序列有遠親關系的序列,但不是記憶和重復的結果。
ProtGPT2生成有序結構 設計全新蛋白質序列時最重要的特點就是能否夠折疊成穩定的有序結構。作者在AlphaFold預測、Rosetta松弛分數和分子動力學(MD)模擬下,評估了ProtGPT2序列與自然和隨機序列的潛在適合度。
AlphaFold在0-100(pLDDT)范圍內生成其置信度的每殘留估計值。該分數已被證明與順序相關:低分數(pLDDT>50)往往出現在無序區域,而優秀分數(PLDD>90)出現在有序區域。在這里,作者對每個序列進行了五個結構預測。當采用每個序列的最佳評分結構時,數據集的平均pLDDT為63.2,當對每個序列的所有五個預測進行平均時,為59.6。此外,37%的序列顯示pLDDT值超過70。由于pLDDT分數是結構順序的代理,作者轉向自然和隨機數據集,看看它們與ProtGPT2序列相比如何。與之前的工作一致,自然數據集中66%的序列預測pLDDT值大于7043,整個數據集的平均值為75.3(補充圖2b)。相反,隨機數據集中的預測顯示pLDDT的平均值為44,pLDDT值超過70的序列中只有7.4%(補充圖2c)。
為了進一步驗證模型的質量,作者在三個數據集上執行了Rosetta RelaxBB。Rosetta Relax對Rosetta能量函數執行蒙特卡洛優化,從而產生不同的骨架和轉子分子構象。較低的羅塞塔能量構象與較松弛的結構相關。最新的羅塞塔能量力場與熱容、密度和焓等實驗變量密切相關。該評分函數反映了一種靜態蛋白質構象的熱力學穩定性。在這里,作者對三個數據集的30000個序列進行了Rosetta松弛實驗(圖3a)。一個廣泛的經驗法則是,總分(羅塞塔能量單位,REU)應介于?1和?3/殘基。作者在天然和ProtGPT2數據集中觀察到這種分布,平均值分別為1.90和1.73 REU/殘基。正如預期的那樣,隨機序列的數據集顯示平均值為0.13 REU/殘基。
作者進一步測試了ProtGPT2序列是否顯示出與自然序列類似的動態特性。蛋白質是動態實體,如果沒有其固有的靈活性,它們將無法與其他生物分子相互作用并在細胞中發揮其功能。為了評估ProtGPT2生成的序列是否在與天然蛋白質相同的范圍內顯示靈活性,作者隨機選擇每個數據集的12個序列,并運行了100個分子動力學(MD)的三個副本,共108條軌跡,總時間為10.8微秒。為了確保在模擬過程中觀察到的動力學不是不同pLDDT值的偽影,因此可能是不同的無序預測,作者確保數據集pLDDT平均值之間的差異在統計上沒有差異。自然和ProtGPT2數據集中每條軌跡的均方根偏差平均值分別為2.93和3.12?分別為(圖3b)。正如預期的那樣,隨機序列在軌跡期間顯示出顯著的偏差,平均值為9.41??. 雖然ProtGPT2序列的值高于自然序列,但分布沒有顯著差異。結果表明,ProtGPT2序列可能與自然界中發現的蛋白質具有類似的動力學特性。
ProtGPT2超越了當前蛋白質空間邊界 有幾項研究試圖將蛋白質序列的維度降低為幾個可識別的維度,以便進行分析。大多數表示方法包括(i)蛋白質結構的層次分類,如ECOD和CATH數據庫,(ii)笛卡爾表示和相似網絡。作者最近在一個網絡中表示結構空間,該網絡將蛋白質顯示為節點,當它們在common中具有同源和結構相似的片段時連接,并在Fuzzle數據庫中提供結果。該網絡代表來自七個主要SCOP類的25000個域,并表明現代已知的蛋白質空間既有連接的區域,也有“島狀”區域。
進化已經探索了所有可能的蛋白質序列,但并不可信。因此,作者想設計出探索蛋白質空間未探索區域的蛋白質,以及是否可以設計出新的拓撲結構和功能,提出了挑戰。作者將ProtGPT2序列整合到作者的蛋白質空間網絡表示中。為此,作者為每個SCOPe2.07和ProtGPT2序列生成了HMM配置文件,使用HHsearch以all對all的方式對它們進行比較,并用Protlego表示網絡。為了避免具有多個對齊的特定序列最終由網絡中的同一節點表示,作者用兩個不重疊的對齊復制條目。
該網絡包含59612個頂點和427378條邊,包括1847個組件或“島狀”簇(圖4)。主要成分聚集了一半以上的節點(30690),這一數字明顯高于在相同設置下生成的網絡中觀察到的數量,但不包括ProtGPT2序列,強烈表明ProtGPT2生成的序列橋接了蛋白質空間中的獨立島。作者從拓撲不同的作用域類中選擇了跨越網絡不同區域的六個示例,以在結構級別展示ProtGPT2序列(圖4)。特別是,作者報告了一個全β(751),兩個α/β(42661068),一個膜蛋白(4307),一個α?+?β(486)和全α(785)結構。這些結構說明了ProtGPT2在生成從頭結構方面的多功能性。對于每種情況,作者使用FoldSeek58搜索PDB數據庫中發現的最相似的蛋白質結構。ProtGPT2生成折疊良好的全β結構(751,4307),盡管最近取得了令人印象深刻的進展,但長期以來一直非常具有挑戰性。ProtGPT2還生成膜蛋白(4307),由于在指定膜內結構方面的挑戰和繁重的實驗表征,這對蛋白質設計提出了一個困難的目標。除了生成自然折疊代表外,ProtGPT2還產生了以前未收錄的拓撲結構。例如,作者報告了蛋白質4266,其拓撲結構與目前PDB收錄中的任何結構都不匹配,DALI Z分數低為5.4,RMSD為3.0??到PDB 5B48超過67個殘基(9%)。
然而,ProtGPT2序列最顯著的特性可能是其與所有先前設計的從頭結構的顯著偏差,這些結構通常具有環路和最小結構元素的理想拓撲。從頭蛋白質設計的優點是不攜帶任何進化歷史,但在實踐中,缺乏實例和更長的環阻礙了與其他分子相互作用和功能實現所需的裂縫、表面和空腔的設計。ProtGPT2序列類似于天然蛋白質的復雜性,具有多方面的表面,能夠分配相互作用的分子和底物,從而為功能化鋪平了道路。在圖4中,作者展示了結構486和1060,這是此類復雜結構的兩個示例。特別是,1068顯示了TIM-barrel褶皺,該拓撲迄今為止在從頭蛋白質設計中取得了成功,但其理想化結構已被證明具有挑戰性,無法通過額外的secondary elements和更長的環進行擴展。
保留的功能熱點 對FoldSeek發現的最佳點擊結構疊加進行檢查,發現了幾個配體相互作用殘基的側鏈保守的例子。圖5中顯示了兩個示例。最類似于序列357(圖5a)的自然結構對應于PDB代碼1X0P(鏈A),一個結合FAD的藍光傳感器域。當重疊結構時,作者觀察到357保留了側鏈結合熱點,三個殘基相同(D169、Q150和N131),兩個不同但能夠形成相同相互作用的殘基,即R165位的賴氨酸和K127位的組氨酸。序列475(圖5b)最類似于PDB代碼5M1T(鏈A),折疊成TIM-barrel并與細菌第二信使環二-3′,5′-鳥苷單磷酸(PDB三字母代碼C2E)結合的磷酸二酯酶。在五個側鏈相互作用的殘基中,ProtGPT2序列保留了三個殘基(Q455、R473和E469),并包括一個取代另一個能夠氫鍵的殘基(用于Q513的天冬氨酸)。值得注意的是,ProtGPT2以zero-shot生成了這些序列,即在這兩個特定折疊中沒有進一步微調。這些結果對蛋白質工程產生了重大影響,因為盡管同源性較低(357和45分別為31.1%和29.2%),但ProtGPT2似乎保留了生成序列中的結合位置,并可用于增加特定折疊和家族的序列。
4 總結 過去的2年里,利用人工智能方法的從頭蛋白質設計取得了驚人的成功。作者構建了一個自回歸語言模型ProtGPT2,ProtGPT2有效地學習了蛋白質語言。ProtGPT2可以生成與自然序列有遠近關系的序列,其結構類似于已知的結構空間,具有非理想化的復雜結構。由于ProtGPT2已在整個序列空間上訓練,因此該模型產生的序列可以對任何區域進行采樣,包括深色蛋白質組和傳統上認為在蛋白質設計領域非常具有挑戰性的區域,例如全β結構和膜蛋白。ProtGPT2蛋白質與遠親天然蛋白質結構的視覺疊加顯示,PROTGPT1還捕獲了功能決定簇,保留了配體結合的相互作用。由于人工蛋白質的設計可以解決許多生物醫學和環境問題,作者在蛋白質語言模型中看到了巨大的潛力。ProtGPT2設計在幾秒鐘內即可適應球狀蛋白質,無需進行進一步訓練。通過根據用戶序列微調模型,ProtGPT2可以適應特定的家族、功能或折疊。在這種情況下,ProtGPT2將能夠篩選與天然蛋白質相似的蛋白質,以改善、微調或改變天然蛋白質的特定生化功能。大規模篩選ProtGPT2設計的蛋白質庫可能會識別數據庫中未捕獲的蛋白質折疊以及在自然界中沒有相關對應功能的蛋白質。ProtGPT2是面向高效蛋白質設計和生成邁出的一大步,為探索設計蛋白質結構和功能的參數及其后續實際應用的實驗研究奠定了基礎。 參考資料 Ferruz, N., Schmidt, S. & H?cker, B. ProtGPT2 is a deep unsupervised language model for protein design. Nat Commun 13, 4348 (2022). //doi.org/10.1038/s41467-022-32007-7
項目主頁
代碼
蛋白質是生命的通用組成部分,幾乎在每個細胞過程中都發揮至關重要的作用。為特定目的設計新型蛋白質的能力有助于解決許多醫療挑戰。 2022年6月22日,來自西班牙赫羅納大學信息學與應用研究所的Noelia Ferruz等人在Nat Mach Intel雜志發表文章,討論了人工智能領域的最新進展--語言模型在蛋白質設計中的潛力和影響。
蛋白質序列在本質上類似于自然語言:氨基酸以多種組合方式排列,形成承載功能的結構,就像字母組成單詞和句子承載意義一樣。因此自然語言處理(NLP)的許多技術被應用于蛋白質研究問題。
過去幾年里,NLP領域有了革命性的突破。Transformer預訓練模型的實施使文本生成具有類似人類的能力。我們預計專用Transformer將會在不久的將來主導定制的蛋白質序列的生成。 對蛋白質家族的預訓練模型進行微調,將使他們能夠使用可能高度不同但仍具有潛在功能的新序列來擴展它們的庫。細胞區室或功能等控制標簽的組合將進一步實現新蛋白質功能的可控設計。此外,最近的模型可解釋性方法將使我們能夠打開”黑盒子",從而增強我們對折疊原理的理解。 早期的研究顯示了生成性語言模型在設計功能序列方面的巨大潛力。我們認為,使用生成性文本模型來創造新的蛋白質是一個很有前途的、在很大程度上未被開發的領域,本文討論了它對蛋白質設計可預見的影響。
主要內容 蛋白質設計的目的是創造出能發揮所需功能的定制結構。這一巨大的挑戰通常被稱為逆向蛋白質折疊問題:我們的目標不是尋找一個序列折疊的結構,而是獲得一個采用某種折疊的最佳序列。在數學上,這個問題是通過搜索由能量函數定義的序列-結構的全局最小值的優化算法來解決的。 盡管最廣泛使用的能量函數相對簡單,但每個位置的旋轉異構體和可能的組合的數量帶來了組合的爆炸。由于這種復雜性,新蛋白質的設計通常需要相當長的時間和精力,而且絕大多數的功能性蛋白質設計都是通過預先選擇天然存在的骨架、并隨后在迭代中優化其功能而實現的,而不是同時設計序列和結構以執行某種功能。 蛋白質最不尋常的特性之一,是它們在氨基酸序列中完全編碼了其結構和功能,并且它們以極高的效率做到這一點。在沒有生物物理約束的情況下,僅靠序列就能捕捉到蛋白質的特性,這為利用自然語言處理(NLP)方法進行蛋白質研究打開了一扇未被開發的大門。下文總結了自然語言和蛋白質序列之間的異同,并展示了NLP研究已經如何影響了蛋白質科學。**我們將強調該領域中最引人注目的發展,即Transformer架構。**隨后的章節將介紹Transformer的獨特生成能力是如何重塑蛋白質設計領域的。 我們希望本文能觸及人工智能和生物學領域,并鼓勵進一步合作,開發和調整NLP技術用于蛋白質設計。 蛋白質的語言 有幾個特征證明了人類語言和蛋白質序列之間的相似性,其中最明顯的可能是它們的分層組織。與人類語言類似,蛋白質是由字符串的連接表示的:20個標準氨基酸。然后字母組合成單詞,氨基酸組合成二級結構或保守的蛋白質片段。然后,就像單詞組合成帶有意義的句子一樣,片段可以組合成帶有功能的不同蛋白質結構(圖1a)。
圖1:蛋白質和語言之間的相似性 **語言和蛋白質的起源和演變也顯示出相似之處。**今天,有超過8000種語言,分為140多個語系,所有這些語言都起源于5萬至7萬年前在非洲中部使用的一種共同祖先語言。同樣,所有生活在地球上的生物都有一個(最后的普遍)共同祖先--LUCA--一種生活在40億年前的微生物,它已經包含了大多數現代蛋白質結構域,這些結構域通過進化而發展。
然而,必須注意的是,蛋白質和人類語言也存在差異,這對將NLP應用于蛋白質研究構成了挑戰。
首先,許多人類語言在書面文本中提供了清晰可辨的詞匯定義(中文是一個突出的例外),但在蛋白質中,"詞的邊界”卻不那么明顯。 其次,目前對蛋白質語言缺乏了解,類似于我們目前對許多已滅絕的語言缺乏了解。盡管我們有訓練蛋白質語言的語料庫,但對生成的序列的正確解釋仍將是一個挑戰,需要廣泛的實驗測試來破譯其功能。 再者,蛋白質的進化也明顯不同于語言的進化,它受到隨機性和環境壓力的影響,而且其語法不可避免地會包含許多不規則的地方。 總的來說,人類語言和蛋白質序列之間的不相似性給NLP在蛋白質設計中的應用帶來了巨大的挑戰。然而,盡管有這些挑戰,這兩個領域之間的明顯聯系為蛋白質研究領域提供了一個新的視角。
NLP對蛋白質研究的數十年影響 雖然不明顯,但NLP領域一直影響著蛋白質研究。圖2a總結了這兩個領域之間的相似之處。
圖2:最常用于NLP問題的方法概述 CNN的適用性很快就擴展到了蛋白質研究,以預測蛋白質的紊亂、DNA結合位點和折疊分類。然而,CNN未能對長距離信息進行建模,而長距離信息對于全局文本的理解是至關重要的。由于這個原因,NLP研究人員轉向了循環神經網絡(RNN),特別是長短期記憶(LSTM)。
**傳統的LSTM很快被注意力機制****所取代,這影響了最近在蛋白質研究方面的突破,如AlphaFold。**在注意力模型的基礎上,谷歌發布了Transformer,以更低的計算成本改善了大多數NLP任務的結果。第一個Transformer開啟了NLP的新時代,從那時起,無數的改造被實施(圖2a)。 值得一提的是生成式預訓練Transformer(GPT)及其后續的GPT-2和GPT-3。這些預訓練的模型在大多數NLP任務中都表現出了卓越的性能,并且第一次能夠生成類似人類的、長的、連貫的文章。NLP領域的這些最新發展具有很大的潛力,可以適用于蛋白質研究。以下各節將對預訓練的語言模型如何在未來幾年內改變和主導蛋白質設計提供見解。 注意力機制和Transformer Transformer是當前NLP的一場革命。他們的成功來自于一系列建立在彼此之上的概念的演變,其中注意力機制可能是這些進展中最值得注意的。 注意力機制起源于對傳統的序列到序列(seq2seq)模型的解決方案,該模型被廣泛用于處理從一個領域到另一個領域的序列的任務,如機器翻譯或文本總結。在seq2seq模型中,輸入在一個被稱為編碼器的模塊中被逐步處理,以產生一個傳遞給解碼器的上下文向量,解碼器負責生成一個輸出(圖3a)。傳統上,編碼器和解碼器的架構通常是RNNs或LSTMs(圖2b),上下文向量對應于最后一個編碼器步驟的最終輸出(圖2b)。由于這種固有的順序性,RNNs出現了性能下降和訓練時間隨序列長度增加的主要缺點。注意力機制的引入為這一問題提供了一個解決方案,它允許解碼器分析整個輸入并關注其中的特定部分,這一概念類似于人類頭腦中的注意力。
圖3:最常用的Transformer的示意圖 雖然注意力機制在許多類型的神經網絡中已經無處不在,但在2017年變得特別突出,當時谷歌的研究人員發表了他們的開創性工作” Attention is all you need",它引入了一個架構,不僅在模塊之間應用注意力,而且在整個模塊中也應用注意力。這種新的設計允許編碼器專注于輸入序列的特定部分,在許多任務中產生更好的表現。 表1 Transformer模型匯總
在Transformer架構的激勵下,OpenAI發布了GPT(生成式預訓練Transformer),這是一系列高性能預訓練模型中的第一個。最近,OpenAI公布了它的第三代GPT模型,GPT-3,它包含的參數是GPT-2的100倍(表1)。并且能夠以零樣本的方式表現良好,即使是在從未受過訓練的任務上,例如編寫代碼。
NLP領域的另一個突出發展來自谷歌人工智能語言團隊,他們預先訓練了BERT(來自Transformer的雙向編碼器表示法),以創建一個語言模型。BERT也是受Transformer結構的啟發,但是,鑒于在這種情況下,興趣在于創建文本輸入的表示,它只使用編碼器模塊(圖3d)。 除了這兩個有代表性的僅有編碼器和解碼器架構的Transformer的例子外,在過去的三年里,已經有成千上萬的Transformer被發表。許多已經可以在HuggingFace資源庫中找到。 蛋白質序列是Transformer的理想對象 事實上,上一代Transformer的巨大成功,部分原因是它們所訓練的語料庫不斷增加(表1),這反過來又允許創建更大和更強大的模型。圖4a顯示了表1中的Transformer的發布日期和參數數量(以對數為單位)。
圖4:模型大小和數據庫隨時間的增長 生物數據庫的規模也在大幅增長,這一趨勢在蛋白質序列中最為明顯。圖4b說明了過去20年中序列和結構數據庫的數據獲取趨勢,表明蛋白質序列的表征比其對應結構的增長速度要快得多。
盡管最近開發的高性能結構預測方法,如AlphaFold,使科學家們能夠將結構的增長與序列等同起來,但它并沒有解決功能注釋這一耗時的問題。因此,我們面對的是一個未標注數據與標注數據之比廣泛增加的領域(這一現象被稱為序列-結構差距),鑒于半監督方法的成功,我們可以推測Transformer也可以類似地利用龐大的蛋白質空間,并在蛋白質研究領域激發一場類似的革命。 用于蛋白質設計的Transformer 最近NLP的革命性發展已經影響了一些開創性的蛋白質研究,一些研究已經將語言模型的概念應用于蛋白質序列。 第一個基于Transformer的蛋白質語言模型,ESM和TAPE,可以追溯到2019年。ESM-1b是由Facebook AI領導的一項工作,是一個在2.5億個蛋白質序列上訓練的編碼器Transformer,其結構和訓練目標與BERT相同(圖3d),但是,在這種情況下,33個編碼器層在UniParc數據庫(圖3d)上被預先訓練,以產生編碼蛋白質序列的矢量表示。ESM-1b的表示,類似于捕捉語言語法的BERT句子表示,編碼蛋白質的內部組織,從氨基酸的生物化學特性水平到蛋白質之間的進化關系。 最近,來自慕尼黑、Nvidia和Google AI的科學家合作開發了ProtTrans,這是一個令人印象深刻的對以前發布的六個基于Transformer的架構(Transformer-XL、BERT、Albert、XLnet、T5和Electra;表1)的改進,可以完全為社區所接受。這項研究利用了迄今為止最大的訓練數據集,包含了來自UniParc和Big Fantastic數據庫的超過3900億個氨基酸。他們的工作表明,蛋白質嵌入--Transformer輸出的矢量表示--能夠準確地預測每個殘基的二級結構和亞細胞定位。 這些早期的研究證明了學習蛋白質表征在下游應用中的潛力,包括分類或回歸任務。**最近,有幾項工作發表,使用預先訓練好的模型來生成蛋白質序列。**雖然沒有明確采用語言模型,但提到了兩個從傳統的蛋白質設計范式--基于搜索能量函數最小值--轉向神經網絡方法。首先,受DeepDream(谷歌的CNN)的生成能力的啟發,Anishchenko等人在一個逐步的過程中應用trRosetta,以高通量的方式生成理想化的蛋白質結構。其次,Huang等人最近生成了SCUBA,一種新型的自適應核鄰接計數神經網絡(NC-NN)方法,產生了具有新拓撲結構的新結構。 關于語言模型的特殊情況,最近有幾項工作正在利用Transformer進行蛋白質設計。Castro等人實現了ReLSO,這是一個經過訓練的自動編碼器,可以聯合生成序列并預測輸入標記數據集的適用性。Moffat等人實施了DARK,這是一個有1.1億個解碼器的Transformer,能夠設計新的結構,Ferruz等人發布了ProtGPT2,這是一個基于GPT-2結構的7.38億個Transformer模型,能夠在蛋白質空間的未開發區域生成新的序列。
圖5:利用Transformer模型在蛋白質工程領域的可能性概述
定制的蛋白質設計 NLP及其應用于定制蛋白質設計的下一個重要步驟是在訓練中加入功能標簽。最近,Gligorijevi?等人實現了一個去噪自動編碼器Transformer,在這個Transformer中,一定的輸入序列被轉化為質量上乘的輸出序列和一定的功能。然而,在實現可控文本生成方面最重要的工作之一是開發了條件Transformer語言(CTRL),這是一個自回歸模型,包括能夠不依賴輸入序列而可控地生成文本的條件標記(表1)。 這些研究突出了一個有前途的新研究領域:用條件Transformer可控制地生成蛋白質序列。在基于Transformer的蛋白質語言模型中加入條件標簽,不僅可以像以前的這些工作那樣生成新的序列,而且有可能對這些蛋白質的特性進行控制。 通過提示語言模型產生定制序列的能力將是蛋白質研究中的一個變革性里程碑,但其實施并非沒有挑戰。監督序列標記的過程依賴于注釋序列的質量。 **不過,最近在序列注釋方面的工作可能為更快的自動注釋過程打開了一扇新的大門。Bileschi等人最近使用神經網絡來預測功能注釋,將Pfam數據庫擴展了9.5%以上。盡管這可能是一個漫長而具有挑戰性的過程,但在這個方向上的努力可能會推動在可預見的未來對蛋白質空間的很大一部分進行注釋,從而促進條件Transformer的實施。 酶、受體和生物傳感器設計 2018年,IBM研究院發布了IBM RXN for Chemistry,這是一個基于云的應用程序,將有機化學與人類語言聯系起來,可以使用編碼器-解碼器架構預測化學反應最可能結果(圖3a)。 鑒于最近IBM對化學反應的矢量表示進行編碼的方法,我們可以設想另一種模型,將化學反應作為輸入,產生蛋白質序列作為輸出。這種模型將為酶的設計提供一種創新的途徑,**包括能夠催化自然界中沒有的反應的工程酶。 可解釋的蛋白質設計 傳統上,最廣泛使用的NLP技術,如HMMs或SVMs(圖2),本質上是可以解釋的,因此被歸為”白盒”。最近,深度學習方法的爆炸性增長在整個NLP任務中達到了很高的性能,帶來了開發新技術來解釋這些模型的挑戰。針對”黑盒”模型的XAI技術已經取得了實質性的進展,其中五個主要技術是:特征重要性(feature importance)、代理模型(surrogate model)、例子驅動(example-driven)、基于出處(provenance-based)和聲明性歸納(declarative induction)。 將Transformer的內部運作可視化的可能性可以為更好地理解蛋白質的折疊和設計帶來巨大的機會。 蛋白質設計的未來是否掌握在大公司手中 近年來發表的Transformer模型是由大公司主導的(圖4a)。據估計,**用1750億個參數訓練GPT-3--迄今為止第二大的模型--花費了1200萬美元,需要超過10000天的GPU時間。**其他的模型也是通過使用大量的TPU資源來訓練的。訓練這樣的深度學習模型是一種商品,像OpenAI或谷歌這樣的大公司可能可以獲得,但對于初創公司和許多學術研究團體來說,可能是無法達到的。他們在經濟上的可及性是一個問題。 迄今為止發表的9個基于蛋白質的Transformer模型中的7個(表1)是由大公司領導或參加。 根據蛋白質的特定屬性(如由于必須形成三維結構而產生的偏差)來調整模型,可能會在降低計算成本的情況下提高性能。 結論 **本文設想了將目前的NLP方法轉移到蛋白質研究領域的六個直接應用。**按照目前的NLPTransformer對蛋白質序列的適用程度排序,我們可以:(1)在蛋白質空間的未觀察到的區域生成序列;(2)對天然蛋白質家族的序列進行微調,以擴展它們的庫;(3)利用其編碼的矢量表示作為其他下游模型的輸入,用于蛋白質工程任務;(4)生成具有特定功能特性的條件序列;(5)利用編碼器-解碼器Transformer設計完全新穎的、目的明確的受體和酶;(6)更全面地了解序列-結構-功能關系,包括通過解釋這些語言模型來支配蛋白質折疊的規則。 毋庸置疑,**這些進展并非沒有挑戰,模型的大小和功能注釋的困難都是最值得注意的兩個問題。**此外,正如早期研究指出的那樣,基準將是比較模型性能的首要條件,這在序列生成方面尤其具有挑戰性。 對生成的序列進行適當的評估,需要實施高通量的實驗特征分析。最終評估這些序列的相關功能(例如它們的催化活性)是否超越當前的蛋白質工程策略(可能是在實驗反饋改進模型的迭代輪次中)將是至關重要的。 盡管有這些困難,我們相信基于Transformer的蛋白質語言模型將徹底改變蛋白質設計領域,并為許多當前和未來的社會挑戰提供新的解決方案。 參考資料 Ferruz, N., H?cker, B. Controllable protein design with language models. Nat Mach Intell 4, 521–532 (2022). //doi.org/10.1038/s42256-022-00499-z
--------- End ---------