來源:智藥局 最近,來自華盛頓大學David Baker教授課題組聯合哈佛大學的科學家,描述了兩種深度學習方法來設計指定的功能位點的蛋白質,而無需指定的的蛋白質二級結構。
7月22日,論文以“Scaffolding protein functional sites using deep learning”為題發表在Science雜志上。
01、文章概述
蛋白質的生化功能通常由構成功能位點的殘基子集執行,因此具有新功能的蛋白質的設計可分為兩個步驟。
第一步:確定功能位點的空間結構和氨基酸序列,這些可以通過量子化學計算、片段對接計算,以及從天然蛋白中提取來獲得。
科學家重點關注第二步:運用給定的功能位點信息,設計折疊成包含該位點的三維(3D)結構的氨基酸序列。 從頭設計功能性蛋白的難題是能夠提出一個有穩定功能區域(活性位點、結合界面等)的整體骨架,并設計折疊成該結構的序列。但通常這這個過程分成兩步。
因此,理想的功能性蛋白不僅能將功能位點嵌入蛋白質骨架中,以保持最小的形變,且蛋白質骨架具有多樣性,還能同時生成骨架結構和氨基酸序列。
基于上述要求,研究人員使用兩種深度學習方法來設計功能蛋白。
第一種方式是**“Hallucination”**(幻覺,預測優化):通過限制功能區域的片段結構,用復合損失函數優化氨基酸序列,以折疊到包含所需功能位點的結構,AI經過不斷地迭代和優化,得到穩定的目標蛋白,并能在實驗室中制造和研究。
簡單來說,就像是對胡言亂語的單詞強加一些要求,然后計算機通過不斷地設計和改變,使之有意義,最終得到一個完整的故事。
第二種被稱為**“ Inpainting”(修復,蛋白質修復):即將特定的序列/活性位點輸入到軟件(RoseTTAFold神經網絡)中,軟件可以在幾秒內填補蛋白質結構的缺失部分,類似于使用語言模型補全給定的幾個單詞,該方法將蛋白質設計簡化為信息缺失—恢復問題。**
Hallucination和Inpainting的流程圖
兩種方式沒有高低優劣之分。
Hallucination(幻覺)耗費的算力更大,每次設計需要5—20分鐘,但準確度更高。因此當信息缺失區域更大時,Hallucination的效果更好,產生的蛋白質結構也更具多樣性。
02、應用案例及展望
實驗測試表明,通過幻覺和修復產生的許多蛋白質都按預期發揮作用,包括生成潛在的潛在的RSV疫苗、金屬結合蛋白、酶、以及結合PD-1 受體的蛋白質,這些設計的蛋白不僅能夠表達特定功能,在結構和序列上和天然蛋白也有較大的差距。
例如對呼吸道合胞病毒(RSV)的驗證,研究人員針對其抗原表位用AI設計了37個新興蛋白質,其中三個以0.9-1.3μM的結合力與RSV的中和抗體結合,為相關疫苗開發提供新的思路。
(淡黃色—天然蛋白質支架,橙色——天然功能基序,灰色—幻覺設計的支架,紫色—幻覺設計的功能基序)
“通過這兩種方式,可以在新設計的蛋白質中得到關鍵特征,這些特征可以是已知的結合基序,甚至是酶活性位點。”研究人員解釋。
可以說,本篇文章證明深度學習可用于設計具有多種功能的蛋白質,包括制造出可用作疫苗、癌癥治療甚至是消除空氣中碳污染的工具的蛋白質,對藥物研發和合成生物學都有重要的應用。
“這些都是非常強大的新方法,但仍有很大的改進空間,”論文通訊作者David Baker說道,“例如,設計高活性酶仍然非常具有挑戰性。”
值得一提的是,這篇論文已經是今年Baker課題組在Science發布的第三篇文章,整個課題組已經從蛋白質結構預測逐漸轉型為蛋白質設計。
本篇文章中也集成了課題組此前的工作,包括hallucination的蛋白質設計方法,從靶點結構設計蛋白質等。參考資料:DOI:10.1126/science.abn2100 //www.technologynetworks.com/drug-discovery/news/scientists-train-ai-to-generate-medicines-and-vaccines-363979
本文介紹華盛頓大學的蛋白質設計科學家D. Baker在2022年9月15發表在Science研究工作Robust deep learning–based protein sequence design using ProteinMPNN。研究團隊開發了一種基于深度學習的蛋白質序列設計方法 ProteinMPNN,它在計算機和實驗測試中均具有出色的性能。天然蛋白質骨架上,ProteinMPNN 的序列恢復率為 52.4%,而 Rosetta 為 32.9%。不同位置的氨基酸序列可以在單鏈或多鏈之間偶聯,從而能夠應用于當前廣泛的蛋白質設計任務。研究團隊使用 X-ray晶體學、cryoEM 和功能研究通過挽救以前失敗的蛋白質單體設計(使用 Rosetta 或 AlphaFold設計的蛋白質單體、環狀同源寡聚體、四面體納米顆粒和靶結合蛋白)證明了 ProteinMPNN 的廣泛實用性和高精度,
蛋白質序列設計問題是在給定感興趣的蛋白質骨架結構的情況下,找到一個可以折疊成該結構的氨基酸序列。Rosetta基于物理的方法將序列設計視為能量優化問題,尋找對于給定輸入結構具有最低能量的氨基酸同一性和構象的組合。深度學習方法已顯示出在給定單體蛋白質骨架的情況下快速生成候選氨基酸序列的前景,而無需對側鏈旋轉異構狀態進行大量計算。然而,迄今為止所描述的方法并不適用于當前蛋白質設計挑戰的全部范圍,并且尚未經過廣泛的實驗驗證。
研究團隊試圖開發一種基于深度學習的蛋白質序列設計方法,該方法廣泛適用于單體、環狀低聚物、蛋白質納米顆粒等。從具有 3 個編碼器和 3 個解碼器層以及 128 個隱藏維度的消息傳遞神經網絡 (MPNN) 開始,使用蛋白質骨架特征-Cα-Cα 原子之間的距離,相對Cα-Cα-Cα 幀方向和旋轉,以及主干二面角作為輸入。首先尋求改善模型在恢復天然單鏈蛋白的氨基酸序列方面的性能,因為它們具有骨架結構。基于CATH蛋白質分類,來自PDB 的一組 19,700 個高分辨率單鏈結構被分成訓練集、驗證集和測試集 (80/10/10 )。研究人員發現,包括 N、Cα、C、O 和基于其他主鏈原子放置的虛擬 Cβ 之間的距離作為附加輸入特征導致序列恢復從 41.2%(基線模型)增加到 49.0%。
為了能夠應用于廣泛的單鏈和多鏈設計問題,將固定的 N 到 C 端解碼順序替換為與順序無關的自回歸模型,其中解碼順序是從所有可能排列的集合中隨機采樣的,這也導致序列恢復的適度改進。順序不可知解碼可以在某些情況下進行設計。對于多鏈設計問題,為了使模型與蛋白質鏈的順序等價,將每條鏈的相對位置編碼保持在 ±32 個殘基并添加了一個二進制特征,指示相互作用對殘基是否來自相同或不同的鏈。研究人員使用靈活的解碼順序來固定對應位置集合中的殘基身份。對于偽對稱序列設計,鏈內或鏈之間的殘基可以類似地受到約束;例如對于重復蛋白質設計,每個重復單元中的序列可以保持固定。通過預測每個狀態的非歸一化概率然后取平均值,可以實現編碼兩個或多個所需狀態的單個序列的多狀態設計;更一般地,預測的非歸一化概率與一些正系數和負系數的線性組合可用于提升或降低特定骨架狀態的權重,以實現明確的正序列或負序列設計。這種多鏈和對稱感知模型的架構,我們稱之為ProteinMPNN。. 研究人員針對 PDB 中的蛋白質組裝(截至 2021 年 8 月 2 日)訓練 ProteinMPNN,通過 X -ray晶體學或cryoEM確定其分辨率優于3.5?,殘基少于 10,000 個。
用骨架噪音訓練提高了蛋白設計的模型性能
雖然蛋白序列設計方法通常側重于從高分辨率晶體結構中最大限度地恢復蛋白質骨架的序列,但這對于實際的蛋白質設計應用來說并不一定是最佳的。研究團隊發現,在添加了高斯噪聲的骨架上的訓練模型提高了 UniRef50 的 AlphaFold(平均 pLDDT>80.0)生成的蛋白質結構模型的序列恢復,而在未受干擾的 PDB 結構上的序列恢復顯著降低。 ProteinMPNN 加強了設計骨架的序列到結構映射:在一組從頭設計的包含使用 Rosetta 生成的骨架的配體結合口袋中,預測只有 2.7% 的原始設計序列折疊到設計目標結構,但在 ProteinMPNN 重新設計之后54.1% 被預測折疊到接近目標結構,將大大增加這些支架在設計小分子結合和酶功能方面的效用。
噪聲ProteinMPNN 模型生成的序列通過 AlphaFold 更穩健地解碼為 3D 坐標,這可能是因為噪聲模型更關注整體拓撲特征,例如由整體極性-非極性序列模式編碼,而不是局部結構細節。
ProteinMPNN的實驗評估
雖然計算機中的天然蛋白質序列恢復是一個有用的基準,但蛋白質設計方法的最終測試是其生成折疊成所需結構并在實驗測試時具有所需功能序列的能力。研究團隊針對一組具有代表性的設計挑戰評估了 ProteinMPNN,這些挑戰包括蛋白質單體設計、蛋白質納米籠設計和蛋白質功能設計。在每種情況下,都嘗試使用 Rosetta 或 AlphaFold 生成的序列來挽救先前失敗的設計。獲得了編碼設計的合成基因,蛋白質在大腸桿菌中表達,并在生化和結構上進行了表征。
結論
ProteinMPNN 解決序列設計問題的時間比 Rosetta 等基于物理的方法所需的時間少,該方法可進行大規模側鏈計算,在天然骨架上實現更高的蛋白質序列恢復,并挽救了以前失敗的使用 Rosetta 或 AlphaFold 設計的蛋白質單體、組件和蛋白質-蛋白質界面。與 Rosetta 和其他基于物理的方法不同,ProteinMPNN 不需要針對特定設計挑戰進行專家定制,因此它應該使蛋白質設計更廣泛地可訪問。這種穩健性反映了如何構建序列設計問題的根本差異。在傳統的基于物理的方法中,序列設計映射到識別其最低能量狀態是所需結構的氨基酸序列的問題。然而,這在計算上是棘手的,因為它需要計算所有可能結構的能量,包括不需要的低聚和聚合狀態。
ProteinMPNN 的高實驗設計成功率,以及計算效率、適用于幾乎所有蛋白質序列設計問題以及無需定制的要求,使其在蛋白質設計中具有非常廣泛的用途。ProteinMPNN 生成的序列也具有更高的結晶傾向,極大地促進了設計蛋白質的結構確。預測ProteinMPNN 生成的序列比原始天然序列更可靠和更準確地折疊成天然蛋白質骨架的觀察結果表明 ProteinMPNN 也可能廣泛用于改善重組表達的天然蛋白質的表達和穩定性。
參考資料 Robust deep learning based protein sequence design using ProteinMPNN. Justas Dauparas, Ivan Anishchenko, Nathaniel Bennett, Hua Bai, Robert J. Ragotte, Lukas F. Milles, Basile I. M. Wicky, Alexis Courbet, Robbert J. de Haas, Neville Bethel, Philip J. Y. Leung, Timothy F. Huddy, Sam Pellock, Doug Tischer, Frederick Chan, Brian Koepnick, Hannah Nguyen, Alex Kang, Banumathi Sankaran, Asim Bera, Neil P. King, David Baker. DOI: 10.1126/science.add2187
蛋白質是生命的通用組成部分,幾乎在每個細胞過程中都發揮至關重要的作用。為特定目的設計新型蛋白質的能力有助于解決許多醫療挑戰。 2022年6月22日,來自西班牙赫羅納大學信息學與應用研究所的Noelia Ferruz等人在Nat Mach Intel雜志發表文章,討論了人工智能領域的最新進展--語言模型在蛋白質設計中的潛力和影響。
蛋白質序列在本質上類似于自然語言:氨基酸以多種組合方式排列,形成承載功能的結構,就像字母組成單詞和句子承載意義一樣。因此自然語言處理(NLP)的許多技術被應用于蛋白質研究問題。
過去幾年里,NLP領域有了革命性的突破。Transformer預訓練模型的實施使文本生成具有類似人類的能力。我們預計專用Transformer將會在不久的將來主導定制的蛋白質序列的生成。 對蛋白質家族的預訓練模型進行微調,將使他們能夠使用可能高度不同但仍具有潛在功能的新序列來擴展它們的庫。細胞區室或功能等控制標簽的組合將進一步實現新蛋白質功能的可控設計。此外,最近的模型可解釋性方法將使我們能夠打開”黑盒子",從而增強我們對折疊原理的理解。 早期的研究顯示了生成性語言模型在設計功能序列方面的巨大潛力。我們認為,使用生成性文本模型來創造新的蛋白質是一個很有前途的、在很大程度上未被開發的領域,本文討論了它對蛋白質設計可預見的影響。
主要內容 蛋白質設計的目的是創造出能發揮所需功能的定制結構。這一巨大的挑戰通常被稱為逆向蛋白質折疊問題:我們的目標不是尋找一個序列折疊的結構,而是獲得一個采用某種折疊的最佳序列。在數學上,這個問題是通過搜索由能量函數定義的序列-結構的全局最小值的優化算法來解決的。 盡管最廣泛使用的能量函數相對簡單,但每個位置的旋轉異構體和可能的組合的數量帶來了組合的爆炸。由于這種復雜性,新蛋白質的設計通常需要相當長的時間和精力,而且絕大多數的功能性蛋白質設計都是通過預先選擇天然存在的骨架、并隨后在迭代中優化其功能而實現的,而不是同時設計序列和結構以執行某種功能。 蛋白質最不尋常的特性之一,是它們在氨基酸序列中完全編碼了其結構和功能,并且它們以極高的效率做到這一點。在沒有生物物理約束的情況下,僅靠序列就能捕捉到蛋白質的特性,這為利用自然語言處理(NLP)方法進行蛋白質研究打開了一扇未被開發的大門。下文總結了自然語言和蛋白質序列之間的異同,并展示了NLP研究已經如何影響了蛋白質科學。**我們將強調該領域中最引人注目的發展,即Transformer架構。**隨后的章節將介紹Transformer的獨特生成能力是如何重塑蛋白質設計領域的。 我們希望本文能觸及人工智能和生物學領域,并鼓勵進一步合作,開發和調整NLP技術用于蛋白質設計。 蛋白質的語言 有幾個特征證明了人類語言和蛋白質序列之間的相似性,其中最明顯的可能是它們的分層組織。與人類語言類似,蛋白質是由字符串的連接表示的:20個標準氨基酸。然后字母組合成單詞,氨基酸組合成二級結構或保守的蛋白質片段。然后,就像單詞組合成帶有意義的句子一樣,片段可以組合成帶有功能的不同蛋白質結構(圖1a)。
圖1:蛋白質和語言之間的相似性 **語言和蛋白質的起源和演變也顯示出相似之處。**今天,有超過8000種語言,分為140多個語系,所有這些語言都起源于5萬至7萬年前在非洲中部使用的一種共同祖先語言。同樣,所有生活在地球上的生物都有一個(最后的普遍)共同祖先--LUCA--一種生活在40億年前的微生物,它已經包含了大多數現代蛋白質結構域,這些結構域通過進化而發展。
然而,必須注意的是,蛋白質和人類語言也存在差異,這對將NLP應用于蛋白質研究構成了挑戰。
首先,許多人類語言在書面文本中提供了清晰可辨的詞匯定義(中文是一個突出的例外),但在蛋白質中,"詞的邊界”卻不那么明顯。 其次,目前對蛋白質語言缺乏了解,類似于我們目前對許多已滅絕的語言缺乏了解。盡管我們有訓練蛋白質語言的語料庫,但對生成的序列的正確解釋仍將是一個挑戰,需要廣泛的實驗測試來破譯其功能。 再者,蛋白質的進化也明顯不同于語言的進化,它受到隨機性和環境壓力的影響,而且其語法不可避免地會包含許多不規則的地方。 總的來說,人類語言和蛋白質序列之間的不相似性給NLP在蛋白質設計中的應用帶來了巨大的挑戰。然而,盡管有這些挑戰,這兩個領域之間的明顯聯系為蛋白質研究領域提供了一個新的視角。
NLP對蛋白質研究的數十年影響 雖然不明顯,但NLP領域一直影響著蛋白質研究。圖2a總結了這兩個領域之間的相似之處。
圖2:最常用于NLP問題的方法概述 CNN的適用性很快就擴展到了蛋白質研究,以預測蛋白質的紊亂、DNA結合位點和折疊分類。然而,CNN未能對長距離信息進行建模,而長距離信息對于全局文本的理解是至關重要的。由于這個原因,NLP研究人員轉向了循環神經網絡(RNN),特別是長短期記憶(LSTM)。
**傳統的LSTM很快被注意力機制****所取代,這影響了最近在蛋白質研究方面的突破,如AlphaFold。**在注意力模型的基礎上,谷歌發布了Transformer,以更低的計算成本改善了大多數NLP任務的結果。第一個Transformer開啟了NLP的新時代,從那時起,無數的改造被實施(圖2a)。 值得一提的是生成式預訓練Transformer(GPT)及其后續的GPT-2和GPT-3。這些預訓練的模型在大多數NLP任務中都表現出了卓越的性能,并且第一次能夠生成類似人類的、長的、連貫的文章。NLP領域的這些最新發展具有很大的潛力,可以適用于蛋白質研究。以下各節將對預訓練的語言模型如何在未來幾年內改變和主導蛋白質設計提供見解。 注意力機制和Transformer Transformer是當前NLP的一場革命。他們的成功來自于一系列建立在彼此之上的概念的演變,其中注意力機制可能是這些進展中最值得注意的。 注意力機制起源于對傳統的序列到序列(seq2seq)模型的解決方案,該模型被廣泛用于處理從一個領域到另一個領域的序列的任務,如機器翻譯或文本總結。在seq2seq模型中,輸入在一個被稱為編碼器的模塊中被逐步處理,以產生一個傳遞給解碼器的上下文向量,解碼器負責生成一個輸出(圖3a)。傳統上,編碼器和解碼器的架構通常是RNNs或LSTMs(圖2b),上下文向量對應于最后一個編碼器步驟的最終輸出(圖2b)。由于這種固有的順序性,RNNs出現了性能下降和訓練時間隨序列長度增加的主要缺點。注意力機制的引入為這一問題提供了一個解決方案,它允許解碼器分析整個輸入并關注其中的特定部分,這一概念類似于人類頭腦中的注意力。
圖3:最常用的Transformer的示意圖 雖然注意力機制在許多類型的神經網絡中已經無處不在,但在2017年變得特別突出,當時谷歌的研究人員發表了他們的開創性工作” Attention is all you need",它引入了一個架構,不僅在模塊之間應用注意力,而且在整個模塊中也應用注意力。這種新的設計允許編碼器專注于輸入序列的特定部分,在許多任務中產生更好的表現。 表1 Transformer模型匯總
在Transformer架構的激勵下,OpenAI發布了GPT(生成式預訓練Transformer),這是一系列高性能預訓練模型中的第一個。最近,OpenAI公布了它的第三代GPT模型,GPT-3,它包含的參數是GPT-2的100倍(表1)。并且能夠以零樣本的方式表現良好,即使是在從未受過訓練的任務上,例如編寫代碼。
NLP領域的另一個突出發展來自谷歌人工智能語言團隊,他們預先訓練了BERT(來自Transformer的雙向編碼器表示法),以創建一個語言模型。BERT也是受Transformer結構的啟發,但是,鑒于在這種情況下,興趣在于創建文本輸入的表示,它只使用編碼器模塊(圖3d)。 除了這兩個有代表性的僅有編碼器和解碼器架構的Transformer的例子外,在過去的三年里,已經有成千上萬的Transformer被發表。許多已經可以在HuggingFace資源庫中找到。 蛋白質序列是Transformer的理想對象 事實上,上一代Transformer的巨大成功,部分原因是它們所訓練的語料庫不斷增加(表1),這反過來又允許創建更大和更強大的模型。圖4a顯示了表1中的Transformer的發布日期和參數數量(以對數為單位)。
圖4:模型大小和數據庫隨時間的增長 生物數據庫的規模也在大幅增長,這一趨勢在蛋白質序列中最為明顯。圖4b說明了過去20年中序列和結構數據庫的數據獲取趨勢,表明蛋白質序列的表征比其對應結構的增長速度要快得多。
盡管最近開發的高性能結構預測方法,如AlphaFold,使科學家們能夠將結構的增長與序列等同起來,但它并沒有解決功能注釋這一耗時的問題。因此,我們面對的是一個未標注數據與標注數據之比廣泛增加的領域(這一現象被稱為序列-結構差距),鑒于半監督方法的成功,我們可以推測Transformer也可以類似地利用龐大的蛋白質空間,并在蛋白質研究領域激發一場類似的革命。 用于蛋白質設計的Transformer 最近NLP的革命性發展已經影響了一些開創性的蛋白質研究,一些研究已經將語言模型的概念應用于蛋白質序列。 第一個基于Transformer的蛋白質語言模型,ESM和TAPE,可以追溯到2019年。ESM-1b是由Facebook AI領導的一項工作,是一個在2.5億個蛋白質序列上訓練的編碼器Transformer,其結構和訓練目標與BERT相同(圖3d),但是,在這種情況下,33個編碼器層在UniParc數據庫(圖3d)上被預先訓練,以產生編碼蛋白質序列的矢量表示。ESM-1b的表示,類似于捕捉語言語法的BERT句子表示,編碼蛋白質的內部組織,從氨基酸的生物化學特性水平到蛋白質之間的進化關系。 最近,來自慕尼黑、Nvidia和Google AI的科學家合作開發了ProtTrans,這是一個令人印象深刻的對以前發布的六個基于Transformer的架構(Transformer-XL、BERT、Albert、XLnet、T5和Electra;表1)的改進,可以完全為社區所接受。這項研究利用了迄今為止最大的訓練數據集,包含了來自UniParc和Big Fantastic數據庫的超過3900億個氨基酸。他們的工作表明,蛋白質嵌入--Transformer輸出的矢量表示--能夠準確地預測每個殘基的二級結構和亞細胞定位。 這些早期的研究證明了學習蛋白質表征在下游應用中的潛力,包括分類或回歸任務。**最近,有幾項工作發表,使用預先訓練好的模型來生成蛋白質序列。**雖然沒有明確采用語言模型,但提到了兩個從傳統的蛋白質設計范式--基于搜索能量函數最小值--轉向神經網絡方法。首先,受DeepDream(谷歌的CNN)的生成能力的啟發,Anishchenko等人在一個逐步的過程中應用trRosetta,以高通量的方式生成理想化的蛋白質結構。其次,Huang等人最近生成了SCUBA,一種新型的自適應核鄰接計數神經網絡(NC-NN)方法,產生了具有新拓撲結構的新結構。 關于語言模型的特殊情況,最近有幾項工作正在利用Transformer進行蛋白質設計。Castro等人實現了ReLSO,這是一個經過訓練的自動編碼器,可以聯合生成序列并預測輸入標記數據集的適用性。Moffat等人實施了DARK,這是一個有1.1億個解碼器的Transformer,能夠設計新的結構,Ferruz等人發布了ProtGPT2,這是一個基于GPT-2結構的7.38億個Transformer模型,能夠在蛋白質空間的未開發區域生成新的序列。
圖5:利用Transformer模型在蛋白質工程領域的可能性概述
定制的蛋白質設計 NLP及其應用于定制蛋白質設計的下一個重要步驟是在訓練中加入功能標簽。最近,Gligorijevi?等人實現了一個去噪自動編碼器Transformer,在這個Transformer中,一定的輸入序列被轉化為質量上乘的輸出序列和一定的功能。然而,在實現可控文本生成方面最重要的工作之一是開發了條件Transformer語言(CTRL),這是一個自回歸模型,包括能夠不依賴輸入序列而可控地生成文本的條件標記(表1)。 這些研究突出了一個有前途的新研究領域:用條件Transformer可控制地生成蛋白質序列。在基于Transformer的蛋白質語言模型中加入條件標簽,不僅可以像以前的這些工作那樣生成新的序列,而且有可能對這些蛋白質的特性進行控制。 通過提示語言模型產生定制序列的能力將是蛋白質研究中的一個變革性里程碑,但其實施并非沒有挑戰。監督序列標記的過程依賴于注釋序列的質量。 **不過,最近在序列注釋方面的工作可能為更快的自動注釋過程打開了一扇新的大門。Bileschi等人最近使用神經網絡來預測功能注釋,將Pfam數據庫擴展了9.5%以上。盡管這可能是一個漫長而具有挑戰性的過程,但在這個方向上的努力可能會推動在可預見的未來對蛋白質空間的很大一部分進行注釋,從而促進條件Transformer的實施。 酶、受體和生物傳感器設計 2018年,IBM研究院發布了IBM RXN for Chemistry,這是一個基于云的應用程序,將有機化學與人類語言聯系起來,可以使用編碼器-解碼器架構預測化學反應最可能結果(圖3a)。 鑒于最近IBM對化學反應的矢量表示進行編碼的方法,我們可以設想另一種模型,將化學反應作為輸入,產生蛋白質序列作為輸出。這種模型將為酶的設計提供一種創新的途徑,**包括能夠催化自然界中沒有的反應的工程酶。 可解釋的蛋白質設計 傳統上,最廣泛使用的NLP技術,如HMMs或SVMs(圖2),本質上是可以解釋的,因此被歸為”白盒”。最近,深度學習方法的爆炸性增長在整個NLP任務中達到了很高的性能,帶來了開發新技術來解釋這些模型的挑戰。針對”黑盒”模型的XAI技術已經取得了實質性的進展,其中五個主要技術是:特征重要性(feature importance)、代理模型(surrogate model)、例子驅動(example-driven)、基于出處(provenance-based)和聲明性歸納(declarative induction)。 將Transformer的內部運作可視化的可能性可以為更好地理解蛋白質的折疊和設計帶來巨大的機會。 蛋白質設計的未來是否掌握在大公司手中 近年來發表的Transformer模型是由大公司主導的(圖4a)。據估計,**用1750億個參數訓練GPT-3--迄今為止第二大的模型--花費了1200萬美元,需要超過10000天的GPU時間。**其他的模型也是通過使用大量的TPU資源來訓練的。訓練這樣的深度學習模型是一種商品,像OpenAI或谷歌這樣的大公司可能可以獲得,但對于初創公司和許多學術研究團體來說,可能是無法達到的。他們在經濟上的可及性是一個問題。 迄今為止發表的9個基于蛋白質的Transformer模型中的7個(表1)是由大公司領導或參加。 根據蛋白質的特定屬性(如由于必須形成三維結構而產生的偏差)來調整模型,可能會在降低計算成本的情況下提高性能。 結論 **本文設想了將目前的NLP方法轉移到蛋白質研究領域的六個直接應用。**按照目前的NLPTransformer對蛋白質序列的適用程度排序,我們可以:(1)在蛋白質空間的未觀察到的區域生成序列;(2)對天然蛋白質家族的序列進行微調,以擴展它們的庫;(3)利用其編碼的矢量表示作為其他下游模型的輸入,用于蛋白質工程任務;(4)生成具有特定功能特性的條件序列;(5)利用編碼器-解碼器Transformer設計完全新穎的、目的明確的受體和酶;(6)更全面地了解序列-結構-功能關系,包括通過解釋這些語言模型來支配蛋白質折疊的規則。 毋庸置疑,**這些進展并非沒有挑戰,模型的大小和功能注釋的困難都是最值得注意的兩個問題。**此外,正如早期研究指出的那樣,基準將是比較模型性能的首要條件,這在序列生成方面尤其具有挑戰性。 對生成的序列進行適當的評估,需要實施高通量的實驗特征分析。最終評估這些序列的相關功能(例如它們的催化活性)是否超越當前的蛋白質工程策略(可能是在實驗反饋改進模型的迭代輪次中)將是至關重要的。 盡管有這些困難,我們相信基于Transformer的蛋白質語言模型將徹底改變蛋白質設計領域,并為許多當前和未來的社會挑戰提供新的解決方案。 參考資料 Ferruz, N., H?cker, B. Controllable protein design with language models. Nat Mach Intell 4, 521–532 (2022). //doi.org/10.1038/s42256-022-00499-z
--------- End ---------