亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

蛋白質是生命的通用組成部分,幾乎在每個細胞過程中都發揮至關重要的作用。為特定目的設計新型蛋白質的能力有助于解決許多醫療挑戰。 2022年6月22日,來自西班牙赫羅納大學信息學與應用研究所的Noelia Ferruz等人在Nat Mach Intel雜志發表文章,討論了人工智能領域的最新進展--語言模型在蛋白質設計中的潛力和影響。

蛋白質序列在本質上類似于自然語言:氨基酸以多種組合方式排列,形成承載功能的結構,就像字母組成單詞和句子承載意義一樣。因此自然語言處理(NLP)的許多技術被應用于蛋白質研究問題。

過去幾年里,NLP領域有了革命性的突破。Transformer預訓練模型的實施使文本生成具有類似人類的能力。我們預計專用Transformer將會在不久的將來主導定制的蛋白質序列的生成。 對蛋白質家族的預訓練模型進行微調,將使他們能夠使用可能高度不同但仍具有潛在功能的新序列來擴展它們的庫。細胞區室或功能等控制標簽的組合將進一步實現新蛋白質功能的可控設計。此外,最近的模型可解釋性方法將使我們能夠打開”黑盒子",從而增強我們對折疊原理的理解。 早期的研究顯示了生成性語言模型在設計功能序列方面的巨大潛力。我們認為,使用生成性文本模型來創造新的蛋白質是一個很有前途的、在很大程度上未被開發的領域,本文討論了它對蛋白質設計可預見的影響。

主要內容 蛋白質設計的目的是創造出能發揮所需功能的定制結構。這一巨大的挑戰通常被稱為逆向蛋白質折疊問題:我們的目標不是尋找一個序列折疊的結構,而是獲得一個采用某種折疊的最佳序列。在數學上,這個問題是通過搜索由能量函數定義的序列-結構的全局最小值的優化算法來解決的。 盡管最廣泛使用的能量函數相對簡單,但每個位置的旋轉異構體和可能的組合的數量帶來了組合的爆炸。由于這種復雜性,新蛋白質的設計通常需要相當長的時間和精力,而且絕大多數的功能性蛋白質設計都是通過預先選擇天然存在的骨架、并隨后在迭代中優化其功能而實現的,而不是同時設計序列和結構以執行某種功能。 蛋白質最不尋常的特性之一,是它們在氨基酸序列中完全編碼了其結構和功能,并且它們以極高的效率做到這一點。在沒有生物物理約束的情況下,僅靠序列就能捕捉到蛋白質的特性,這為利用自然語言處理(NLP)方法進行蛋白質研究打開了一扇未被開發的大門。下文總結了自然語言和蛋白質序列之間的異同,并展示了NLP研究已經如何影響了蛋白質科學。**我們將強調該領域中最引人注目的發展,即Transformer架構。**隨后的章節將介紹Transformer的獨特生成能力是如何重塑蛋白質設計領域的。 我們希望本文能觸及人工智能和生物學領域,并鼓勵進一步合作,開發和調整NLP技術用于蛋白質設計。 蛋白質的語言 有幾個特征證明了人類語言和蛋白質序列之間的相似性,其中最明顯的可能是它們的分層組織。與人類語言類似,蛋白質是由字符串的連接表示的:20個標準氨基酸。然后字母組合成單詞,氨基酸組合成二級結構或保守的蛋白質片段。然后,就像單詞組合成帶有意義的句子一樣,片段可以組合成帶有功能的不同蛋白質結構(圖1a)。

圖1:蛋白質和語言之間的相似性 **語言和蛋白質的起源和演變也顯示出相似之處。**今天,有超過8000種語言,分為140多個語系,所有這些語言都起源于5萬至7萬年前在非洲中部使用的一種共同祖先語言。同樣,所有生活在地球上的生物都有一個(最后的普遍)共同祖先--LUCA--一種生活在40億年前的微生物,它已經包含了大多數現代蛋白質結構域,這些結構域通過進化而發展。

然而,必須注意的是,蛋白質和人類語言也存在差異,這對將NLP應用于蛋白質研究構成了挑戰。

首先,許多人類語言在書面文本中提供了清晰可辨的詞匯定義(中文是一個突出的例外),但在蛋白質中,"詞的邊界”卻不那么明顯。 其次,目前對蛋白質語言缺乏了解,類似于我們目前對許多已滅絕的語言缺乏了解。盡管我們有訓練蛋白質語言的語料庫,但對生成的序列的正確解釋仍將是一個挑戰,需要廣泛的實驗測試來破譯其功能。 再者,蛋白質的進化也明顯不同于語言的進化,它受到隨機性和環境壓力的影響,而且其語法不可避免地會包含許多不規則的地方。 總的來說,人類語言和蛋白質序列之間的不相似性給NLP在蛋白質設計中的應用帶來了巨大的挑戰。然而,盡管有這些挑戰,這兩個領域之間的明顯聯系為蛋白質研究領域提供了一個新的視角。

NLP對蛋白質研究的數十年影響 雖然不明顯,但NLP領域一直影響著蛋白質研究。圖2a總結了這兩個領域之間的相似之處。

圖2:最常用于NLP問題的方法概述 CNN的適用性很快就擴展到了蛋白質研究,以預測蛋白質的紊亂、DNA結合位點和折疊分類。然而,CNN未能對長距離信息進行建模,而長距離信息對于全局文本的理解是至關重要的。由于這個原因,NLP研究人員轉向了循環神經網絡(RNN),特別是長短期記憶(LSTM)。

**傳統的LSTM很快被注意力機制****所取代,這影響了最近在蛋白質研究方面的突破,如AlphaFold。**在注意力模型的基礎上,谷歌發布了Transformer,以更低的計算成本改善了大多數NLP任務的結果。第一個Transformer開啟了NLP的新時代,從那時起,無數的改造被實施(圖2a)。 值得一提的是生成式預訓練Transformer(GPT)及其后續的GPT-2和GPT-3。這些預訓練的模型在大多數NLP任務中都表現出了卓越的性能,并且第一次能夠生成類似人類的、長的、連貫的文章。NLP領域的這些最新發展具有很大的潛力,可以適用于蛋白質研究。以下各節將對預訓練的語言模型如何在未來幾年內改變和主導蛋白質設計提供見解。 注意力機制和Transformer Transformer是當前NLP的一場革命。他們的成功來自于一系列建立在彼此之上的概念的演變,其中注意力機制可能是這些進展中最值得注意的。 注意力機制起源于對傳統的序列到序列(seq2seq)模型的解決方案,該模型被廣泛用于處理從一個領域到另一個領域的序列的任務,如機器翻譯或文本總結。在seq2seq模型中,輸入在一個被稱為編碼器的模塊中被逐步處理,以產生一個傳遞給解碼器的上下文向量,解碼器負責生成一個輸出(圖3a)。傳統上,編碼器和解碼器的架構通常是RNNs或LSTMs(圖2b),上下文向量對應于最后一個編碼器步驟的最終輸出(圖2b)。由于這種固有的順序性,RNNs出現了性能下降和訓練時間隨序列長度增加的主要缺點。注意力機制的引入為這一問題提供了一個解決方案,它允許解碼器分析整個輸入并關注其中的特定部分,這一概念類似于人類頭腦中的注意力。

圖3:最常用的Transformer的示意圖 雖然注意力機制在許多類型的神經網絡中已經無處不在,但在2017年變得特別突出,當時谷歌的研究人員發表了他們的開創性工作” Attention is all you need",它引入了一個架構,不僅在模塊之間應用注意力,而且在整個模塊中也應用注意力。這種新的設計允許編碼器專注于輸入序列的特定部分,在許多任務中產生更好的表現。 表1 Transformer模型匯總

在Transformer架構的激勵下,OpenAI發布了GPT(生成式預訓練Transformer),這是一系列高性能預訓練模型中的第一個。最近,OpenAI公布了它的第三代GPT模型,GPT-3,它包含的參數是GPT-2的100倍(表1)。并且能夠以零樣本的方式表現良好,即使是在從未受過訓練的任務上,例如編寫代碼。

NLP領域的另一個突出發展來自谷歌人工智能語言團隊,他們預先訓練了BERT(來自Transformer的雙向編碼器表示法),以創建一個語言模型。BERT也是受Transformer結構的啟發,但是,鑒于在這種情況下,興趣在于創建文本輸入的表示,它只使用編碼器模塊(圖3d)。 除了這兩個有代表性的僅有編碼器和解碼器架構的Transformer的例子外,在過去的三年里,已經有成千上萬的Transformer被發表。許多已經可以在HuggingFace資源庫中找到。 蛋白質序列是Transformer的理想對象 事實上,上一代Transformer的巨大成功,部分原因是它們所訓練的語料庫不斷增加(表1),這反過來又允許創建更大和更強大的模型。圖4a顯示了表1中的Transformer的發布日期和參數數量(以對數為單位)。

圖4:模型大小和數據庫隨時間的增長 生物數據庫的規模也在大幅增長,這一趨勢在蛋白質序列中最為明顯。圖4b說明了過去20年中序列和結構數據庫的數據獲取趨勢,表明蛋白質序列的表征比其對應結構的增長速度要快得多。

盡管最近開發的高性能結構預測方法,如AlphaFold,使科學家們能夠將結構的增長與序列等同起來,但它并沒有解決功能注釋這一耗時的問題。因此,我們面對的是一個未標注數據與標注數據之比廣泛增加的領域(這一現象被稱為序列-結構差距),鑒于半監督方法的成功,我們可以推測Transformer也可以類似地利用龐大的蛋白質空間,并在蛋白質研究領域激發一場類似的革命。 用于蛋白質設計的Transformer 最近NLP的革命性發展已經影響了一些開創性的蛋白質研究,一些研究已經將語言模型的概念應用于蛋白質序列。 第一個基于Transformer的蛋白質語言模型,ESM和TAPE,可以追溯到2019年。ESM-1b是由Facebook AI領導的一項工作,是一個在2.5億個蛋白質序列上訓練的編碼器Transformer,其結構和訓練目標與BERT相同(圖3d),但是,在這種情況下,33個編碼器層在UniParc數據庫(圖3d)上被預先訓練,以產生編碼蛋白質序列的矢量表示。ESM-1b的表示,類似于捕捉語言語法的BERT句子表示,編碼蛋白質的內部組織,從氨基酸的生物化學特性水平到蛋白質之間的進化關系。 最近,來自慕尼黑、Nvidia和Google AI的科學家合作開發了ProtTrans,這是一個令人印象深刻的對以前發布的六個基于Transformer的架構(Transformer-XL、BERT、Albert、XLnet、T5和Electra;表1)的改進,可以完全為社區所接受。這項研究利用了迄今為止最大的訓練數據集,包含了來自UniParc和Big Fantastic數據庫的超過3900億個氨基酸。他們的工作表明,蛋白質嵌入--Transformer輸出的矢量表示--能夠準確地預測每個殘基的二級結構和亞細胞定位。 這些早期的研究證明了學習蛋白質表征在下游應用中的潛力,包括分類或回歸任務。**最近,有幾項工作發表,使用預先訓練好的模型來生成蛋白質序列。**雖然沒有明確采用語言模型,但提到了兩個從傳統的蛋白質設計范式--基于搜索能量函數最小值--轉向神經網絡方法。首先,受DeepDream(谷歌的CNN)的生成能力的啟發,Anishchenko等人在一個逐步的過程中應用trRosetta,以高通量的方式生成理想化的蛋白質結構。其次,Huang等人最近生成了SCUBA,一種新型的自適應核鄰接計數神經網絡(NC-NN)方法,產生了具有新拓撲結構的新結構。 關于語言模型的特殊情況,最近有幾項工作正在利用Transformer進行蛋白質設計。Castro等人實現了ReLSO,這是一個經過訓練的自動編碼器,可以聯合生成序列并預測輸入標記數據集的適用性。Moffat等人實施了DARK,這是一個有1.1億個解碼器的Transformer,能夠設計新的結構,Ferruz等人發布了ProtGPT2,這是一個基于GPT-2結構的7.38億個Transformer模型,能夠在蛋白質空間的未開發區域生成新的序列。

圖5:利用Transformer模型在蛋白質工程領域的可能性概述

定制的蛋白質設計 NLP及其應用于定制蛋白質設計的下一個重要步驟是在訓練中加入功能標簽。最近,Gligorijevi?等人實現了一個去噪自動編碼器Transformer,在這個Transformer中,一定的輸入序列被轉化為質量上乘的輸出序列和一定的功能。然而,在實現可控文本生成方面最重要的工作之一是開發了條件Transformer語言(CTRL),這是一個自回歸模型,包括能夠不依賴輸入序列而可控地生成文本的條件標記(表1)。 這些研究突出了一個有前途的新研究領域:用條件Transformer可控制地生成蛋白質序列。在基于Transformer的蛋白質語言模型中加入條件標簽,不僅可以像以前的這些工作那樣生成新的序列,而且有可能對這些蛋白質的特性進行控制。 通過提示語言模型產生定制序列的能力將是蛋白質研究中的一個變革性里程碑,但其實施并非沒有挑戰。監督序列標記的過程依賴于注釋序列的質量。 **不過,最近在序列注釋方面的工作可能為更快的自動注釋過程打開了一扇新的大門。Bileschi等人最近使用神經網絡來預測功能注釋,將Pfam數據庫擴展了9.5%以上。盡管這可能是一個漫長而具有挑戰性的過程,但在這個方向上的努力可能會推動在可預見的未來對蛋白質空間的很大一部分進行注釋,從而促進條件Transformer的實施。 酶、受體和生物傳感器設計 2018年,IBM研究院發布了IBM RXN for Chemistry,這是一個基于云的應用程序,將有機化學與人類語言聯系起來,可以使用編碼器-解碼器架構預測化學反應最可能結果(圖3a)。 鑒于最近IBM對化學反應的矢量表示進行編碼的方法,我們可以設想另一種模型,將化學反應作為輸入,產生蛋白質序列作為輸出。這種模型將為酶的設計提供一種創新的途徑,**包括能夠催化自然界中沒有的反應的工程酶。 可解釋的蛋白質設計 傳統上,最廣泛使用的NLP技術,如HMMs或SVMs(圖2),本質上是可以解釋的,因此被歸為”白盒”。最近,深度學習方法的爆炸性增長在整個NLP任務中達到了很高的性能,帶來了開發新技術來解釋這些模型的挑戰。針對”黑盒”模型的XAI技術已經取得了實質性的進展,其中五個主要技術是:特征重要性(feature importance)、代理模型(surrogate model)、例子驅動(example-driven)、基于出處(provenance-based)和聲明性歸納(declarative induction)。 將Transformer的內部運作可視化的可能性可以為更好地理解蛋白質的折疊和設計帶來巨大的機會。 蛋白質設計的未來是否掌握在大公司手中 近年來發表的Transformer模型是由大公司主導的(圖4a)。據估計,**用1750億個參數訓練GPT-3--迄今為止第二大的模型--花費了1200萬美元,需要超過10000天的GPU時間。**其他的模型也是通過使用大量的TPU資源來訓練的。訓練這樣的深度學習模型是一種商品,像OpenAI或谷歌這樣的大公司可能可以獲得,但對于初創公司和許多學術研究團體來說,可能是無法達到的。他們在經濟上的可及性是一個問題。 迄今為止發表的9個基于蛋白質的Transformer模型中的7個(表1)是由大公司領導或參加。 根據蛋白質的特定屬性(如由于必須形成三維結構而產生的偏差)來調整模型,可能會在降低計算成本的情況下提高性能。 結論 **本文設想了將目前的NLP方法轉移到蛋白質研究領域的六個直接應用。**按照目前的NLPTransformer對蛋白質序列的適用程度排序,我們可以:(1)在蛋白質空間的未觀察到的區域生成序列;(2)對天然蛋白質家族的序列進行微調,以擴展它們的庫;(3)利用其編碼的矢量表示作為其他下游模型的輸入,用于蛋白質工程任務;(4)生成具有特定功能特性的條件序列;(5)利用編碼器-解碼器Transformer設計完全新穎的、目的明確的受體和酶;(6)更全面地了解序列-結構-功能關系,包括通過解釋這些語言模型來支配蛋白質折疊的規則。 毋庸置疑,**這些進展并非沒有挑戰,模型的大小和功能注釋的困難都是最值得注意的兩個問題。**此外,正如早期研究指出的那樣,基準將是比較模型性能的首要條件,這在序列生成方面尤其具有挑戰性。 對生成的序列進行適當的評估,需要實施高通量的實驗特征分析。最終評估這些序列的相關功能(例如它們的催化活性)是否超越當前的蛋白質工程策略(可能是在實驗反饋改進模型的迭代輪次中)將是至關重要的。 盡管有這些困難,我們相信基于Transformer的蛋白質語言模型將徹底改變蛋白質設計領域,并為許多當前和未來的社會挑戰提供新的解決方案。 參考資料 Ferruz, N., H?cker, B. Controllable protein design with language models. Nat Mach Intell 4, 521–532 (2022). //doi.org/10.1038/s42256-022-00499-z

--------- End ---------

付費5元查看完整內容

相關內容

醫學領域的人工智能是使用機器學習模型搜索醫療數據,發現洞察,從而幫助改善健康狀況和患者體驗。 得益于近年來計算機科學和信息技術的發展,人工智能 (AI) 正迅速成為現代醫學中不可或缺的一部分。 由人工智能支持的人工智能算法和其他應用程序正在為臨床和研究領域的醫學專業人員提供支持。

編譯 | 陳睿哲 本文介紹一篇拜羅伊特大學2022年7月發表在nature communications的《ProtGPT2 is a deep unsupervised language model for protein design》。蛋白質設計在自然環境和生物醫學中發揮著重要作用,旨在為特定用途設計全新的蛋白質。受到近期Transformer架構在文本生成領域成功的啟發,作者提出ProtGPT2,一種在蛋白質空間上訓練的語言模型,用于生成遵循自然序列原則的全新蛋白質序列。ProtGPT2生成的蛋白質顯示出天然氨基酸傾向,而無序預測表明,88%的ProtGPT2生成的蛋白質是球狀的,與自然序列一致。蛋白質數據庫中的敏感序列搜索表明,ProtGPT2序列與自然序列有著遠親關系,相似網絡進一步證明,ProtGPT2是對蛋白質空間中未探索區域的采樣。ProtGPT2生成的序列在探索蛋白質空間的未知區域時,保留了天然蛋白質的關鍵特征。

1 簡介 近年來,預訓練大模型極大地推動了自然語言處理領域的發展。作者等人注意到,蛋白質序列與人類語言有著某種相似性。蛋白質序列可以描述為化學定義的字母、天然氨基酸的串聯,與人類語言一樣,這些字母排列形成二級結構元素(“單詞”),單詞的集合形成承擔功能的“句子”。蛋白質序列與自然語言一樣,是信息完整的:它們以極其高效的方式完全按照氨基酸順序存儲結構和功能。隨著自然語言處理領域在理解和生成具有接近人類能力的語言方面的非凡進步,作者假設這些方法為從序列的角度處理蛋白質相關問題打開了一扇新的大門,例如蛋白質設計。

受到自回歸語言模型(如GPT系列)和先前采用自回歸語言模型建模蛋白質序列的成功,作者想知道能否通過自回歸語言模型來建模蛋白質序列,以達到:1)高效地學習蛋白質序列語言;2)生成合適且穩定的蛋白質;3)理解所生成的序列與自然語言處理的關系,模型能否對未知蛋白質空間進行采樣。

因此,作者提出了ProtGPT2,一種具有7.38億參數的GPT架構的自回歸模型,能夠以高通量方式生成從頭蛋白質序列。ProtGPT2在整個蛋白質空間的百萬序列上進行訓練后,有效地學習了蛋白質語言。ProtGPT2生成的蛋白質序列具有與自然序列相同的氨基酸和無序傾向,同時在進化上遠離當前的蛋白質空間。二級結構預測計算出88%的序列是球狀的,與天然蛋白質一致。使用相似網絡表示蛋白質空間表明,ProtGPT2序列通過擴展自然超家族來探索蛋白質空間的未知區域。生成的序列顯示出與自然序列類似的預測穩定性和動態特性。由于蛋白質設計在解決從生物醫學到環境科學等領域的問題方面具有巨大潛力,作者認為ProtGPT2是高效高通量蛋白質工程和設計的重大進步。

2 方法 分詞與詞表 作者通過BPE分詞器在數據集上訓練,最終的詞表大小為50256個tokens,每個token平均包含了4個氨基酸。

數據集 作者以Uniref50作為訓練數據集,包含49874565個序列。隨機選擇10%的序列生成驗證數據集。最終的訓練和驗證數據集分別包含4488萬和499萬個序列。作者生成了兩個數據集,一個使用512的序列大小,另一個使用1024。本文中展示的結果對應于使用512大小訓練的模型(后文主模型)。

模型 作者使用堆疊Transformer decoder作為模型架構,ProtGPT2模型由36層Transformer decoder組成,模型維度為1280。在自回歸語言模型的條件下,每個句子的概率分布被定義為如下:

更具體的,作者通過優化句子中每個單詞與其前綴的負對數似然作為目標函數來進行優化:

模型訓練 輸入序列為BPE分詞器所分詞后得到的token序列。模型權重在訓練之前重新初始化。使用Adam(β1)優化模型?=?0.9, β2?=?0.999),學習率為1e-03。對于主模型,每個batch為512 tokens × 128 GPUs。每個GPU處理8個batch,總計1024個。模型在128個NVIDIA A100上訓練4天。使用DeepSpeed69進行并行訓練。

模型推理 作者使用主模型,使用不同的推理參數,對序列進行采樣。在采樣策略與采樣超參數上,重復懲罰在1.1到3.0之間以0.1進行微調,選擇token的范圍top-k從250到1000不等,每50采樣一次,并且top-p從0.7到1.0,窗口為0.05個單位(top-k采樣,模型會從概率前 k 大的單詞中抽樣選取下一個單詞;top-p采樣,設定概率閾值,取滿足閾值條件的樣本進行采樣)。基于以上的參數設定,為每種采樣參數生成100個序列,并將其氨基酸的頻率與自然序列進行比較。作者觀察了哪些參數在自然序列中七種最常見的氨基酸組中產生的差異較小。作者還探索了50到100范圍的beam search采樣,但在所有情況下都會產生較差的結果。為了確定自然序列中的氨基酸頻率以與ProtGPT2樣本進行比較,作者從Uniref50數據集中隨機選取了100萬個序列。作者通過微調超參數找到了最佳匹配參數,某個采樣過程如圖1所示。

3 結果 統計采樣 自回歸語言生成基于以下假設:序列的概率分布可以分解為條件下一個詞分布的乘積。然而,一個訓練好的語言模型生成不連貫的亂碼或重復文本并不罕見。作者簡要總結了本研究中應用的最常用的語言生成采樣策略與超參數。

貪婪搜索策略是在每次采樣時選擇概率最高的token。雖然算法簡單,但生成的序列是確定性的,很快也會變得重復(圖1a)。Beam search試圖通過保留最可能的候選詞來緩解這一問題,盡管生成的文本仍然存在重復性,人類文本往往會交替使用低概率和高概率token(圖1b)。最后,通過從前k個最可能的詞中隨機選取一個詞,隨機采樣遠離確定性采樣(圖1c,d)。

根據先前關于語言模型采樣策略的研究,受這項工作的啟發,作者按照不同的采樣策略和采樣超參數生成序列(圖1)。為了評估什么樣的采樣過程產生了最自然的相似序列,作者將生成的序列集的氨基酸傾向性與在自然蛋白質序列中發現的進行了比較。作者還觀察到貪婪搜索和Beam search會產生重復的確定性序列,而隨機采樣顯著改善了生成的傾向性(圖1)。此外,作者還觀察到,生成類似于自然序列的序列需要較高的k值,即最佳結果出現在k ?>?800的范圍內,作者特別選擇了k?=?950(圖1h)。作者還發現,當選擇1.2的重復懲罰時,采樣結果得到了改善。因此,本研究的其余部分使用了這些采樣參數。

ProtGPT2序列編碼球狀蛋白 為了在序列和結構屬性的背景下評估ProtGPT2生成的序列,作者創建了兩個數據集,一個是使用前面描述的推理參數從ProtGPT2生成的序列;另一個是從UR50隨機選擇的序列。每個數據集由10000個序列組成。由于ProtGPT2是以無監督的方式訓練的,作者的分析重點是驗證ProtGPT2序列的結構和生化特性。

作者首先研究了數據集中的無序和二級結構內容。之前已經表明,在細菌和古細菌中發現的蛋白質中約有14%是無序的。為此,作者運行IUPred335來分析ProtGPT2生成的序列是否比一組自然序列更容易無序。作者的分析顯示,在ProtGPT2生成的序列(87.59%)和自然序列(88.40%)中,球狀結構域的數量相似。已經報道了幾種檢測短內在無序區域的方法。由于作者的目標是提供跨數據集的球狀度和普遍無序的高水平比較,作者進一步使用IUPred3在氨基酸水平上分析了蛋白質序列。值得注意的是,作者的結果顯示兩個數據集的有序/無序區域分布相似,ProtGPT2和自然數據集中分別有79.71%和82.59%的有序氨基酸(表1)。

接下來,作者研究了無序中的相似性是否是等效二級結構元素含量的結果。為此,作者計算了ProtGPT2和自然序列數據集的PSIPRED預測。自然序列顯示α螺旋、β片和線圈含量分別為45.19%、41.87%和12.93%。ProtGPT2數據集的百分比分別為48.64%、39.70%和11.66%。這些結果表明,ProtGPT2生成的序列類似于球狀結構,其二級結構與在自然界中發現的類似。

ProtGPT2序列與自然序列 蛋白質在進化過程中通過點突變以及復制和重組發生了巨大變化。然而,通過序列比較,即使兩種蛋白質的序列有顯著差異,也可以檢測出它們之間的相似性。作者想知道ProtGPT2序列與自然序列的關系如何。為此,作者使用了HHblits,這是一種敏感的遠程同源性檢測工具,使用配置文件隱馬爾可夫模型根據數據庫搜索查詢序列。作者根據Uniclust30數據庫搜索ProtGPT2數據集中10000個序列的同源性。為了進行比較,作者還使用相同的設置對自然數據集執行了相同的搜索。此外,為了分析完全隨機序列與ProtGPT2序列的比較情況,作者還通過隨機選取詞表中的25個字母進行連接,構建了第三個數據集。

因為作者想對數據集與現代蛋白質空間的相關性進行定量比較,所以作者繪制了個體與序列長度圖(圖2)。具體來說,對于Uniclust30中發現的每一條路線,作者描述了具有最高個體和序列長度的路線。作為序列同一長度空間中的參考點,作者使用HSSP曲線,一個邊界集來定義蛋白質序列相關性的置信度。其特性低于該曲線的蛋白質,不一定具有類似的3D結構,也不可能具有同源性。由于ProtGPT2和隨機數據集中的序列不是蛋白質進化的結果,作者使用曲線作為已知閾值來比較數據集。

當查看曲線上方和下方的點擊分布時,作者觀察到HHblits在Uniclust30數據庫中發現了許多與自然序列數據集相關的點擊(圖2a)。具體來說,在10000個數據集序列中,9621個(96.2%)在HSSP曲線以上顯示出一致性。類似地,9295個ProtGPT2生成的序列(93%)在Uniclust30數據庫中也有對應的序列,它們在HSSP曲線上方對齊(圖2b)。相反,93%的隨機生成序列低于該閾值(圖2c)。盡管natural和ProtGPT2數據集的模式相似,但這兩個數據集在點擊分布上存在差異。一個標準差范圍為31.5–69.7%,自然數據集的平均同一性高于ProtGPT2集,范圍為32.9–64.1%(圖2a,b)。自然和ProtGPT2序列分布之間的差異無統計學意義(p值90%)。盡管ProtGPT2數據集中的365個序列在Uniclust30中具有高同一性序列,但它們在所有情況下都對應于低于15個氨基酸的比對,而自然數據集顯示760個序列超過90%,比對長度在14.8–77.3個氨基酸的一個標準差范圍內。這些結果表明,ProtGPT2有效地生成了與自然序列有遠親關系的序列,但不是記憶和重復的結果。

ProtGPT2生成有序結構 設計全新蛋白質序列時最重要的特點就是能否夠折疊成穩定的有序結構。作者在AlphaFold預測、Rosetta松弛分數和分子動力學(MD)模擬下,評估了ProtGPT2序列與自然和隨機序列的潛在適合度。

AlphaFold在0-100(pLDDT)范圍內生成其置信度的每殘留估計值。該分數已被證明與順序相關:低分數(pLDDT>50)往往出現在無序區域,而優秀分數(PLDD>90)出現在有序區域。在這里,作者對每個序列進行了五個結構預測。當采用每個序列的最佳評分結構時,數據集的平均pLDDT為63.2,當對每個序列的所有五個預測進行平均時,為59.6。此外,37%的序列顯示pLDDT值超過70。由于pLDDT分數是結構順序的代理,作者轉向自然和隨機數據集,看看它們與ProtGPT2序列相比如何。與之前的工作一致,自然數據集中66%的序列預測pLDDT值大于7043,整個數據集的平均值為75.3(補充圖2b)。相反,隨機數據集中的預測顯示pLDDT的平均值為44,pLDDT值超過70的序列中只有7.4%(補充圖2c)。

為了進一步驗證模型的質量,作者在三個數據集上執行了Rosetta RelaxBB。Rosetta Relax對Rosetta能量函數執行蒙特卡洛優化,從而產生不同的骨架和轉子分子構象。較低的羅塞塔能量構象與較松弛的結構相關。最新的羅塞塔能量力場與熱容、密度和焓等實驗變量密切相關。該評分函數反映了一種靜態蛋白質構象的熱力學穩定性。在這里,作者對三個數據集的30000個序列進行了Rosetta松弛實驗(圖3a)。一個廣泛的經驗法則是,總分(羅塞塔能量單位,REU)應介于?1和?3/殘基。作者在天然和ProtGPT2數據集中觀察到這種分布,平均值分別為1.90和1.73 REU/殘基。正如預期的那樣,隨機序列的數據集顯示平均值為0.13 REU/殘基。

作者進一步測試了ProtGPT2序列是否顯示出與自然序列類似的動態特性。蛋白質是動態實體,如果沒有其固有的靈活性,它們將無法與其他生物分子相互作用并在細胞中發揮其功能。為了評估ProtGPT2生成的序列是否在與天然蛋白質相同的范圍內顯示靈活性,作者隨機選擇每個數據集的12個序列,并運行了100個分子動力學(MD)的三個副本,共108條軌跡,總時間為10.8微秒。為了確保在模擬過程中觀察到的動力學不是不同pLDDT值的偽影,因此可能是不同的無序預測,作者確保數據集pLDDT平均值之間的差異在統計上沒有差異。自然和ProtGPT2數據集中每條軌跡的均方根偏差平均值分別為2.93和3.12?分別為(圖3b)。正如預期的那樣,隨機序列在軌跡期間顯示出顯著的偏差,平均值為9.41??. 雖然ProtGPT2序列的值高于自然序列,但分布沒有顯著差異。結果表明,ProtGPT2序列可能與自然界中發現的蛋白質具有類似的動力學特性。

ProtGPT2超越了當前蛋白質空間邊界 有幾項研究試圖將蛋白質序列的維度降低為幾個可識別的維度,以便進行分析。大多數表示方法包括(i)蛋白質結構的層次分類,如ECOD和CATH數據庫,(ii)笛卡爾表示和相似網絡。作者最近在一個網絡中表示結構空間,該網絡將蛋白質顯示為節點,當它們在common中具有同源和結構相似的片段時連接,并在Fuzzle數據庫中提供結果。該網絡代表來自七個主要SCOP類的25000個域,并表明現代已知的蛋白質空間既有連接的區域,也有“島狀”區域。

進化已經探索了所有可能的蛋白質序列,但并不可信。因此,作者想設計出探索蛋白質空間未探索區域的蛋白質,以及是否可以設計出新的拓撲結構和功能,提出了挑戰。作者將ProtGPT2序列整合到作者的蛋白質空間網絡表示中。為此,作者為每個SCOPe2.07和ProtGPT2序列生成了HMM配置文件,使用HHsearch以all對all的方式對它們進行比較,并用Protlego表示網絡。為了避免具有多個對齊的特定序列最終由網絡中的同一節點表示,作者用兩個不重疊的對齊復制條目。

該網絡包含59612個頂點和427378條邊,包括1847個組件或“島狀”簇(圖4)。主要成分聚集了一半以上的節點(30690),這一數字明顯高于在相同設置下生成的網絡中觀察到的數量,但不包括ProtGPT2序列,強烈表明ProtGPT2生成的序列橋接了蛋白質空間中的獨立島。作者從拓撲不同的作用域類中選擇了跨越網絡不同區域的六個示例,以在結構級別展示ProtGPT2序列(圖4)。特別是,作者報告了一個全β(751),兩個α/β(42661068),一個膜蛋白(4307),一個α?+?β(486)和全α(785)結構。這些結構說明了ProtGPT2在生成從頭結構方面的多功能性。對于每種情況,作者使用FoldSeek58搜索PDB數據庫中發現的最相似的蛋白質結構。ProtGPT2生成折疊良好的全β結構(751,4307),盡管最近取得了令人印象深刻的進展,但長期以來一直非常具有挑戰性。ProtGPT2還生成膜蛋白(4307),由于在指定膜內結構方面的挑戰和繁重的實驗表征,這對蛋白質設計提出了一個困難的目標。除了生成自然折疊代表外,ProtGPT2還產生了以前未收錄的拓撲結構。例如,作者報告了蛋白質4266,其拓撲結構與目前PDB收錄中的任何結構都不匹配,DALI Z分數低為5.4,RMSD為3.0??到PDB 5B48超過67個殘基(9%)。

然而,ProtGPT2序列最顯著的特性可能是其與所有先前設計的從頭結構的顯著偏差,這些結構通常具有環路和最小結構元素的理想拓撲。從頭蛋白質設計的優點是不攜帶任何進化歷史,但在實踐中,缺乏實例和更長的環阻礙了與其他分子相互作用和功能實現所需的裂縫、表面和空腔的設計。ProtGPT2序列類似于天然蛋白質的復雜性,具有多方面的表面,能夠分配相互作用的分子和底物,從而為功能化鋪平了道路。在圖4中,作者展示了結構486和1060,這是此類復雜結構的兩個示例。特別是,1068顯示了TIM-barrel褶皺,該拓撲迄今為止在從頭蛋白質設計中取得了成功,但其理想化結構已被證明具有挑戰性,無法通過額外的secondary elements和更長的環進行擴展。

保留的功能熱點 對FoldSeek發現的最佳點擊結構疊加進行檢查,發現了幾個配體相互作用殘基的側鏈保守的例子。圖5中顯示了兩個示例。最類似于序列357(圖5a)的自然結構對應于PDB代碼1X0P(鏈A),一個結合FAD的藍光傳感器域。當重疊結構時,作者觀察到357保留了側鏈結合熱點,三個殘基相同(D169、Q150和N131),兩個不同但能夠形成相同相互作用的殘基,即R165位的賴氨酸和K127位的組氨酸。序列475(圖5b)最類似于PDB代碼5M1T(鏈A),折疊成TIM-barrel并與細菌第二信使環二-3′,5′-鳥苷單磷酸(PDB三字母代碼C2E)結合的磷酸二酯酶。在五個側鏈相互作用的殘基中,ProtGPT2序列保留了三個殘基(Q455、R473和E469),并包括一個取代另一個能夠氫鍵的殘基(用于Q513的天冬氨酸)。值得注意的是,ProtGPT2以zero-shot生成了這些序列,即在這兩個特定折疊中沒有進一步微調。這些結果對蛋白質工程產生了重大影響,因為盡管同源性較低(357和45分別為31.1%和29.2%),但ProtGPT2似乎保留了生成序列中的結合位置,并可用于增加特定折疊和家族的序列。

4 總結 過去的2年里,利用人工智能方法的從頭蛋白質設計取得了驚人的成功。作者構建了一個自回歸語言模型ProtGPT2,ProtGPT2有效地學習了蛋白質語言。ProtGPT2可以生成與自然序列有遠近關系的序列,其結構類似于已知的結構空間,具有非理想化的復雜結構。由于ProtGPT2已在整個序列空間上訓練,因此該模型產生的序列可以對任何區域進行采樣,包括深色蛋白質組和傳統上認為在蛋白質設計領域非常具有挑戰性的區域,例如全β結構和膜蛋白。ProtGPT2蛋白質與遠親天然蛋白質結構的視覺疊加顯示,PROTGPT1還捕獲了功能決定簇,保留了配體結合的相互作用。由于人工蛋白質的設計可以解決許多生物醫學和環境問題,作者在蛋白質語言模型中看到了巨大的潛力。ProtGPT2設計在幾秒鐘內即可適應球狀蛋白質,無需進行進一步訓練。通過根據用戶序列微調模型,ProtGPT2可以適應特定的家族、功能或折疊。在這種情況下,ProtGPT2將能夠篩選與天然蛋白質相似的蛋白質,以改善、微調或改變天然蛋白質的特定生化功能。大規模篩選ProtGPT2設計的蛋白質庫可能會識別數據庫中未捕獲的蛋白質折疊以及在自然界中沒有相關對應功能的蛋白質。ProtGPT2是面向高效蛋白質設計和生成邁出的一大步,為探索設計蛋白質結構和功能的參數及其后續實際應用的實驗研究奠定了基礎。 參考資料 Ferruz, N., Schmidt, S. & H?cker, B. ProtGPT2 is a deep unsupervised language model for protein design. Nat Commun 13, 4348 (2022). //doi.org/10.1038/s41467-022-32007-7
項目主頁

代碼

付費5元查看完整內容

來源:智藥局 最近,來自華盛頓大學David Baker教授課題組聯合哈佛大學的科學家,描述了兩種深度學習方法來設計指定的功能位點的蛋白質,而無需指定的的蛋白質二級結構。

7月22日,論文以“Scaffolding protein functional sites using deep learning”為題發表在Science雜志上。

01、文章概述

蛋白質的生化功能通常由構成功能位點的殘基子集執行,因此具有新功能的蛋白質的設計可分為兩個步驟。

第一步:確定功能位點的空間結構和氨基酸序列,這些可以通過量子化學計算、片段對接計算,以及從天然蛋白中提取來獲得。

科學家重點關注第二步:運用給定的功能位點信息,設計折疊成包含該位點的三維(3D)結構的氨基酸序列。 從頭設計功能性蛋白的難題是能夠提出一個有穩定功能區域(活性位點、結合界面等)的整體骨架,并設計折疊成該結構的序列。但通常這這個過程分成兩步。

因此,理想的功能性蛋白不僅能將功能位點嵌入蛋白質骨架中,以保持最小的形變,且蛋白質骨架具有多樣性,還能同時生成骨架結構和氨基酸序列。

基于上述要求,研究人員使用兩種深度學習方法來設計功能蛋白。

第一種方式是**“Hallucination”**(幻覺,預測優化):通過限制功能區域的片段結構,用復合損失函數優化氨基酸序列,以折疊到包含所需功能位點的結構,AI經過不斷地迭代和優化,得到穩定的目標蛋白,并能在實驗室中制造和研究。

簡單來說,就像是對胡言亂語的單詞強加一些要求,然后計算機通過不斷地設計和改變,使之有意義,最終得到一個完整的故事。

第二種被稱為**“ Inpainting”(修復,蛋白質修復):即將特定的序列/活性位點輸入到軟件(RoseTTAFold神經網絡)中,軟件可以在幾秒內填補蛋白質結構的缺失部分,類似于使用語言模型補全給定的幾個單詞,該方法將蛋白質設計簡化為信息缺失—恢復問題。**

Hallucination和Inpainting的流程圖

兩種方式沒有高低優劣之分。

Hallucination(幻覺)耗費的算力更大,每次設計需要5—20分鐘,但準確度更高。因此當信息缺失區域更大時,Hallucination的效果更好,產生的蛋白質結構也更具多樣性。

02、應用案例及展望

實驗測試表明,通過幻覺和修復產生的許多蛋白質都按預期發揮作用,包括生成潛在的潛在的RSV疫苗、金屬結合蛋白、酶、以及結合PD-1 受體的蛋白質,這些設計的蛋白不僅能夠表達特定功能,在結構和序列上和天然蛋白也有較大的差距。

例如對呼吸道合胞病毒(RSV)的驗證,研究人員針對其抗原表位用AI設計了37個新興蛋白質,其中三個以0.9-1.3μM的結合力與RSV的中和抗體結合,為相關疫苗開發提供新的思路。

(淡黃色—天然蛋白質支架,橙色——天然功能基序,灰色—幻覺設計的支架,紫色—幻覺設計的功能基序)

“通過這兩種方式,可以在新設計的蛋白質中得到關鍵特征,這些特征可以是已知的結合基序,甚至是酶活性位點。”研究人員解釋。

可以說,本篇文章證明深度學習可用于設計具有多種功能的蛋白質,包括制造出可用作疫苗、癌癥治療甚至是消除空氣中碳污染的工具的蛋白質,對藥物研發和合成生物學都有重要的應用。

“這些都是非常強大的新方法,但仍有很大的改進空間,”論文通訊作者David Baker說道,“例如,設計高活性酶仍然非常具有挑戰性。”

值得一提的是,這篇論文已經是今年Baker課題組在Science發布的第三篇文章,整個課題組已經從蛋白質結構預測逐漸轉型為蛋白質設計。

本篇文章中也集成了課題組此前的工作,包括hallucination的蛋白質設計方法,從靶點結構設計蛋白質等。參考資料:DOI:10.1126/science.abn2100 //www.technologynetworks.com/drug-discovery/news/scientists-train-ai-to-generate-medicines-and-vaccines-363979

付費5元查看完整內容

本文介紹由蘭州大學黎育權和騰訊量子實驗室謝昌諭博士等人發表在Nature Machine Intelligence期刊上的研究成果,論文通訊作者為姚小軍教授。文章中報道了一種自動圖學習方法,能夠在人工不參與的情況下,在多種不同任務上取得先進的預測性能,超越過去的主流模型。作者還提出一種新的分子魯棒性實驗方法,并發現模型集成能夠大幅提升魯棒性。

1 研究背景

藥物發現是一個耗時、昂貴和復雜的過程,在人類健康和福祉中發揮著至關重要的作用。機器學習方法,尤其是圖學習方法有可能顯著提高藥物發現效率。它們能從現有藥物相關數據集中進行學習,從而來預測分子相互作用和性質。同時,這也是機器學習能夠從廣闊的化學空間中以極快的速度和低成本尋找潛在候選藥物的關鍵所在。

然而,在少部分數據集上追求高預測性能已經固化了它們的架構和超參數,這使得它們在新數據的利用上不在有優勢。這種固化限制了他們在新數據上的學習能力和應用,使得他們的性能變得平庸。此外,大多數圖學習方法嚴重依賴深度學習的專家知識來實現其聲稱的最先進結果。當作者不給出這些具體的神經網絡架構和參數的時候,后來的研究人員甚至無法復現他們的模型性能。

這項工作提出了基于圖學習的自適應機器(Graph learning based adaptive machine, GLAM),它可以適應數據集并在無需人工干預的情況下做出準確的預測。

2主要貢獻

(1)提出一種自動機器學習方法,可以同時應用于分子屬性預測、藥物-蛋白相關關系預測、藥物-藥物相互作用預測。

(2)在相對公平比較的情況下(相同數據集分割),對比目前主流模型并取得最佳性能,包括分子屬性預測任務,藥物-靶標相關關系預測任務。 (3)提出一種合理的圖模型魯棒性測試方法,并發現集成模型比單模型的魯棒性好。

3 方法

本文的方法跟過去的設計一個圖網絡不同,本文利用自動化的流程從數據集中學習并逐步建立一個預測器,如圖 1 和圖2所示。以前的圖學習方法嚴重依賴人類專家來設計架構、調整模型超參數、選擇優化器和選擇損失函數。本文將這四個項目組合成一個配置,并將潛在的配置放入一個配置空間。從這個配置空間開始,GLAM 執行一系列步驟來構建預測器,如圖 2 所示。GLAM首先從配置空間中采樣了很多配置。然后將數據集喂給到這些配置以進行低保真訓練,從而得到驗證集分數以便于選擇性能高的配置。低保真訓練是指少量輪次的快速訓練,從而得到所有配置的驗證分數以快速估計他們的預測性能。高保真訓練是指使用巨量的輪次(帶早停)來精準地估計所選配置的預測性能。最后,將所有選定的預測器集成并建立一個最終預測器。

圖1. GLAM和傳統方法的對比.

圖 2. GLAM 具體流程圖.

本文設計了兩種通用架構,一種用于分子相互作用,另一種用于分子性質,如圖 3 所示。通用架構中的每個模塊都有自己的設計空間,如圖 4 所示。這些神經網絡架構接受的輸入都為圖,包括分子圖和蛋白圖。本文以原子為節點,以鍵為邊建立分子圖。對于蛋白圖,本文首先使用RaptorX計算得到接觸圖(contact map),然后以氨基酸殘基為節點,以接觸圖提供的信息作為邊建立蛋白圖。DTI任務同時考慮分子圖和蛋白圖作為輸入。DDI任務考慮兩個分子圖同時作為輸入。分子性質預測則接受單分子圖作為輸入。

圖 3. 應用于DTI和分子性質預測的神經網絡架構.

3 結果和討論 3.1適應數據集并取得高性能 GLAM是為了適應數據集以獲得高預測性能而設計的。為了考察該方法的適應性和性能,本文在14個數據集上與一系列具有代表性的傳統方法進行了性能比較。測試數據集的類型包括藥物-蛋白質相互作用、藥物-藥物相互作用、物理化學性質、生物活性、藥代動力學和毒性。考慮到不同的數據集分割會導致不同的性能,本文讓所有的方法共享相同的數據集分割,以獲得公平的評價。為了體現GCN,GAT,MPNN在不同架構和參數的差異,本文還盡量使用人工的方式優化架構并調整參數,以達到在某個數據集上達到最佳性能,以便于對比其適應性。最后,本文在這些數據集上運行基準測試。

與所有傳統方法相比,本文提出的方法能夠很好地適應數據集,并取得了良好的預測性能,如表1、表2和表3所示。傳統方法在不同數據集上固化下來的架構和參數表現出乘次不齊的性能,而GLAM可以在沒有人為干預的情況下始終如一地獲得最好的分數。因此,GLAM準備成為一種靈活、可靠和值得信賴的方法,在藥物設計的廣泛應用中都能很好地發揮作用。

表1. DTI任務上的性能對比

注:以上所有方法測試基于相同數據集分割。

表2. 分子性質預測任務上的性能對比

注:以上所有方法測試基于相同數據集分割,分割方式為基于scaffold的隨機分割。

3.2面對分子結構擾動表現出高魯棒性 本文認為魯棒性也是衡量一種方法是否優秀的重要指標。本文假設,當施加對分子性質影響很小的結構擾動時,一個魯棒的預測器不應顯著改變其輸出。機器學習方法可能受到各種自然干擾的影響,如果這樣的干擾發生在一些安全敏感型行業(如醫療),后果可能是災難性的。如圖4所示,本文跟多個主流模型進行了對比。GLAM 的魯棒性很可能是由于在流程末端的模型集成。集成的主要思想是訓練幾個模型,通過平均得到最終的預測。擾動分子結構可能會影響單個預測器,但不太可能會顯著影響混合模型。更多關于魯棒性實驗的細節見論文原文。

表4. 魯棒性實驗

4 總結 本文提出了一種靈活的方法,可以適應任何數據集并做出準確的預測。所提出的方法采用自適應的自動機器學習流程從數據集中學習并得到一個高性能,高魯棒的預測器。在沒有任何人工干預的情況下,該方法在所有測試數據集上實現了比基于手工設計的的傳統方法更好的預測性能。此外,本文發現所提出的方法比傳統方法更魯棒。這是第一個為分子數據設計的自動圖學習方法。它的出現能夠為新出現的全新數據賦能,即使充分利用好這些新數據。

參考資料 Li, Y., Hsieh, CY., Lu, R. et al. An adaptive graph learning method for automated molecular interactions and properties predictions. Nat Mach Intell (2022). //doi.org/10.1038/s42256-022-00501-8

付費5元查看完整內容

利用人工智能促進生物醫學研究,是當前AI4Science熱點。最新來自南京大學與清華大學的學者在“Briefings in Bioinformatics”的綜述論文《深度學習蛋白質設計》綜述,詳細回顧了當前基于深度學習的蛋白質設計過程的主要進展,非常值得關注

具有理想功能和特性的蛋白質在納米技術和生物醫學等領域非常重要。從頭開始的蛋白質設計使以前從未見過的蛋白質從頭開始生產成為可能,這被認為是處理現實社會挑戰的關鍵。最近,深度學習被引入設計方法,展示了變革性的影響,并有望代表一個充滿希望和令人興奮的未來方向。在這篇綜述中,我們回顧了當前基于深度學習的設計過程的主要進展,并通過明顯的案例說明了它們與傳統的基于知識的方法相比的新穎性。我們不僅描述了深度學習在基于結構的蛋白質設計和直接序列設計中的發展,而且強調了深度強化學習在蛋白質設計中的最新應用。對未來的設計目標、挑戰和機遇進行了全面的探討。

引言

在我們復雜而奇妙的世界中,參與大多數生物化學反應的蛋白質,幾十年來一直是基礎科學研究以及醫療和工業應用的焦點。根據弗朗西斯·克里克在1958年闡明的基本生物學原理“中心法則”,蛋白質是生物體中低級系統信息的執行端,每個系統執行一種或幾種特定的編碼功能,這些功能依次共同定義相應的生物體。各種各樣的天然蛋白質,如核蛋白、膜蛋白、血紅蛋白、脂蛋白、熱休克蛋白、收縮蛋白等,與人工機器相比表現出驚人的優良性能,包括極高的效率、操作的經濟和精度、合成后的自組裝等。蛋白質材料以其巨大的數量、卓越的質量和隨之而來的多能性,為許多嚴重的社會挑戰提供了可能的解決方案,引起了廣泛的關注。

然而,由于工作環境的嚴格限制和相對較短的使用壽命,天然蛋白質無法滿足人類激增的需求。此外,由于天然蛋白質是在大自然的選擇壓力下經過數百萬年的進化而逐漸優化的,因此在原則上,它們不太可能在數百年內應對人類社會帶來的挑戰。因此,人造蛋白質修飾,甚至更進一步,從零開始設計全新的蛋白質應運而生。幸運的是,隨著過去對蛋白質[1]的生物化學和生物物理研究的長期積累,蛋白質設計在技術上成為可能。在過去的十年中,通過蛋白質設計已經取得了許多令人印象深刻的成就,這強烈地影響和促進了學術界和工業界的合成生物學。在免疫信號傳導[2,3]、靶向治療[4,5]、感覺反應系統[6]、蛋白開關[7,8]、自組裝材料[9,10]等未在此提及的領域的進展顯示了利用蛋白質作為功能性和可再生材料的令人興奮的潛力。此外,這些蛋白質設計上的突破也拓展了我們對蛋白質序列、結構和功能空間的探索和理解。以序列空間為例,由于所有的天然蛋白序列都起源于古代的一些偶然事件,并在偶然突變和定向選擇壓力下逐漸演化,因此它們不是均勻分散,而是以被稱為蛋白質家族的噴灑簇的形式存在于序列空間中。在有限的時間尺度內,自然進化無法對位于廣闊剩余空間的蛋白質序列的性質和功能進行采樣,這就賦予了蛋白質設計的重要意義。

早期的蛋白質設計方法如定向進化[11,12]和隨后的理性工程[13,14]主要著眼于模仿和/或加速自然進化過程。這些方法通過多輪的突變文庫構建和高通量篩選,偶然獲得了性能提高甚至功能新的蛋白[15-18]。然而,這些方法總是面臨測定保真度和通量之間的權衡,更重要的是,它們的探索仍然局限于相應的初始天然蛋白。隨著計算設備和算法的發展,計算機輔助蛋白質工程逐漸克服了上述不足,它避免了相對隨機的突變策略,并根據蛋白質的生物物理和生化原理提供了一些明確的設計藍圖。在眾多的計算機輔助蛋白質工程方法中,以生成自然界中不存在的新蛋白質為目標的蛋白質從頭設計(de novo protein design)最受關注。憑借豐富的寶貴成果,de novo蛋白設計被《科學》雜志提名為2016年[19]年度十大突破之一。

基本上,蛋白質從頭設計的任務是找到具有預期功能的新序列。然而,在實踐中,在構建蛋白質序列和功能空間之間的直接映射方面存在一些障礙。例如,一個蛋白質序列編碼的信息很難單獨從目標序列中提取出來,因為它只是20種氨基酸殘基的排列或組合。此外,不同的蛋白質功能幾乎無法定量表達。由于蛋白質需要形成特定的三級結構來完成其特定的功能,而且結構通常包含更豐富的信息,例如存儲在PDB文件中的原子的笛卡爾坐標,蛋白質結構是序列和功能雙向映射的完美媒介。此外,以往研究積累的大量蛋白質結構數據,如蛋白質折疊分類、由此產生的聚類以及結合界面、催化中心和變構調控等描述的反應機制信息也將非常有幫助。因此,蛋白質從頭設計主要以結構為基礎的方式進行。

基于結構的從頭蛋白設計通常有三個區域或階段,即主干生成、序列適應度和候選評分,如Top 7[20],第一個沒有天然同源物設計的球形蛋白,以及其他著名的相關作品。一般來說,在第一步設計具有預定義的次級結構元素和/或幾何約束(如殘差間的距離和方向)的特定折疊拓撲。然后,利用序列無關的能量函數進行評價,篩選出兼容的肽片段,并進行多次序列結構優化。在迭代過程中,采用Metropolis-Hastings算法根據能量函數隨機替換轉子。之后,對候選人進行評分、評分和選擇,生成最終的設計輸出[21]。

盡管取得了顯著的成就[22-24],但這些傳統的方法主要是基于知識的,依賴于物理原理和統計規則[25]。隨著蛋白質序列、結構、功能及其相互關系的大量數據積累[26-28],近年來蛋白質設計的研究興趣逐漸轉向數據驅動的方法[29]。其中,深度學習技術對自然語言處理、計算機視覺[30]等諸多領域產生了革命性的影響。深度學習提供最簡單、也最一般的近似和高階統計參數化方法和勢擴大接受域與大數據的支持,因此可以被集成到所有領域的基于結構的蛋白質設計進行進一步的改進和突破。此外,深度學習還揭示了在不依賴結構介質的情況下,直接設計具有特定功能或特性的蛋白質序列。在這篇綜述中,我們將討論基于深度學習技術的先進蛋白質設計方法,它們所提供的好處和可預測的趨勢。值得注意的是,許多其他的進步極大地促進了蛋白質設計,例如DNA合成,蛋白質結構預測和蛋白質制造,這里將不詳述。

深度學習技術

簡而言之,深度學習訓練人工神經網絡或相關網絡的組合來在高維抽象空間中近似復雜的未知函數。具有非線性激活的人工神經元或節點通過特定的仿射變換連接起來,參數化權值和偏差,在每個訓練步驟中通過反向傳播從損失計算出的梯度進行修正,即當前網絡輸出與相應地面真實值之間的差異。

基于結構的蛋白質設計中的深度學習

基于結構的蛋白質設計可以看作是蛋白質結構預測的逆過程。對于后者,需要為給定的序列建模一些潛在的結構,而對于前者,需要為設計好的拓撲結構的主干優化一些可行的序列(圖2)。蛋白質同源性在蛋白質結構預測中起著重要的作用,為精確推斷提供了大量的進化信息。近年來,深度學習在很多方面對蛋白質結構預測產生了革命性的影響,從早期的蛋白質殘基間接觸預測和接觸輔助結構建模[31,53 - 57],到后來對殘基間幾何性質和基于幾何約束的蛋白質折疊的精確預測[32,58 - 62]。此外,谷歌DeepMind開發的具有最先進的端到端訓練程序的注意力網絡在第十四屆CASP (Critical Assessment of protein Structure Prediction)實驗中為單結構域蛋白質的結構預測提供了極好的解決方案,震驚了公眾[63-65]。用于蛋白質結構預測的深度學習技術,如卷積神經網絡,可以有效地從多序列比對中蘊含的協同進化信息中捕獲折疊級結構特征[66]。這些成果加深了我們對蛋白質序列-結構關系的理解,這也是基于結構的設計的基礎,并提供了一系列可以直接用于設計問題的實用工具。除了通過結構預測的進步對蛋白質設計的環境改進外,定制化深度學習方法也直接對蛋白質設計做出了相當大的貢獻。針對不同設計階段不同設計目標的新型網絡架構、訓練程序和數據操作不斷涌現,有力地推動了蛋白質的探索。我們將詳細說明這些新特性,說明這些方法與傳統的基于知識的方法之間的區別,并在以下部分闡明相應的意義。

直接序列設計中的深度學習

如上所述,蛋白質設計的主要任務是找到能夠穩定地展示所需特性和執行預期功能的序列。此外,信息通路越長,中轉點越多,通常會引入不必要的數據轉換和傳輸,可能會造成較大的信號偏差。因此,原則上,直接映射蛋白質序列和功能的空間似乎比需要預先確定的結構拓撲作為中間媒介的設計程序更有優勢。更重要的是,由于測序技術的進步,蛋白質序列數據的積累速度比結構數據快得多,尤其是宏基因組學的引入[114]。大量的未標記序列結合深度學習對特征提取、模式識別和目標生成的強大能力,使直接探索序列空間和改進蛋白質設計范式成為可能和有價值的。與蛋白質適應性景觀搜索給定的主干不同,直接序列設計在潛在空間學習序列表示的有意義的分布,并根據學習到的分布派生出的推測表示在真實空間生成序列(圖4)。因此,生成模型在這一領域的應用比判別模型更為廣泛(如表2所示)。在這一節中,我們將通過具體的案例來關注直接蛋白質序列設計的兩個主要方面,以回顧過去的成就并預測未來的趨勢。

使用深度強化學習進行蛋白質設計

基于深度強化學習的蛋白質設計方法就像自然蛋白質合成過程的計算機模擬(圖5),隨著更先進技術的應用,這些方法可以幫助我們挖掘更多蛋白質的內在原理,得到更多高質量的功能蛋白質材料。例如,DyNA PPO[132]就是基于proximalpolicy優化[133]的深度強化學習模型,用于序列設計。該模型從左到右依次生成氨基酸序列,整個過程被視為一個馬爾可夫決策過程。在序列生成完成之前,對agent的獎勵保持為0。在每一輪結束時,一組試圖近似替代適應度函數的機器學習模型給出的序列適應度測量作為最終獎勵。DyNA PPO通過使用一堆模型來學習序列適應度環境的不同方面,但只使用最合適的、具有足夠精度的模型來更新其策略,從而平衡了獎勵估計中的權衡。雖然DyNA PPO的優越性已經在多個方法的大規模基準測試中得到了證明,但該報告并沒有通過濕實驗室實驗進行任何驗證。因此,其實用性還需要在未來的研究中得到驗證。此外,強化學習可以用來微調一些預先訓練的生成模型的蛋白質設計。例如,RNN通過基于策略的強化學習方法進行調整,以生成理想的化合物[134]。這項研究最重要的啟示是降低災難性遺忘風險的嘗試和成功[135],這是蛋白質生成模型的一個常見問題。

結論

在過去的十年中,蛋白質設計取得了巨大的成功,幫助人類在多個方面應對社會挑戰。這樣的例子在我們的日常生活中隨處可見,包括設計用于體內生物傳感器的小分子結合蛋白[136,137],設計用于預防病毒感染的生物醫學抑制劑[138],設計具有誘人催化效率的酶[139-141],設計高度對稱的自組裝材料,使疫苗應用具有抗原的多價呈現[10,142]等。最近,深度學習技術對蛋白質設計領域產生了初步但令人印象深刻的影響。通過在現有的蛋白質數據中提取和集成統計模式的驚人能力,人工深度神經網絡學習基本的蛋白質特征,將它們存儲在數十億個參數中,并將它們推廣到不同的子領域進行推斷。然而,在我們常規使用深度學習方法設計任意蛋白質的道路上仍然存在障礙。例如,蛋白質折疊機制是生物信息學中最重要、最本質的問題之一,也是各種蛋白質設計方法的首要理論原則,我們對蛋白質折疊機制的認識還遠遠不夠充分。在這一領域,深度學習、物理建模和仿真相結合已經做了許多努力。或許深度強化學習(deep reinforcement learning)嘗試建立策略,并找到從延伸的蛋白質鏈到折疊良好的結構的可能軌跡也會有所幫助。

正如ImageNet數據庫[143]對計算機視覺發展的影響一樣,各個領域采用深度學習都需要豐富多樣的、有良好注釋的數據。然而,對于具有特定目標的蛋白質設計來說,蛋白質功能和性質的相關數據往往非常缺乏,而且缺乏統一的、標準的實驗條件。訓練數據的缺乏會阻礙準確的設計,從而導致額外的實驗優化的需求。雖然已經建立了以ProtaBank[144]為例的一些數據庫來緩解這一現象,但仍有很多工作要做。克服這一缺陷的另一個重要方向可能是少樣本學習[145,146],據我們所知,相關的探索還沒有嘗試過。蛋白質設計中能量函數的評分精度和計算速度也需要進一步提高,因為能量函數指導優化方向,每一步都要重復使用。與傳統的勢能項相比,深度神經網絡學習的能量函數對設計的評估更精確,但速度較慢。采用更先進、更輕量級的網絡架構以及知識提煉[147]和網絡修剪[148]可能會部分解決這一困境。蛋白質設計及其逆向過程——蛋白質結構預測——的另一個困境是,目前的優化方法通常擅長于只有一個最小值的景觀,而許多蛋白質通過不同構象之間的結構轉換來實現其功能和性質。這就需要深度學習方法來設計具有多個不同能量最小值的蛋白質。未來的研究人員應該關注這種復雜性。

關鍵結論

最近,深度學習的引入已經對蛋白質設計領域產生了初步但具有變革性的影響。

深度學習可以提供快速、高通量和精確的硅蛋白設計方法。

我們回顧了基于深度學習的蛋白質設計方法在過去兩年中取得的進展,并通過重要的里程碑說明了它們與傳統的基于知識的方法相比的新穎性、優勢和意義。我們還全面討論了未來的挑戰和機遇。

本文的綜述有助于人們進一步了解該領域,促進相關研究的開展。

付費5元查看完整內容

2022年4月27日,DeepMind科學工程師Tunyasuvunakool在Nat Rev Mol Cell Bio雜志發表評論文章,討論和分析了AI預測蛋白質結構的前景、機遇和挑戰。

2020年的CASP大賽標志著一項重大進展。機器學習方法AlphaFold預測了大多數目標蛋白的結構,評估人員稱其具有"與實驗相媲美"的準確性。本文討論了蛋白質結構預測方法的影響,強調了令人興奮的研究領域和剩余的挑戰。

背景

機器學習是人工智能的一個領域,它涉及到在不明確編程的情況下使計算機執行復雜任務。這通常涉及收集大量的輸入實例數據集,并在每種情況下指定正確的輸出。在訓練期間,機器學習模型的參數被逐漸調整,以使其在訓練集上的輸出更加正確。在蛋白質結構預測的情況下,輸入將包括目標氨基酸序列,加上任何進化相關的序列和模板結構,而期望的輸出是折疊蛋白質的原子坐標。一個模型的確切細節和它的訓練程序會極大地影響性能,所以直到最近才開發出可以解決這個問題的高精確度的方法。

實驗的伙伴

好的計算方法應該使我們有能力做更好的實驗,這是其重要性的核心。我們在蛋白質結構預測對實驗生物學的影響中看到了這一點。對于X射線晶體學家來說,良好模型的常規可用性使得更多的結構可以通過分子置換來解決,減少了花在實驗階段的時間。同時,在低溫冷凍電鏡中,將一個高精度的模型對接到密度圖中,可以加速模型的建立,并有可能提高其保真度。事實上,到目前為止,一些最令人印象深刻的應用是在綜合建模領域,其中低溫電鏡、X射線晶體學和結構預測被結合起來,以建立大型分子機器的模型。在這種情況下,預測和實驗相互促進,實驗數據也有助于驗證結構模型。

更廣泛地說,蛋白質結構預測可以支持對于表達和功能研究的有效規劃,為構建對象 (construct) 的設計和標簽的最佳位置提供建議。一個特別有用的應用可能是識別要突變以調節蛋白質功能的殘基。與蛋白質復合物預測相結合 (將在后面討論),這為更容易地破壞蛋白質功能和相互作用提供了可能。現在,良好的結構預測的普及,以及對這些方法認識的提高,使得結構指導的實驗計劃成為常規。

豐富的結構

實驗測定和預測之間的一個主要區別是,后者可以大規模地進行,從而使需要大量結構數據的一系列不同的應用成為可能。例如,現在有了涵蓋整個蛋白質組的預測結構,就有可能將其他大規模的生物數據映射到預測上,允許在適當的背景下研究突變和翻譯后修飾。預測數據庫也可以用結構感知算法進行搜索,可能會導致更敏感的蛋白質分類。一般來說,大型數據集的可用性支持生物信息學方法的發展。一個很好的例子是將AlphaFold的置信度量納入蛋白質失調預測的工具中。 可以說,大規模的預測也為我們提供了一個更清晰的蛋白質組結構的知識圖景。在AlphaFold蛋白質結構數據庫中,除了任何結構良好的結構域外,我們還選擇顯示對帶狀低置信區域的預測。雖然這種觀點與實驗提供的觀點有很大不同,但它直接承認了這些區域在重要蛋白質中的普遍存在,其中一些可能對應于內在的無序。

相互作用的預測

生物學主要關注的是具有許多相互作用成分的復雜系統的行為。解決這類系統的一個自然的下一步是預測蛋白質復合物的結構。為此,最近開發的單鏈方法很快就被社會各界用來支持蛋白質復合物的預測,現在已經有了像AlphaFold Multimer這樣專門為這項任務訓練的模型。結構預測已經被大規模地應用于識別新的真核生物復合物和對已知復合物進行結構描述。 鑒于蛋白質相互作用的生物學重要性,這必將是未來研究的一個令人興奮的領域。我們可能很快就能獲得一幅顯示這些相互作用如何發生的分子細節的圖片,而不是把蛋白質-蛋白質相互作用網絡看作是二維圖。已經預測的復合物可以成為一個有用的工具,盡管像任何預測一樣,它們應該被謹慎地解釋。復雜的預測仍然是一個具有挑戰性的問題,而且目前的模型不如單一多肽可靠。特別是要考慮到假陰性的可能性,即對于一對確實有相互作用的蛋白質,沒有預測到可靠的界面。

評估新方法

隨著該領域的快速發展,預測方法被用來解決其他與蛋白質有關的問題,保持對方法性能的基準評估的謹慎態度非常重要。為一個新的計算方法設計一個適當的評估并不簡單。需要小心翼翼地確保任務與生物學家在實踐中使用該方法的方式相一致,并且與他們相關的數量也是衡量標準。為了進行嚴格的評估,測試案例必須與模型在訓練中看到的案例有足夠的區別,否則它可能會通過鸚鵡學舌來欺騙訓練數據。在生物學中,進化關系使得測試/訓練集的分割更加困難,即使一個特定的蛋白質沒有出現在模型的訓練集中,也許一個接近的同源物會出現。考慮負面例子也可能是有幫助的:如果一個模型的目的是預測復合物的結構,那么對于兩個沒有相互作用的蛋白質,它應該輸出什么,以清楚地傳達這一點? 最后,在結構預測領域,事實證明在模型輸出中加入置信度是非常有用的,可以為生物學家提供一些指導,讓他們知道應該相信預測的哪些部分。類似的置信度指標在其他領域可能會有所幫助。

仍然存在的挑戰

看到成功應用蛋白質結構預測模型的方式多種多樣,這是非常了不起的。然而,最新方法所能解決的問題是有限的。特別是,它們并不具備回答從根本上講屬于蛋白質能量學的問題的能力,例如預測一個蛋白質可能采取的所有構象,或者確定一個突變對穩定性或與其相互作用伙伴的結合親和力的影響。 最先進的結構預測還缺少在實驗結構中發現的非蛋白質成分--核苷酸、離子、翻譯后修飾和配體。有時可以根據預測的蛋白質的局部幾何形狀推斷出離子等成分的存在。然而,預測是在不知道其他分子存在的情況下進行的,這使得模型無法根據生物環境進行調整。這些挑戰可能需要大量的進一步創新來解決。 生物學中的機器學習數據是什么使最近在蛋白質結構預測方面的進展成為可能?一個因素是對問題的具體化和對進展的評估,這一點必須歸功于CASP社區。然而,第二個值得注意的因素是蛋白質數據庫 (PDB) 的形式提供了一個優秀的數據集。PDB的幾個特點使其非常適合于機器學習:整個數據集很容易下載,文件具有一致的格式,每個條目都提供了高維數據而不是單一的測量,并且涵蓋了蛋白質空間的廣泛區域。PDB也很全面,基本上所有發表的結構都存放在那里。計算結構生物學極大地受益于PDB創始人的遠見卓識,以及對該項目的持續有力支持。如果其他領域也能實現類似的有利態勢,那么結構預測將成為生物學中機器學習的眾多成功案例之一。 參考資料 Tunyasuvunakool, K. The prospects and opportunities of protein structure prediction with AI. Nat Rev Mol Cell Biol (2022). //doi.org/10.1038/s41580-022-00488-5

付費5元查看完整內容
北京阿比特科技有限公司