斗破苍穹第四季25集免费观看,亚洲国产中文在线有精品

編譯 | 陳睿哲本文介紹一篇拜羅伊特大學2022年7月發表在nature communications的《ProtGPT2 is a deep unsupervised language model for protein design》。蛋白質設計在自然環境和生物醫學中發揮著重要作用，旨在為特定用途設計全新的蛋白質。受到近期Transformer架構在文本生成領域成功的啟發，作者提出ProtGPT2，一種在蛋白質空間上訓練的語言模型，用于生成遵循自然序列原則的全新蛋白質序列。ProtGPT2生成的蛋白質顯示出天然氨基酸傾向，而無序預測表明，88%的ProtGPT2生成的蛋白質是球狀的，與自然序列一致。蛋白質數據庫中的敏感序列搜索表明，ProtGPT2序列與自然序列有著遠親關系，相似網絡進一步證明，ProtGPT2是對蛋白質空間中未探索區域的采樣。ProtGPT2生成的序列在探索蛋白質空間的未知區域時，保留了天然蛋白質的關鍵特征。

1 簡介近年來，預訓練大模型極大地推動了自然語言處理領域的發展。作者等人注意到，蛋白質序列與人類語言有著某種相似性。蛋白質序列可以描述為化學定義的字母、天然氨基酸的串聯，與人類語言一樣，這些字母排列形成二級結構元素（“單詞”），單詞的集合形成承擔功能的“句子”。蛋白質序列與自然語言一樣，是信息完整的：它們以極其高效的方式完全按照氨基酸順序存儲結構和功能。隨著自然語言處理領域在理解和生成具有接近人類能力的語言方面的非凡進步，作者假設這些方法為從序列的角度處理蛋白質相關問題打開了一扇新的大門，例如蛋白質設計。

受到自回歸語言模型（如GPT系列）和先前采用自回歸語言模型建模蛋白質序列的成功，作者想知道能否通過自回歸語言模型來建模蛋白質序列，以達到：1）高效地學習蛋白質序列語言；2）生成合適且穩定的蛋白質；3）理解所生成的序列與自然語言處理的關系，模型能否對未知蛋白質空間進行采樣。

因此，作者提出了ProtGPT2，一種具有7.38億參數的GPT架構的自回歸模型，能夠以高通量方式生成從頭蛋白質序列。ProtGPT2在整個蛋白質空間的百萬序列上進行訓練后，有效地學習了蛋白質語言。ProtGPT2生成的蛋白質序列具有與自然序列相同的氨基酸和無序傾向，同時在進化上遠離當前的蛋白質空間。二級結構預測計算出88%的序列是球狀的，與天然蛋白質一致。使用相似網絡表示蛋白質空間表明，ProtGPT2序列通過擴展自然超家族來探索蛋白質空間的未知區域。生成的序列顯示出與自然序列類似的預測穩定性和動態特性。由于蛋白質設計在解決從生物醫學到環境科學等領域的問題方面具有巨大潛力，作者認為ProtGPT2是高效高通量蛋白質工程和設計的重大進步。

2 方法分詞與詞表作者通過BPE分詞器在數據集上訓練，最終的詞表大小為50256個tokens，每個token平均包含了4個氨基酸。

數據集作者以Uniref50作為訓練數據集，包含49874565個序列。隨機選擇10%的序列生成驗證數據集。最終的訓練和驗證數據集分別包含4488萬和499萬個序列。作者生成了兩個數據集，一個使用512的序列大小，另一個使用1024。本文中展示的結果對應于使用512大小訓練的模型（后文主模型）。

模型作者使用堆疊Transformer decoder作為模型架構，ProtGPT2模型由36層Transformer decoder組成，模型維度為1280。在自回歸語言模型的條件下，每個句子的概率分布被定義為如下：

更具體的，作者通過優化句子中每個單詞與其前綴的負對數似然作為目標函數來進行優化：

模型訓練輸入序列為BPE分詞器所分詞后得到的token序列。模型權重在訓練之前重新初始化。使用Adam（β1）優化模型?=?0.9, β2?=?0.999），學習率為1e-03。對于主模型，每個batch為512 tokens × 128 GPUs。每個GPU處理8個batch，總計1024個。模型在128個NVIDIA A100上訓練4天。使用DeepSpeed69進行并行訓練。

模型推理作者使用主模型，使用不同的推理參數，對序列進行采樣。在采樣策略與采樣超參數上，重復懲罰在1.1到3.0之間以0.1進行微調，選擇token的范圍top-k從250到1000不等，每50采樣一次，并且top-p從0.7到1.0，窗口為0.05個單位（top-k采樣，模型會從概率前 k 大的單詞中抽樣選取下一個單詞；top-p采樣，設定概率閾值，取滿足閾值條件的樣本進行采樣）。基于以上的參數設定，為每種采樣參數生成100個序列，并將其氨基酸的頻率與自然序列進行比較。作者觀察了哪些參數在自然序列中七種最常見的氨基酸組中產生的差異較小。作者還探索了50到100范圍的beam search采樣，但在所有情況下都會產生較差的結果。為了確定自然序列中的氨基酸頻率以與ProtGPT2樣本進行比較，作者從Uniref50數據集中隨機選取了100萬個序列。作者通過微調超參數找到了最佳匹配參數，某個采樣過程如圖1所示。

3 結果統計采樣自回歸語言生成基于以下假設：序列的概率分布可以分解為條件下一個詞分布的乘積。然而，一個訓練好的語言模型生成不連貫的亂碼或重復文本并不罕見。作者簡要總結了本研究中應用的最常用的語言生成采樣策略與超參數。

貪婪搜索策略是在每次采樣時選擇概率最高的token。雖然算法簡單，但生成的序列是確定性的，很快也會變得重復（圖1a）。Beam search試圖通過保留最可能的候選詞來緩解這一問題，盡管生成的文本仍然存在重復性，人類文本往往會交替使用低概率和高概率token（圖1b）。最后，通過從前k個最可能的詞中隨機選取一個詞，隨機采樣遠離確定性采樣（圖1c，d）。

根據先前關于語言模型采樣策略的研究，受這項工作的啟發，作者按照不同的采樣策略和采樣超參數生成序列（圖1）。為了評估什么樣的采樣過程產生了最自然的相似序列，作者將生成的序列集的氨基酸傾向性與在自然蛋白質序列中發現的進行了比較。作者還觀察到貪婪搜索和Beam search會產生重復的確定性序列，而隨機采樣顯著改善了生成的傾向性（圖1）。此外，作者還觀察到，生成類似于自然序列的序列需要較高的k值，即最佳結果出現在k ?>?800的范圍內，作者特別選擇了k?=?950（圖1h）。作者還發現，當選擇1.2的重復懲罰時，采樣結果得到了改善。因此，本研究的其余部分使用了這些采樣參數。

ProtGPT2序列編碼球狀蛋白為了在序列和結構屬性的背景下評估ProtGPT2生成的序列，作者創建了兩個數據集，一個是使用前面描述的推理參數從ProtGPT2生成的序列；另一個是從UR50隨機選擇的序列。每個數據集由10000個序列組成。由于ProtGPT2是以無監督的方式訓練的，作者的分析重點是驗證ProtGPT2序列的結構和生化特性。

作者首先研究了數據集中的無序和二級結構內容。之前已經表明，在細菌和古細菌中發現的蛋白質中約有14%是無序的。為此，作者運行IUPred335來分析ProtGPT2生成的序列是否比一組自然序列更容易無序。作者的分析顯示，在ProtGPT2生成的序列（87.59%）和自然序列（88.40%）中，球狀結構域的數量相似。已經報道了幾種檢測短內在無序區域的方法。由于作者的目標是提供跨數據集的球狀度和普遍無序的高水平比較，作者進一步使用IUPred3在氨基酸水平上分析了蛋白質序列。值得注意的是，作者的結果顯示兩個數據集的有序/無序區域分布相似，ProtGPT2和自然數據集中分別有79.71%和82.59%的有序氨基酸（表1）。

接下來，作者研究了無序中的相似性是否是等效二級結構元素含量的結果。為此，作者計算了ProtGPT2和自然序列數據集的PSIPRED預測。自然序列顯示α螺旋、β片和線圈含量分別為45.19%、41.87%和12.93%。ProtGPT2數據集的百分比分別為48.64%、39.70%和11.66%。這些結果表明，ProtGPT2生成的序列類似于球狀結構，其二級結構與在自然界中發現的類似。

ProtGPT2序列與自然序列蛋白質在進化過程中通過點突變以及復制和重組發生了巨大變化。然而，通過序列比較，即使兩種蛋白質的序列有顯著差異，也可以檢測出它們之間的相似性。作者想知道ProtGPT2序列與自然序列的關系如何。為此，作者使用了HHblits，這是一種敏感的遠程同源性檢測工具，使用配置文件隱馬爾可夫模型根據數據庫搜索查詢序列。作者根據Uniclust30數據庫搜索ProtGPT2數據集中10000個序列的同源性。為了進行比較，作者還使用相同的設置對自然數據集執行了相同的搜索。此外，為了分析完全隨機序列與ProtGPT2序列的比較情況，作者還通過隨機選取詞表中的25個字母進行連接，構建了第三個數據集。

因為作者想對數據集與現代蛋白質空間的相關性進行定量比較，所以作者繪制了個體與序列長度圖（圖2）。具體來說，對于Uniclust30中發現的每一條路線，作者描述了具有最高個體和序列長度的路線。作為序列同一長度空間中的參考點，作者使用HSSP曲線，一個邊界集來定義蛋白質序列相關性的置信度。其特性低于該曲線的蛋白質，不一定具有類似的3D結構，也不可能具有同源性。由于ProtGPT2和隨機數據集中的序列不是蛋白質進化的結果，作者使用曲線作為已知閾值來比較數據集。

當查看曲線上方和下方的點擊分布時，作者觀察到HHblits在Uniclust30數據庫中發現了許多與自然序列數據集相關的點擊（圖2a）。具體來說，在10000個數據集序列中，9621個（96.2%）在HSSP曲線以上顯示出一致性。類似地，9295個ProtGPT2生成的序列（93%）在Uniclust30數據庫中也有對應的序列，它們在HSSP曲線上方對齊（圖2b）。相反，93%的隨機生成序列低于該閾值（圖2c）。盡管natural和ProtGPT2數據集的模式相似，但這兩個數據集在點擊分布上存在差異。一個標準差范圍為31.5–69.7%，自然數據集的平均同一性高于ProtGPT2集，范圍為32.9–64.1%（圖2a，b）。自然和ProtGPT2序列分布之間的差異無統計學意義（p值90%）。盡管ProtGPT2數據集中的365個序列在Uniclust30中具有高同一性序列，但它們在所有情況下都對應于低于15個氨基酸的比對，而自然數據集顯示760個序列超過90%，比對長度在14.8–77.3個氨基酸的一個標準差范圍內。這些結果表明，ProtGPT2有效地生成了與自然序列有遠親關系的序列，但不是記憶和重復的結果。

ProtGPT2生成有序結構設計全新蛋白質序列時最重要的特點就是能否夠折疊成穩定的有序結構。作者在AlphaFold預測、Rosetta松弛分數和分子動力學（MD）模擬下，評估了ProtGPT2序列與自然和隨機序列的潛在適合度。

AlphaFold在0-100（pLDDT）范圍內生成其置信度的每殘留估計值。該分數已被證明與順序相關：低分數（pLDDT>50）往往出現在無序區域，而優秀分數（PLDD>90）出現在有序區域。在這里，作者對每個序列進行了五個結構預測。當采用每個序列的最佳評分結構時，數據集的平均pLDDT為63.2，當對每個序列的所有五個預測進行平均時，為59.6。此外，37%的序列顯示pLDDT值超過70。由于pLDDT分數是結構順序的代理，作者轉向自然和隨機數據集，看看它們與ProtGPT2序列相比如何。與之前的工作一致，自然數據集中66%的序列預測pLDDT值大于7043，整個數據集的平均值為75.3（補充圖2b）。相反，隨機數據集中的預測顯示pLDDT的平均值為44，pLDDT值超過70的序列中只有7.4%（補充圖2c）。

為了進一步驗證模型的質量，作者在三個數據集上執行了Rosetta RelaxBB。Rosetta Relax對Rosetta能量函數執行蒙特卡洛優化，從而產生不同的骨架和轉子分子構象。較低的羅塞塔能量構象與較松弛的結構相關。最新的羅塞塔能量力場與熱容、密度和焓等實驗變量密切相關。該評分函數反映了一種靜態蛋白質構象的熱力學穩定性。在這里，作者對三個數據集的30000個序列進行了Rosetta松弛實驗（圖3a）。一個廣泛的經驗法則是，總分（羅塞塔能量單位，REU）應介于?1和?3/殘基。作者在天然和ProtGPT2數據集中觀察到這種分布，平均值分別為1.90和1.73 REU/殘基。正如預期的那樣，隨機序列的數據集顯示平均值為0.13 REU/殘基。

作者進一步測試了ProtGPT2序列是否顯示出與自然序列類似的動態特性。蛋白質是動態實體，如果沒有其固有的靈活性，它們將無法與其他生物分子相互作用并在細胞中發揮其功能。為了評估ProtGPT2生成的序列是否在與天然蛋白質相同的范圍內顯示靈活性，作者隨機選擇每個數據集的12個序列，并運行了100個分子動力學（MD）的三個副本，共108條軌跡，總時間為10.8微秒。為了確保在模擬過程中觀察到的動力學不是不同pLDDT值的偽影，因此可能是不同的無序預測，作者確保數據集pLDDT平均值之間的差異在統計上沒有差異。自然和ProtGPT2數據集中每條軌跡的均方根偏差平均值分別為2.93和3.12?分別為（圖3b）。正如預期的那樣，隨機序列在軌跡期間顯示出顯著的偏差，平均值為9.41??. 雖然ProtGPT2序列的值高于自然序列，但分布沒有顯著差異。結果表明，ProtGPT2序列可能與自然界中發現的蛋白質具有類似的動力學特性。

ProtGPT2超越了當前蛋白質空間邊界有幾項研究試圖將蛋白質序列的維度降低為幾個可識別的維度，以便進行分析。大多數表示方法包括（i）蛋白質結構的層次分類，如ECOD和CATH數據庫，（ii）笛卡爾表示和相似網絡。作者最近在一個網絡中表示結構空間，該網絡將蛋白質顯示為節點，當它們在common中具有同源和結構相似的片段時連接，并在Fuzzle數據庫中提供結果。該網絡代表來自七個主要SCOP類的25000個域，并表明現代已知的蛋白質空間既有連接的區域，也有“島狀”區域。

進化已經探索了所有可能的蛋白質序列，但并不可信。因此，作者想設計出探索蛋白質空間未探索區域的蛋白質，以及是否可以設計出新的拓撲結構和功能，提出了挑戰。作者將ProtGPT2序列整合到作者的蛋白質空間網絡表示中。為此，作者為每個SCOPe2.07和ProtGPT2序列生成了HMM配置文件，使用HHsearch以all對all的方式對它們進行比較，并用Protlego表示網絡。為了避免具有多個對齊的特定序列最終由網絡中的同一節點表示，作者用兩個不重疊的對齊復制條目。

該網絡包含59612個頂點和427378條邊，包括1847個組件或“島狀”簇（圖4）。主要成分聚集了一半以上的節點（30690），這一數字明顯高于在相同設置下生成的網絡中觀察到的數量，但不包括ProtGPT2序列，強烈表明ProtGPT2生成的序列橋接了蛋白質空間中的獨立島。作者從拓撲不同的作用域類中選擇了跨越網絡不同區域的六個示例，以在結構級別展示ProtGPT2序列（圖4）。特別是，作者報告了一個全β（751），兩個α/β（42661068），一個膜蛋白（4307），一個α?+?β（486）和全α（785）結構。這些結構說明了ProtGPT2在生成從頭結構方面的多功能性。對于每種情況，作者使用FoldSeek58搜索PDB數據庫中發現的最相似的蛋白質結構。ProtGPT2生成折疊良好的全β結構（751，4307），盡管最近取得了令人印象深刻的進展，但長期以來一直非常具有挑戰性。ProtGPT2還生成膜蛋白（4307），由于在指定膜內結構方面的挑戰和繁重的實驗表征，這對蛋白質設計提出了一個困難的目標。除了生成自然折疊代表外，ProtGPT2還產生了以前未收錄的拓撲結構。例如，作者報告了蛋白質4266，其拓撲結構與目前PDB收錄中的任何結構都不匹配，DALI Z分數低為5.4，RMSD為3.0??到PDB 5B48超過67個殘基（9%）。

然而，ProtGPT2序列最顯著的特性可能是其與所有先前設計的從頭結構的顯著偏差，這些結構通常具有環路和最小結構元素的理想拓撲。從頭蛋白質設計的優點是不攜帶任何進化歷史，但在實踐中，缺乏實例和更長的環阻礙了與其他分子相互作用和功能實現所需的裂縫、表面和空腔的設計。ProtGPT2序列類似于天然蛋白質的復雜性，具有多方面的表面，能夠分配相互作用的分子和底物，從而為功能化鋪平了道路。在圖4中，作者展示了結構486和1060，這是此類復雜結構的兩個示例。特別是，1068顯示了TIM-barrel褶皺，該拓撲迄今為止在從頭蛋白質設計中取得了成功，但其理想化結構已被證明具有挑戰性，無法通過額外的secondary elements和更長的環進行擴展。

保留的功能熱點對FoldSeek發現的最佳點擊結構疊加進行檢查，發現了幾個配體相互作用殘基的側鏈保守的例子。圖5中顯示了兩個示例。最類似于序列357（圖5a）的自然結構對應于PDB代碼1X0P（鏈A），一個結合FAD的藍光傳感器域。當重疊結構時，作者觀察到357保留了側鏈結合熱點，三個殘基相同（D169、Q150和N131），兩個不同但能夠形成相同相互作用的殘基，即R165位的賴氨酸和K127位的組氨酸。序列475（圖5b）最類似于PDB代碼5M1T（鏈A），折疊成TIM-barrel并與細菌第二信使環二-3′，5′-鳥苷單磷酸（PDB三字母代碼C2E）結合的磷酸二酯酶。在五個側鏈相互作用的殘基中，ProtGPT2序列保留了三個殘基（Q455、R473和E469），并包括一個取代另一個能夠氫鍵的殘基（用于Q513的天冬氨酸）。值得注意的是，ProtGPT2以zero-shot生成了這些序列，即在這兩個特定折疊中沒有進一步微調。這些結果對蛋白質工程產生了重大影響，因為盡管同源性較低（357和45分別為31.1%和29.2%），但ProtGPT2似乎保留了生成序列中的結合位置，并可用于增加特定折疊和家族的序列。

4 總結過去的2年里，利用人工智能方法的從頭蛋白質設計取得了驚人的成功。作者構建了一個自回歸語言模型ProtGPT2，ProtGPT2有效地學習了蛋白質語言。ProtGPT2可以生成與自然序列有遠近關系的序列，其結構類似于已知的結構空間，具有非理想化的復雜結構。由于ProtGPT2已在整個序列空間上訓練，因此該模型產生的序列可以對任何區域進行采樣，包括深色蛋白質組和傳統上認為在蛋白質設計領域非常具有挑戰性的區域，例如全β結構和膜蛋白。ProtGPT2蛋白質與遠親天然蛋白質結構的視覺疊加顯示，PROTGPT1還捕獲了功能決定簇，保留了配體結合的相互作用。由于人工蛋白質的設計可以解決許多生物醫學和環境問題，作者在蛋白質語言模型中看到了巨大的潛力。ProtGPT2設計在幾秒鐘內即可適應球狀蛋白質，無需進行進一步訓練。通過根據用戶序列微調模型，ProtGPT2可以適應特定的家族、功能或折疊。在這種情況下，ProtGPT2將能夠篩選與天然蛋白質相似的蛋白質，以改善、微調或改變天然蛋白質的特定生化功能。大規模篩選ProtGPT2設計的蛋白質庫可能會識別數據庫中未捕獲的蛋白質折疊以及在自然界中沒有相關對應功能的蛋白質。ProtGPT2是面向高效蛋白質設計和生成邁出的一大步，為探索設計蛋白質結構和功能的參數及其后續實際應用的實驗研究奠定了基礎。參考資料 Ferruz, N., Schmidt, S. & H?cker, B. ProtGPT2 is a deep unsupervised language model for protein design. Nat Commun 13, 4348 (2022). //doi.org/10.1038/s41467-022-32007-7
項目主頁

代碼

付費5元查看完整內容

相關內容

AI與醫學

關注 91

醫學領域的人工智能是使用機器學習模型搜索醫療數據，發現洞察，從而幫助改善健康狀況和患者體驗。得益于近年來計算機科學和信息技術的發展，人工智能 (AI) 正迅速成為現代醫學中不可或缺的一部分。由人工智能支持的人工智能算法和其他應用程序正在為臨床和研究領域的醫學專業人員提供支持。

AI與醫學 · 蛋白質設計 · 蛋白質序列 · Transformer ·

2022 年 7 月 14 日

[付費5元查看完整內容]Nat Mach Intel｜用語言模型進行可控的蛋白質設計

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

蛋白質是生命的通用組成部分，幾乎在每個細胞過程中都發揮至關重要的作用。為特定目的設計新型蛋白質的能力有助于解決許多醫療挑戰。 2022年6月22日，來自西班牙赫羅納大學信息學與應用研究所的Noelia Ferruz等人在Nat Mach Intel雜志發表文章，討論了人工智能領域的最新進展--語言模型在蛋白質設計中的潛力和影響。

蛋白質序列在本質上類似于自然語言：氨基酸以多種組合方式排列，形成承載功能的結構，就像字母組成單詞和句子承載意義一樣。因此自然語言處理（NLP）的許多技術被應用于蛋白質研究問題。

過去幾年里，NLP領域有了革命性的突破。Transformer預訓練模型的實施使文本生成具有類似人類的能力。我們預計專用Transformer將會在不久的將來主導定制的蛋白質序列的生成。對蛋白質家族的預訓練模型進行微調，將使他們能夠使用可能高度不同但仍具有潛在功能的新序列來擴展它們的庫。細胞區室或功能等控制標簽的組合將進一步實現新蛋白質功能的可控設計。此外，最近的模型可解釋性方法將使我們能夠打開”黑盒子"，從而增強我們對折疊原理的理解。早期的研究顯示了生成性語言模型在設計功能序列方面的巨大潛力。我們認為，使用生成性文本模型來創造新的蛋白質是一個很有前途的、在很大程度上未被開發的領域，本文討論了它對蛋白質設計可預見的影響。

主要內容蛋白質設計的目的是創造出能發揮所需功能的定制結構。這一巨大的挑戰通常被稱為逆向蛋白質折疊問題：我們的目標不是尋找一個序列折疊的結構，而是獲得一個采用某種折疊的最佳序列。在數學上，這個問題是通過搜索由能量函數定義的序列-結構的全局最小值的優化算法來解決的。盡管最廣泛使用的能量函數相對簡單，但每個位置的旋轉異構體和可能的組合的數量帶來了組合的爆炸。由于這種復雜性，新蛋白質的設計通常需要相當長的時間和精力，而且絕大多數的功能性蛋白質設計都是通過預先選擇天然存在的骨架、并隨后在迭代中優化其功能而實現的，而不是同時設計序列和結構以執行某種功能。蛋白質最不尋常的特性之一，是它們在氨基酸序列中完全編碼了其結構和功能，并且它們以極高的效率做到這一點。在沒有生物物理約束的情況下，僅靠序列就能捕捉到蛋白質的特性，這為利用自然語言處理（NLP）方法進行蛋白質研究打開了一扇未被開發的大門。下文總結了自然語言和蛋白質序列之間的異同，并展示了NLP研究已經如何影響了蛋白質科學。**我們將強調該領域中最引人注目的發展，即Transformer架構。**隨后的章節將介紹Transformer的獨特生成能力是如何重塑蛋白質設計領域的。我們希望本文能觸及人工智能和生物學領域，并鼓勵進一步合作，開發和調整NLP技術用于蛋白質設計。蛋白質的語言有幾個特征證明了人類語言和蛋白質序列之間的相似性，其中最明顯的可能是它們的分層組織。與人類語言類似，蛋白質是由字符串的連接表示的：20個標準氨基酸。然后字母組合成單詞，氨基酸組合成二級結構或保守的蛋白質片段。然后，就像單詞組合成帶有意義的句子一樣，片段可以組合成帶有功能的不同蛋白質結構（圖1a）。

圖1：蛋白質和語言之間的相似性 **語言和蛋白質的起源和演變也顯示出相似之處。**今天，有超過8000種語言，分為140多個語系，所有這些語言都起源于5萬至7萬年前在非洲中部使用的一種共同祖先語言。同樣，所有生活在地球上的生物都有一個（最后的普遍）共同祖先--LUCA--一種生活在40億年前的微生物，它已經包含了大多數現代蛋白質結構域，這些結構域通過進化而發展。

然而，必須注意的是，蛋白質和人類語言也存在差異，這對將NLP應用于蛋白質研究構成了挑戰。

首先，許多人類語言在書面文本中提供了清晰可辨的詞匯定義（中文是一個突出的例外），但在蛋白質中，"詞的邊界”卻不那么明顯。其次，目前對蛋白質語言缺乏了解，類似于我們目前對許多已滅絕的語言缺乏了解。盡管我們有訓練蛋白質語言的語料庫，但對生成的序列的正確解釋仍將是一個挑戰，需要廣泛的實驗測試來破譯其功能。再者，蛋白質的進化也明顯不同于語言的進化，它受到隨機性和環境壓力的影響，而且其語法不可避免地會包含許多不規則的地方。總的來說，人類語言和蛋白質序列之間的不相似性給NLP在蛋白質設計中的應用帶來了巨大的挑戰。然而，盡管有這些挑戰，這兩個領域之間的明顯聯系為蛋白質研究領域提供了一個新的視角。

NLP對蛋白質研究的數十年影響雖然不明顯，但NLP領域一直影響著蛋白質研究。圖2a總結了這兩個領域之間的相似之處。

圖2：最常用于NLP問題的方法概述 CNN的適用性很快就擴展到了蛋白質研究，以預測蛋白質的紊亂、DNA結合位點和折疊分類。然而，CNN未能對長距離信息進行建模，而長距離信息對于全局文本的理解是至關重要的。由于這個原因，NLP研究人員轉向了循環神經網絡（RNN），特別是長短期記憶（LSTM）。

**傳統的LSTM很快被注意力機制****所取代，這影響了最近在蛋白質研究方面的突破，如AlphaFold。**在注意力模型的基礎上，谷歌發布了Transformer，以更低的計算成本改善了大多數NLP任務的結果。第一個Transformer開啟了NLP的新時代，從那時起，無數的改造被實施（圖2a）。值得一提的是生成式預訓練Transformer（GPT）及其后續的GPT-2和GPT-3。這些預訓練的模型在大多數NLP任務中都表現出了卓越的性能，并且第一次能夠生成類似人類的、長的、連貫的文章。NLP領域的這些最新發展具有很大的潛力，可以適用于蛋白質研究。以下各節將對預訓練的語言模型如何在未來幾年內改變和主導蛋白質設計提供見解。注意力機制和Transformer Transformer是當前NLP的一場革命。他們的成功來自于一系列建立在彼此之上的概念的演變，其中注意力機制可能是這些進展中最值得注意的。 注意力機制起源于對傳統的序列到序列（seq2seq）模型的解決方案，該模型被廣泛用于處理從一個領域到另一個領域的序列的任務，如機器翻譯或文本總結。在seq2seq模型中，輸入在一個被稱為編碼器的模塊中被逐步處理，以產生一個傳遞給解碼器的上下文向量，解碼器負責生成一個輸出（圖3a）。傳統上，編碼器和解碼器的架構通常是RNNs或LSTMs（圖2b），上下文向量對應于最后一個編碼器步驟的最終輸出（圖2b）。由于這種固有的順序性，RNNs出現了性能下降和訓練時間隨序列長度增加的主要缺點。注意力機制的引入為這一問題提供了一個解決方案，它允許解碼器分析整個輸入并關注其中的特定部分，這一概念類似于人類頭腦中的注意力。

圖3：最常用的Transformer的示意圖雖然注意力機制在許多類型的神經網絡中已經無處不在，但在2017年變得特別突出，當時谷歌的研究人員發表了他們的開創性工作” Attention is all you need"，它引入了一個架構，不僅在模塊之間應用注意力，而且在整個模塊中也應用注意力。這種新的設計允許編碼器專注于輸入序列的特定部分，在許多任務中產生更好的表現。表1 Transformer模型匯總

在Transformer架構的激勵下，OpenAI發布了GPT（生成式預訓練Transformer），這是一系列高性能預訓練模型中的第一個。最近，OpenAI公布了它的第三代GPT模型，GPT-3，它包含的參數是GPT-2的100倍（表1）。并且能夠以零樣本的方式表現良好，即使是在從未受過訓練的任務上，例如編寫代碼。

NLP領域的另一個突出發展來自谷歌人工智能語言團隊，他們預先訓練了BERT（來自Transformer的雙向編碼器表示法），以創建一個語言模型。BERT也是受Transformer結構的啟發，但是，鑒于在這種情況下，興趣在于創建文本輸入的表示，它只使用編碼器模塊（圖3d）。除了這兩個有代表性的僅有編碼器和解碼器架構的Transformer的例子外，在過去的三年里，已經有成千上萬的Transformer被發表。許多已經可以在HuggingFace資源庫中找到。蛋白質序列是Transformer的理想對象事實上，上一代Transformer的巨大成功，部分原因是它們所訓練的語料庫不斷增加（表1），這反過來又允許創建更大和更強大的模型。圖4a顯示了表1中的Transformer的發布日期和參數數量（以對數為單位）。

圖4：模型大小和數據庫隨時間的增長生物數據庫的規模也在大幅增長，這一趨勢在蛋白質序列中最為明顯。圖4b說明了過去20年中序列和結構數據庫的數據獲取趨勢，表明蛋白質序列的表征比其對應結構的增長速度要快得多。

盡管最近開發的高性能結構預測方法，如AlphaFold，使科學家們能夠將結構的增長與序列等同起來，但它并沒有解決功能注釋這一耗時的問題。因此，我們面對的是一個未標注數據與標注數據之比廣泛增加的領域（這一現象被稱為序列-結構差距），鑒于半監督方法的成功，我們可以推測Transformer也可以類似地利用龐大的蛋白質空間，并在蛋白質研究領域激發一場類似的革命。用于蛋白質設計的Transformer 最近NLP的革命性發展已經影響了一些開創性的蛋白質研究，一些研究已經將語言模型的概念應用于蛋白質序列。 第一個基于Transformer的蛋白質語言模型，ESM和TAPE，可以追溯到2019年。ESM-1b是由Facebook AI領導的一項工作，是一個在2.5億個蛋白質序列上訓練的編碼器Transformer，其結構和訓練目標與BERT相同（圖3d），但是，在這種情況下，33個編碼器層在UniParc數據庫（圖3d）上被預先訓練，以產生編碼蛋白質序列的矢量表示。ESM-1b的表示，類似于捕捉語言語法的BERT句子表示，編碼蛋白質的內部組織，從氨基酸的生物化學特性水平到蛋白質之間的進化關系。 最近，來自慕尼黑、Nvidia和Google AI的科學家合作開發了ProtTrans，這是一個令人印象深刻的對以前發布的六個基于Transformer的架構（Transformer-XL、BERT、Albert、XLnet、T5和Electra；表1）的改進，可以完全為社區所接受。這項研究利用了迄今為止最大的訓練數據集，包含了來自UniParc和Big Fantastic數據庫的超過3900億個氨基酸。他們的工作表明，蛋白質嵌入--Transformer輸出的矢量表示--能夠準確地預測每個殘基的二級結構和亞細胞定位。這些早期的研究證明了學習蛋白質表征在下游應用中的潛力，包括分類或回歸任務。**最近，有幾項工作發表，使用預先訓練好的模型來生成蛋白質序列。**雖然沒有明確采用語言模型，但提到了兩個從傳統的蛋白質設計范式--基于搜索能量函數最小值--轉向神經網絡方法。首先，受DeepDream（谷歌的CNN）的生成能力的啟發，Anishchenko等人在一個逐步的過程中應用trRosetta，以高通量的方式生成理想化的蛋白質結構。其次，Huang等人最近生成了SCUBA，一種新型的自適應核鄰接計數神經網絡（NC-NN）方法，產生了具有新拓撲結構的新結構。關于語言模型的特殊情況，最近有幾項工作正在利用Transformer進行蛋白質設計。Castro等人實現了ReLSO，這是一個經過訓練的自動編碼器，可以聯合生成序列并預測輸入標記數據集的適用性。Moffat等人實施了DARK，這是一個有1.1億個解碼器的Transformer，能夠設計新的結構，Ferruz等人發布了ProtGPT2，這是一個基于GPT-2結構的7.38億個Transformer模型，能夠在蛋白質空間的未開發區域生成新的序列。

圖5：利用Transformer模型在蛋白質工程領域的可能性概述

定制的蛋白質設計 NLP及其應用于定制蛋白質設計的下一個重要步驟是在訓練中加入功能標簽。最近，Gligorijevi?等人實現了一個去噪自動編碼器Transformer，在這個Transformer中，一定的輸入序列被轉化為質量上乘的輸出序列和一定的功能。然而，在實現可控文本生成方面最重要的工作之一是開發了條件Transformer語言（CTRL），這是一個自回歸模型，包括能夠不依賴輸入序列而可控地生成文本的條件標記（表1）。 這些研究突出了一個有前途的新研究領域：用條件Transformer可控制地生成蛋白質序列。在基于Transformer的蛋白質語言模型中加入條件標簽，不僅可以像以前的這些工作那樣生成新的序列，而且有可能對這些蛋白質的特性進行控制。通過提示語言模型產生定制序列的能力將是蛋白質研究中的一個變革性里程碑，但其實施并非沒有挑戰。監督序列標記的過程依賴于注釋序列的質量。 **不過，最近在序列注釋方面的工作可能為更快的自動注釋過程打開了一扇新的大門。Bileschi等人最近使用神經網絡來預測功能注釋，將Pfam數據庫擴展了9.5%以上。盡管這可能是一個漫長而具有挑戰性的過程，但在這個方向上的努力可能會推動在可預見的未來對蛋白質空間的很大一部分進行注釋，從而促進條件Transformer的實施。酶、受體和生物傳感器設計 2018年，IBM研究院發布了IBM RXN for Chemistry，這是一個基于云的應用程序，將有機化學與人類語言聯系起來，可以使用編碼器-解碼器架構預測化學反應最可能結果（圖3a）。鑒于最近IBM對化學反應的矢量表示進行編碼的方法，我們可以設想另一種模型，將化學反應作為輸入，產生蛋白質序列作為輸出。這種模型將為酶的設計提供一種創新的途徑，**包括能夠催化自然界中沒有的反應的工程酶。可解釋的蛋白質設計傳統上，最廣泛使用的NLP技術，如HMMs或SVMs（圖2），本質上是可以解釋的，因此被歸為”白盒”。最近，深度學習方法的爆炸性增長在整個NLP任務中達到了很高的性能，帶來了開發新技術來解釋這些模型的挑戰。針對”黑盒”模型的XAI技術已經取得了實質性的進展，其中五個主要技術是：特征重要性（feature importance）、代理模型（surrogate model）、例子驅動（example-driven）、基于出處（provenance-based）和聲明性歸納（declarative induction）。將Transformer的內部運作可視化的可能性可以為更好地理解蛋白質的折疊和設計帶來巨大的機會。蛋白質設計的未來是否掌握在大公司手中近年來發表的Transformer模型是由大公司主導的（圖4a）。據估計，**用1750億個參數訓練GPT-3--迄今為止第二大的模型--花費了1200萬美元，需要超過10000天的GPU時間。**其他的模型也是通過使用大量的TPU資源來訓練的。訓練這樣的深度學習模型是一種商品，像OpenAI或谷歌這樣的大公司可能可以獲得，但對于初創公司和許多學術研究團體來說，可能是無法達到的。他們在經濟上的可及性是一個問題。迄今為止發表的9個基于蛋白質的Transformer模型中的7個（表1）是由大公司領導或參加。根據蛋白質的特定屬性（如由于必須形成三維結構而產生的偏差）來調整模型，可能會在降低計算成本的情況下提高性能。結論 **本文設想了將目前的NLP方法轉移到蛋白質研究領域的六個直接應用。**按照目前的NLPTransformer對蛋白質序列的適用程度排序，我們可以：（1）在蛋白質空間的未觀察到的區域生成序列；（2）對天然蛋白質家族的序列進行微調，以擴展它們的庫；（3）利用其編碼的矢量表示作為其他下游模型的輸入，用于蛋白質工程任務；(4）生成具有特定功能特性的條件序列；（5）利用編碼器-解碼器Transformer設計完全新穎的、目的明確的受體和酶；（6）更全面地了解序列-結構-功能關系，包括通過解釋這些語言模型來支配蛋白質折疊的規則。毋庸置疑，**這些進展并非沒有挑戰，模型的大小和功能注釋的困難都是最值得注意的兩個問題。**此外，正如早期研究指出的那樣，基準將是比較模型性能的首要條件，這在序列生成方面尤其具有挑戰性。對生成的序列進行適當的評估，需要實施高通量的實驗特征分析。最終評估這些序列的相關功能（例如它們的催化活性）是否超越當前的蛋白質工程策略（可能是在實驗反饋改進模型的迭代輪次中）將是至關重要的。盡管有這些困難，我們相信基于Transformer的蛋白質語言模型將徹底改變蛋白質設計領域，并為許多當前和未來的社會挑戰提供新的解決方案。參考資料 Ferruz, N., H?cker, B. Controllable protein design with language models. Nat Mach Intell 4, 521–532 (2022). //doi.org/10.1038/s42256-022-00499-z

--------- End ---------

付費5元查看完整內容