今天給大家介紹中南大學曹東升教授/國防科技大學趙文濤教授、吳城堃教授/浙江大學侯廷軍教授團隊共同在國際期刊Bioinformatics上發表的分子圖片識別的文章《MICER: A Pre-trained Encoder-Decoder Architecture for Molecular Image Captioning》。該文章受編碼器-解碼器架構的啟發,提出了MICER分子圖像識別架構,結合遷移學習、注意力機制和幾種數據構造策略增強不同數據集的有效性和可塑性;并評估了不同因素對該架構的影響以及數據集錯誤分析,為后續研究提供方向。該方法在構造的數據集以及基準測試集上較傳統的方法取得了顯著的提升。
1 摘要 動機 從分子圖像中自動識別化學結構為重新發現化合物提供了一個重要途徑。傳統的基于規則的方法依賴于專家知識,未考慮分子圖像的所有風格變化,通常存在識別過程繁瑣和泛化能力低的問題。基于深度學習的方法可以整合不同的圖像風格并自動學習有價值的特征,這種方法很靈活。但目前研究不足,存在局限性,因此沒有得到充分的利用。
結果 MICER是一個基于編碼器-解碼器的、用于分子圖像識別的重構架構,它結合了遷移學習、注意機制和幾種策略,以加強不同數據集的有效性和可塑性。評估了立體化學信息、分子復雜性、數據量和預訓練的編碼器對MICER性能的影響。實驗結果表明,分子圖像的內在特征和子模型的匹配對該任務的性能有很大影響。這些發現啟發了我們設計訓練數據集和最終驗證模型的編碼器。實驗結果表明,MICER模型在四個數據集上的表現一直優于最先進的方法。MICER由于其可解釋性和遷移能力而更加可靠和可擴展,并為開發全面和準確的自動分子結構識別工具提供了一個實用的框架,以探索未知的化學空間。
2 方法 2.1 模型架構 MICER采用經典編碼器-解碼器架構,編碼器和解碼器分別使用卷積神經網絡和循環神經網絡(圖1a)。在該方法中,編碼器使用ResNet網絡,解碼器使用LSTM網絡。在解碼器中加入注意力機制,每個時間步模型學習特征圖64塊(將圖像均分割成8*8塊)的注意力分數,并指導SMILES字符的生成。
2.2 解碼器字典 為了在解碼器中表示和操作SMILES字符,作者將所有的字符類型添加到一個字典中。字典包括以下標記。[pad], [sos], [eos], [0], [1], [2], [3], [4], [5], [6], [7], [8], [9], [C], [l], [c], [O], [N], [f], [H [o], [S], [s], [B], [r], [I], [i], [P], [p], [(], [)], [=], [[], [@], []], [#], [/], [-], [+], [\] 和 [%]。根據文章報告,即使按字符進行標記,如[B]和[r],模型也能學到相應的原子組成范式。
2.3 評估指標 * 序列準確度(SA,強約束) * 平均Levenstein距離(ALD,序列相似度) * 平均Tanimoto相似度和[email protected](AMFTS和MFTS @1.0,分子指紋相似度)生成的分子指紋和原始分子指紋之間的相似性用Tanimoto系數來衡量。平均Tanimoto相似度和[email protected](Tanimoto相似度為1.0的百分比)被分別計算。該指標在分子相似度層面上進行分析,可以為下游任務如分子特性預測打下基礎。文中,作者選擇ECFP4指紋來代表分子,然后根據Tanimoto系數計算分子相似度。
圖1 工作流程圖。(a) MICER模型的概述。(b) 實驗數據預處理。(c) 模型的一般結構。(d) 注意機制的例子。當進行解碼時,在每個時間步驟,模型將計算出特征圖和隱藏向量的注意力得分,并根據得分生成下一個字符。
3 模型評估 因素對比實驗探索了MICER架構在不同因素影響下的性能,并可以在數據和模型層面對最終驗證模型的性能進行更有針對性的指導和改進。
3.1 立體化學信息和分子復雜度 這一部分對比了分子圖中有無立體化學信息和不同分子復雜度對模型的影響。分子的復雜性越高,分子圖像在準確的分辨率下包含的信息就越多。過于詳細的分子圖像可能會導致錯誤的模型;例如,"F "可能會被誤認為是一個虛線鍵。在SI實驗中,產生了兩個數據集,有立體結構的和沒有立體結構的;兩個數據集都來自同一個原始SMILES。在MC實驗中,五個生成的數據集是根據分子量劃分的。如圖2b所示,SMILES序列的原子數和長度都顯示出與分子復雜性的正相關關系(其中最大的序列長度為245)。
如表1所列,沒有立體化學的MICER模型(以下簡稱'WO')比有立體化學的模型(以下簡稱'W')具有更好的識別性能,其中SA值增加了約6.1%。第一和第二數據集的ALD分別為1.78和1.12,表明每個預測的SMILES平均有1.78和1.12個錯誤識別的字符。值得注意的是,雖然兩個數據集的SA值相差6.1%,但AMFTS和MFTS @1.0都達到了預期的效果。差異不超過2%,說明與 "W "相比,"W "預測的SMILES字符串中的大多數錯誤字符都不是原子型錯誤。換句話說,這些錯誤識別的字符大部分屬于原子型字符以外的字符,比如'@@'、'@'、'['和']'。作者推測,這種錯誤的識別可能是由于楔形和虛線鍵造成的干擾,在SMILES中,楔形和虛線鍵是由'[@@]'和'[@]'表示的。
表1 立體信息和分子復雜度對性能的影響
3.2 數據量 根據圖3所示的比較結果,訓練數據與模型識別性能呈正相關關系。訓練數據從64萬增加到1000萬,SA值提高了約10%(從87.58%到98.91%)。然而,對于超過六百萬的訓練數據,模型識別性能趨于穩定。在六百萬數據量的水平上,模型的準確度達到了98.84%,這已經是一個令人滿意的結果。
圖2 原子數和SMILES序列長度統計圖以及識別性能與分子復雜性的趨勢
圖3 數據量對識別性能的影響
表2預訓練編碼器對性能的影響
3.3 預訓練編碼器 Base CNN是一個簡單的淺層CNN,包含三個CB。前兩個CB包含一個卷積層和一個最大池化層,最后一個包含三個卷積層和一個最大池化層。如表2所示,Base CNN的SA值僅約為15.78%, Base CNN模型未能提取分子圖像字幕的固有特征信息。InceptionV3模型有超過40層,其SA值達到了72.81%。這一結果表明,在編碼器-解碼器訓練過程中加入深度CNN,即讓一些模型層參與梯度更新,可以更有效地提取圖像表征。對于DenseNet121和VGG16的結果也可以得出類似的結論,它們包含121層和16層,SA值分別為81.41%和71.38%。然而,作者希望找出更多有效的模型用于分子圖像字幕。如表2所示,ResNet18、ResNet50和ResNet101取得了比InceptionV3更好的結果,表明DECIMER在模型方面仍有改進空間。作者認為ResNet的性能提高可能歸功于它的剩余機制,它能在一定程度上解決梯度分散、梯度爆炸和網絡退化的問題。此外,作者還探討了ResNet層數的影響。實驗結果表明,ResNet101在三個網絡中取得了最好的識別結果,SA值為87.58%。這一結果也為最終的公開審查版本提供了重要的參考價值。此外,從表2也可以看出,SqueezeNet和MobileNetV2的識別精度分別只有18.06%和39.83%。SqueezeNet和MobileNetV2是高度壓縮的深度模型,其卷積核很小;因此,它們只能提供有限的感受野和特征提取能力。上述計算結果表明,不同網絡的預訓練模型對分子識別有明顯影響。在未來,將探索更先進的預訓練框架來適應編碼器或解碼器。
3.4 與其他工具的對比 表2與其他工具的對比結果
總的來說,MICER在所有測試集上都取得了極具競爭力的結果,在前三個數據集上的SA值超過94%,在UOB數據集上的SA值為82.33%。前三個是基于規則的工具。在這三個基于規則的工具中,OSRA在四個實驗中取得了最好的性能,而Imago取得了最差的性能。更具體地說,OSRA在前三個數據集上的SA值低于25%,而Imago的SA值低于3%,這是一個非常不理想的結果。三種基于規則的方法在噪聲數據集上的表現很差,這可能是因為它們沒有納入對噪聲進行判別的規則。表3還顯示,基于規則的工具在多風格數據集上表現出比在噪聲數據集上更低的性能,這表明它們對分子圖像內容的風格變化比對噪聲的變化更敏感。這也表明OSRA對圖像噪聲的敏感度低于MolVec和Imago,這可能是由于OSAR中包含了一個更穩健的OCR算法。OSRA和MolVec在真實世界的數據集上的表現是可以接受的,這表明這些專家規則比通過化學工具箱生成的規則更符合作者的習慣。此外,三個基于規則的工具在前三個數據集上的識別時間超過了100分鐘,因為基于規則的工具的識別步驟繁瑣,無法進行批量操作。
值得注意的是,DECIMER的結果并不令人滿意,在兩個數據集上的SA值都低于40%。此外,據觀察,DECIMER生成的SMILES字符串中有很大一部分具有相同的特征,這可以歸因于DECIMER使用預訓練的模型作為分子圖像的特征提取器,而沒有微調步驟,這一點是不可或缺的。此外,作為一個基于DL的模型,Base CNN可以通過在與MICER訓練數據相等的大量數據上進行訓練,在類似的分子圖像上取得理想的結果,即使該模型很簡單。如表3所示,Base CNN在前三個數據集上的表現優于DECIMER,尤其是uni-style數據集。它的SA值達到了88.61%,驗證了關鍵的編碼器學習過程。然而,它在現實世界的UOB數據集上表現不佳,表明這個模型的魯棒性是不可接受的。
從表3也可以看出,MICER在前三個數據集上取得了超過94%的SA值和超過99%的AMFTS指標,這是一個令人震驚的結果,并且超過了所有其他的工具。此外,對真實世界數據集的比較顯示,MICER表現良好,其SA值為82.33%。此外,基于ALD結果,我們比較了MICER預測的SMILES和原始SMILES之間的差異,發現它們之間的差異只有一到兩個原子。
3.5 樣例分析 四個數據集的代表性例子如圖4a所示。此外,圖4c和圖4d分別顯示了使用MICER架構建立的模型正確和錯誤的識別樣本。從圖中可以看出,在前三個數據集中,MICER可以識別SMILES長度大于150的分子圖像。預測錯誤的樣本表明,MICER的錯誤一般是由于存在太多的立體化學鍵造成的。對于現實世界的數據集,MICER可以識別大多數標準的分子圖像,但對于訓練期間沒有學習過的樣本卻不能正確識別。
圖4 樣本分析和錯誤比較
最后,作者生成了預測分子的圖像,并與原始圖像進行比較,如圖4b所示。從圖中可以看出,大部分錯誤屬于單個原子的誤分類,其中'C'、'O'和'Cl'原子的誤分類率較高,因為這些原子在低分辨率的圖像中比較相似。此外,在噪聲數據中,作者發現在Cl原子周圍有噪聲點的情況下,模型會把它們錯誤地分類為O原子;這也許可以通過減少關注塊的面積來改善。帶有噪聲的復雜分子圖像更容易被模型誤判;例如,模型會把多個噪聲點判斷為單鍵,把楔形鍵判斷為雙鍵,等等。總的來說,未來的研究將關注識別超級原子、R-基團、不規則立體化學鍵和超復雜原子。
3.6 模型注意力分析 圖1d顯示了對注意力機制的直觀解釋。從圖中可以看出,在每個時間步驟中,對原始分子圖像模型分配不同的權重分數,其中顏色較深的塊表示模型對該區域的關注度較高。一些正確預測的例子顯示在圖5中。左邊的圖像代表原始分子圖,右邊的色塊作為注意力分數的參考。每個例子的注意權重圖由14個子圖組成。每個子圖上面的特征表示第n個預測步驟的結果。每個子圖是一個256×256的加權圖像,其中每個加權的圖像塊是8×8像素。圖像塊的顏色越深,其注意力得分越高,其中模型幾乎能準確識別所有的原子字符。總的來說,注意力機制的引入提高了模型的特征解碼能力,獲得了更好的可解釋性。
圖5 注意力權重圖示
4 總結 本文中,作者介紹了一種基于編碼器-解碼器的架構,稱為MICER,用于分子圖像字幕,具有良好的可塑性。MICER結合了遷移學習和注意力機制。此外,作者還介紹了幾種策略,在四個數據集上全面驗證了其有效性。作者通過四組因素對比實驗,探討了不同的內在數據特征和模型變化對MICER架構的影響。在這個架構中,一個預先訓練好的CNN作為編碼器,一個具有注意力機制的RNN作為解碼器,它們可以共同學習高維表征,這對于涉及分子圖像的許多下游任務來說是很重要的。此外,作者還對注意力權重和代表性樣本進行了可視化分析,這為未來的研究提供了直觀的見解。未來將繼續探索基于MICER架構的解釋性和穩健性模型。 參考資料 Jiacai Yi, Chengkun Wu, Xiaochen Zhang, Xinyi Xiao, Yanlong Qiu, Wentao Zhao, Tingjun Hou, Dongsheng Cao, MICER: A Pre-trained Encoder-Decoder Architecture for Molecular Image Captioning, Bioinformatics, 2022;, btac545,
作者 | 夏宇航 審核 | 劉 旋今天給大家介紹的是來蘭州大學張瑞生教授團隊發表在Bioinformatics 2022上的文章"MultiGran-SMILES: multi-granularity SMILES learning for molecular property prediction".原子水平表示是分子的一種常見表示,在一定程度上忽略了分子的子結構或支鏈信息;而子串水平表示則相反。原子級別和子串級別的表示都可能丟失分子的鄰域或空間信息。而聚集分子鄰域信息的分子圖表示法在表示手性分子或對稱結構方面能力較弱。在這篇文章中,作者利用不同粒度表示法的優勢同時用于分子性質預測,提出了一種融合模型MultiGran-SMILES,與分子的單一粒度表示相比,作者的方法同時利用了各種粒度表示的優點,并自適應地調整每種表示對分子性質預測的貢獻。
1.摘要
分子性質預測是物理、化學和材料科學領域的熱點問題。提取有用的分子特征對于分子性質預測至關重要。原子級表示通過原子級標記化,根據SMILES串給出了分子的細節。與原子級別的表示相比,子串級別的表示詳細地提供了分子的一些子結構信息或片段。原子級別和子串級別的表示都可能丟失分子的鄰域或空間信息。而聚集分子鄰域信息的分子圖表示法在表示手性分子或對稱結構方面能力較弱。圖1為分子的三種粒度表示。為了充分利用不同分子表示的優勢,本文提出了一種多粒度融合學習模型,該模型同時利用了不同粒度表示的優勢,并自適應地調整每種粒度對分子性質預測的貢獻。作者的方法在廣泛使用的數據集上得到了驗證。此外,作者還與單粒度表示(即原子級別、子串級別或分子圖)以及分子圖和SMILES串的融合方法進行了比較。
2.模型介紹
模型由五個組件組成,包括輸入數據的預處理(a)、輸入層(b)、編碼器(c)、特征融合(d)和最后一層預測(e)。將分子序列送入前處理部分。輸入層由三種粒度表示(即原子級、子串級和分子圖)組成。該模型的編碼器由兩種類型的子編碼器組成。BiGRU編碼器利用共享參數對原子級和子級信息進行編碼。GraphSAGE用于對分子圖進行編碼。融合層結合了原子級表示(記為AE)、子串表示(記為BE)和分子圖表示(記為GE)的輸出,便于同時融合不同粒度的優勢。
2.2 Bi-GRU雙向編碼器
作者使用GRU作為RNN單元,每個循環單元可以通過GRU自適應捕獲不同時間尺度的依賴性。重置門和更新門是兩種類型的門,和的計算方法如下:
新的隱藏單位ht的計算方法如下:
2.3 分子圖編碼器
本文使用GraphSAGE作為分子圖的編碼器,它可以通過采樣和聚合節點的鄰居嵌入來有效地捕捉圖的結構信息。SMILES字符串可以表示為, 被送入GraphSAGE編碼器,輸出,具有相同的長度。 2.4 多粒度SMILES特征表示融合
作者融合了三種類型的編碼器的輸出,并自適應地調整每種粒度對分子性質預測的貢獻,稱為。是來自原子級Ha、子串級Hb和分子圖Hg的表示的融合。融合層如圖2d所示。融合表示的計算如下:
表示三個隱藏狀態的權重,門的大小與H的隱藏態相同。是提出的多粒度分子表示。作者借鑒前人的工作也對樣本進行了填充,以統一它們的長度。因此,可以將不同長度的三種不同粒度的表示直接相加,得到用于預測的融合表示。在這項工作中,作者將定義為向量,計算方法如下:
3.實驗
作者廣泛使用的MoleculeNet中選擇數據集,即BACE、BBBP、HIV、Tox21和ClinTox。另一類數據集如LogP和FDA來自ZINC數據集。 BACE、BBBP、LogP和FDA數據集的ROC-AUC評估指標結果表2所示。可以看出作者的三種粒度融合的表示學習方法優于基準方法。
為了進一步驗證模型性能,作者將Tox21和ClinTox上的每個任務視為單個屬性,然后在每個任務中相互比較ROC-AUC。圖3顯示了使用不同粒度的不同模型對Tox21上12種屬性的ROC-AUC進行比較,作者的模型在12個任務中的6個任務上達到了最先進的性能。圖4顯示了兩種屬性在ClinTox上的ROC-AUC比較****
作者還比較了一些有關LogP、FDA和HIV的最先進模型的準確性。實驗結果如表3所示,說明了FDA和HIV的準確性。表4顯示了在LogP上的比較結果。
上述實驗結果表明,通過融合不同分子粒度的表示可以捕獲分子特征,對于具有明顯官能團或分支的分子,該方法的增益更大。因此,作者的方法能夠自適應地調整和選擇分子屬性預測的有利特征,并對不同的數據集具有較好的泛化能力。 4.總結
本文通過充分利用各種粒度表示法的優勢,并自適應地調整每種粒度表示法的貢獻度,從而為分子性質預測提供了一種綜合的方法,大大緩解了單一粒度表示法的不足。與現有的融合方法相比,該方法通過引入子串級別的表示或分子片段,具有更好的泛化能力。 參考文獻****
文章地址//doi.org/10.1093/bioinformatics/btac550
代碼地址
本文介紹韓國大田 KAIST 化學與生物分子工程系與人工智能研究生院的Yousung Jung團隊2022年9月15日發表在Nature Machine Intelligence的研究成果A generalized-template-based graph neural network for accurate organic reactivity prediction。Yousung Jung團隊提出了一個化學驅動的圖神經網絡,稱為LocalTransform,它基于廣義的反應模板學習有機反應性,以描述反應物和產物之間的電子構型的凈變化。所提出的概念極大地減少了反應規則的數量,并表現出最先進的產物預測精度。除了廣義反應模板的內在可解釋性外,該模型的高分值-準確率相關性使用戶可以評估機器預測的不確定性。
背景
預測有機反應產物是有機化學的一個基本問題。基于成熟有機化學知識,化學家現在能夠設計實驗來制造用于不同目的的新分子。但是,它需要經驗豐富的專業化學家來準確預測化學反應的結果。為了進一步幫助有機化學家并在數字化學時代實現全自動發現,機器智能可以準確預測有機反應的產物,大大加快新分子的設計過程。最近,已經提出了幾種基于機器學習的方法來預測有機反應產物,但仍然需要改進反應預測模型才能達到足夠的準確性,與普通有機化學家相當或更好。由于幾種基于模板的方法的覆蓋范圍和可擴展性問題,科學家們提出了使用基于序列的模型或基于圖模型的無模板方法。盡管這些方法在公共反應數據集上表現出有希望的準確性,但當前最先進的方法仍然以機械方式預測有機反應的產物,要么翻譯化學語言,要么按順序編輯分子圖。相比之下,知識淵博的化學家通常通過識別反應中心并應用所學化學知識來預測有機反應性來和預測反應產物。
研究人員設計了廣義反應模板(GRT, generalized reaction template),一種僅描述基于原子映射的反應前后原子構型的局部變化但沒有特定原子類型或官能團信息的反應模板,并提出了一個基于圖機器智能的LocalTransform框架來預測反應產物。LocalTransform 通過識別反應中心以及要應用的 GRT 來預測反應產物。它通過全局注意力機制學習根據局部化學環境和選擇性識別反應原子。最終反應轉化由反應模板分類器預測,該分類器為預測的化學反應中心建議最可能的 GRT。
LocalTransform 在預測有機反應方面的三個重要突破: * GRT 在化學上是直觀的和通用的。提取的 GRT 可以描述所有測試反應的 99.7%,而前 100 個最流行的反應模板可以描述所有訓練反應的 94.6%,從而解決了以前基于模板的方法的覆蓋率和可擴展性問題。 * 證明了 LocalTransform 有前景的 top-k 產物預測精度,與以前的基于圖的方法相比有顯著改進。 * 由于模型是一種基于分類的方法,具有很強的分數-準確性相關性,它使用戶能夠理解不確定性并信任機器預測。
研究結果
GRTs 受有機反應主要是電子重排過程的啟發,研究人員在此推導出GRT,它描述了反應前后電子構型的凈變化,而不包括任何特定的原子類型或官能團信息。
LocalTransform 基于提出的 GRT,研究人員開發了一個名為 LocalTransform 的圖神經網絡,通過識別反應中心和應用反應規則來預測反應產物。LocalTransform 的整體預測流程如圖所示。LocalTransform 的反應產物預測包括七個步驟:(1)分子圖構建,(2)局部消息傳遞,(3)全局原子注意力,(4)鍵特征收縮和反應池化,(5)全局鍵注意力,(6)AoT 分類,(7))AoT 排名和收集以及 (8))產物完成。
USPTO-480k 反應數據集的結果
表1顯示了 USPTO-480k 數據集上混合預測場景中 top-k 精確匹配準確度的結果。LocalTransform 顯示了所有 top-k 準確度值的有希望的預測結果。更具體地說,LocalTransform 在 top-1 預測 (90.8%) 中的 top-1 準確度比當前最好的基于圖形的方法高出 4.5%。LocalTransform 的性能也比兩種流行的基于序列的模型略高 0.2-2.1%。研究人員預計類似的增強訓練或預訓練也會提高 LocalTransform 的準確性,但會大幅增加訓練的計算成本。
與人類專家的比較 遵循以前工作中使用的基準,將 top-1 模型預測與人類專家進行比較,這是 Coley 等人進行的擴展實驗。通過使用各種稀有反應模板從測試集中獲取80個反應。LocalTransform與WLDN、Molecular Transformer和人類專家的預測結果如圖所示。LocalTransform 正確預測了 80 個反應中的 75 個,并且在所有反應模板稀有箱中具有最佳準確度。同樣,LocalTransform 在所有稀有箱中顯示出最佳預測精度。對于具有最稀有 GRT 的三個反應,WLDN 和人類專家都未能正確預測任何反應結果,而 Molecular Transformer 和 LocalTransform 正確預測了三個反應中的兩個。
結論
作者提出了一種新穎的機器智能方法LocalTransform,它通過識別反應中心和應用數據驅動的一般反應規則來預測有機反應性。反應規則被編碼在所謂的GRT 中,GRT 基于從反應物到產物的電子構型的凈變化,具有極大的靈活性和簡單性。在 USPTO-480k 數據集上訓練和評估的 LocalTransform 產生了有希望的 top-1 和 top-2 精確匹配準確度值,分別為 90.8% 和 94.8%。在人類基準集上,作者強調了 LocalTransform 在優于人類專家預測方面的卓越預測,展示了預測分數和預測準確性之間的高度相關性,這使用戶能夠理解不確定性并信任機器預測。研究人員的方法的準確性在很大程度上受到反應映射的質量以及數據集中反應的多樣性和豐富性的限制。因此,期望未來可以通過使用更大的數據集和高質量的原子映射方法(如 Mappet 或 RXNMapper)來進一步改進模型。
參考資料 Chen, S., Jung, Y. A generalized-template-based graph neural network for accurate organic reactivity prediction. Nat Mach Intell (2022). //doi.org/10.1038/s42256-022-00526-z
編譯 | 陳睿哲 本文介紹一篇拜羅伊特大學2022年7月發表在nature communications的《ProtGPT2 is a deep unsupervised language model for protein design》。蛋白質設計在自然環境和生物醫學中發揮著重要作用,旨在為特定用途設計全新的蛋白質。受到近期Transformer架構在文本生成領域成功的啟發,作者提出ProtGPT2,一種在蛋白質空間上訓練的語言模型,用于生成遵循自然序列原則的全新蛋白質序列。ProtGPT2生成的蛋白質顯示出天然氨基酸傾向,而無序預測表明,88%的ProtGPT2生成的蛋白質是球狀的,與自然序列一致。蛋白質數據庫中的敏感序列搜索表明,ProtGPT2序列與自然序列有著遠親關系,相似網絡進一步證明,ProtGPT2是對蛋白質空間中未探索區域的采樣。ProtGPT2生成的序列在探索蛋白質空間的未知區域時,保留了天然蛋白質的關鍵特征。
1 簡介 近年來,預訓練大模型極大地推動了自然語言處理領域的發展。作者等人注意到,蛋白質序列與人類語言有著某種相似性。蛋白質序列可以描述為化學定義的字母、天然氨基酸的串聯,與人類語言一樣,這些字母排列形成二級結構元素(“單詞”),單詞的集合形成承擔功能的“句子”。蛋白質序列與自然語言一樣,是信息完整的:它們以極其高效的方式完全按照氨基酸順序存儲結構和功能。隨著自然語言處理領域在理解和生成具有接近人類能力的語言方面的非凡進步,作者假設這些方法為從序列的角度處理蛋白質相關問題打開了一扇新的大門,例如蛋白質設計。
受到自回歸語言模型(如GPT系列)和先前采用自回歸語言模型建模蛋白質序列的成功,作者想知道能否通過自回歸語言模型來建模蛋白質序列,以達到:1)高效地學習蛋白質序列語言;2)生成合適且穩定的蛋白質;3)理解所生成的序列與自然語言處理的關系,模型能否對未知蛋白質空間進行采樣。
因此,作者提出了ProtGPT2,一種具有7.38億參數的GPT架構的自回歸模型,能夠以高通量方式生成從頭蛋白質序列。ProtGPT2在整個蛋白質空間的百萬序列上進行訓練后,有效地學習了蛋白質語言。ProtGPT2生成的蛋白質序列具有與自然序列相同的氨基酸和無序傾向,同時在進化上遠離當前的蛋白質空間。二級結構預測計算出88%的序列是球狀的,與天然蛋白質一致。使用相似網絡表示蛋白質空間表明,ProtGPT2序列通過擴展自然超家族來探索蛋白質空間的未知區域。生成的序列顯示出與自然序列類似的預測穩定性和動態特性。由于蛋白質設計在解決從生物醫學到環境科學等領域的問題方面具有巨大潛力,作者認為ProtGPT2是高效高通量蛋白質工程和設計的重大進步。
2 方法 分詞與詞表 作者通過BPE分詞器在數據集上訓練,最終的詞表大小為50256個tokens,每個token平均包含了4個氨基酸。
數據集 作者以Uniref50作為訓練數據集,包含49874565個序列。隨機選擇10%的序列生成驗證數據集。最終的訓練和驗證數據集分別包含4488萬和499萬個序列。作者生成了兩個數據集,一個使用512的序列大小,另一個使用1024。本文中展示的結果對應于使用512大小訓練的模型(后文主模型)。
模型 作者使用堆疊Transformer decoder作為模型架構,ProtGPT2模型由36層Transformer decoder組成,模型維度為1280。在自回歸語言模型的條件下,每個句子的概率分布被定義為如下:
更具體的,作者通過優化句子中每個單詞與其前綴的負對數似然作為目標函數來進行優化:
模型訓練 輸入序列為BPE分詞器所分詞后得到的token序列。模型權重在訓練之前重新初始化。使用Adam(β1)優化模型?=?0.9, β2?=?0.999),學習率為1e-03。對于主模型,每個batch為512 tokens × 128 GPUs。每個GPU處理8個batch,總計1024個。模型在128個NVIDIA A100上訓練4天。使用DeepSpeed69進行并行訓練。
模型推理 作者使用主模型,使用不同的推理參數,對序列進行采樣。在采樣策略與采樣超參數上,重復懲罰在1.1到3.0之間以0.1進行微調,選擇token的范圍top-k從250到1000不等,每50采樣一次,并且top-p從0.7到1.0,窗口為0.05個單位(top-k采樣,模型會從概率前 k 大的單詞中抽樣選取下一個單詞;top-p采樣,設定概率閾值,取滿足閾值條件的樣本進行采樣)。基于以上的參數設定,為每種采樣參數生成100個序列,并將其氨基酸的頻率與自然序列進行比較。作者觀察了哪些參數在自然序列中七種最常見的氨基酸組中產生的差異較小。作者還探索了50到100范圍的beam search采樣,但在所有情況下都會產生較差的結果。為了確定自然序列中的氨基酸頻率以與ProtGPT2樣本進行比較,作者從Uniref50數據集中隨機選取了100萬個序列。作者通過微調超參數找到了最佳匹配參數,某個采樣過程如圖1所示。
3 結果 統計采樣 自回歸語言生成基于以下假設:序列的概率分布可以分解為條件下一個詞分布的乘積。然而,一個訓練好的語言模型生成不連貫的亂碼或重復文本并不罕見。作者簡要總結了本研究中應用的最常用的語言生成采樣策略與超參數。
貪婪搜索策略是在每次采樣時選擇概率最高的token。雖然算法簡單,但生成的序列是確定性的,很快也會變得重復(圖1a)。Beam search試圖通過保留最可能的候選詞來緩解這一問題,盡管生成的文本仍然存在重復性,人類文本往往會交替使用低概率和高概率token(圖1b)。最后,通過從前k個最可能的詞中隨機選取一個詞,隨機采樣遠離確定性采樣(圖1c,d)。
根據先前關于語言模型采樣策略的研究,受這項工作的啟發,作者按照不同的采樣策略和采樣超參數生成序列(圖1)。為了評估什么樣的采樣過程產生了最自然的相似序列,作者將生成的序列集的氨基酸傾向性與在自然蛋白質序列中發現的進行了比較。作者還觀察到貪婪搜索和Beam search會產生重復的確定性序列,而隨機采樣顯著改善了生成的傾向性(圖1)。此外,作者還觀察到,生成類似于自然序列的序列需要較高的k值,即最佳結果出現在k ?>?800的范圍內,作者特別選擇了k?=?950(圖1h)。作者還發現,當選擇1.2的重復懲罰時,采樣結果得到了改善。因此,本研究的其余部分使用了這些采樣參數。
ProtGPT2序列編碼球狀蛋白 為了在序列和結構屬性的背景下評估ProtGPT2生成的序列,作者創建了兩個數據集,一個是使用前面描述的推理參數從ProtGPT2生成的序列;另一個是從UR50隨機選擇的序列。每個數據集由10000個序列組成。由于ProtGPT2是以無監督的方式訓練的,作者的分析重點是驗證ProtGPT2序列的結構和生化特性。
作者首先研究了數據集中的無序和二級結構內容。之前已經表明,在細菌和古細菌中發現的蛋白質中約有14%是無序的。為此,作者運行IUPred335來分析ProtGPT2生成的序列是否比一組自然序列更容易無序。作者的分析顯示,在ProtGPT2生成的序列(87.59%)和自然序列(88.40%)中,球狀結構域的數量相似。已經報道了幾種檢測短內在無序區域的方法。由于作者的目標是提供跨數據集的球狀度和普遍無序的高水平比較,作者進一步使用IUPred3在氨基酸水平上分析了蛋白質序列。值得注意的是,作者的結果顯示兩個數據集的有序/無序區域分布相似,ProtGPT2和自然數據集中分別有79.71%和82.59%的有序氨基酸(表1)。
接下來,作者研究了無序中的相似性是否是等效二級結構元素含量的結果。為此,作者計算了ProtGPT2和自然序列數據集的PSIPRED預測。自然序列顯示α螺旋、β片和線圈含量分別為45.19%、41.87%和12.93%。ProtGPT2數據集的百分比分別為48.64%、39.70%和11.66%。這些結果表明,ProtGPT2生成的序列類似于球狀結構,其二級結構與在自然界中發現的類似。
ProtGPT2序列與自然序列 蛋白質在進化過程中通過點突變以及復制和重組發生了巨大變化。然而,通過序列比較,即使兩種蛋白質的序列有顯著差異,也可以檢測出它們之間的相似性。作者想知道ProtGPT2序列與自然序列的關系如何。為此,作者使用了HHblits,這是一種敏感的遠程同源性檢測工具,使用配置文件隱馬爾可夫模型根據數據庫搜索查詢序列。作者根據Uniclust30數據庫搜索ProtGPT2數據集中10000個序列的同源性。為了進行比較,作者還使用相同的設置對自然數據集執行了相同的搜索。此外,為了分析完全隨機序列與ProtGPT2序列的比較情況,作者還通過隨機選取詞表中的25個字母進行連接,構建了第三個數據集。
因為作者想對數據集與現代蛋白質空間的相關性進行定量比較,所以作者繪制了個體與序列長度圖(圖2)。具體來說,對于Uniclust30中發現的每一條路線,作者描述了具有最高個體和序列長度的路線。作為序列同一長度空間中的參考點,作者使用HSSP曲線,一個邊界集來定義蛋白質序列相關性的置信度。其特性低于該曲線的蛋白質,不一定具有類似的3D結構,也不可能具有同源性。由于ProtGPT2和隨機數據集中的序列不是蛋白質進化的結果,作者使用曲線作為已知閾值來比較數據集。
當查看曲線上方和下方的點擊分布時,作者觀察到HHblits在Uniclust30數據庫中發現了許多與自然序列數據集相關的點擊(圖2a)。具體來說,在10000個數據集序列中,9621個(96.2%)在HSSP曲線以上顯示出一致性。類似地,9295個ProtGPT2生成的序列(93%)在Uniclust30數據庫中也有對應的序列,它們在HSSP曲線上方對齊(圖2b)。相反,93%的隨機生成序列低于該閾值(圖2c)。盡管natural和ProtGPT2數據集的模式相似,但這兩個數據集在點擊分布上存在差異。一個標準差范圍為31.5–69.7%,自然數據集的平均同一性高于ProtGPT2集,范圍為32.9–64.1%(圖2a,b)。自然和ProtGPT2序列分布之間的差異無統計學意義(p值90%)。盡管ProtGPT2數據集中的365個序列在Uniclust30中具有高同一性序列,但它們在所有情況下都對應于低于15個氨基酸的比對,而自然數據集顯示760個序列超過90%,比對長度在14.8–77.3個氨基酸的一個標準差范圍內。這些結果表明,ProtGPT2有效地生成了與自然序列有遠親關系的序列,但不是記憶和重復的結果。
ProtGPT2生成有序結構 設計全新蛋白質序列時最重要的特點就是能否夠折疊成穩定的有序結構。作者在AlphaFold預測、Rosetta松弛分數和分子動力學(MD)模擬下,評估了ProtGPT2序列與自然和隨機序列的潛在適合度。
AlphaFold在0-100(pLDDT)范圍內生成其置信度的每殘留估計值。該分數已被證明與順序相關:低分數(pLDDT>50)往往出現在無序區域,而優秀分數(PLDD>90)出現在有序區域。在這里,作者對每個序列進行了五個結構預測。當采用每個序列的最佳評分結構時,數據集的平均pLDDT為63.2,當對每個序列的所有五個預測進行平均時,為59.6。此外,37%的序列顯示pLDDT值超過70。由于pLDDT分數是結構順序的代理,作者轉向自然和隨機數據集,看看它們與ProtGPT2序列相比如何。與之前的工作一致,自然數據集中66%的序列預測pLDDT值大于7043,整個數據集的平均值為75.3(補充圖2b)。相反,隨機數據集中的預測顯示pLDDT的平均值為44,pLDDT值超過70的序列中只有7.4%(補充圖2c)。
為了進一步驗證模型的質量,作者在三個數據集上執行了Rosetta RelaxBB。Rosetta Relax對Rosetta能量函數執行蒙特卡洛優化,從而產生不同的骨架和轉子分子構象。較低的羅塞塔能量構象與較松弛的結構相關。最新的羅塞塔能量力場與熱容、密度和焓等實驗變量密切相關。該評分函數反映了一種靜態蛋白質構象的熱力學穩定性。在這里,作者對三個數據集的30000個序列進行了Rosetta松弛實驗(圖3a)。一個廣泛的經驗法則是,總分(羅塞塔能量單位,REU)應介于?1和?3/殘基。作者在天然和ProtGPT2數據集中觀察到這種分布,平均值分別為1.90和1.73 REU/殘基。正如預期的那樣,隨機序列的數據集顯示平均值為0.13 REU/殘基。
作者進一步測試了ProtGPT2序列是否顯示出與自然序列類似的動態特性。蛋白質是動態實體,如果沒有其固有的靈活性,它們將無法與其他生物分子相互作用并在細胞中發揮其功能。為了評估ProtGPT2生成的序列是否在與天然蛋白質相同的范圍內顯示靈活性,作者隨機選擇每個數據集的12個序列,并運行了100個分子動力學(MD)的三個副本,共108條軌跡,總時間為10.8微秒。為了確保在模擬過程中觀察到的動力學不是不同pLDDT值的偽影,因此可能是不同的無序預測,作者確保數據集pLDDT平均值之間的差異在統計上沒有差異。自然和ProtGPT2數據集中每條軌跡的均方根偏差平均值分別為2.93和3.12?分別為(圖3b)。正如預期的那樣,隨機序列在軌跡期間顯示出顯著的偏差,平均值為9.41??. 雖然ProtGPT2序列的值高于自然序列,但分布沒有顯著差異。結果表明,ProtGPT2序列可能與自然界中發現的蛋白質具有類似的動力學特性。
ProtGPT2超越了當前蛋白質空間邊界 有幾項研究試圖將蛋白質序列的維度降低為幾個可識別的維度,以便進行分析。大多數表示方法包括(i)蛋白質結構的層次分類,如ECOD和CATH數據庫,(ii)笛卡爾表示和相似網絡。作者最近在一個網絡中表示結構空間,該網絡將蛋白質顯示為節點,當它們在common中具有同源和結構相似的片段時連接,并在Fuzzle數據庫中提供結果。該網絡代表來自七個主要SCOP類的25000個域,并表明現代已知的蛋白質空間既有連接的區域,也有“島狀”區域。
進化已經探索了所有可能的蛋白質序列,但并不可信。因此,作者想設計出探索蛋白質空間未探索區域的蛋白質,以及是否可以設計出新的拓撲結構和功能,提出了挑戰。作者將ProtGPT2序列整合到作者的蛋白質空間網絡表示中。為此,作者為每個SCOPe2.07和ProtGPT2序列生成了HMM配置文件,使用HHsearch以all對all的方式對它們進行比較,并用Protlego表示網絡。為了避免具有多個對齊的特定序列最終由網絡中的同一節點表示,作者用兩個不重疊的對齊復制條目。
該網絡包含59612個頂點和427378條邊,包括1847個組件或“島狀”簇(圖4)。主要成分聚集了一半以上的節點(30690),這一數字明顯高于在相同設置下生成的網絡中觀察到的數量,但不包括ProtGPT2序列,強烈表明ProtGPT2生成的序列橋接了蛋白質空間中的獨立島。作者從拓撲不同的作用域類中選擇了跨越網絡不同區域的六個示例,以在結構級別展示ProtGPT2序列(圖4)。特別是,作者報告了一個全β(751),兩個α/β(42661068),一個膜蛋白(4307),一個α?+?β(486)和全α(785)結構。這些結構說明了ProtGPT2在生成從頭結構方面的多功能性。對于每種情況,作者使用FoldSeek58搜索PDB數據庫中發現的最相似的蛋白質結構。ProtGPT2生成折疊良好的全β結構(751,4307),盡管最近取得了令人印象深刻的進展,但長期以來一直非常具有挑戰性。ProtGPT2還生成膜蛋白(4307),由于在指定膜內結構方面的挑戰和繁重的實驗表征,這對蛋白質設計提出了一個困難的目標。除了生成自然折疊代表外,ProtGPT2還產生了以前未收錄的拓撲結構。例如,作者報告了蛋白質4266,其拓撲結構與目前PDB收錄中的任何結構都不匹配,DALI Z分數低為5.4,RMSD為3.0??到PDB 5B48超過67個殘基(9%)。
然而,ProtGPT2序列最顯著的特性可能是其與所有先前設計的從頭結構的顯著偏差,這些結構通常具有環路和最小結構元素的理想拓撲。從頭蛋白質設計的優點是不攜帶任何進化歷史,但在實踐中,缺乏實例和更長的環阻礙了與其他分子相互作用和功能實現所需的裂縫、表面和空腔的設計。ProtGPT2序列類似于天然蛋白質的復雜性,具有多方面的表面,能夠分配相互作用的分子和底物,從而為功能化鋪平了道路。在圖4中,作者展示了結構486和1060,這是此類復雜結構的兩個示例。特別是,1068顯示了TIM-barrel褶皺,該拓撲迄今為止在從頭蛋白質設計中取得了成功,但其理想化結構已被證明具有挑戰性,無法通過額外的secondary elements和更長的環進行擴展。
保留的功能熱點 對FoldSeek發現的最佳點擊結構疊加進行檢查,發現了幾個配體相互作用殘基的側鏈保守的例子。圖5中顯示了兩個示例。最類似于序列357(圖5a)的自然結構對應于PDB代碼1X0P(鏈A),一個結合FAD的藍光傳感器域。當重疊結構時,作者觀察到357保留了側鏈結合熱點,三個殘基相同(D169、Q150和N131),兩個不同但能夠形成相同相互作用的殘基,即R165位的賴氨酸和K127位的組氨酸。序列475(圖5b)最類似于PDB代碼5M1T(鏈A),折疊成TIM-barrel并與細菌第二信使環二-3′,5′-鳥苷單磷酸(PDB三字母代碼C2E)結合的磷酸二酯酶。在五個側鏈相互作用的殘基中,ProtGPT2序列保留了三個殘基(Q455、R473和E469),并包括一個取代另一個能夠氫鍵的殘基(用于Q513的天冬氨酸)。值得注意的是,ProtGPT2以zero-shot生成了這些序列,即在這兩個特定折疊中沒有進一步微調。這些結果對蛋白質工程產生了重大影響,因為盡管同源性較低(357和45分別為31.1%和29.2%),但ProtGPT2似乎保留了生成序列中的結合位置,并可用于增加特定折疊和家族的序列。
4 總結 過去的2年里,利用人工智能方法的從頭蛋白質設計取得了驚人的成功。作者構建了一個自回歸語言模型ProtGPT2,ProtGPT2有效地學習了蛋白質語言。ProtGPT2可以生成與自然序列有遠近關系的序列,其結構類似于已知的結構空間,具有非理想化的復雜結構。由于ProtGPT2已在整個序列空間上訓練,因此該模型產生的序列可以對任何區域進行采樣,包括深色蛋白質組和傳統上認為在蛋白質設計領域非常具有挑戰性的區域,例如全β結構和膜蛋白。ProtGPT2蛋白質與遠親天然蛋白質結構的視覺疊加顯示,PROTGPT1還捕獲了功能決定簇,保留了配體結合的相互作用。由于人工蛋白質的設計可以解決許多生物醫學和環境問題,作者在蛋白質語言模型中看到了巨大的潛力。ProtGPT2設計在幾秒鐘內即可適應球狀蛋白質,無需進行進一步訓練。通過根據用戶序列微調模型,ProtGPT2可以適應特定的家族、功能或折疊。在這種情況下,ProtGPT2將能夠篩選與天然蛋白質相似的蛋白質,以改善、微調或改變天然蛋白質的特定生化功能。大規模篩選ProtGPT2設計的蛋白質庫可能會識別數據庫中未捕獲的蛋白質折疊以及在自然界中沒有相關對應功能的蛋白質。ProtGPT2是面向高效蛋白質設計和生成邁出的一大步,為探索設計蛋白質結構和功能的參數及其后續實際應用的實驗研究奠定了基礎。 參考資料 Ferruz, N., Schmidt, S. & H?cker, B. ProtGPT2 is a deep unsupervised language model for protein design. Nat Commun 13, 4348 (2022). //doi.org/10.1038/s41467-022-32007-7
項目主頁
代碼
Hierarchical Inter-Message Passing for Learning on Molecular Graphs
我們提出了一個在分子圖上學習的遞階神經信息傳遞架構。我們的模型采用了兩種互補的圖表示:原始的分子圖表示和相關的結樹,其中節點表示原始圖中有意義的簇,如環或橋接化合物。然后,我們通過在每個圖中傳遞消息來學習分子的表示,并使用粗到細和細到粗的信息流在兩種表示之間交換消息。我們的方法能夠克服經典GNN的一些限制,如檢測周期,同時仍然非常有效的訓練。我們在ZINC數據集和MoleculeNet基準收集數據集上驗證了它的性能。