亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

作者構建了一個蛋白質-蛋白質相互作用(PPI)靶向藥物相似性數據集,并提出了一個首次用于PPI抑制劑設計的深度分子生成框架,從種子化合物的特征生成新的類藥性分子。該框架使用與PPI抑制劑相關的關鍵特征作為輸入,并為PPI抑制劑的從頭分子設計開發深度分子生成模型。首次將針對PPI的抑制劑的定量類藥性指標QEPPI用于PPI靶向化合物的分子生成模型的評估。結果表明生成的分子具有較好的PPI靶向藥物的類藥性。此外,通過化學空間分析,生成的分子與iPPI-DB抑制劑共享化學空間。

QEPPI

quantitative estimate of protein-protein interaction targeting drug-likeness //github.com/ohuelab/QEPPI

1 背景 新藥研發是一個成本高、風險大、周期長的漫長過程。新藥開發涉及先導化合物的發現、優化和臨床研究等多個階段,其中早期先導化合物的發現仍是亟待解決的重要問題。傳統的基于定量構效關系或基于對接的虛擬篩選通常傾向于從現有的化學庫中搜索具有所需特性的分子。相比之下,從頭藥物設計(分子生成)旨在通過從頭開始生成具有所需特性的新分子來探索類藥分子的化學空間,以拓寬現有的化學庫。

蛋白質-蛋白質相互作用(PPIs))在各種生物過程中發揮著至關重要的作用,因此對人類健康和疾病狀態的發展至關重要。研究表明,異常 PPI 與多種疾病有關,包括癌癥、傳染病和神經退行性疾病。由于它們的關鍵影響,PPI 被認為是具有治療意義的有希望的藥物靶點。然而,以前針對 PPI 的嘗試由于其一般特性而面臨嚴峻挑戰,例如平坦的表面、無特征的構象、復雜的拓撲結構和淺口袋。傳統計算機引導 PPI 抑制劑的設計已取得重大進展,并且分子生成模型近年來得到了迅速發展。不幸的是,迄今為止,尚未將基于深度生成模型的方法應用于 PPI 抑制劑的設計。此外,類藥性 (QED) 的定量估計通常用于評估定量藥物相似性,但不適用于評估靶向 PPI 的化合物。Kosugi 和 Ohue 開發了一種針對 PPI 抑制劑的定量估計的指標 QEPPI ,專門用于評估 PPI 靶向化合物。QEPPI 是針對 PPI 靶向藥物的 QED 方法的擴展,使用 QED 概念開發,涉及基于已批準藥物可用信息的物理化學性質建模。研究結果表明,QEPPI 比 QED 更適合量化早期 PPI 藥物發現的藥物相似性。PPI 抑制劑具有兩個基本的分子特征:分子形狀和芳香鍵,因此研究人員想使用分子形狀等 3D 特征作為模型的輸入。

這項研究中,研究人員構建了一個 PPI 靶向藥物相似性數據集,并提出了一個深度分子生成框架,以從種子化合物的特征中生成新的 PPI 靶向藥物相似性分子。該研究首次探索了PPI 抑制劑分子生成模型的從頭分子設計。研究人員的模型表現出與各種最先進的分子生成模型相當的性能。該模型首次將QEPPI應用于分子生成模型中生成分子的PPI藥物相似性評估。結果表明,生成的分子具有更好的PPI靶向藥物相似性和藥物相似性。生成的分子與 iPPI-DB 共享化學空間。探索了 PPI 抑制劑的基于肽和基于配體的分子生成。

2 材料和方法 數據準備 研究人員建了一個靶向PPI的ChEMBL 的藥物相似子集,用于模型訓練。所有分子的拓撲數據均從 ChEMBL29 下載,并使用一系列規則清洗過濾。

模型架構 PPI 抑制劑的深度分子生成模型包括兩個主要步驟:(i) GAN 使用 3D 卷積神經網絡 (CNN) 來捕獲分子表示,(ii) 組合CNN 和LSTM網絡從分子表示中解析 SMILES。分子形狀和藥效團表示用作 GAN 的輸入,然后是字幕網絡將分子形狀和藥效團表示解析為 SMILES 字符串,生成與配體表示匹配的分子。

評估指標 為了深入了解模型性能并確定與其他生成模型相比的潛在優勢和劣勢,該方法在 MOSES 平臺上進行了基準測試。

3 結果與討論 模型性能 所有模型在來自訓練數據集的 300000 個預處理的分子上進行了訓練,并在 10 000 個測試和骨架拆分測試集上進行了測試。研究人員使用了 MOSES 平臺中可用的模型和超參數,通過在五次獨立運行中,每次采樣 30000 個 SMILES 來評估該模型。

所提出的 iPPIGAN 模型優于其他具有相似或高百分比的有效、獨特和新穎的 SMILES 字符串的生成模型。在 FCD 方面,研究人員開發的模型優于大多數其他方法。

性質分布 藥物設計和藥物篩選領域中,LogP、合成可及性評分 SAscore、天然產物相似性 NP-likeness和 定量藥物相似性QED起著基礎性的作用。但 QEPPI 比 QED 更適合定量估計 PPI 靶向化合物。iPPI-DB抑制劑的QED和QEPPI平均值分別為0.43和0.61。

研究人員比較了六種分子性質的分布,即 iPPI-DB 抑制劑以及AAE、CharRNN、VAE、LatentGAN 和 iPPIGAN 生成的分子集。如圖2所示,iPPIGAN生成的分子的性質分布與測試集的性質分布接近。iPPIGAN 模型生成的分子的性質分布與 iPPI-DB 抑制劑的不同,主要是因為訓練數據集的性質分布與 iPPI-DB 抑制劑的不同。此外,與其他模型相比,iPPIGAN 生成的分子具有更高的 QED 值、更高的 QEPPI 值和更低的 SA 分數。結果表明,iPPIGAN生成的分子易于合成,具有更好的藥物相似性和PPI靶向藥物相似性。由于構建的訓練集具有較高的藥物相似性,該模型可以更好地學習藥物相似性分布并擴展到新的藥物相似性空間。

化學空間分析 為了更好地理解生成分子的化學空間,通過計算MACCS 分子指紋用作嵌入和UMAP圖來評估化學空間覆蓋率。如圖所示,UMAP 圖中,生成的分子不僅與 iPPI-DB 抑制劑共享化學空間,而且通過用新分子彌合間隙來擴展它。

基于肽的生成分子案例 為了評估基于肽生成的化合物是否可以成為有效的候選分子,研究人員選擇了基于p53(肽)生成 MDM2-p53 靶標的潛在候選抑制劑。p53 是一種有效的腫瘤抑制因子,是癌癥治療的一個有吸引力的靶標,因為它可以在功能上被激活以根除腫瘤。編碼 p53 蛋白的基因在一半的人類癌癥中發生突變或缺失,從而使腫瘤抑制因子的活性失活。阻斷 MDM2-p53 相互作用以重新激活 p53 的功能是一種很有前景的癌癥治療策略。研究人員收集針對 MDM2-p53 的生物活性數據開發了一種用于活性預測的LightGBM回歸模型,然后使用 LightGBM 回歸模型來預測生成的分子是否對 MDM2-p53 PPI 靶標具有生物活性。此外,通過 QEPPI 值 > 0.5 和 SAscore值 <4 過濾化合物后,有 243 種化合物被命中。為了進一步確定優先考慮用于生物測定的分子,研究人員使用DOCK6進行分子對接來預測結合親和力。分子對接結果顯示,研究人員找到了 10 種具有比參考化合物更高的對接分數和 QEPPI 值的化合物。

基于配體的生成分子案例 為了評估基于配體生成的化合物是否可以成為良好的候選分子,研究人員選擇了基于 obatoclax 的生成 Bcl2 靶標的潛在候選抑制劑。BCL-2 蛋白家族通過控制線粒體外膜的完整性在調節細胞死亡中起關鍵作用。促凋亡 BCL-2 家族蛋白,如 BAK 和 BAX,在細胞凋亡中具有重要作用。當這些蛋白質被抗凋亡結合伙伴(如 BCL-2 和 BCL-XL)隔離時,它們的作用就會被阻斷。通過與抗凋亡 BCL-2 家族蛋白結合來破壞這種相互作用的小分子已被設計用于誘導癌細胞的凋亡。相關的 PPI 專門針對 Bcl-2 家族蛋白,因為 Bcl-2 家族成員之間的所有相互作用都是通過 PPI。目前正在臨床試驗中測試三種 Bcl-2 家族 PPI 干擾物(即 navitoclax、obatoclax 和 Venetoclax)。研究人員收集針對 Bcl2 的生物活性數建立LightGBM回歸模型用于針對 Bcl2 靶標的活性預測。分子指紋和分子描述符作為特征輸入,IC50(nM)的自然對數作為標簽,IC 50小于 100 000 nM 的值被定義為活性分子。然后使用 LightGBM 回歸模型來估計生成的分子是否對 Bcl2 具有生物活性。此外,通過 QEPPI 值 > 0.5 和 SA 得分值 <4 過濾化合物后,有 44 種化合物被命中。為了進一步優先考慮用于生物測定的分子,選擇性 Bcl-2 抑制劑 obatoclax 作為參考化合物,并通過對接預測結合親和力。結果表面,其中15 種具有比參考化合物更高的對接分數和 QEPPI值。

4 結論和未來工作 這項工作中,研究人員構建了一個 PPI 靶向藥物相似性數據集,并開發了一種新的基于形狀的分子生成框架,用于生成針對 PPI 的新型有效藥物相似性分子。研究人員的策略利用 GAN 和字幕網絡從種子分子的 3D 特征生成針對 PPI 的潛在抑制劑。該方法依賴于分子或肽作為種子分子生成多樣性的PPI類藥性化合物庫。目前是第一次將深度分子生成模型應用于 PPI 抑制劑的從頭設計。此外,首次應用 QEPPI 作為分子生成模型的評估指標用于PPI靶向化合物的分子設計。研究人員的模型顯示出與其他幾種最先進的分子生成模型相當的性能。化學空間分析表明,生成的分子與 iPPI-DB 抑制劑具有相似的化學空間。研究人員探索了基于肽的 PPI 抑制劑設計和基于配體的 PPI 抑制劑設計。結果表明,生成的分子具有更好的 PPI 靶向藥物相似性和藥物相似性。PPI 在生活中無處不在,它們的研究和理解對于藥物發現和生物工程的努力至關重要。PPI抑制劑的分子生成模型仍然只是向前邁出了一小步。

參考資料 Jianmin Wang, Yanyi Chu, Jiashun Mao, Hyeon-Nae Jeon, Haiyan Jin, Amir Zeb, Yuil Jang, Kwang-Hwi Cho, Tao Song, Kyoung Tai No, De novo molecular design with deep molecular generative models for PPI inhibitors, Briefings in Bioinformatics, Volume 23, Issue 4, July 2022, bbac285

數據和代碼

付費5元查看完整內容

相關內容

醫學領域的人工智能是使用機器學習模型搜索醫療數據,發現洞察,從而幫助改善健康狀況和患者體驗。 得益于近年來計算機科學和信息技術的發展,人工智能 (AI) 正迅速成為現代醫學中不可或缺的一部分。 由人工智能支持的人工智能算法和其他應用程序正在為臨床和研究領域的醫學專業人員提供支持。

編譯 | 董靖鑫 審稿 | 張翔今天給大家介紹的是卡內基梅隆大學的研究團隊近期的一篇分子優化工作。識別蛋白質抑制劑通常需要預測配體結合自由能(Binding Free Energy, BFE)。熱力學積分(Thermodynamics integration , TI)是一種能夠準確預測BFE的方法,但其計算成本高、時間長。**在這項工作中,作者利用自動機器學習(Automated machine learning, AutoML)和主動學習(Active Learning, AL)的技術開發了一個高效的自動化工作流程,只需要數百次TI計算能在數千個同源配體中識別BFE最低的化合物。**實驗結果表明,該框架預測的化合物的結合親和度顯著提高。

1 介紹 藥物設計的先導化合物的發現及優化階段旨在發現先導化合物,即通過改變分子的化學結構來改善與生物靶點的結合親和力,以證明其對靶點具有活性。因此,結合自由能的預測至關重要,而相對自由能(relative BFE, RBFE)指的是新配體與先導化合物之間的結合自由能差異。目前基于大規模分子庫的虛擬篩選方法的性能因較差的預測配體排序的能力而受到限制。分子動力學模擬(Molecular Dynamics,MD)方法雖然可以較為準確地計算RBFE,但對計算資源需求高。為了有效地克服這些限制,作者提出了一個自動化框架計算RBFE,以優化先導化合物。

圖1 SARS-CoV-2 PLpro及其抑制劑的結構

SARS-CoV-2木瓜樣蛋白酶(papain-like protease, PLpro)是設計COVID-19抗病毒藥物最有吸引力的藥物靶點之一。研究表明GRL0617通用骨架(N-[(1R)-1-arylethyl]arenecarboxamide, 圖1B)的結構對配體與PLpro結合很重要,并且在具有該骨架的化合物中可能發現更有效的PLpro抑制劑。在這項工作中,作者從13億商業可用化合物庫中篩選,選擇了1萬個N-[(1R)-1-arylethyl]arenecarboxamide衍生物的庫,并最終確定了16種有效的結合劑,其預測的結合親和力提高了100倍以上。

2 模型

圖2 模型流程

2.1 主動學習周期

兩個主要的計算模塊:

(1)AutoML模塊。負責根據第二個計算模塊提供的標記數據開發ML模型。 (2)TI RBFE模塊。負責計算選定化合物與PLpro蛋白的相對結合自由能。

具體流程:

(1) 從分子的種子集開始,執行TI RBFE計算以獲得訓練數據和初始化的ML模型。 (2) 使用該模型篩選化學空間。 (3) 選擇最佳候選分子集用于RBFE的TI MD計算。 (4) 對所選分子進行TI MD計算,并且用更新的數據重新訓練ML模型。

2.2 自動化機器學習模塊

使用基于先驗選擇的ML方法(如神經網絡)和分子表征(如配體-蛋白質相互作用指紋)構建的ML模型可能會導致大量的模型偏差和樣本選擇偏差。AutoML旨在以數據驅動、客觀和自動化的方式為ML模型選擇、數據表示和超參數做出決策。AutoML和AL方法的結合既可以保證對化學空間進行快速、系統、公正的探索,又可選擇最佳候選分子。

2.3 熱力學積分分子動力學模擬模塊

熱力學積分的流程: (1) 生成MD輸入文件(包括分子拓撲結構、原子初始坐標和約束)。 (2) 利用TI設置并行化的GPU加速的 MD模擬。 (3) 收集和處理輸出數據。

3 實驗 3.1 實驗設置

AutoML-AL方法共進行8個AL周期。周期0中,使用多樣的分子初始化AL,以盡可能廣泛地采樣化學空間。為初始分子集進行TI MD 計算,并提供給AutoML模塊用于初始ML模型。周期1-5中,均勻地選擇了具有低RBFE的分子,以獲得庫的化學空間信息。周期6,隨機選擇分子,這種方式有助于克服AL被困在化學空間的局部最小值時可能出現的問題。

3.2 實驗結果

實驗對253個配體進行TI MD RBFE計算。計算133種配體的RBFE為負的,約占TI計算的53%。這說明通過TI MD計算篩選的配體中有一半以上的配體具有比參考配體更高的結合親和力。其中62種配體(占通過TI MD篩選的配體的24.5%)的預測結合親和力提高了10倍以上。通過TI MD篩選得到的16個配體(占6%)與靶蛋白的預測結合親和力提高了100倍以上。

在AL周期0中,ML模型沒有區分有利于結合的化學空間區域。在平衡選擇的周期1-5中,模型探索多個區域,尋找期望的化學空間。由于信息的增加,ML模型的感知發生了明顯的變化,開始識別出低??G分子密集分布的化學空間區域。周期5結束,ML模型得到收斂,化學空間各個區域穩定著色。在隨機選擇分子的周期6中,分子分布在化學空間中,大多數分子如預期的那樣具有正??G。值得注意的是,模型的誤差沒有增加,這也說明了模型已經收斂。

圖5展示了兩個優化的分子S1和S2,它們的結合親和力分別提升了-0.84 kcal/mol和-0.99 kcal/mol。在TI ????為負的配體中,有35個(~26%)分子具有相似的芳香體系。其中9個分子的預測結合親和力提高了100倍以上。

4 總結 在這項工作中,作者提出結合自動機器學習(Automated machine learning, AutoML)和主動學習(Active Learning, AL)的方法對配體進行RBFE計算,實驗表明該方法選擇的配體結合親和力顯著提升。

參考資料 Gusev F, Gutkin E, Kurnikova M G, et al. Active learning guided drug design lead optimization based on relative binding free energy modeling[J]. 2022.

付費5元查看完整內容

近日,索邦大學、巴黎大學、巴黎城市大學巴斯德研究所、以色列特拉維夫大學聯合發表了題為“Computational protein design with evolutionary-based and physics-inspired modeling:current and future synergies“的蛋白設計綜述文章。

蛋白質設計的機器學習方法正沿著兩條平行軌道快速發展:基于進化的方法和物理啟發的方法。兩種方法具有高度互補性。

基于進化的方法,前者推斷具有所需結構或功能的蛋白質序列集合共享的序列特征。后者使用機器學習surrogates估計關鍵生化特性,例如結構自由能、構象熵或結合親和力。

總結

1 基于進化的方法

(1) 目標特性的顯著優化需要探索含有來自野生型蛋白的許多突變的序列。然而,據估計多達50%的單點突變對功能有害,導致多個位點突變時成功率呈指數下降。

一種解決方案是將搜索限制在蛋白質自然進化過程中先前遇到或可能遇到的突變或突變組合。例如,Russ等人[9] 利用DCA設計了數百種不同的具有天然功能的脊索酸變位酶,成功率高(~30%)。最近各種機器學習生成模型,在各種酶和納米設計任務中取得了成功[10,11,12,13,14]。

(2) family-level模型缺點:不能在跨蛋白質家族中得到泛化,因此需要大量序列進行訓練。

克服這些限制的一個可能途徑是蛋白質語言模型,因為它們可以同時模擬不相關的蛋白質序列集。

2 物理啟發的方法

**(1)**蛋白質設計問題相當于在規定的構象狀態下(作為單體結構,與配體結合)找到具有低自由能的序列。基于力場的蛋白質設計的局限性包括計算成本高(基于蒙特卡洛的優化速度慢且效率低)、骨架結構的序列恢復率不令人滿意(30%-50%)以及實驗成功率有限。

a) Norn等人提出將負對數似然解釋為自由能的代理。他們用模型預測的幾何特征的概率來近似玻爾茲曼系綜中構象的概率。對于具有多個低能構象的序列,trRosetta預測的幾何特征分布通常很寬或多峰。因此,trRosetta估計的自由能比Rosetta能量更好地預測折疊到目標構象

b) 模型預測分布的香農熵可以作為構象玻爾茲曼分布物理熵的代理。

**(2) **基于物理的方法的兩個基本挑戰:1)需要對結構構象空間進行廣泛采樣以估計熱力學量,以及2)探索巨大序列空間的高計算成本。

基于AlphaFold2, AlphaFold2-multimer和RoseTTAfold的幻覺方案其中預測不確定性(pLDDT或PAE)可以用作構象熵的代理。

3 基于進化和物理啟發的協同建模

(1)進化模型可以用于快速生成不同的序列庫,然后,根據計算密集型物理啟發模型中獲得的分數對候選序列進行優先排序。

(2) 訓練MSA和結構的聯合模型。使用進行信息對基于結構的序列生成模型進行微調,或者相反,使用結構信息對進化模型進行正則化。

(3) 將已知結構信息合并為先驗,例如使用結構感知transformer模型,如EvoFormer(其中結構作為模板提供)。

(4) 基于ML的分子動力學[60]或神經力場[76]的未來發展可能為理解目標蛋白的高親和力結合物的合理設計中的挑戰,擴展到其他類型的配體提供了重要動力。

01 基于進化的設計

基于進化的設計的主要步驟。從氨基酸序列開始,從序列數據庫中檢索同源序列,并構建多序列比對(MSA)。MSA具有多種進化模式,包括保守、成對共同進化和反映結構的高階共同進化以及功能約束。無監督機器學習從進化模式中提取適應度景觀fitness landscapes和表示,然后用于設計。

許多設計方案涉及對預先存在的天然蛋白質進行修飾,以獲得改進的或新穎的功能特性。目標特性的顯著優化需要探索含有來自野生型蛋白的許多突變的序列。然而,據估計,多達50%的單點突變對功能有害,導致多個位點突變時成功率呈指數下降。

一種解決方案是將搜索限制在蛋白質自然進化過程中先前遇到或可能遇到的突變或突變組合。

基于進化的設計包括三個主要步驟:**(i)收集和比對一組與野生型蛋白同源的序列,這些序列具有相似的結構和功能,(ii)構建統計/機器學習模型,該模型捕獲這些序列之間共享的共同模式,例如保守和共同進化,以及(iii)**生成不同于自然序列但保留共同模式的人工序列。

早期的模型,如**位置特異性評分矩陣(PSSM)**僅專注于捕獲位點特異性氨基酸頻率,而基于自監督機器學習的越來越復雜的統計模型已經開發出來。

Direct Coupling Analysis(DCA)方法捕獲了由協同進化產生的單點和成對相關性,允許對上位效應(epistatic effect)進行建模,并大幅減少搜索空間。

例如,Russ等人[9] 利用DCA設計了數百種不同的具有天然功能的脊索酸變位酶,成功率高(~30%)。基于序列分布的熵,他們估計,在10125個長度相同的可能序列中,1085個是基于單點模型的潛在設計候選,而當包括成對相關性時,只有1025個是合適的。

為了包含額外的高階統計數據,最近各種機器學習生成模型,在各種酶和納米設計任務中取得了成功[10,11,12,13,14]。重要的是,這些方法一些還學習到了蛋白質低維潛在空間表示,促進了序列空間的探索和多輪設計小規模實驗數據的整合。

除了直接生成新的蛋白質序列,進化模型還可以預測適應度改善突變,指導大規模篩選的文庫設計實驗,或者相反,從定向進化推斷適應度景觀實驗。

這種family-level模型的一個缺點是它們不能在跨蛋白質家族中得到泛化,因此需要大量序列進行訓練。

這對于僅在真核生物中保守的蛋白質尤其成問題。克服這些限制的一個可能途徑是蛋白質語言模型,因為它們可以同時模擬不相關的蛋白質序列集。

在大型、未標注的蛋白質序列數據庫熵訓練的蛋白質語言模型(UniRep, ESM-1b, ProVis, ProtTrans, ProteinBERT)旨在從約10-20%的殘基被mask或隨機突變的版本重建序列。

蛋白質化學一般理解源于masked語言模型,如氨基酸、二級結構元素或三級接觸之間的相似性。然后,可以進一步微調模型,以考慮蛋白質家族的特異性,甚至是具有低序列數和/或多樣性的家族。

Hie等人[27] 使用ESM-1b語言模型提出了各種抗病毒抗體的單點突變,并減少了重建誤差。在對最佳突變體進行實驗表征和重組后,他們發現4/7的測試抗體的結合親和力可以提高,masked語言模型也可用于MSA,而不是單個序列,如MSA transformer和EvoFormer(AlphaFold的子模塊)。

與單序列語言模型相比,MSA級模型顯示了改進的序列重建、接觸圖預測和zero-shot fitness預測,同時需要更少的參數。然而,我們注意到,目前還沒有從這些模型生成新序列的既定協議,因為它們不容易定義可直接或通過馬爾可夫鏈蒙特卡洛采樣的概率分布。

02 物理啟發的方法

物理啟發設計的主要步驟。從(部分或完全規定的)目標結構開始,首先構建適合相關深度學習算法的特征化表示。接下來,兩種互補的方法是可能的。首先,可以利用序列到結構預測算法來構建構象景觀的代理。后者然后用于設計一個自由能最小值位于目標構象的序列。第二,結構到序列算法可用于從結構生成合適的序列。它們依賴于目標和序列之間的匹配分數,該匹配分數可被優化以找到合適的序列。

蛋白質設計問題相當于在規定的構象狀態下(作為單體結構,與配體結合)找到具有低自由能的序列。設計方案的一個常見驗證指標是其序列恢復率:從蛋白質的結構開始,剝離其序列定義的側鏈,并從剩余的骨架原子重建新序列。序列恢復率是設計序列和原始序列之間的平均序列同一性:高值表明協議很好地概括了結構誘導的序列約束。

為此,已經開發了大量用于蛋白質設計應用的近似力場,包括Rosetta和FoldX。然而,這些力場是啟發式,不能faithfully解釋潛在的量子動力學和序列從非折疊狀態有效折疊到所述結構中能力

**此外,評估自由能還涉及對目標狀態之外構象狀態的徹底探索。 **

基于力場的蛋白質設計的局限性包括計算成本高(基于蒙特卡洛的優化速度慢且效率低)、骨架結構的序列恢復率不令人滿意(30%-50%)以及實驗成功率有限。

在[37]中,Norn等人提出將負對數似然解釋為自由能的代理。換句話說,他們用模型預測的幾何特征的概率來近似玻爾茲曼系綜中構象的概率。盡管模型預測概率相對于構象空間沒有精確歸一化,但這種近似繞過了對構象空間進行廣泛采樣以進行自由能估計的要求。他們發現,對于具有多個低能構象的序列,trRosetta預測的幾何特征分布通常很寬或多峰。因此,trRosetta估計的自由能比Rosetta能量更好地預測折疊到目標構象

類似地,模型預測分布的香農熵可以作為構象玻爾茲曼分布物理熵的代理[38]。熵最小化(所謂的幻覺協議)使蛋白質設計具有良好定義的結構,改結構僅部分指定或完全未指定。最近,還提出了基于AlphaFold2、AlphaFold2-multimer和RoseTTAfold的幻覺方案其中預測不確定性(pLDDT或PAE)被用作構象熵的代理[39,40]。這是由于觀察到AlphaFold2低置信度預測通常對應于蛋白質的無序區域[41]。

最后,對于蛋白質復合物的設計,Gainza等人[42,43]使用DL計算分子表面pathces之間的匹配分數作為結合親和力的代理

重要的是,這些ML模型中的一些模型使得 **i)**它們的輸入蛋白質序列被表示為連續變量(例如,通過one-hot)并且 **ii)**它們的輸出相對于它們的輸入是可微的。

因此,可以在一階近似精度下,在單個反向傳播過程中同時評估輸入序列的所有單點突變。這使得基于梯度的優化比proposal/rejection Metropolis蒙特卡洛方案更有效[38]。

根據這些方法,一些研究小組成功設計了具有完全指定的或從頭骨架結構的蛋白質,并通過雙目標部分幻覺圍繞功能基序構建折疊。

一個潛在的限制是序列多樣性和氨基酸組成偏差。事實上,具有多種構象(例如,多個側鏈扭轉角)的氨基酸以及因此固有的不確定結構在這種置信度最大化方案中是不利的。因此,這些設計協議可能不包括可以有效采用目標折疊的序列的全部多樣性。這些協議的另一個弱點是可能存在“對抗性”最優值:序列對一組網絡權重具有高度自信的預測,但對另一組權重沒有,即“trick”網絡,而不是解決設計問題。

或者,可以嘗試直接預測給定折疊的合適序列,即所謂的逆折疊問題。與折疊問題不同,許多序列可以采用完全相同的折疊,因此,應該構造序列的分布。

一種方法是沿著目標骨架"thread“序列,計算序列和backbone之間的兼容性分數,并迭代地對其進行變異以提高其分數。

給定目標骨架構象,Zhou等人[48]基于其組成結構基序及其在蛋白質數據庫中的經驗氨基酸分布構建了粗粒度統計勢。然后,他們通過蒙特卡洛對相應的玻爾茲曼分布進行采樣,以生成不同的候選序列

Anand等人使用三維卷積神經網絡,根據當前結構預測可能的氨基酸取代和相應的旋轉異構體狀態,并迭代突變蛋白質以生成折疊成TIM-barrel。這種協議在數學上等同于從Boltzmann分布采樣,其中能量函數是模型計算的負偽似然。

第二種方法是直接建立易于取樣的序列分布:基于粗粒度、基于圖的蛋白質骨架表示的自回歸生成模型允許在單次通過中生成完整序列。這些模型實現了更高的序列恢復率,并且與基于力場的方法相比計算強度低的多。它們已被用于固定骨架單體設計,以及多聚體和抗體設計。

最近,Dauparas等人使用自回歸信息傳遞神經網絡成功地設計了各種蛋白質。然而,我們注意到,與目標構象的兼容性并不保證沒有其他穩定構象。

對于單體設計,低溫取樣系統地丟棄不常見的氨基酸排列(例如,溶劑暴露的疏水性氨基酸),可能足以消除替代的穩定構象。然而,尚不清楚這是否足以進行多聚體設計,因為多聚體的設計需要暴露的疏水殘基,而疏水殘基更容易錯折疊。

總得來說,自回歸模型與物理模型之間的聯系尚不清楚。一方面,它們包括基于物理的先驗,如歐幾里得變換的局部性和不變性,并且它們學習與物理性質相關的氨基酸之間的相似性,以及有利的締合(如二硫鍵、鹽橋等)。

進一步表明,leave-one-out條件分布P(s_i | s_-i, backbone)可以預測突變對適應度的影響[39][40],因此可以解釋為物理能量的代理。另一方面,序列似然P(s| backbone) 的值取決于序列的解碼順序,不清楚選擇哪一個。可以說,自回歸重建P(s_1 | backbone)的初始分布更具統計性,而非物理性:該模型根據過去的經驗從骨架構型“猜測”氨基酸(例如,蛋白質核心通常由疏水殘基組成)。

盡管最近取得了進展,但這些方法仍有一些范圍局限:通過構建,它們不適合建模無序蛋白質或片段。變構運動或催化活性的微調仍然是一個主要挑戰,因為這些模型是基于靜態結構訓練的,并且是粗粒度的。

對于這種復雜的功能,仍有望取得進展,特別是基于機器學習的分子動力學[60]的發展,這可以解鎖具有復雜動力學行為的蛋白質設計。

另一個令人擔憂的來源是這些模型越來越偏離物理學:例如,AllphaFold隱式假設存在分子輔因子、翻譯后修飾或蛋白質伴侶,以正確折疊結構。因此,在實驗條件下,高度自信的insilico預測可能被證明是錯誤的,并且模型導出的匹配分數與目標物理特性的識別并不總是正確的。例如,基于trRosetta的幻覺方案[38]設計的一些蛋白質在體外形成同源寡聚體或聚集體,與單體insilico預測不一致。

03 Synergisitc methods

基于進化和物理啟發的方法在覆蓋范圍和范圍熵具有高度互補性。雖然受物理啟發的模型預測了一般的生物化學性質(單體和蛋白質配體或蛋白質-蛋白質復合物的穩定性),但基于進化的方法以不可知的方式學習了各種特定于家族的功能約束,包括穩定性或催化活性,還包括變構偶聯或均低聚物狀態的規范。因此,將這兩種方法結合起來來以獲得最佳成功率是很有吸引力的。這可以通過多種方式實現。

首先,進化模型可以用于快速生成不同的序列庫,然后,根據計算密集型物理啟發模型中獲得的分數對候選序列進行優先排序。示例包括RROSS和FUNCLIB網絡服務器,它們使用Rosetta和PSSM信息自動重新設計酶,以提高穩定性或改進催化活性。Tran等人和Das等人分別使用分子動力學的生成模型設計了細胞穿透和抗菌肽。

如果大部分進行設計序列具有令人滿意的物理分數,這種簡單方法就足夠了。否則,可能需要多目標優化/蒙特卡洛采樣來生成具有高進化可能性和物理分數的序列。通過優化Rosetta能量和Potts模型估計的進化分數的加權和,重新設計救援協議序列。

一個懸而未決的問題是,是否需要單獨的物理和進化模型。相反,我們能否從進化中學習物理相互作用,并反過來從結構預測進化?一個有希望的方向是訓練MSA和結構的聯合模型,該模型改編自語言和結構預測模型。其他選項可以包括使用進行信息對基于結構的序列生成模型進行微調,或者相反,使用結構信息對進化模型進行正則化。

關于基于進化的模型,需要更多的努力來開發能夠在蛋白質家族之間進行推廣的模型,同時保持計算可追蹤性(對整個社區的可訪問性)、可解釋性和定義良好的采樣協議。

另一個有趣的方向是將已知結構信息合并為先驗,例如使用結構感知transformer模型,如EvoFormer(其中結構作為模板提供)。此外,進化模型的訓練方案應該更好地考慮樣本之間的系統發育關系。Weinstein等人認為,在沒有適當處理系統發育的情況下,適應度預測性能可能會隨著模型復雜性的增加而穩定或降低,這是最近在語言模型中觀察的現象。概念上和實踐上的限制是進化約束的糾纏:當前模型不能選擇性地丟棄與體內相關但與工程蛋白無關的特定約束(例如,結合抑制劑蛋白的要求,對特定細胞隔室的充分性等)。相反,在家族水平上進化匹配的蛋白質可能不適合特定的生化任務(例如,它們可能結合相關配體,但不同于規定的配體)。

物理啟發的方法在設計具有完全或部分特定結構的單體和均低聚物方面取得了令人印象深刻的進展

盡管取得了顯著進展,但目標蛋白的高親和力結合物的合理設計仍然極具挑戰性,總體成功率較低,需要通過定向進化進行后續的體外或體內優化[43,74]。

這源于 **i)**復合物失敗,其中設計的蛋白質可能由于錯誤折疊、不能結合靶蛋白或不能結合在所需位置而失敗 **ii)**蛋白質-蛋白質相互作用建模中的固有挑戰,這涉及部分溶劑化效應,并且經常涉及柔性區域,如免疫球蛋白環或肽。更一般而言,靜態構象的粗粒度建模排除了捕獲關鍵功能特征,如無序、中間催化狀態或變構運動。

基于ML的分子動力學[60]或神經力場[76]的未來發展可能為更好地理解這些功能開辟道路。擴展到其他類型的配體,如離子、核苷酸或小有機分子也是重要的未來方向。

雖然沒有系統地采用基于提議/接受或聯合優化的協同方法,但它們證明了成功率的提高,應在短期內更多地考慮。從長遠來看,根據結構預測MSA的模型,或者相反,基于結構的進化模型先驗,可以克服每種方法的當前限制,例如建模靈活性或進化約束的分離。

參考文獻

[9] W. P. Russ et al., An Evolution-Based Model for Designing Chorismate Mutase Enzymes, Science 369, 440 (2020). Evolution-based design. Here, the authors trained a Direct Coupling Analysis generative model on a multiple sequence alignment of chorismate mutase enzymes, and used it to generate a diverse set of artificial sequences. A high fraction (83%) of designed sequences had native-like functionality, despite having limited sequence identity to known natural proteins. [10] A. J. Riesselman, J. B. Ingraham, and D. S. Marks, Deep Generative Models of Genetic Variation Capture the Effects of Mutations, Nat. Methods 15, 10 (2018). 11A. Hawkins-Hooker, F. Depardieu, S. Baur, G. Couairon, A. Chen, and D. Bikard, Generating Functional Protein Variants with Variational Autoencoders, PLOS Comput. Biol. 17, e1008736 (2021). Evolutionary-based design. Here, the authors proposed regular and autoregressive variational autoencoders for generative modeling of protein sequences, and tested it for experimental design of luxA bacterial luciferase variants. They found that models trained on aligned rather than unaligned sequences were more successful at generating active sequences. In a second design iteration, they predicted solubility from learnt latent variables and used conditional sampling to generate soluble variants. [12] J. Tubiana, S. Cocco, and R. Monasson, Learning Protein Constitutive Motifs from Sequence Data, ELife 8, e39397 (2019). [13] D. Repecka et al., Expanding Functional Protein Sequence Spaces Using Generative Adversarial Networks, Nat. Mach. Intell. 3, 4 (2021). [14] J.-E. Shin, A. J. Riesselman, A. W. Kollasch, C. McMahon, E. Simon, C. Sander, A. Manglik, A. C. Kruse, and D. S. Marks, Protein Design and Variant Prediction Using Autoregressive Generative Models, Nat. Commun. 12, 1 (2021). [37] C. Norn et al., Protein Sequence Design by Conformational Landscape Optimization, Proc. Natl. Acad. Sci. 118, e2017228118 (2021). 38 I. Anishchenko et al., De Novo Protein Design by Deep Network Hallucination, Nature 600, 547 (2021). Physics-inspired design In this work, the authors generate a diverse set of sequences with unspecified but stable structures via “network hallucination”, i.e. a conformational entropy minimization scheme based on the trRosetta distogram predictor. About 20% of the designed sequences exhibited a stable fold and of those, the experimentally-determined structure matched well the predicted one. While no novel fold was discovered, hallucination can be used to efficiently scaffold binding motifs. [39] J. Wang et al., Scaffolding Protein Functional Sites Using Deep Learning, Science 377, 387 (2022). [40] P. Bryant and A. Elofsson, EvoBind: In Silico Directed Evolution of Peptide Binders with AlphaFold. [41] E. Porta-Pardo, V. Ruiz-Serra, S. Valentini, and A. Valencia, The Structural Coverage of the Human Proteome before and after AlphaFold, PLOS Comput. Biol. 18, e1009818 (2022). [42] P. Gainza, F. Sverrisson, F. Monti, E. Rodolà, D. Boscaini, M. M. Bronstein, and B. E. Correia, Deciphering Interaction Fingerprints from Protein Molecular Surfaces Using. [48] J. Zhou, A. E. Panaitiu, and G. Grigoryan, A General-Purpose Protein Design Framework Based on Mining Sequence–Structure Relationships in Known Protein Structures, Proc. Natl. Acad. Sci. 117, 1059 (2020). [60] X. Fu, T. Xie, N. J. Rebello, B. D. Olsen, and T. Jaakkola, Simulate Time-Integrated Coarse-Grained Molecular Dynamics with Geometric Machine Learning, arXiv:2204.10348. [76] S.-L. J. Lahey and C. N. Rowley, Simulating Protein–Ligand Binding with Neural Network Potentials, Chem. Sci. 11, 2362 (2020).

付費5元查看完整內容

最近,以人工智能(ai)為基礎的新藥開發大幅縮短了新藥開發的時間和成本,因此備受關注。隨著深度學習(DL)技術的進步和藥物相關數據的增長,許多基于深度學習的方法正在藥物開發過程的所有步驟中出現。尤其值得一提的是,藥物化學家面臨著選擇和設計潛在藥物以進行臨床前試驗的重大問題。兩個主要的挑戰是預測藥物和可藥物靶點之間的相互作用,以及生成適合感興趣靶點的新分子結構。因此,我們回顧了近年來深度學習在藥物-靶點相互作用(DTI)預測和藥物從頭設計方面的應用。此外,我們還介紹了各種藥物和蛋白質表示、DL模型以及用于模型訓練和測試的常用基準數據集或工具的全面總結。最后,我們提出了未來基于dl的DTI預測和從頭設計藥物的剩余挑戰。

//www.ncbi.nlm.nih.gov/pmc/articles/PMC8470987/

付費5元查看完整內容
北京阿比特科技有限公司