作者 | 楊千立 審稿 | 陳梓豪 指導 | 閔小平(廈門大學) 這次為大家分享的是來自nature communications上的一篇題為《Co-optimization of therapeutic antibody affinity and specificity using machine learning models that generalize to novel mutational space》的文章,來自密歇根大學生物界面研究所、生物醫學工程系、化學工程系項目組的Peter M.Tessier團隊。
治療性抗體的開發需要高親和力分子的選擇以及其他類藥物的生物物理特性,多種抗體特性的聯合優化仍然是一個困難和耗時的過程,嚴重阻礙藥物開發。在這篇文章中,作者團隊提出了開發了一種簡便的機器學習模型,對治療性抗體的親和力和特異性進行多目標優化。結果表明,機器學習模型的力量極大地擴展了對新型抗體序列空間的探索,并加速了高效的藥物類抗體的開發。 介紹
抗體療法被用于治療人類疾病,從癌癥和自身免疫性疾病到過敏和神經退行性疾病。抗體療法的成功歸功于它們的分子特性,包括它們的高親和力、長半衰期和出色的生物物理特性。然而,從免疫接種或體外文庫中選出的候選抗體通常具有廣泛的生物物理特性。在許多情況下,具有最高生物活性的候選抗體表現出一種或多種阻礙生產、配制和遞送的不良生物物理特性,這通常是在開發過程的后期發現的,并且可能會損害其他候選抗體的治療潛力。因此,在開發的早期階段,需要抗體工程方法來改善其生物物理特性,同時保持高親和力和生物活性。不幸的是,改善給定的次優抗體特性,如特異性或溶解度,會導致其他特性(如親和力)的缺陷。因此,迫切需要一種簡單而可靠的方法來預測CDR突變,以最少的實驗來共同優化抗體親和力和各種生物物理特性。
作者團隊在該項工作中,以共同優化臨床階段抗體(emibetuzumab)的親和力和特異性(非特異性結合)特征開發預測模型,該模型可以從大量但采樣稀疏的抗體CDR庫中學習,并預測未在原始庫中采樣的新CDR突變體的抗體特性,以識別罕見的共同優化變體。作者團隊報告了一種綜合實驗和計算方法,結合深度測序、機器學習和高通量實驗方法來識別共同優化的治療性抗體變體,包括相對于親本臨床期抗體具有優越親和力和非特異性結合組合的變體。
圖1識別共同優化的治療性抗體變體實驗流程 結果與討論
常規分析不能很好地預測共同優化的 emibetuzumab 變體 為了識別具有高親和力和特異性(低非特異性結合)的emibetuzumab 變體目標,通過突變重鏈 CDR 中的位點設計了一個大型抗體文庫(約 107 個變體),接下來將文庫作為單鏈 Fab 片段展示在酵母表面,并通過針對抗原 (HGFR) 的磁激活細胞分選(MACS,第 1-2 輪)對文庫進行分類,以去除片段化或非展示抗體。然后通過熒光激活細胞分選(FACS,第 3 輪)對 MACS 分選的文庫進行分選,以獲得高水平的抗原結合以及與兩種多特異性試劑。最后,對輸入文庫和 FACS 分類文庫進行了深度測序,并選擇了 4000 個在親和力和特異性選擇中觀察到的最常觀察到的抗體突變體,以進行進一步分析。
為了評估預測具有高親和力和低水平非特異性結合的抗體突變體的能力,接下來對來自 FACS 分選文庫的 125 個突變體進行了測序,并評估了它們在酵母表面上的抗原和非特異性結合的相對水平。觀察到抗原結合和頻率之間缺乏統計學上顯著的正相關性。此外,作者還觀察到對于負非特異性結合選擇,非特異性結合和頻率之間缺乏統計學上顯著的負相關性。雖然我們確實觀察到非特異性結合和富集率之間存在顯著的負相關,但缺乏相應的親和力顯著相關性阻礙了使用富集率來可靠地識別高親和力和特異性均最佳的抗體變體。
機器學習預測帕累托最優抗體變體 接下來,作者團隊通過分析陽性類別中相對于陰性類別的文庫突變的富集來評估選擇的 4000 個序列數據集中包含的信息(圖 2),注意到野生型殘基對高親和力和高非特異性結合選擇的強烈富集。
圖2 分選的 emibetuzumab 文庫中的 CDR 殘基富集水平與高親和力和高非特異性結合選擇相似
為了保留這些信息用于模型開發,作者團隊選擇將抗體 V H序列編碼為 one-hot 編碼向量,以捕獲庫中每個位點是否存在突變。假設學習這些單個特征權重的體系結構的分類算法不僅可以準確預測屬性類別,還可以準確預測連續屬性值。為了檢驗這一假設,評估了線性判別分析 (LDA) 模型預測抗體親和力和特異性的能力(圖 3)。
圖3 (AB) (LDA) 模型使用基于序列的特征(one-hot 編碼序列作為二元向量)進行訓練,顯示出對通過深度測序在富集文庫中鑒定的 4000 種抗體的抗體親和力和特異性進行分類的高精度。(CD) LDA 模型的連續預測,與隨機選擇的 125 種單鏈抗體 (Fabs)的相對親和力( C )和非特異性結合( D )的實驗測量密切相關。
因此,作者使用 one-hot 編碼特征訓練 LDA 模型以預測深度測序標簽,本文稱為 OneHot 模型。OneHot 模型對深度測序數據集中抗體突變體的親和力和特異性進行了非常好的分類,兩個模型(親和力和特異性各一個)對抗體親和力和特異性進行分類的準確率為 93%。這一發現與經驗一致,并表明基于深度測序數據對抗體特性(如親和力和特異性)進行分類是一項相對簡單的任務,并且弱依賴于用于預測的模型類型。
然而,特性類別的預測對于鑒定具有最佳特性組合的抗體突變體的作用有限。但是對于LDA預測,表明不僅可用于預測類間差異(例如,低親和力與高親和力的分類),還可用于預測類內差異(例如,高親和力與非常高親和力)。因此,作者團隊還評估了模型預測的能力,文庫分選后通過 Sanger 測序分離(圖 3C,D)。這些抗體突變體中沒有一個出現在用于訓練和測試的 4000 種抗體中。作者觀察到模型預測和實驗測量之間的強相關性,包括親和力和非特異性指標,這些結果表明,與每個屬性相關的連續指標可以以相對較高的準確度預測庫中的序列。 LDA 模型的簡單性引發了一個問題,即更復雜的機器學習模型是否會提高預測抗體親和力和特異性指標的性能。因此,作者團隊開發了全連接神經網絡模型來預測親和力和特異性指標。值得注意的是,神經網絡模型的表現與 LDA 模型相似。兩種模型的親和力和特異性的分類預測準確度相同,即基于深度測序數據的抗體特性分類準確度弱依賴于模型復雜性。對于連續抗體特性的預測,預測抗原結合的性能相同,并且神經網絡模型預測非特異性結合的性能略有提高。
作者團隊接下來繪制了 LDA 模型對 4000 個抗體序列中的每一個的親和力和特異性的預測,以在連續的尺度上直接可視化這兩個屬性之間的權衡(圖 4A)。值得注意的是,emibetuzumab 變體在兩種特性之間表現出強烈的權衡,因為親和力的增加通常需要特異性的降低,反之亦然。
圖4 分選抗體庫中 emibetuzumab 突變體的帕累托最優親和力和特異性的模型預測和實驗評估。
為了評估帕累托最優抗體變體的預測,團隊接下來鑒定并產生了 41 個抗體突變體,這些突變體被預測為處于或接近帕累托邊界(圖 4A),并通過實驗評估了它們的抗原水平(圖 4B)和非特異性 (圖 4C) 結合,結果表明模型預測對親和力和特異性具有很強的預測能力。
預測進一步共同優化抗體的新突變 作者確定了用于進一步優化的主要候選者 (EM1),該候選者表現出抗原結合增加(1.2倍)和非特異性結合減少(0.51倍)。作者還選擇了額外的克隆進行進一步的誘變,以研究優化具有多種特性的抗體突變體的潛力,試圖預測新的 CDR 突變,包括以前未突變的 CDR 位點,以提高 EM1 和相關變體的親和力和特異性。
因此,作者團隊評估了基于抗體VH結構域的另外兩組分子特征,以整合到預測新突變對抗體親和力和特異性的影響的模型中。第一組特征是統一表示 (UniRep) 特征,它是從神經網絡獲得的深度學習特征,該神經網絡在超過 2000 萬個未標記的蛋白質序列上進行訓練,以執行下一個氨基酸預測。第二組特征(PhysChem),稱之為物理化學特征,是基于 V H結構域序列的 26 個物理化學特征。
作者團隊接下來使用 UniRep 和 PhysChem 特征構建 LDA 模型,用于預測抗體親和力和特異性指標。結果表明對抗體親和力進行分類的準確度很高,PhysChem 模型(85%), UniRep 模型(91%),抗體特異性進行分類的準確度很高(兩種模型均為 92%);同樣還在兩個模型上評估預測,結果表明模型預測與親和力和特異性的實驗測量密切相關。我們還使用神經網絡模型重復了這一分析,簡單 (LDA) 和更復雜的 (神經網絡) 模型都能夠預測與抗體特性密切相關的連續指標。基于兩個簡單 (OneHot) 特征集,這些特征集僅限于觀察到的突變,而測序庫和更復雜的(PhysChem 和 UniRep)特征集,可用于預測新的突變特征。受到這些結果的鼓舞,接下來直接測試我們的模型是否可以推廣到新的突變空間(圖 5)。
新突變預測的實驗驗證 為了測試這些預測,生成了 29 種抗體變體作為可溶性 IgG,并評估了它們的親和力和非特異性結合的相對水平(圖 5),總體而言,這些發現表明,與使用傳統物理化學抗體特征訓練的 LDA 模型相比,使用深度學習特征訓練的 LDA 模型在泛化到新的突變空間方面更勝一籌。更一般地說,這些發現證明了使用這些方法預測新 CDR 位點的抗體突變的巨大潛力,這些突變共同優化了與治療性抗體性能相關的多種特性。
圖5 利用深度學習訓練的模型推廣到新的突變空間
接下來繪制了本研究中產生的 70 種 IgG 的相對抗體親和力和非特異性相互結合的實驗測量值,包括原始文庫中不存在的 29 種具有新突變的 IgG,以鑒定具有最多共性的變體。
EM1和 EM2(一種變體)具有比野生型更高的親和力(圖 6B)。盡管這些變體的親和力增加,但與野生型相比,它們都顯示出非特異性結合減少(圖 6C),這與使用卵清蛋白獲得的類似非特異性結合測量結果一致(圖 6A ),此外,EM1 和 EM2 在抑制肝細胞生長因子誘導的人類癌細胞增殖方面至少與野生型抗體一樣有效(圖 6D)總的來說,這些結果證明了使用機器學習來共同優化治療性抗體以提高親和力和特異性,同時保持高生物活性和其他類似藥物的生物物理特性的巨大潛力。
圖6 親和性和特異性協同優化的Emibetuzumab抗體突變體也顯示出很高的生物活性和穩定性
總結
作者團隊開發了一種基于機器學習的方法,用于簡化臨床階段抗體的抗體協同優化,模型表現出親和力和非特異性結合兩個特征之間具有強烈權衡,該方法還可以同時選擇特定水平的多種抗體特性,從而比以前更好地控制抗體工程過程。并且本文使用深度學習訓練的模型能夠預測新的抗體突變,從而協同優化親和性和特異性,還能夠識別原始抗體庫中不存在的有益突變,從而能夠外推到新的突變空間。未來工作如過從更密切相關的蛋白質序列(例如人類抗體庫)中提取深度學習特征將會帶來更好的模型性能,這些模型可以越來越多地推廣到新的突變空間,并減少獲得共同優化的藥物樣抗體所需的實驗量。 參考資料 Makowski, E.K., Kinnunen, P.C., Huang, J. et al. "Co-optimization of therapeutic antibody affinity and specificity using machine learning models that generalize to novel mutational space." Nat Commun 13, 3788 (2022). //doi.org/10.1038/s41467-022-31457-3
作者 | 黃灝尹 審稿 | 陳梓豪 指導 | 閔小平(廈門大學)今天給大家介紹的是由來自Absci公司的Vancouver (WA)團隊發表在bioRxiv上的預印文章《Antibody optimization enabled by artificial intelligence predictions of binding affinity and naturalness》。這篇文章提出利用人工智能對抗體進行優化的基于高通量親和數據訓練的深層語境語言模型(deep contextual language models trained on high-throughput affinity data),并運用名為ACE和SPR的方法,用于生成抗體結合親和力的相對傳統方法而言更優的測量,然后基于兩種不同的抗體證明了可以定量預測未知抗體序列變體的結合。
ACE方法的提出,解決了傳統方法對序列空間探索度較低的問題,從而使得文中提出的深層語境語言模型可以高精度地定量預測未知抗體變體的結合親和力,實現虛擬篩選,并將可訪問序列空間擴大了幾個數量級。 研究背景
傳統的抗體優化方法僅僅只能探索到序列空間的很小區域,這樣的情況下,優化的結果有可能會被限制在僅有次優性質的序列上,這些序列有可能會結合親和力不足、發育受到限制或者具有較差的免疫原性譜。相比之下,深度誘變加上篩選或選擇允許探索更大的抗體序列空間。但是突變本身也具有降低抗體的結合親和力等問題,這將會大大降低篩選效率。深度神經網絡是一種可以有效幫助克服實驗篩選能力的限制的工具,但是現有的模型受到吞吐量和二進制(而非連續)讀數的限制,這可能會在高突變負載下影響其準確性。
在本研究中,作者使用深層語境語言模型和定量、高通量的實驗結合親和性數據,證明了提高抗體與其目標抗原結合親和性的能力。經過驗證,該模型可以高精度地定量預測未知抗體變體的結合親和力,實現虛擬篩選,并將可訪問序列空間擴大了幾個數量級。最后,在實驗室中的預測和后續設計可以確認成功率遠遠高于傳統篩選。
主要結果
使用深度語言模型預測序列變體的結合親和力
圖1 人工智能增強抗體優化示意圖
深度學習模型需要高質量的大量數據進行訓練,為了產生抗體結合親和力的高通量測量,作者提出了基于FACS(熒光激活細胞分類術,Fluorescence-Activated Cell Sorting)和NGS(新一代測序技術,Next-Generation Sequencing)的ACE方法。ACE方法的特點是利用折疊抗體的細胞內可溶性過表達,表達抗體變體的細胞被固定、滲透并用熒光標記的抗原和支架靶向探針染色。然后根據結合親和力和變體的表達水平對細胞進行裝箱和分類。最后,收集的DNA序列通過PCR擴增并測序。SPR方法的特點是低通量,但是準確度更高,因此在數據中用作對ACE數據的補充。所使用的深度語言模型都經過了OAS數據庫的免疫球蛋白序列訓練,最終的結果證明了模型具有預測序列變體的結合親和力的能力。
表1 訓練模型所用數據
圖2 數據集trast-1和trast-2的預測抗體結合親和力結果
如圖1所示,作者使用trast-1數據集對深度語言模型進行訓練,并保留10%的數據用于測試。測試的結果表明數據集的ACE得分和模型的預測得分高度相關。為了進一步評估預測性能,trast-2數據集由從trast-1數據集中采樣了>200個序列,通過SPR重新篩選100個采樣序列,作者證實了該數據集的結合親和度的接近均勻分布并驗證了模型在trast-2的強大預測性能。圖2展示了預測抗體結合親和力結果,其中比較的兩個基線分別為未經過預訓練的深度語言模型和基于XGBoost梯度增強樹。
改進抗體變體的模型引導設計 作者使用模型設計具有期望綁定特性的序列集,然后用專用的SPR實驗進行驗證。首先在trast-2數據集上訓練一個模型,并讓它設計50個跨越兩個數量級平衡解離常數的序列(設計集A),作者發現設計集A的預測和驗證之間非常一致。
圖3 使用trast-2訓練的模型上次的設計集A和B與預測值關系圖
然后用該模型進行比曲妥珠單抗結合更緊密的變體的設計(設計集B),與之前相同,讓模型設計了50個序列,通過SPR驗證這50個序列,發現74%的變體確實比親本抗體更緊密。100%的變體在0.5log的誤差范圍內符合設計要求。
設計集B的驗證結果與單純的、僅在實驗室進行文庫篩選的方法相比有很大的優勢,在該方法中,比曲妥珠單抗更緊密的復合物比例最小。因此人工智能模型提供的變體的強富集可以極大地促進抗體優化。
作者注意到,生成設計集B的模型是通過trast-2數據集訓練得到的,里面有一些比曲妥珠單抗結合性更強的結合劑。在除去這些結合劑訓練后,新得到的模型不再能夠為設計做出準確的KD預測。盡管如此,該模型確實將設計B變體的結合親和度放在其預測分布的頂部。這一結果表明,即使實驗室實驗產生的訓練數據沒有跨越完全的親和度范圍,AI也可以實現高親和度序列的優先級化。
其他的討論
在后續研究中,作者發現當擴展到更大的序列空間時,AI預測的表現仍然能夠保持在不錯的水平上,并且作者提出的深度語言模型具有很高的樣本效率,使抗體結合的可解釋分析成為可能。
在抗體的優化方面,著眼于優化抗體的自然性可以緩解發展障礙。將候選抗體開發為治療藥物是一個復雜的過程,具有高度的臨床前和臨床風險。由于難以獲得信息豐富且相關的數據,對這些風險進行建模一直是行業面臨的巨大挑戰。作者將自然度定義為通過預先訓練的語言模型計算的分數,該分數測量給定抗體序列從感興趣物種(包括人類)衍生的可能性。因此,自然度可以用作抗體設計和工程中的指導指標。
總結
本文在之前的相關模型基礎上提出了運用人工智能進行抗體優化的思路,并引入抗體的自然度定義,提出SPR和ACE方法,大大提高了序列空間的探索度,為人工智能模型提供了足夠優質的高通量數據,最終人工智能模型設計得到的序列展現出了很強的親和力和穩定性,并且在擴展到更大的序列空間時仍然具有很好的預測水平。 參考資料 //www.biorxiv.org/content/10.1101/2022.08.16.504181v1
作者構建了一個蛋白質-蛋白質相互作用(PPI)靶向藥物相似性數據集,并提出了一個首次用于PPI抑制劑設計的深度分子生成框架,從種子化合物的特征生成新的類藥性分子。該框架使用與PPI抑制劑相關的關鍵特征作為輸入,并為PPI抑制劑的從頭分子設計開發深度分子生成模型。首次將針對PPI的抑制劑的定量類藥性指標QEPPI用于PPI靶向化合物的分子生成模型的評估。結果表明生成的分子具有較好的PPI靶向藥物的類藥性。此外,通過化學空間分析,生成的分子與iPPI-DB抑制劑共享化學空間。
QEPPI
quantitative estimate of protein-protein interaction targeting drug-likeness //github.com/ohuelab/QEPPI
1 背景 新藥研發是一個成本高、風險大、周期長的漫長過程。新藥開發涉及先導化合物的發現、優化和臨床研究等多個階段,其中早期先導化合物的發現仍是亟待解決的重要問題。傳統的基于定量構效關系或基于對接的虛擬篩選通常傾向于從現有的化學庫中搜索具有所需特性的分子。相比之下,從頭藥物設計(分子生成)旨在通過從頭開始生成具有所需特性的新分子來探索類藥分子的化學空間,以拓寬現有的化學庫。
蛋白質-蛋白質相互作用(PPIs))在各種生物過程中發揮著至關重要的作用,因此對人類健康和疾病狀態的發展至關重要。研究表明,異常 PPI 與多種疾病有關,包括癌癥、傳染病和神經退行性疾病。由于它們的關鍵影響,PPI 被認為是具有治療意義的有希望的藥物靶點。然而,以前針對 PPI 的嘗試由于其一般特性而面臨嚴峻挑戰,例如平坦的表面、無特征的構象、復雜的拓撲結構和淺口袋。傳統計算機引導 PPI 抑制劑的設計已取得重大進展,并且分子生成模型近年來得到了迅速發展。不幸的是,迄今為止,尚未將基于深度生成模型的方法應用于 PPI 抑制劑的設計。此外,類藥性 (QED) 的定量估計通常用于評估定量藥物相似性,但不適用于評估靶向 PPI 的化合物。Kosugi 和 Ohue 開發了一種針對 PPI 抑制劑的定量估計的指標 QEPPI ,專門用于評估 PPI 靶向化合物。QEPPI 是針對 PPI 靶向藥物的 QED 方法的擴展,使用 QED 概念開發,涉及基于已批準藥物可用信息的物理化學性質建模。研究結果表明,QEPPI 比 QED 更適合量化早期 PPI 藥物發現的藥物相似性。PPI 抑制劑具有兩個基本的分子特征:分子形狀和芳香鍵,因此研究人員想使用分子形狀等 3D 特征作為模型的輸入。
這項研究中,研究人員構建了一個 PPI 靶向藥物相似性數據集,并提出了一個深度分子生成框架,以從種子化合物的特征中生成新的 PPI 靶向藥物相似性分子。該研究首次探索了PPI 抑制劑分子生成模型的從頭分子設計。研究人員的模型表現出與各種最先進的分子生成模型相當的性能。該模型首次將QEPPI應用于分子生成模型中生成分子的PPI藥物相似性評估。結果表明,生成的分子具有更好的PPI靶向藥物相似性和藥物相似性。生成的分子與 iPPI-DB 共享化學空間。探索了 PPI 抑制劑的基于肽和基于配體的分子生成。
2 材料和方法 數據準備 研究人員建了一個靶向PPI的ChEMBL 的藥物相似子集,用于模型訓練。所有分子的拓撲數據均從 ChEMBL29 下載,并使用一系列規則清洗過濾。
模型架構 PPI 抑制劑的深度分子生成模型包括兩個主要步驟:(i) GAN 使用 3D 卷積神經網絡 (CNN) 來捕獲分子表示,(ii) 組合CNN 和LSTM網絡從分子表示中解析 SMILES。分子形狀和藥效團表示用作 GAN 的輸入,然后是字幕網絡將分子形狀和藥效團表示解析為 SMILES 字符串,生成與配體表示匹配的分子。
評估指標 為了深入了解模型性能并確定與其他生成模型相比的潛在優勢和劣勢,該方法在 MOSES 平臺上進行了基準測試。
3 結果與討論 模型性能 所有模型在來自訓練數據集的 300000 個預處理的分子上進行了訓練,并在 10 000 個測試和骨架拆分測試集上進行了測試。研究人員使用了 MOSES 平臺中可用的模型和超參數,通過在五次獨立運行中,每次采樣 30000 個 SMILES 來評估該模型。
所提出的 iPPIGAN 模型優于其他具有相似或高百分比的有效、獨特和新穎的 SMILES 字符串的生成模型。在 FCD 方面,研究人員開發的模型優于大多數其他方法。
性質分布 藥物設計和藥物篩選領域中,LogP、合成可及性評分 SAscore、天然產物相似性 NP-likeness和 定量藥物相似性QED起著基礎性的作用。但 QEPPI 比 QED 更適合定量估計 PPI 靶向化合物。iPPI-DB抑制劑的QED和QEPPI平均值分別為0.43和0.61。
研究人員比較了六種分子性質的分布,即 iPPI-DB 抑制劑以及AAE、CharRNN、VAE、LatentGAN 和 iPPIGAN 生成的分子集。如圖2所示,iPPIGAN生成的分子的性質分布與測試集的性質分布接近。iPPIGAN 模型生成的分子的性質分布與 iPPI-DB 抑制劑的不同,主要是因為訓練數據集的性質分布與 iPPI-DB 抑制劑的不同。此外,與其他模型相比,iPPIGAN 生成的分子具有更高的 QED 值、更高的 QEPPI 值和更低的 SA 分數。結果表明,iPPIGAN生成的分子易于合成,具有更好的藥物相似性和PPI靶向藥物相似性。由于構建的訓練集具有較高的藥物相似性,該模型可以更好地學習藥物相似性分布并擴展到新的藥物相似性空間。
化學空間分析 為了更好地理解生成分子的化學空間,通過計算MACCS 分子指紋用作嵌入和UMAP圖來評估化學空間覆蓋率。如圖所示,UMAP 圖中,生成的分子不僅與 iPPI-DB 抑制劑共享化學空間,而且通過用新分子彌合間隙來擴展它。
基于肽的生成分子案例 為了評估基于肽生成的化合物是否可以成為有效的候選分子,研究人員選擇了基于p53(肽)生成 MDM2-p53 靶標的潛在候選抑制劑。p53 是一種有效的腫瘤抑制因子,是癌癥治療的一個有吸引力的靶標,因為它可以在功能上被激活以根除腫瘤。編碼 p53 蛋白的基因在一半的人類癌癥中發生突變或缺失,從而使腫瘤抑制因子的活性失活。阻斷 MDM2-p53 相互作用以重新激活 p53 的功能是一種很有前景的癌癥治療策略。研究人員收集針對 MDM2-p53 的生物活性數據開發了一種用于活性預測的LightGBM回歸模型,然后使用 LightGBM 回歸模型來預測生成的分子是否對 MDM2-p53 PPI 靶標具有生物活性。此外,通過 QEPPI 值 > 0.5 和 SAscore值 <4 過濾化合物后,有 243 種化合物被命中。為了進一步確定優先考慮用于生物測定的分子,研究人員使用DOCK6進行分子對接來預測結合親和力。分子對接結果顯示,研究人員找到了 10 種具有比參考化合物更高的對接分數和 QEPPI 值的化合物。
基于配體的生成分子案例 為了評估基于配體生成的化合物是否可以成為良好的候選分子,研究人員選擇了基于 obatoclax 的生成 Bcl2 靶標的潛在候選抑制劑。BCL-2 蛋白家族通過控制線粒體外膜的完整性在調節細胞死亡中起關鍵作用。促凋亡 BCL-2 家族蛋白,如 BAK 和 BAX,在細胞凋亡中具有重要作用。當這些蛋白質被抗凋亡結合伙伴(如 BCL-2 和 BCL-XL)隔離時,它們的作用就會被阻斷。通過與抗凋亡 BCL-2 家族蛋白結合來破壞這種相互作用的小分子已被設計用于誘導癌細胞的凋亡。相關的 PPI 專門針對 Bcl-2 家族蛋白,因為 Bcl-2 家族成員之間的所有相互作用都是通過 PPI。目前正在臨床試驗中測試三種 Bcl-2 家族 PPI 干擾物(即 navitoclax、obatoclax 和 Venetoclax)。研究人員收集針對 Bcl2 的生物活性數建立LightGBM回歸模型用于針對 Bcl2 靶標的活性預測。分子指紋和分子描述符作為特征輸入,IC50(nM)的自然對數作為標簽,IC 50小于 100 000 nM 的值被定義為活性分子。然后使用 LightGBM 回歸模型來估計生成的分子是否對 Bcl2 具有生物活性。此外,通過 QEPPI 值 > 0.5 和 SA 得分值 <4 過濾化合物后,有 44 種化合物被命中。為了進一步優先考慮用于生物測定的分子,選擇性 Bcl-2 抑制劑 obatoclax 作為參考化合物,并通過對接預測結合親和力。結果表面,其中15 種具有比參考化合物更高的對接分數和 QEPPI值。
4 結論和未來工作 這項工作中,研究人員構建了一個 PPI 靶向藥物相似性數據集,并開發了一種新的基于形狀的分子生成框架,用于生成針對 PPI 的新型有效藥物相似性分子。研究人員的策略利用 GAN 和字幕網絡從種子分子的 3D 特征生成針對 PPI 的潛在抑制劑。該方法依賴于分子或肽作為種子分子生成多樣性的PPI類藥性化合物庫。目前是第一次將深度分子生成模型應用于 PPI 抑制劑的從頭設計。此外,首次應用 QEPPI 作為分子生成模型的評估指標用于PPI靶向化合物的分子設計。研究人員的模型顯示出與其他幾種最先進的分子生成模型相當的性能。化學空間分析表明,生成的分子與 iPPI-DB 抑制劑具有相似的化學空間。研究人員探索了基于肽的 PPI 抑制劑設計和基于配體的 PPI 抑制劑設計。結果表明,生成的分子具有更好的 PPI 靶向藥物相似性和藥物相似性。PPI 在生活中無處不在,它們的研究和理解對于藥物發現和生物工程的努力至關重要。PPI抑制劑的分子生成模型仍然只是向前邁出了一小步。
參考資料 Jianmin Wang, Yanyi Chu, Jiashun Mao, Hyeon-Nae Jeon, Haiyan Jin, Amir Zeb, Yuil Jang, Kwang-Hwi Cho, Tao Song, Kyoung Tai No, De novo molecular design with deep molecular generative models for PPI inhibitors, Briefings in Bioinformatics, Volume 23, Issue 4, July 2022, bbac285
數據和代碼