編譯 | 董靖鑫 審稿 | 張翔今天給大家介紹的是卡內基梅隆大學的研究團隊近期的一篇分子優化工作。識別蛋白質抑制劑通常需要預測配體結合自由能(Binding Free Energy, BFE)。熱力學積分(Thermodynamics integration , TI)是一種能夠準確預測BFE的方法,但其計算成本高、時間長。**在這項工作中,作者利用自動機器學習(Automated machine learning, AutoML)和主動學習(Active Learning, AL)的技術開發了一個高效的自動化工作流程,只需要數百次TI計算能在數千個同源配體中識別BFE最低的化合物。**實驗結果表明,該框架預測的化合物的結合親和度顯著提高。
1 介紹 藥物設計的先導化合物的發現及優化階段旨在發現先導化合物,即通過改變分子的化學結構來改善與生物靶點的結合親和力,以證明其對靶點具有活性。因此,結合自由能的預測至關重要,而相對自由能(relative BFE, RBFE)指的是新配體與先導化合物之間的結合自由能差異。目前基于大規模分子庫的虛擬篩選方法的性能因較差的預測配體排序的能力而受到限制。分子動力學模擬(Molecular Dynamics,MD)方法雖然可以較為準確地計算RBFE,但對計算資源需求高。為了有效地克服這些限制,作者提出了一個自動化框架計算RBFE,以優化先導化合物。
圖1 SARS-CoV-2 PLpro及其抑制劑的結構
SARS-CoV-2木瓜樣蛋白酶(papain-like protease, PLpro)是設計COVID-19抗病毒藥物最有吸引力的藥物靶點之一。研究表明GRL0617通用骨架(N-[(1R)-1-arylethyl]arenecarboxamide, 圖1B)的結構對配體與PLpro結合很重要,并且在具有該骨架的化合物中可能發現更有效的PLpro抑制劑。在這項工作中,作者從13億商業可用化合物庫中篩選,選擇了1萬個N-[(1R)-1-arylethyl]arenecarboxamide衍生物的庫,并最終確定了16種有效的結合劑,其預測的結合親和力提高了100倍以上。
2 模型
圖2 模型流程
2.1 主動學習周期
兩個主要的計算模塊:
(1)AutoML模塊。負責根據第二個計算模塊提供的標記數據開發ML模型。 (2)TI RBFE模塊。負責計算選定化合物與PLpro蛋白的相對結合自由能。
具體流程:
(1) 從分子的種子集開始,執行TI RBFE計算以獲得訓練數據和初始化的ML模型。 (2) 使用該模型篩選化學空間。 (3) 選擇最佳候選分子集用于RBFE的TI MD計算。 (4) 對所選分子進行TI MD計算,并且用更新的數據重新訓練ML模型。
2.2 自動化機器學習模塊
使用基于先驗選擇的ML方法(如神經網絡)和分子表征(如配體-蛋白質相互作用指紋)構建的ML模型可能會導致大量的模型偏差和樣本選擇偏差。AutoML旨在以數據驅動、客觀和自動化的方式為ML模型選擇、數據表示和超參數做出決策。AutoML和AL方法的結合既可以保證對化學空間進行快速、系統、公正的探索,又可選擇最佳候選分子。
2.3 熱力學積分分子動力學模擬模塊
熱力學積分的流程: (1) 生成MD輸入文件(包括分子拓撲結構、原子初始坐標和約束)。 (2) 利用TI設置并行化的GPU加速的 MD模擬。 (3) 收集和處理輸出數據。
3 實驗 3.1 實驗設置
AutoML-AL方法共進行8個AL周期。周期0中,使用多樣的分子初始化AL,以盡可能廣泛地采樣化學空間。為初始分子集進行TI MD 計算,并提供給AutoML模塊用于初始ML模型。周期1-5中,均勻地選擇了具有低RBFE的分子,以獲得庫的化學空間信息。周期6,隨機選擇分子,這種方式有助于克服AL被困在化學空間的局部最小值時可能出現的問題。
3.2 實驗結果
實驗對253個配體進行TI MD RBFE計算。計算133種配體的RBFE為負的,約占TI計算的53%。這說明通過TI MD計算篩選的配體中有一半以上的配體具有比參考配體更高的結合親和力。其中62種配體(占通過TI MD篩選的配體的24.5%)的預測結合親和力提高了10倍以上。通過TI MD篩選得到的16個配體(占6%)與靶蛋白的預測結合親和力提高了100倍以上。
在AL周期0中,ML模型沒有區分有利于結合的化學空間區域。在平衡選擇的周期1-5中,模型探索多個區域,尋找期望的化學空間。由于信息的增加,ML模型的感知發生了明顯的變化,開始識別出低??G分子密集分布的化學空間區域。周期5結束,ML模型得到收斂,化學空間各個區域穩定著色。在隨機選擇分子的周期6中,分子分布在化學空間中,大多數分子如預期的那樣具有正??G。值得注意的是,模型的誤差沒有增加,這也說明了模型已經收斂。
圖5展示了兩個優化的分子S1和S2,它們的結合親和力分別提升了-0.84 kcal/mol和-0.99 kcal/mol。在TI ????為負的配體中,有35個(~26%)分子具有相似的芳香體系。其中9個分子的預測結合親和力提高了100倍以上。
4 總結 在這項工作中,作者提出結合自動機器學習(Automated machine learning, AutoML)和主動學習(Active Learning, AL)的方法對配體進行RBFE計算,實驗表明該方法選擇的配體結合親和力顯著提升。
參考資料 Gusev F, Gutkin E, Kurnikova M G, et al. Active learning guided drug design lead optimization based on relative binding free energy modeling[J]. 2022.
作者 | 黃灝尹 審稿 | 陳梓豪 指導 | 閔小平(廈門大學)今天給大家介紹的是由來自Absci公司的Vancouver (WA)團隊發表在bioRxiv上的預印文章《Antibody optimization enabled by artificial intelligence predictions of binding affinity and naturalness》。這篇文章提出利用人工智能對抗體進行優化的基于高通量親和數據訓練的深層語境語言模型(deep contextual language models trained on high-throughput affinity data),并運用名為ACE和SPR的方法,用于生成抗體結合親和力的相對傳統方法而言更優的測量,然后基于兩種不同的抗體證明了可以定量預測未知抗體序列變體的結合。
ACE方法的提出,解決了傳統方法對序列空間探索度較低的問題,從而使得文中提出的深層語境語言模型可以高精度地定量預測未知抗體變體的結合親和力,實現虛擬篩選,并將可訪問序列空間擴大了幾個數量級。 研究背景
傳統的抗體優化方法僅僅只能探索到序列空間的很小區域,這樣的情況下,優化的結果有可能會被限制在僅有次優性質的序列上,這些序列有可能會結合親和力不足、發育受到限制或者具有較差的免疫原性譜。相比之下,深度誘變加上篩選或選擇允許探索更大的抗體序列空間。但是突變本身也具有降低抗體的結合親和力等問題,這將會大大降低篩選效率。深度神經網絡是一種可以有效幫助克服實驗篩選能力的限制的工具,但是現有的模型受到吞吐量和二進制(而非連續)讀數的限制,這可能會在高突變負載下影響其準確性。
在本研究中,作者使用深層語境語言模型和定量、高通量的實驗結合親和性數據,證明了提高抗體與其目標抗原結合親和性的能力。經過驗證,該模型可以高精度地定量預測未知抗體變體的結合親和力,實現虛擬篩選,并將可訪問序列空間擴大了幾個數量級。最后,在實驗室中的預測和后續設計可以確認成功率遠遠高于傳統篩選。
主要結果
使用深度語言模型預測序列變體的結合親和力
圖1 人工智能增強抗體優化示意圖
深度學習模型需要高質量的大量數據進行訓練,為了產生抗體結合親和力的高通量測量,作者提出了基于FACS(熒光激活細胞分類術,Fluorescence-Activated Cell Sorting)和NGS(新一代測序技術,Next-Generation Sequencing)的ACE方法。ACE方法的特點是利用折疊抗體的細胞內可溶性過表達,表達抗體變體的細胞被固定、滲透并用熒光標記的抗原和支架靶向探針染色。然后根據結合親和力和變體的表達水平對細胞進行裝箱和分類。最后,收集的DNA序列通過PCR擴增并測序。SPR方法的特點是低通量,但是準確度更高,因此在數據中用作對ACE數據的補充。所使用的深度語言模型都經過了OAS數據庫的免疫球蛋白序列訓練,最終的結果證明了模型具有預測序列變體的結合親和力的能力。
表1 訓練模型所用數據
圖2 數據集trast-1和trast-2的預測抗體結合親和力結果
如圖1所示,作者使用trast-1數據集對深度語言模型進行訓練,并保留10%的數據用于測試。測試的結果表明數據集的ACE得分和模型的預測得分高度相關。為了進一步評估預測性能,trast-2數據集由從trast-1數據集中采樣了>200個序列,通過SPR重新篩選100個采樣序列,作者證實了該數據集的結合親和度的接近均勻分布并驗證了模型在trast-2的強大預測性能。圖2展示了預測抗體結合親和力結果,其中比較的兩個基線分別為未經過預訓練的深度語言模型和基于XGBoost梯度增強樹。
改進抗體變體的模型引導設計 作者使用模型設計具有期望綁定特性的序列集,然后用專用的SPR實驗進行驗證。首先在trast-2數據集上訓練一個模型,并讓它設計50個跨越兩個數量級平衡解離常數的序列(設計集A),作者發現設計集A的預測和驗證之間非常一致。
圖3 使用trast-2訓練的模型上次的設計集A和B與預測值關系圖
然后用該模型進行比曲妥珠單抗結合更緊密的變體的設計(設計集B),與之前相同,讓模型設計了50個序列,通過SPR驗證這50個序列,發現74%的變體確實比親本抗體更緊密。100%的變體在0.5log的誤差范圍內符合設計要求。
設計集B的驗證結果與單純的、僅在實驗室進行文庫篩選的方法相比有很大的優勢,在該方法中,比曲妥珠單抗更緊密的復合物比例最小。因此人工智能模型提供的變體的強富集可以極大地促進抗體優化。
作者注意到,生成設計集B的模型是通過trast-2數據集訓練得到的,里面有一些比曲妥珠單抗結合性更強的結合劑。在除去這些結合劑訓練后,新得到的模型不再能夠為設計做出準確的KD預測。盡管如此,該模型確實將設計B變體的結合親和度放在其預測分布的頂部。這一結果表明,即使實驗室實驗產生的訓練數據沒有跨越完全的親和度范圍,AI也可以實現高親和度序列的優先級化。
其他的討論
在后續研究中,作者發現當擴展到更大的序列空間時,AI預測的表現仍然能夠保持在不錯的水平上,并且作者提出的深度語言模型具有很高的樣本效率,使抗體結合的可解釋分析成為可能。
在抗體的優化方面,著眼于優化抗體的自然性可以緩解發展障礙。將候選抗體開發為治療藥物是一個復雜的過程,具有高度的臨床前和臨床風險。由于難以獲得信息豐富且相關的數據,對這些風險進行建模一直是行業面臨的巨大挑戰。作者將自然度定義為通過預先訓練的語言模型計算的分數,該分數測量給定抗體序列從感興趣物種(包括人類)衍生的可能性。因此,自然度可以用作抗體設計和工程中的指導指標。
總結
本文在之前的相關模型基礎上提出了運用人工智能進行抗體優化的思路,并引入抗體的自然度定義,提出SPR和ACE方法,大大提高了序列空間的探索度,為人工智能模型提供了足夠優質的高通量數據,最終人工智能模型設計得到的序列展現出了很強的親和力和穩定性,并且在擴展到更大的序列空間時仍然具有很好的預測水平。 參考資料 //www.biorxiv.org/content/10.1101/2022.08.16.504181v1