新藥物設計是產生具有理想藥理和理化性質的新型先導化合物的過程。深度學習(deep learning, DL)在藥物從頭設計中的應用已成為一個熱門話題,許多基于深度學習的方法已被開發用于分子生成任務。一般來說,這些方法按照四個框架開發:循環神經網絡;編碼器-解碼器;強化學習;以及生成式對抗網絡。在這篇綜述中,我們首先介紹了基于深度學習的新藥從頭設計中使用的分子表征和評估指標。然后,我們總結了每種架構的特點。最后,對基于深度學習的分子生成技術的潛在挑戰和未來發展方向進行了展望。
//www.sciencedirect.com/science/article/pii/S0959440X21001433?via%3Dihub
據估計,化學空間中類藥物化合物的數量可能高達1023-1060[1],因此完全探索這一巨大的化學空間在計算上是非常困難的。在這種情況下,如何有效地從如此大的化學空間中挖掘新的先導化合物成為藥物發現的一個真正的挑戰。隨著計算能力和實驗技術的顯著提高,高通量篩選[2]和虛擬篩選(VS)[3]已成功應用于多種過濾器對大型化學庫進行評價。此外,隨著機器學習(ML)技術的快速發展,建立了基于ML的定量構效關系(QSAR)方法,作為VS不可缺少的過濾器,有助于高效、可靠地評估各種理化和藥理特性[4]。然而,傳統的基于QSAR或基于對接的VS通常傾向于從現有的化學庫中尋找具有理想性質的分子。相比之下,新藥發現(de novo drug design,分子生成)旨在通過從頭生成具有理想性質的新分子來補充現有的化學庫,從而探索化學空間。
盡管許多基于計算生長算法和進化算法的傳統從頭藥物設計方法已被開發出來,以從構建模塊[5]生成新的分子結構,但在許多方法中,優化各種目標和生成新的化合物[5]之間存在折衷。深度學習(DL)的發展為創新藥物的設計和發現提供了新的機遇。近年來,開發了各種基于DL的從頭藥物設計算法,DL在藥物發現中的成功應用被麻省理工學院(MIT) Technology Review評選為2020[6]十大突破性技術之一。
在VS中實現的基于深度學習的方法通常用于預測輸入分子的物理化學或生物性質,這實際上是QSAR判別建模的應用。與DL在VS中的區別作用相比,基于DL的生成模型本質上可以被認為是在巨大的化學空間中檢測具有理想性質的化合物的探索者。基于dl的生成模型可以實現對化學空間中現有分子的性質和/或結構特征進行總結和提取,然后將其轉化為新的支架的過程,也稱為反向QSAR過程[7]。生成模型的目的是有點類似于它與優化策略適用于接近理想的分子性質(如右所示圖1)上角,而與通常方法實現各種過濾器來縮小篩選化合物的化學空間,直到達到一個容易處理的范圍(如右所示低的圖1)。不過,相信,通過探索的連續空間的屬性,生成模型可以生成具有新穎支架和理想性質的分子。
圖1 通過虛擬篩選和分子生成來探索化學空間的過程。虛擬篩選通過給定的化學庫的性質來篩選化合物,而新藥設計通過聚焦于定向性質來生成新的化合物。
ML算法用于構建生成模型可以分為四類:遞歸神經網絡(RNN) encoder-decoder (Enc-Dec),強化學習(RL)和生成對抗網絡(GAN)(8、9)(圖2)。盡管傳統的生成模型已經開發的各種變異,其中大部分集中在兩個基本問題:分子表征;優化策略[8]。不同表示的應用旨在使DL算法更容易理解分子的不同特征。報道的算法除了常用的簡化分子輸入線輸入系統(SMILES)[10,11]外,還使用了分子圖[12,13]、指紋[14]和三維(3D)幾何[15]。生成過程中對分子性質的優化是為了使生成的分子在化學空間中產生高梯度和聚集區域,具有較高的有效性、新穎性和可合成性。例如,GENTRL[10]應用張量分解和自組織映射技術優化分子在化學空間的性質,快速設計針對Discoidin Domain Receptor Tyrosine Kinase 1 (DDR1)激酶的新型活性化合物。
通過這些改進的算法,大量基于深度學習的模型已成功用于目標導向的分子設計,并通過有機合成和活性評價成功識別了新的活性分子[10,16,17],凸顯了基于深度學習的生成模型在從頭藥物設計中的潛力。本文重點介紹了用于新藥設計的各種最新DL架構的特點。
本文介紹一篇來自浙江大學侯廷軍教授課題組、中南大學曹東升教授課題組、華東理工大學李洪林教授課題組聯合發表的論文。該論文提出了一種能夠在分子生成過程中考慮到蛋白-配體相互作用的深度學習生成模型RELATION,該模型適用于基于靶標結構的全新藥物設計。RELATION模型同時使用百萬量級的分子庫以及蛋白-配體集合數據對變分自編碼器進行訓練,在引入雙向遷移學習后,隱藏層的采樣能夠同時兼顧生成分子的骨架片段的新穎性以及對靶標蛋白的親和性。RELATION模型還提供了藥效團約束生成以及貝葉斯優化(BO)采樣等模塊,可供用戶定制化生成藥效團匹配度更高以及對靶標的對接打分表現更好的分子。
1 研究背景 先導化合物的發現與優化在新藥研發過程中至關重要,高質量的先導化合物能夠大大縮短藥物探索的時間,提高成藥的可能性。在先導化合物的設計過程中,要充分考慮候選分子的結構新穎性、生物活性、靶標選擇性、化學可合成性、成藥性和安全性等,這些性質直接影響藥物開發的成敗,因此先導化合物的發現一直是創新藥物研發的主要瓶頸。隨著計算機硬件、軟件和算法的飛速發展,高通量篩選虛擬篩選和藥物從頭設計等計算機輔助藥物設計技術開始取代傳統方法,并大大縮短了先導物發現的時間和成本。
全新藥物設計與虛擬篩選技術不同,不依賴已有的化學數據庫,可以通過不同的生成算法對類藥空間進行更加深入的探索和發掘。傳統的全新藥物設計方法通常將遺傳算法結合到藥物從頭設計中,嘗試通過進化策略來優化生成的化合物結構。然而,傳統的藥物從頭設計方法無法兼顧生成分子的新穎性與理想屬性。深度學習(Deep learning, DL)的引入為全新藥物設計注入了新的活力。作為近期發展最快的人工智能技術,DL能夠更高效地處理數據,對化合物屬性深度特征的提取能力更強。鑒于深度學習對分子屬性的深度特征出色的提取能力,目前已經有近百種基于深度學習的框架的全新藥物設計模型被開發出來,旨在解決傳統方法中生成分子的新穎性與理想屬性之間的沖突。這些方法大致可以被分為四類:編碼-解碼器(Encoder-Decoder,Enc-Dec)、循環神經網絡(Recurrent Neural Network, RNN)、生成對抗網絡(Generative Adversarial Networks,GAN)和強化學習(Reinforcement Learning,RL)。
目前大部分基于DL的全新藥物設計模型是以配體為中心,配體分子被表示為SMILES字符串或2D分子圖。這些基于配體分子的全新藥物設計的模型,在經過訓練后確實能夠生成大量有效且新穎的化合物,但是這些基于配體二維信息的表征會忽略分子在藥物設計任務中一些非常重要的屬性,比如藥物分子的三維立體構象以及與蛋白之間的結合構象。本文介紹的RELATION模型是一個使用了變分自編碼器框架的生成模型,在雙向遷移學習的作用下,模型能夠生成大量結構有效、結構新穎并且對蛋白具有一定親和力的化合物。在藥效團約束和BO采樣的作用下,RELATION將會更加適用于基于靶點結構的全新藥物設計任務。
2 RELATION方法 數據集 RELATION模型的訓練使用了源域和目標域兩種數據集。源域的百萬數量級的小分子化合物來源于ZINC數據庫。目標域則使用AKT1以及CDK2兩個靶點的數據集,407個AKT1抑制劑和1017個CDK2抑制劑搜集于BindingDB和ChEMBL數據庫,然后將兩個靶點的抑制劑對接到靶標蛋白,只保留配體周圍5 ?的原子作為蛋白配體復合物數據集。隨后將源域數據集和目標域數據集放入7.57.57.5 ?3的網格中,并將源域數據集和目標域數據集的質心與立方體框的質心對齊,重原子的位置以1 ?作為分辨率,每個原子由19個物理化學性質描述。最后,源域數據集和目標域數據集中的每個分子都由一個由其坐標特征向量定義的四維張量表示。
模型框架 RELATION框架由兩個部分組成:(1)3D編碼器,使用了3D-CNN的結構,包括私有編碼器和共享編碼器。附帶SMILES標簽的訓練源域數據以及目標域數據轉換成4D張量后,分別作為私有編碼器和共享編碼器的輸入。所有的編碼器具有相同的架構,均具有8層,第一層包含64個過濾器,然后在奇數層上加倍,最后一層學習512個過濾器。每一個偶數層后面都有一個額外的池化層,核數、步長和填充為2,用于執行下采樣。利用ReLU激活函數對3D-CNN模型進行訓練,并使用兩個輸出為512維的全連接層得到μ和σ,對其重參數化后,生成一個的1024維嵌入向量;(2)解碼器,解碼器的結構是caption-LSTM,可以將隱藏層內的高維向量轉化為SMILE分子式,caption-LSTM由三層組成,其詞匯量輸入大小為39,隱藏大小為1024。
圖1 RELATION方法的模型框架
訓練方式
3 RELATION計算結果 RELATION生成分子的屬性 表1中的計算結果顯示,RELATION模型生成的分子的有效性、獨一性、新穎性以及生成的分子的多樣性均優于其他3D生成模型。隨著雙向遷移學習的引入,可以發現雙向遷移學習的RELATION (AAE)和RELATION (VAE)模型的有效度、獨一性以及多樣性均高于其他模型。圖1的結果顯示非遷移學習框架生成的分子的分布與抑制劑完全不同,當使用單向遷移學習框架對模型進行再訓練時,生成的分子分布與現有抑制劑分布的重疊明顯增加。而使用雙向遷移學習RELATION框架后,模型產生的分子的化學空間分布與抑制劑完全重合,表明所生成的分子和現有抑制劑涵蓋了類似的化學空間,并且具有相似的屬性。圖2則展示了不同模型生成的分子與AKT1和CDK2抑制劑的化學空間分布。圖2的結果也與表1中數FCD數據一致。這些結果均表明,RELATION模型生成的分子不僅能夠保證有效性、新穎性以及多樣性,也能夠保證和已有抑制劑的屬性相似性。
圖2 不同模型生成的分子與抑制劑的T-SNE分析
藥效團約束和BO采樣模塊的效果 RELATION模型的藥效團約束是通過CVAE框架實現,將藥效團特征匹配度作為CVAE的特征引入到RELATION的訓練中。不同模型生成分子的藥效團分數分布如圖3所示。對于AKT1和CDK2,基于藥效團的RELATION模型產生的分子比原始RELATION模型產生的分子有更高的藥效團分數。這表明,通過將藥效團特征引入RELATION,生成的分子可以增強與預設藥效團模型間的匹配性。
作者還在RELATION框架中引入了BO的采樣。如圖3所示,在RELATION框架中引入BO采樣后生成的分子的藥效團分數都得到了提高,其中基于對接打分的BO的采樣性能略好于基于QSAR打分的BO。此外,基于對接打分的BO采樣產生分子的對接分數較原始RELATION模型生成分子的對接分數有明顯提高,但基于QSAR打分生成的分子的對接打分變化不大。
圖3 不同模型生成分子的藥效團和對接打分分布
為了進一步研究基于BO采樣的RELATION模型的性能,作者將不同模型生成的有效分子與AKT1抑制劑再次進行了T-SNE分析。如圖4所示,RELATION和RELATIONpha模型不能有效地探索AKT1抑制劑的化學空間(紅圈中標記的點)。隨著通BO-采樣方式的引入,生成的分子在化學空間中的分布比原始RELATION更加分散,說明生成的分子與AKT1抑制劑的化學空間更為相似。此外,根據點的顏色梯度,使用BO采樣的RELATION模型生成的分子比原始RELATION模型生成的分子的對接得分更優。
圖4 RELATION模型使用不同的采樣方式生成分子的化學空間分布
作者在圖5中展示了不同RELATION模型生成的一些分子的示例。如圖5所示,引入BO采樣后,RELATION和RELATIONpha均能生成對接分數較好的分子,但基于BO采樣的RELATION模型生成的分子藥效團匹配分數較高,并產生了更理想的藥效團特征。
圖5 使用RELATION模型的設計AKT1抑制劑實例
4 總結 在AKT1與CDK2的抑制劑全新設計的任務中,RELATION模型既能生成結構新穎且多樣性高的分子,并且能夠保證生成的分子對靶標具有一定的親和性。隨著基于對接打分的BO采樣以及藥效團約束模塊用于RELATION模型,RELATION模型能夠使得生成的分子同時具有更好的藥效團匹配和對接表現。這些結果表明,RELATION模型是一種極具競爭力的深度學習全新藥物設計模型。 參考資料 RELATION: A Deep Generative Model for Structure-based De Novo Drug Design, Journal of Medicinal Chemistry, 2022. //doi.org/10.1021/acs.jmedchem.2c00732
近年來,計算機的巨大進展引領著神經網絡的革命,影響了從自然語言處理到計算機視覺等各領域。同時,深度學習也影響著藥物研發的許多領域,包括細胞圖像分析,有機分子合成路線的設計和分子生成(新化學分子的設計)等。 本文獻關注深度學習影響分子設計的兩個關鍵領域:分子性質預測和分子生成。
介紹
基于藥物相關數據進行分子的生成與評估是新藥設計的關鍵任務。在藥物設計早期,藥物研發通常依靠藥物化學家的經驗進行藥物分子的設計與驗證。藥物化學家會合成一組化合物并對其進行生物活性測試,查看測試產生的數據,并利用對基礎學科的理解來決定下一步要合成哪些分子。他們將以上步驟進行迭代,最終得到所需的目標分子。 20世紀30年代,定量結構-活性關系(Quantitative Structure-Activity Relationship,QSAR)的發展,為化學結構與各種理化性質之間建立了一個數學模型。這些用于性質預測的QSAR模型奠定了許多虛擬篩選策略的基礎。虛擬篩選使用大量候選分子數據集得到更小的數據集用于后續的合成或者購買。 之后許多研究團隊產生了新的想法。他們編寫了計算機程序來進行從頭分子設計進而生成新分子。這些程序通常在蛋白質結合位點上添加原子或官能團來“生長”現有的分子,然后使用各種打分函數來評估這些分子,并將更優分子用于合成。雖然這些全新的設計方法取得了一些成功,但它們并沒有被廣泛采用。 在近幾年深度學習發展的推動下,分子生成和分子性質預測領域開始復蘇。深度學習應用于分子性質預測,包括預測生物活性、ADME(Absorption, Distribution, Metabolism, and Excretion)和與毒性靶標(eg: hERG——thehumanEther-à-go-go-RelatedGene)的相互作用等。其不依賴于專家定義的分子特征集,而是使用可調整到特定任務的學習特征。相關性質預測模型的性能優于更傳統的QSAR方法。當應用于分子生成領域時,深度學習并不是隨機擴展現有的分子,也不是使用一套規則來連接現有的分子片段,而是從現有的分子訓練集中學習規則生成分子。通過將這些生成方法與預測模型相結合,研究人員能夠設計出滿足特定生物活性的分子。
分子性質預測
分子性質預測方法應用于虛擬篩選領域可以減少實驗篩選相關的時間和費用,同時拓寬可探索的化學空間。虛擬篩選可在短時間內評估數十億分子,相比實驗篩選方法快速很多。研究相關分子性質預測算法可以加速藥物發現。
1.用于分子性質預測的神經網絡
神經網絡模型的關鍵在于如何在機器學習算法中以較合理的方式表示分子。早期的模型使用專家構建的特征(如指紋與描述符)來表示分子。機器學習算法的作用是學習如何權衡這些特征,以提供準確的性質預測。這類模型的預測準確性很大程度上取決于所選特征的質量。而神經網絡直接從數據中自行學習合適的特征表示。輸入分子集與性質數據集進行網絡的訓練后,向網絡輸入新分子,我們可以得到該分子的性質預測值(如圖1)。
圖1 分子性質預測模型[1]****
作者列舉了一些深度學習應用于分子性質預測領域的研究。其中包括預測實驗毒性的回溯性研究——Tox21挑戰(Tox21 Challenge);以及前瞻性研究——發現新藥(新抗生素)。 Tox21挑戰中,研究小組使用了各種機器學習方法來預測實驗毒性分析的結果。Hochreiter團隊使用的深度學習模型贏得了15項挑戰中的9項。Feinberg研究團隊建立在各種藥物數據集上的模型的R2(相關系數)平均增加0.16。Yang團隊建立的模型在19個公共基準中的11個基準上表現較基線模型要好。 前瞻性研究中簡要描述了Stokes團隊應用性質預測進行虛擬篩選進而發現強效抗生素這一過程(見圖2)。該團隊選用了2335種已上市的藥物和天然產物,確定它們抑制大腸桿菌生長的能力;之后創建深度學習模型,在含1.07億商業化合物的數據庫中篩選預測分子,進而對所得分子進行后續生物測試。
圖2 Stokes應用性質預測發現了一種新型抗生素過程[1]**********
2.分子性質預測準確性的數據要求******
預測模型的準確性在很大程度上也取決于能否獲得合適的數據。 給定了大量的參數,神經網絡模型需要足夠多的訓練數據來學習最佳的分子表示,并最終預測任務本身。性質預測這一任務所需的數據量可達數萬以上。對于藥物研究來說,獲取大樣本很困難。典型先導化合物優化生成的分子量通常不足以提供給神經網絡進行模型訓練。然而,大量數據集也不一定能成功擴展新化學空間。預測分子與原始訓練集的散度不能太大。分子與訓練集的散度越大,模型就越難正確地預測分子屬性。此外,現有的置信度估計方法也不能充分評估模型預測的正確性。
3.分子性質預測中不確定性的度量******
當使用機器學習模型來預測一個分子的生物活性或物理性質時,了解該預測中性質預測值的不確定性很重要。然而該領域學者對評估不確定性的方法并未達成共識。在機器學習模型中量化分子的相似性和評估不確定性則更困難。 Hirschfeld等人使用了5個基準數據集來評估神經網絡模型中的幾種量化不確定性的方法。其中包括: ①集成方法:改變網絡參數創建集成模型,整個集成模型的方差用于不確定性的度量。 ②均值-方差評估方法:訓練其中一個網絡用于預測特定分子預測值的均值與方差。 ③基于分子指紋或基于距離表示潛在空間的度量方法。 ④聯合方法:即利用神經網絡與潛在空間表示相結合的方法輸出分子性質預測的不確定性值。 而作者認為這些方法可靠性均較低,需要進行進一步研究。
4.數據增強策略
在神經網絡中可使用數據增強的方法緩解大數據量的這一需要。例如在分析圖像時,可以通過旋轉或模糊圖像來創建更大的數據集,并將這些修改后的圖像作為附加示例插入到數據集中。而在分子性質預測數據集中,一般數據增強策略有兩種:一個是利用其他相關性質預測(例如相關蛋白質靶標的活性)的數據進行增強進而訓練網絡;另一個是對現有分子結構進行增強得到更大的數據庫進行網絡訓練,進而學習到較好特征進行分子性質預測。然而這兩種方法并沒有很成功,還需進一步研究。分子從頭設計與生成模型
分子生成模型從2017年開始出現,之后一直是一個比較熱門的研究領域。這些生成模型方法受到了來自計算機視覺和自然語言處理等領域的啟發,產生了許多神經網絡架構,網絡性能也在進一步提高。1.****分子生成模型的種類第一種可行的分子生成技術采用了被稱為自動編碼器(AutoEncoder, AE)(如圖3)的神經網絡。AE由編碼器和解碼器組成。編碼器以連續編碼的方式編碼分子,促進分子屬性的預測和優化,解碼器學習將一個優化的連續表示映射回具有改進屬性的分子圖,進而生成新分子。
圖3 生成模型的自動編碼器(AE)架構示意圖**[1]******
第三種方法稱為強化學習(ReinforcementLearning, RL)。該技術使用的網絡用于描述智能體(Agent)在與環境的交互過程中,通過學習策略達到回報最大化或實現特定目標的問題。RL應用于分子生成時,定義一系列“move”。這些“move”通過添加和修飾原子及原子鍵使分子生長或改變。目標通常被定義為基于預測模型的屬性值。之后網絡使用各種策略來實現目標。使用RL可生成滿足多個目標的分子,這些生成的分子與目標分子具有高相似性以及高類藥性等性質。
第四種生成方法文獻作者在此篇綜述中并沒有提及,筆者在此進行補充,該方法稱為生成對抗網絡(Generative Adversarial Networks , GAN)。GAN網絡由一個生成器(Generator)與一個判別器(Discriminator)組成。生成器生成類似于訓練集的數據, 判別器判斷數據的真假(是否來源于生成器)。生成器與判別器相互博弈,最終生成器生成的分子可以達到真假難辨的地步。
**2.**分子生成模型的分子表示方法
生成模型分子結構的文本表示首次應用的是SMILES(Simplified Molecular Input Line Entry System)字符串,進而將SMILES轉換成連續向量,然后根據所需要的性質進一步優化。優化后的新向量再被解碼成一個代表輸出分子的SMILES字符串。 在SMILES表征的基礎上,研究人員又開發了能夠有效處理分子圖的編碼和解碼算法,這種方法可明確地捕獲官能團及其空間排列,以及分子整體骨架等信息。 最近的研究進一步增加了分子的三維信息表示方式,探索了尋找優化分子的替代算法。其中一種方法是用給定的起始分子及改進性質后的對應分子作為配對進行訓練。這種方法可以被看作是匹配分子對分析(Matched MolecularPairs Analysis, MMPA)的神經網絡版本,其中模型在隱藏空間中學習軌跡,即使隱藏空間不平滑,也具有魯棒性,并支持生成不同的輸出(如圖4)。
圖4 使用編碼器解碼器生成分子的連續表示****[1]********
3.分子生成模型的相關研究
文獻作者列舉了分子生成相關應用研究,評估方法及未來發展前景。 分子生成的應用包括Merk設計的類視黃酮X受體(Retinoid X Receptors, RXRs)或過氧化物酶體增殖物激活受體(Peroxisome Proliferator-Activated Receptors, PPARs)的激動劑,Zhavoronkov設計生成的盤狀蛋白結構域受體1(Discoidin Domain Receptor 1, DDR1)抑制劑。而學者Walters和Murcko對生成模型提出質疑,因為生成的DDR1抑制劑與之前發表的上市藥物高度相關(見圖5)。于是,文獻作者引出生成模型的評估方法。
**圖5 模型生成化合物1與上市藥物ponatinib的比較
[1]**
生成模型評估方法有GuacaMol算法、分子枚舉比較方法以及Molecular Sets(MOSES)方法 (MOSES方法綜述作者沒有提及,筆者對其進行補充)。GuacaMol算法通過一系列的測試來評估算法生成分子的有效性、唯一性和多樣性以及評估生成模型探索化學空間的能力。分子枚舉比較方法使用生成的分子與化學空間(Zhang使用了GDB-13數據庫)詳盡枚舉的分子進行比較。 MOSES設計了一個分子生成基準平臺,該平臺提供了分子結構數據集、基準模型的實現方法以及它們的評估指標。其中評價指標與GuacaMol較為類似,主要有分子數據集分布指標與單個分子性質指標這兩類。 未來可能針對分子合成性開發基于可用試劑的分子生成模型,并生成具有目標性質(包括所需的分子相互作用,ADME性質等)的分子。
********總結與展望
雖然藥物發現領域由于人工智能的推動得到了加速發展,但它是一個復雜的過程,還有很多問題有待解決。 首先,藥物研發需要優化多個參數,包括靶點有效性,脫靶副作用,藥代動力學等。現有的研究只解決了其中部分問題。其次,研究人員需要用于正確構建研究模型的訓練數據,現有的數據有時會存在許多問題。未來研究人員可能會創建更加智能的方法來識別并排除可能包含錯誤的數據,構建模型的研究人員也會與實驗人員合作,確保數據適用于模型訓練。 我們不應該完全否定人工智能,但也不應該認為它是一種“萬能藥”。隨著人工智能繼續被用于藥物發現,它將成為藥物研發過程中廣泛使用的一種工具。
**參考文獻 *[1] W.Patrick Walters and Regina Barzilay. Applications of Deep Learning in MoleculeGeneration and Molecular Property Prediction. Accounts of Chemical Research. 2021, 54: 263-270.
供稿:胡楓
結構蛋白質組學以研究蛋白質和蛋白質復合物的結構-功能關系為重點,近年來發展迅速。自21世紀初以來,蛋白質數據庫(Protein Data Bank)等結構數據庫存儲了越來越多的蛋白質結構數據,模型結構也越來越可用。結合基于圖的機器學習模型的最新進展,這使得在預測模型中使用蛋白質結構數據成為可能,目標是創建工具,以促進我們對蛋白質功能的理解。與目前快速發展的分子圖使用圖學習工具類似,在蛋白質結構上使用圖學習方法的趨勢也越來越大。在這篇簡短的綜述論文中,我們調研了在蛋白質上使用圖學習技術的研究,并檢驗了它們的成功和不足,同時也討論了未來的方向。
蛋白質是我們體內所有細胞的基石。雖然DNA分子擁有生命所必需的所有信息,但卻是蛋白質執行遺傳物質[1]的編碼。蛋白質的功能在很大程度上取決于其三維構象,了解蛋白質的三級結構是了解其功能[2]的基本前提。雖然有許多專門的蛋白質結構數據庫[3,4],但蛋白質數據庫(protein Data Bank, PDB)是事實上國際公認的存儲實驗確定的3D蛋白質結構[5]的數據庫。在過去的二十年中,我們已經看到PDB[6]中沉積的蛋白質結構有了顯著的增加,[7]領域的科學家對其使用也有了增加。此外,由于Alphafold[8,9]模型在從其氨基酸序列預測蛋白質結構方面的成功,最近創建了一個大型數據庫,其中包含幾乎整個人類蛋白質組[10]的模型結構。
與生物領域中結構化數據的增長并行的是,新型機器學習(ML)和深度學習(DL)方法正在開發中,它們可以利用大量數據來實現高預測性能[11,12]。在過去的幾年中,為了從復雜的結構數據中學習,特別是在結構組件較強的任務中,越來越多的人努力將DL技術擴展到幾何領域。因此,我們創建了傘形術語幾何深度學習,包括這些技術[13],其中一個子集包括用于建模網絡關系、數據誘導相似性以及3D形狀[13]的圖學習模型。基于圖的學習方法受到了好評,并在基準網絡數據集上取得了巨大的成果,因此,鼓勵研究人員在不同的領域和應用中使用這些方法。基于圖的模型已經被用于推薦系統、社交網絡、材料研究等[14]。圖學習模型也被應用于生物領域,最近在生物相關領域取得的成功之一是分子圖學習,這是一個用圖學習模型預測分子生化性質的分支領域。這一領域的進展使得開發了更專門提取/使用分子結構信息[15]的分子特異性圖模型,并推動了整個圖學習領域以及[16]的發展。
**鑒于蛋白質結構數據的增加和圖學習方法的成功,在結構蛋白質組學領域使用圖學習模型的研究自然會出現。這次簡短回顧的目的是:提供基于蛋白質圖表示的相關工作。介紹圖表示學習(GRL)領域,并探討其在結構蛋白質組學中的潛在應用。報告研究在六個不同的蛋白質組學任務類別,圖學習模型已成功使用。
基于藥物相關數據進行分子的生成與評估是新藥設計的關鍵任務。在藥物設計早期,藥物研發通常依靠藥物化學家的經驗進行藥物分子的設計與驗證。藥物化學家會合成一組化合物并對其進行生物活性測試,查看測試產生的數據,并利用對基礎學科的理解來決定下一步要合成哪些分子。他們將以上步驟進行迭代,最終得到所需的目標分子。
20世紀30年代,定量結構-活性關系(Quantitative Structure-Activity Relationship,QSAR)的發展,為化學結構與各種理化性質之間建立了一個數學模型。這些用于性質預測的QSAR模型奠定了許多虛擬篩選策略的基礎。虛擬篩選使用大量候選分子數據集得到更小的數據集用于后續的合成或者購買。
之后許多研究團隊產生了新的想法。他們編寫了計算機程序來進行從頭分子設計進而生成新分子。這些程序通常在蛋白質結合位點上添加原子或官能團來“生長”現有的分子,然后使用各種打分函數來評估這些分子,并將更優分子用于合成。雖然這些全新的設計方法取得了一些成功,但它們并沒有被廣泛采用。
在近幾年深度學習發展的推動下,分子生成和分子性質預測領域開始復蘇。深度學習應用于分子性質預測,包括預測生物活性、ADME(Absorption, Distribution, Metabolism, and Excretion)和與毒性靶標(eg: hERG——thehumanEther-à-go-go-RelatedGene)的相互作用等。其不依賴于專家定義的分子特征集,而是使用可調整到特定任務的學習特征。相關性質預測模型的性能優于更傳統的QSAR方法。當應用于分子生成領域時,深度學習并不是隨機擴展現有的分子,也不是使用一套規則來連接現有的分子片段,而是從現有的分子訓練集中學習規則生成分子。通過將這些生成方法與預測模型相結合,研究人員能夠設計出滿足特定生物活性的分子。
最近,以人工智能(ai)為基礎的新藥開發大幅縮短了新藥開發的時間和成本,因此備受關注。隨著深度學習(DL)技術的進步和藥物相關數據的增長,許多基于深度學習的方法正在藥物開發過程的所有步驟中出現。尤其值得一提的是,藥物化學家面臨著選擇和設計潛在藥物以進行臨床前試驗的重大問題。兩個主要的挑戰是預測藥物和可藥物靶點之間的相互作用,以及生成適合感興趣靶點的新分子結構。因此,我們回顧了近年來深度學習在藥物-靶點相互作用(DTI)預測和藥物從頭設計方面的應用。此外,我們還介紹了各種藥物和蛋白質表示、DL模型以及用于模型訓練和測試的常用基準數據集或工具的全面總結。最后,我們提出了未來基于dl的DTI預測和從頭設計藥物的剩余挑戰。
//www.ncbi.nlm.nih.gov/pmc/articles/PMC8470987/
注意力是一種重要的機制,可用于跨許多不同領域和任務的各種深度學習模型。這項綜述提供了一個關于深度學習注意力機制的重要概述。各種注意力機制通過一個由注意力模型,統一符號,和一個全面的分類注意力機制組成的框架來進行解釋。在此基礎上,本文綜述了注意力模型評價的各種方法,并討論了基于該框架的注意力模型結構表征方法。最后,對注意力模型領域的未來工作進行了展望。
**模擬人類注意力的想法最早出現在計算機視覺領域[1],[2],試圖通過引入一個只關注圖像特定區域而不是整個圖像的模型來降低圖像處理的計算復雜度,同時提高性能。然而,我們今天所知道的注意力機制的真正起點通常是源于自然語言處理領域[3]。Bahdanau等人的[3]在機器翻譯模型中實現了注意力,以解決循環神經網絡結構中的某些問題。在Bahdanau等人的[3]強調了注意力的優點后,注意力技術得到了改進,[4],并迅速流行于各種任務,如文本分類[5]、[6]、圖像字幕[7]、[8]、情感分析[6]、[9],以及語音識別[10]、[11]、[12]。
注意力已經成為深度學習中的一種流行技術,原因有幾個。首先,整合了注意力機制的模型在上述所有任務和許多其他任務中都獲得了最先進的結果。此外,大多數注意力機制可以與基本模型聯合訓練,如使用規則反向傳播[3]的循環神經網絡或卷積神經網絡。此外,attention向神經網絡模型[8]引入了一種特定類型的解釋,這種解釋通常被認為非常復雜。此外,Transformer模型[13]的引入進一步證明了注意力的有效性,進一步提高了注意力機制的受歡迎程度。注意力最初是作為循環神經網絡[14]的擴展而引入的。然而,在[13]中提出的Transformer模型是注意力研究的一個重大發展,因為它證明了注意力機制足以建立一個最先進的模型。這意味著可以避免一些缺點,比如遞歸神經網絡特別難以并行化的事實。就像引入最初的注意力機制[3]一樣,Transformer模型是為機器翻譯創建的,但很快就被用于其他任務,如圖像處理[15]、視頻處理[16]和推薦系統[17]。
本綜述的目的是解釋注意力的一般形式,并提供一個在深度學習注意力技術的全面概述。關于注意力模型的其他綜述已經發表。例如,在[18]中,給出了計算機視覺中注意力的調研,[19]提供了圖模型中注意力的概述,[20],[21],[22]都是自然語言處理中注意力的調研。本文部分地建立在上述綜述所提供的資料之上。本綜述與前面提到的綜述的主要區別在于,其他的綜述一般都關注某個領域內的注意力模型。然而,這項綜述提供了一個跨領域的注意力技術概述。我們將以一種通用的方式討論注意力技術,使它們能夠被理解并應用于各種領域。此外,我們發現以往研究中提出的分類方法缺乏恰當區分各種注意力機制所需的深度和結構。此外,某些重要的注意力技巧在以前的綜述中還沒有得到適當的討論,而其他提出的注意力機制似乎缺乏技術細節或直觀的解釋。因此在本文中,我們通過使用統一符號的單一框架,結合技術和直觀的解釋,提出了重要的注意力技術,并對注意力機制進行了全面的分類。 本文的結構如下:第2節介紹了一個一般的注意力模型,為讀者提供了一個基本的了解注意力的屬性和如何應用它。本文的主要貢獻之一是在第3節中介紹的注意力技術的分類。在本節中,將根據所提供的分類法對注意機制進行解釋和分類。第4節概述了評估注意力模型的性能測量和方法。此外,該分類方法還用于評價各種注意模型的結構。最后,在第五部分,我們給出了結論和進一步研究的建議。
本節介紹一種注意力一般性與相應的符號。這里介紹的符號是基于[23]中引入并在[13]中普及的符號。本節中介紹的框架將在本文的其余部分中使用。為了實現一個通用的注意力模型,首先需要描述一個可以使用注意力的模型的一般特征。首先,我們將完整的模型稱為任務模型,其結構如圖1所示。這個模型只接受一個輸入,執行指定的任務,并產生所需的輸出。例如,任務模型可以是一種語言模型,它將一段文本作為輸入,并將內容摘要、情緒分類或逐字翻譯成另一種語言的文本作為輸出。或者,任務模型可以獲取圖像,并為該圖像生成標題或分割。任務模型由四個子模型組成: 特征模型、查詢模型、注意力模型和輸出模型。在2.1小節中,我們討論了特征模型和查詢模型,它們是用來為注意力計算準備輸入的。在2.2小節中,我們討論了注意力模型和輸出模型,它們與產生輸出有關。
有許多不同類型的注意力機制和擴展,一個模型可以使用這些注意技術的不同組合。因此,我們提出了一種分類法,可以用來對不同類型的注意機制進行分類。圖3提供了不同類別和子類別的視覺概述,注意力機制可以涵蓋在其中。基于是否關注技術是設計來處理特定類型的特征向量(相關特性),特定類型的模型查詢(查詢相關),或者它僅僅是一個通用的機制, 分成三大類。這些類別及其子類別的進一步解釋將在下面的小節中提供。本節中討論的每一種機制要么是對第2節中介紹的一般注意模塊現有內部機制的修改,要么是對其的擴展。
注意力機制分類法
特征相關注意力機制
**基于特定的一組輸入數據,特征模型提取特征向量,從而使注意力模型能夠關注這些不同的向量。這些特征可能具有特定的結構,需要特殊的注意力機制來處理它們。可以對這些機制進行分類,以處理以下特征特征之一: 特征的多樣性、特征的級別或特征的表示。
通用注意力機制
這個主要的類別包括了可以應用于任何類型的注意力模型的注意力機制。該組件的結構可以分解為以下幾個子方面:注意力評分函數、注意力對齊和注意力維度。
查詢相關的注意力機制查詢是任何注意力模型的重要組成部分,因為它們直接決定從特征向量中提取哪些信息。這些查詢基于任務模型的期望輸出,可以解釋為文字問題。有些查詢具有特定的特征,需要特定類型的機制來處理它們。因此,這一類封裝了處理特定類型查詢特征的注意力機制。這一類中的機制處理以下兩個查詢特征之一:查詢的類型或查詢的多樣性。**
在本節中,我們介紹了各種類型的注意力模型的評估。首先,我們可以使用第3節中介紹的分類法來評估注意力模型的結構。對于這樣的分析,我們考慮注意力機制類別(見圖3)作為模型的正交維數。可以通過確定模型對每個類別使用的機制來分析模型的結構。表3提供了文獻中發現的注意模型的概述,并基于模型實現的注意力機制進行了相應的分析。其次,我們討論了評價注意力模型表現的各種技術。注意力模型的性能可以通過外部或內部性能測量來評估,這將分別在第4.1和4.2小節中討論。
本研究綜述了近年來關于深度學習中的注意力模型的研究進展。注意力機制已經成為深度學習模型的一個顯著發展,因為它們已經表明可以顯著提高模型性能,在幾個研究領域的各種任務中產生了最先進的結果。我們提出了一個全面的分類,可以用來分類和解釋不同數量的注意力機制提出的文獻。分類法的組織基于任務模型的結構,該任務模型由一個特征模型、一個注意力模型、一個查詢模型和一個輸出模型組成。此外,還使用基于查詢、鍵和值的框架討論了注意力機制。最后,我們展示了如何使用外在和內在的測量方法來評估注意力模型的表現,以及如何使用分類方法來分析注意力模型的結構。
[1] H. Larochelle and G. E. Hinton, “Learning to combine foveal glimpses with a third-order Boltzmann machine,” in 24th Annual Conference in Neural Information Processing Systems (NIPS 2010). Curran Associates, Inc., 2010, pp. 1243–1251. [2] V. Mnih, N. Heess, A. Graves, and k. kavukcuoglu, “Recurrent models of visual attention,” in 27th Annual Conference on Neural Information Processing Systems (NIPS 2014). Curran Associates, Inc., 2014, pp. 2204–2212.
引言
幾何深度學習(GDL)是一種基于神經網絡架構的學習方法,它可以整合并處理對稱信息。GDL在分子建模應用中有著特殊的應用前景,在這些應用中存在著具有不同對稱性和抽象層次的各種分子表示。本文綜述了分子GDL在藥物發現、化學合成預測和量子化學中的應用。重點放在學習的分子特征的相關性和它們的互補的完善的分子描述符。本文綜述了當前的挑戰和機遇,并對GDL在分子科學中的應用前景進行了展望。
摘要
深度學習是基于神經網絡的人工智能(AI)[1,2]的一個實例,近年來的進展已經在分子科學領域得到了廣泛的應用,如藥物發現[3,4]、量子化學[5]和結構生物學[6,7]。深度學習的兩個特點使得它在應用于分子時特別有前途。首先,深度學習方法可以處理“非結構化”數據表示,如文本序列[8,9]、語音信號[10,11]、圖像[12-14]和圖形[15,16]。這種能力對于分子系統,尤其有用,化學家們已經開發出許多模型(即“分子表示”),捕獲分子性質在不同的萃取級別(圖1)。第二個關鍵特征是,深度學習可以執行特征提取(或學習)的特性從輸入數據, 也就是說,從輸入數據生成數據驅動的特性,而不需要人工干預。這兩個特性對于深度學習來說很有前途,可以作為“經典”機器學習應用(如定量結構-活性關系[QSAR])的補充,在這些應用中,分子特征 (即“分子描述符”[17])是通過基于規則的算法進行先驗編碼的。從非結構化數據中學習并獲得數據驅動的分子特征的能力,導致了人工智能在分子科學中的前所未有的應用。
幾何深度學習(GDL)是深度學習領域最有前景的進展之一。幾何深度學習是一個涵蓋新興技術的總稱,這些技術將神經網絡推廣到歐幾里得和非歐幾里得域,如圖、流形、網格或字符串表示[15]。一般來說,GDL包含了包含幾何先驗的方法,即關于輸入變量的結構、空間和對稱屬性的信息。利用這種幾何先驗來提高模型捕獲的信息的質量。盡管GDL越來越多地應用于分子建模[5,18,19],但其在該領域的全部潛力仍未得到充分挖掘。
本文的目的是 :(1) 對GDL在分子系統中的應用進行結構化和協調的綜述; (2)概述該領域的主要研究方向; (3) 預測GDL的未來影響。重點介紹了三個應用領域,即藥物發現、量子化學和計算機輔助合成規劃(CASP),特別關注了GDL方法學習到的數據驅動分子特征。所選術語的詞匯表見框1。
幾何深度學習原理
幾何深度學習這個詞是在2017年[15]誕生的。雖然GDL最初用于應用于非歐幾里得數據[15]的方法,但現在它擴展到所有包含幾何先驗[21]的深度學習方法,即有關感興趣系統的結構和對稱信息。在GDL中,對稱是一個至關重要的概念,因為它包含了系統與操作(轉換)相關的屬性,如平移、反射、旋轉、縮放或排列(框2)。
分子幾何深度學習
GDL在分子系統中的應用具有挑戰性,部分原因是有多種有效的方法來表示相同的分子實體。分子表示可以根據它們不同的提煉水平以及它們所捕獲的物理、化學和幾何方面進行分類。重要的是,所有這些表示都是同一現實的模型,因此“適合于某些目的,而不適合其他目的”[63]。GDL提供了用相同分子的不同表示進行實驗的機會,并利用它們的內在幾何特征來提高模型的質量。此外,由于GDL的特征提取(特征學習)功能,它已經多次被證明在為手頭的任務提供相關分子屬性方面是有用的。在接下來的章節中,我們將描述最流行的分子GDL方法及其在化學中的應用,并根據用于深度學習的分子表示進行分組: 分子圖、網格、字符串和曲面。
總結與展望
化學中的幾何深度學習使研究人員能夠利用不同非結構化分子表征的對稱性,從而為分子結構生成和性質預測提供更大的靈活性和通用性的可用計算模型。這些方法代表了對基于分子描述符或其他人類工程特征的經典化學信息學方法的有效替代。對于那些通常需要高度工程化規則的建模任務(例如,從頭設計的化學轉換,以及CASP的活性位點規范),GDL的好處已經得到了一致的顯示。在已發表的GDL應用中,每種分子表示都顯示出各自的優缺點。
隨著機器學習在各種應用領域的顯著成功,我們正目睹越來越多的人對機器學習在藥物發現和開發中的應用感興趣。
在本教程中,我們將介紹機器學習在過去幾年中取得的關鍵進展,并強調這些進展在藥物開發中帶來的根本性的新機遇。我們感興趣的是這些進步為什么以及如何幫助完成與藥品有關的任務。我們通過六個關鍵任務詳細闡述了機器學習在藥物開發中的應用:(a)合成預測和新藥設計,(b)分子性質預測,(c)虛擬藥物篩選和藥物靶標相互作用,(d)臨床試驗招募,(e)藥物再利用,(f)藥物不良反應和多用藥。
我們討論這些關鍵藥物相關任務的方法背后的理論基礎,闡明基于不同配方的各種方法,并總結代表性的應用。我們將涵蓋生成模型、強化學習以及深度表示學習和嵌入方面的最新進展。為此,我們提出了一個用于端到端藥物開發的人工智能算法工具箱。
藥物的發現和開發是一個漫長而昂貴的過程。它通常從分子和目標的實驗發現開始(即藥物從頭設計),并在轉入臨床試驗之前通過細胞系、類器官和動物的體外實驗驗證發現。一種新藥從發現到監管機構批準的整個過程可能需要長達12年,成本高達28億美元。此外,每個藥物開發階段都存在巨大的不確定性(1:50 000的成功率)。
機器學習方法已成為解決這些挑戰和加速藥物開發的一種有前途的工具。本教程將介紹以下與藥物相關的主要任務:
合成預測和藥物從頭設計(即從頭設計一個全新的分子)的目的是生成化學上正確的結構,以協助復雜的分子合成。
分子特性預測的目的是通過預測分子特性,如效力、生物活性和毒性,從分子數據來確定分子的治療效果。
虛擬藥物篩選和藥物靶標識別的目的是預測藥物如何通過與靶標蛋白結合并影響其下游活性來影響人體。
臨床試驗招募的目的是找到合適的醫生幫助進行試驗,以及找到合格的患者參與試驗。
藥物再利用尋求通過藥物化學、目標和藥物與疾病之間的副作用相似性來發現已知藥物以及新分子的新用途。
藥物不良反應、多重用藥和藥物-食品相互作用預測的目的是預測藥物不良反應產生的機制,建議替代藥物成員的預期藥理作用沒有負面的健康影響,并預測食品成分對相互作用藥物的影響。
然后,我們將討論解決這些與毒品有關的任務的主要方法:
生成模型。我們重點研究了適用于新分子設計的變分自編碼器(VAE)和生成對抗網絡(GAN)。他們以已知治療性質的以直線或圖形為基礎的化合物表示為輸入,將化合物編碼為潛在空間,然后解碼為新的藥物樣品。
強化學習。我們主要討論策略梯度法,最先進的分子生成方法,可以結合特定領域的分子合成知識。
深度表示學習。我們提出主要的神經體系結構學習表示藥物相關的數據。這些方法是相關的,因為它們在與藥物有關的任務中達到了最先進的性能。例如,這些方法被用于自動學習藥物指紋,學習藥物蛋白結合親和力,并招募患者參加臨床試驗。此外,圖嵌入方法用于研究藥物組合,并預測藥物效應,因為藥物擴散到生物網絡中,超出了它們直接結合的分子。
目錄內容: