近年來,計算機的巨大進展引領著神經網絡的革命,影響了從自然語言處理到計算機視覺等各領域。同時,深度學習也影響著藥物研發的許多領域,包括細胞圖像分析,有機分子合成路線的設計和分子生成(新化學分子的設計)等。 本文獻關注深度學習影響分子設計的兩個關鍵領域:分子性質預測和分子生成。
介紹
基于藥物相關數據進行分子的生成與評估是新藥設計的關鍵任務。在藥物設計早期,藥物研發通常依靠藥物化學家的經驗進行藥物分子的設計與驗證。藥物化學家會合成一組化合物并對其進行生物活性測試,查看測試產生的數據,并利用對基礎學科的理解來決定下一步要合成哪些分子。他們將以上步驟進行迭代,最終得到所需的目標分子。 20世紀30年代,定量結構-活性關系(Quantitative Structure-Activity Relationship,QSAR)的發展,為化學結構與各種理化性質之間建立了一個數學模型。這些用于性質預測的QSAR模型奠定了許多虛擬篩選策略的基礎。虛擬篩選使用大量候選分子數據集得到更小的數據集用于后續的合成或者購買。 之后許多研究團隊產生了新的想法。他們編寫了計算機程序來進行從頭分子設計進而生成新分子。這些程序通常在蛋白質結合位點上添加原子或官能團來“生長”現有的分子,然后使用各種打分函數來評估這些分子,并將更優分子用于合成。雖然這些全新的設計方法取得了一些成功,但它們并沒有被廣泛采用。 在近幾年深度學習發展的推動下,分子生成和分子性質預測領域開始復蘇。深度學習應用于分子性質預測,包括預測生物活性、ADME(Absorption, Distribution, Metabolism, and Excretion)和與毒性靶標(eg: hERG——thehumanEther-à-go-go-RelatedGene)的相互作用等。其不依賴于專家定義的分子特征集,而是使用可調整到特定任務的學習特征。相關性質預測模型的性能優于更傳統的QSAR方法。當應用于分子生成領域時,深度學習并不是隨機擴展現有的分子,也不是使用一套規則來連接現有的分子片段,而是從現有的分子訓練集中學習規則生成分子。通過將這些生成方法與預測模型相結合,研究人員能夠設計出滿足特定生物活性的分子。
分子性質預測
分子性質預測方法應用于虛擬篩選領域可以減少實驗篩選相關的時間和費用,同時拓寬可探索的化學空間。虛擬篩選可在短時間內評估數十億分子,相比實驗篩選方法快速很多。研究相關分子性質預測算法可以加速藥物發現。
1.用于分子性質預測的神經網絡
神經網絡模型的關鍵在于如何在機器學習算法中以較合理的方式表示分子。早期的模型使用專家構建的特征(如指紋與描述符)來表示分子。機器學習算法的作用是學習如何權衡這些特征,以提供準確的性質預測。這類模型的預測準確性很大程度上取決于所選特征的質量。而神經網絡直接從數據中自行學習合適的特征表示。輸入分子集與性質數據集進行網絡的訓練后,向網絡輸入新分子,我們可以得到該分子的性質預測值(如圖1)。
圖1 分子性質預測模型[1]****
作者列舉了一些深度學習應用于分子性質預測領域的研究。其中包括預測實驗毒性的回溯性研究——Tox21挑戰(Tox21 Challenge);以及前瞻性研究——發現新藥(新抗生素)。 Tox21挑戰中,研究小組使用了各種機器學習方法來預測實驗毒性分析的結果。Hochreiter團隊使用的深度學習模型贏得了15項挑戰中的9項。Feinberg研究團隊建立在各種藥物數據集上的模型的R2(相關系數)平均增加0.16。Yang團隊建立的模型在19個公共基準中的11個基準上表現較基線模型要好。 前瞻性研究中簡要描述了Stokes團隊應用性質預測進行虛擬篩選進而發現強效抗生素這一過程(見圖2)。該團隊選用了2335種已上市的藥物和天然產物,確定它們抑制大腸桿菌生長的能力;之后創建深度學習模型,在含1.07億商業化合物的數據庫中篩選預測分子,進而對所得分子進行后續生物測試。
圖2 Stokes應用性質預測發現了一種新型抗生素過程[1]**********
2.分子性質預測準確性的數據要求******
預測模型的準確性在很大程度上也取決于能否獲得合適的數據。 給定了大量的參數,神經網絡模型需要足夠多的訓練數據來學習最佳的分子表示,并最終預測任務本身。性質預測這一任務所需的數據量可達數萬以上。對于藥物研究來說,獲取大樣本很困難。典型先導化合物優化生成的分子量通常不足以提供給神經網絡進行模型訓練。然而,大量數據集也不一定能成功擴展新化學空間。預測分子與原始訓練集的散度不能太大。分子與訓練集的散度越大,模型就越難正確地預測分子屬性。此外,現有的置信度估計方法也不能充分評估模型預測的正確性。
3.分子性質預測中不確定性的度量******
當使用機器學習模型來預測一個分子的生物活性或物理性質時,了解該預測中性質預測值的不確定性很重要。然而該領域學者對評估不確定性的方法并未達成共識。在機器學習模型中量化分子的相似性和評估不確定性則更困難。 Hirschfeld等人使用了5個基準數據集來評估神經網絡模型中的幾種量化不確定性的方法。其中包括: ①集成方法:改變網絡參數創建集成模型,整個集成模型的方差用于不確定性的度量。 ②均值-方差評估方法:訓練其中一個網絡用于預測特定分子預測值的均值與方差。 ③基于分子指紋或基于距離表示潛在空間的度量方法。 ④聯合方法:即利用神經網絡與潛在空間表示相結合的方法輸出分子性質預測的不確定性值。 而作者認為這些方法可靠性均較低,需要進行進一步研究。
4.數據增強策略
在神經網絡中可使用數據增強的方法緩解大數據量的這一需要。例如在分析圖像時,可以通過旋轉或模糊圖像來創建更大的數據集,并將這些修改后的圖像作為附加示例插入到數據集中。而在分子性質預測數據集中,一般數據增強策略有兩種:一個是利用其他相關性質預測(例如相關蛋白質靶標的活性)的數據進行增強進而訓練網絡;另一個是對現有分子結構進行增強得到更大的數據庫進行網絡訓練,進而學習到較好特征進行分子性質預測。然而這兩種方法并沒有很成功,還需進一步研究。分子從頭設計與生成模型
分子生成模型從2017年開始出現,之后一直是一個比較熱門的研究領域。這些生成模型方法受到了來自計算機視覺和自然語言處理等領域的啟發,產生了許多神經網絡架構,網絡性能也在進一步提高。1.****分子生成模型的種類第一種可行的分子生成技術采用了被稱為自動編碼器(AutoEncoder, AE)(如圖3)的神經網絡。AE由編碼器和解碼器組成。編碼器以連續編碼的方式編碼分子,促進分子屬性的預測和優化,解碼器學習將一個優化的連續表示映射回具有改進屬性的分子圖,進而生成新分子。
圖3 生成模型的自動編碼器(AE)架構示意圖**[1]******
第三種方法稱為強化學習(ReinforcementLearning, RL)。該技術使用的網絡用于描述智能體(Agent)在與環境的交互過程中,通過學習策略達到回報最大化或實現特定目標的問題。RL應用于分子生成時,定義一系列“move”。這些“move”通過添加和修飾原子及原子鍵使分子生長或改變。目標通常被定義為基于預測模型的屬性值。之后網絡使用各種策略來實現目標。使用RL可生成滿足多個目標的分子,這些生成的分子與目標分子具有高相似性以及高類藥性等性質。
第四種生成方法文獻作者在此篇綜述中并沒有提及,筆者在此進行補充,該方法稱為生成對抗網絡(Generative Adversarial Networks , GAN)。GAN網絡由一個生成器(Generator)與一個判別器(Discriminator)組成。生成器生成類似于訓練集的數據, 判別器判斷數據的真假(是否來源于生成器)。生成器與判別器相互博弈,最終生成器生成的分子可以達到真假難辨的地步。
**2.**分子生成模型的分子表示方法
生成模型分子結構的文本表示首次應用的是SMILES(Simplified Molecular Input Line Entry System)字符串,進而將SMILES轉換成連續向量,然后根據所需要的性質進一步優化。優化后的新向量再被解碼成一個代表輸出分子的SMILES字符串。 在SMILES表征的基礎上,研究人員又開發了能夠有效處理分子圖的編碼和解碼算法,這種方法可明確地捕獲官能團及其空間排列,以及分子整體骨架等信息。 最近的研究進一步增加了分子的三維信息表示方式,探索了尋找優化分子的替代算法。其中一種方法是用給定的起始分子及改進性質后的對應分子作為配對進行訓練。這種方法可以被看作是匹配分子對分析(Matched MolecularPairs Analysis, MMPA)的神經網絡版本,其中模型在隱藏空間中學習軌跡,即使隱藏空間不平滑,也具有魯棒性,并支持生成不同的輸出(如圖4)。
圖4 使用編碼器解碼器生成分子的連續表示****[1]********
3.分子生成模型的相關研究
文獻作者列舉了分子生成相關應用研究,評估方法及未來發展前景。 分子生成的應用包括Merk設計的類視黃酮X受體(Retinoid X Receptors, RXRs)或過氧化物酶體增殖物激活受體(Peroxisome Proliferator-Activated Receptors, PPARs)的激動劑,Zhavoronkov設計生成的盤狀蛋白結構域受體1(Discoidin Domain Receptor 1, DDR1)抑制劑。而學者Walters和Murcko對生成模型提出質疑,因為生成的DDR1抑制劑與之前發表的上市藥物高度相關(見圖5)。于是,文獻作者引出生成模型的評估方法。
**圖5 模型生成化合物1與上市藥物ponatinib的比較
[1]**
生成模型評估方法有GuacaMol算法、分子枚舉比較方法以及Molecular Sets(MOSES)方法 (MOSES方法綜述作者沒有提及,筆者對其進行補充)。GuacaMol算法通過一系列的測試來評估算法生成分子的有效性、唯一性和多樣性以及評估生成模型探索化學空間的能力。分子枚舉比較方法使用生成的分子與化學空間(Zhang使用了GDB-13數據庫)詳盡枚舉的分子進行比較。 MOSES設計了一個分子生成基準平臺,該平臺提供了分子結構數據集、基準模型的實現方法以及它們的評估指標。其中評價指標與GuacaMol較為類似,主要有分子數據集分布指標與單個分子性質指標這兩類。 未來可能針對分子合成性開發基于可用試劑的分子生成模型,并生成具有目標性質(包括所需的分子相互作用,ADME性質等)的分子。
********總結與展望
雖然藥物發現領域由于人工智能的推動得到了加速發展,但它是一個復雜的過程,還有很多問題有待解決。 首先,藥物研發需要優化多個參數,包括靶點有效性,脫靶副作用,藥代動力學等。現有的研究只解決了其中部分問題。其次,研究人員需要用于正確構建研究模型的訓練數據,現有的數據有時會存在許多問題。未來研究人員可能會創建更加智能的方法來識別并排除可能包含錯誤的數據,構建模型的研究人員也會與實驗人員合作,確保數據適用于模型訓練。 我們不應該完全否定人工智能,但也不應該認為它是一種“萬能藥”。隨著人工智能繼續被用于藥物發現,它將成為藥物研發過程中廣泛使用的一種工具。
**參考文獻 *[1] W.Patrick Walters and Regina Barzilay. Applications of Deep Learning in MoleculeGeneration and Molecular Property Prediction. Accounts of Chemical Research. 2021, 54: 263-270.
供稿:胡楓
新藥物設計是產生具有理想藥理和理化性質的新型先導化合物的過程。深度學習(deep learning, DL)在藥物從頭設計中的應用已成為一個熱門話題,許多基于深度學習的方法已被開發用于分子生成任務。一般來說,這些方法按照四個框架開發:循環神經網絡;編碼器-解碼器;強化學習;以及生成式對抗網絡。在這篇綜述中,我們首先介紹了基于深度學習的新藥從頭設計中使用的分子表征和評估指標。然后,我們總結了每種架構的特點。最后,對基于深度學習的分子生成技術的潛在挑戰和未來發展方向進行了展望。
//www.sciencedirect.com/science/article/pii/S0959440X21001433?via%3Dihub
據估計,化學空間中類藥物化合物的數量可能高達1023-1060[1],因此完全探索這一巨大的化學空間在計算上是非常困難的。在這種情況下,如何有效地從如此大的化學空間中挖掘新的先導化合物成為藥物發現的一個真正的挑戰。隨著計算能力和實驗技術的顯著提高,高通量篩選[2]和虛擬篩選(VS)[3]已成功應用于多種過濾器對大型化學庫進行評價。此外,隨著機器學習(ML)技術的快速發展,建立了基于ML的定量構效關系(QSAR)方法,作為VS不可缺少的過濾器,有助于高效、可靠地評估各種理化和藥理特性[4]。然而,傳統的基于QSAR或基于對接的VS通常傾向于從現有的化學庫中尋找具有理想性質的分子。相比之下,新藥發現(de novo drug design,分子生成)旨在通過從頭生成具有理想性質的新分子來補充現有的化學庫,從而探索化學空間。
盡管許多基于計算生長算法和進化算法的傳統從頭藥物設計方法已被開發出來,以從構建模塊[5]生成新的分子結構,但在許多方法中,優化各種目標和生成新的化合物[5]之間存在折衷。深度學習(DL)的發展為創新藥物的設計和發現提供了新的機遇。近年來,開發了各種基于DL的從頭藥物設計算法,DL在藥物發現中的成功應用被麻省理工學院(MIT) Technology Review評選為2020[6]十大突破性技術之一。
在VS中實現的基于深度學習的方法通常用于預測輸入分子的物理化學或生物性質,這實際上是QSAR判別建模的應用。與DL在VS中的區別作用相比,基于DL的生成模型本質上可以被認為是在巨大的化學空間中檢測具有理想性質的化合物的探索者。基于dl的生成模型可以實現對化學空間中現有分子的性質和/或結構特征進行總結和提取,然后將其轉化為新的支架的過程,也稱為反向QSAR過程[7]。生成模型的目的是有點類似于它與優化策略適用于接近理想的分子性質(如右所示圖1)上角,而與通常方法實現各種過濾器來縮小篩選化合物的化學空間,直到達到一個容易處理的范圍(如右所示低的圖1)。不過,相信,通過探索的連續空間的屬性,生成模型可以生成具有新穎支架和理想性質的分子。
圖1 通過虛擬篩選和分子生成來探索化學空間的過程。虛擬篩選通過給定的化學庫的性質來篩選化合物,而新藥設計通過聚焦于定向性質來生成新的化合物。
ML算法用于構建生成模型可以分為四類:遞歸神經網絡(RNN) encoder-decoder (Enc-Dec),強化學習(RL)和生成對抗網絡(GAN)(8、9)(圖2)。盡管傳統的生成模型已經開發的各種變異,其中大部分集中在兩個基本問題:分子表征;優化策略[8]。不同表示的應用旨在使DL算法更容易理解分子的不同特征。報道的算法除了常用的簡化分子輸入線輸入系統(SMILES)[10,11]外,還使用了分子圖[12,13]、指紋[14]和三維(3D)幾何[15]。生成過程中對分子性質的優化是為了使生成的分子在化學空間中產生高梯度和聚集區域,具有較高的有效性、新穎性和可合成性。例如,GENTRL[10]應用張量分解和自組織映射技術優化分子在化學空間的性質,快速設計針對Discoidin Domain Receptor Tyrosine Kinase 1 (DDR1)激酶的新型活性化合物。
通過這些改進的算法,大量基于深度學習的模型已成功用于目標導向的分子設計,并通過有機合成和活性評價成功識別了新的活性分子[10,16,17],凸顯了基于深度學習的生成模型在從頭藥物設計中的潛力。本文重點介紹了用于新藥設計的各種最新DL架構的特點。
基于藥物相關數據進行分子的生成與評估是新藥設計的關鍵任務。在藥物設計早期,藥物研發通常依靠藥物化學家的經驗進行藥物分子的設計與驗證。藥物化學家會合成一組化合物并對其進行生物活性測試,查看測試產生的數據,并利用對基礎學科的理解來決定下一步要合成哪些分子。他們將以上步驟進行迭代,最終得到所需的目標分子。
20世紀30年代,定量結構-活性關系(Quantitative Structure-Activity Relationship,QSAR)的發展,為化學結構與各種理化性質之間建立了一個數學模型。這些用于性質預測的QSAR模型奠定了許多虛擬篩選策略的基礎。虛擬篩選使用大量候選分子數據集得到更小的數據集用于后續的合成或者購買。
之后許多研究團隊產生了新的想法。他們編寫了計算機程序來進行從頭分子設計進而生成新分子。這些程序通常在蛋白質結合位點上添加原子或官能團來“生長”現有的分子,然后使用各種打分函數來評估這些分子,并將更優分子用于合成。雖然這些全新的設計方法取得了一些成功,但它們并沒有被廣泛采用。
在近幾年深度學習發展的推動下,分子生成和分子性質預測領域開始復蘇。深度學習應用于分子性質預測,包括預測生物活性、ADME(Absorption, Distribution, Metabolism, and Excretion)和與毒性靶標(eg: hERG——thehumanEther-à-go-go-RelatedGene)的相互作用等。其不依賴于專家定義的分子特征集,而是使用可調整到特定任務的學習特征。相關性質預測模型的性能優于更傳統的QSAR方法。當應用于分子生成領域時,深度學習并不是隨機擴展現有的分子,也不是使用一套規則來連接現有的分子片段,而是從現有的分子訓練集中學習規則生成分子。通過將這些生成方法與預測模型相結合,研究人員能夠設計出滿足特定生物活性的分子。
本次文獻匯報分享一篇2021年3月哈佛大學的研究人員發表于《EXPERT OPINION ONDRUG DISCOVERY》的文章[1]。
前言
簡介:近年來,人工智能(Artificialintelligence,AI)在計算機視覺、自然語言處理和游戲等領域取得了巨大進展。在藥物發現領域,盡管已經有一些人工智能模型成功應用于ADME/T和活性預測,但仍然存在一個關鍵的挑戰:這些預測模型是否具有可泛化性?
涵蓋的領域:作者總結了藥物早期發現階段用于ADMET性質預測的人工智能模型的相關概念,進一步討論了人工智能部署的適用性領域和數據集構建問題。進一步回顧了多任務、遷移和元學習的作用,這些學習框架利用輔助數據來克服泛化問題。
專家意見:作者的結論是,將可靠和信息豐富的人工智能模型集成到藥物發現流程中,最有前途的方向是將學習特征表示、深度學習和新穎的學習框架結合起來。這樣的方案能很好地解決藥物發現相關的數據集稀疏和不完整的問題。
介紹
人工智能技術和深度學習(deeplearning,DL)技術已經在計算機視覺、自然語言處理、圍棋游戲等多種領域產生了令人難以置信的結果。人工智能的廣泛應用給藥物的發現和重新利用帶來了很大的希望,具有里程碑意義的案例包括新抗生素halicin的發現,以及AlphaFold2從序列到蛋白質結構的成功預測。盡管歷年來大型人工智能模型的訓練成本和資源消耗都很高,但計算機技術的創新已經打破了這些障礙。 從人工智能中受益的藥物發現的關鍵領域之一是ADME/T性質預測,通過定量結構活性關系(quantitative structure–activity relationship,QSAR)模型來預測多種性質,從簡單的物理化學性質到復雜的藥代動力學(pharmacokinetic,PK)、藥效學和毒理學特性。重要的PK端點包括清除率、通透性和穩定性;重要的藥效學端點包括藥物靶標特異性和選擇性;重要的毒理學端點包括細胞色素P450誘導和hERG抑制。
預測模型的可用性是非常重要的,決定了化學家和生物學家是否能在臨床中選擇最有可能成功的候選藥物。這些計算工具可以降低候選藥物的流失率和研究成本,從而降低新藥的價格,減輕病人的負擔。 有許多的研究評估了新興的人工智能模型與傳統的機器學習和化學信息學模型。默克公司舉辦了一個Kaggle競賽,挑戰參賽者為15個不同的QSAR數據集建立模型。獲勝的項目使用的是深度神經網絡(deep neural network,DNN)。2015年,Ma等分析了這些結果,發現深度神經網絡的簡單應用通常優于隨機森林(random forests,RFs)。2018年,Mayr等使用ChEMBL數據庫對機器學習模型進行了詳細的藥物靶點預測比較,類似地發現DNN優于RFs,以及支持向量機(support vector machines,SVMs)、k-最近鄰(K-nearest-neighbors,KNN)、樸素貝葉斯(Na?veBayes,NB)和相似集成方法(a similarity ensemble approach,SEA)。
未來的挑戰在于提高人工智能的泛化能力,即從很少的數據推廣到更廣泛的化學空間。在某種程度上,這是一個固有的、棘手的問題;畢竟,人工智能模型只能基于現有數據進行預測。而且,藥物發現的數據非常稀疏,在廣闊的可能性化學空間中只有很少的實驗數據點,而且根據分析的準確性和靈敏度,常常是帶有噪聲的,但這一挑戰并非不可克服。
目前有很多工具和案例研究可以成功地對數據稀缺的環境建模。因此,開發用于性質預測的人工智能模型仍有很大的潛力。
人工智能分子性質預測正在迅速發展。盡管新模型多種多樣,但每一種模型都有相同的兩部分結構:(1)分子表征方法,它以計算機可讀的格式對化合物進行編碼;(2)人工智能算法,它基于分子表示法進行預測。這些是決定人工智能模型的準確性和可泛化性的決定性因素。
分子表征
在QSAR建模的早期歷史中,分子描述符是人工定制的,用于非常小的數據集的特定模型框架。如果研究人員知道一個特定的性質依賴于一個特定的描述符,那么他們就可以使用那個描述符。然而,在大多數情況下,其中的關系更加復雜,包含了多種因素的組合。因此,當研究人員開始處理更大、更多樣化的數據集時,對通用描述符的需求變得非常明顯。多年來,研究人員開發和測試了許多類型的描述符。
描述符的選擇應該遵守一下規定:首先,描述符應謹慎選擇和刪減,以避免過擬合。第二,描述符應該盡可能具有多樣性。不同的描述符集合涵蓋了物理化學空間的不同部分,必須確保一組描述符為特定的性質而建立,并且描述符能夠擴展和泛化狹窄的訓練集。第三,描述符在描述符空間中應該盡可能地相互正交。這使得模型具有更強的可解釋性,同時也避免了將冗余的信息合并到模型中。
選擇正確的描述符的困難很大程度上在于第一點和第二點之間的沖突。特別是在預測具有未知的或定義不清的數據框架的小型數據集時,很難找到一組合理的避免模型過擬合的描述符,同時仍包含模型作出準確預測所需的所有信息。
選擇合適的分子描述符是一個特征工程問題。近來,某些模型試圖通過直接從化合物的結構中學習特征表示來克服特征選擇的缺點,通常表示為分子圖、圖理論矩陣或SMILES。使用學習得到的特征而不是設計的特征已經成為近來人工智能的一個基本主題。例如,在計算機視覺領域的重大突破ImageNet,它使用DL和大量的卷積層,而不是手工設計的特征。同樣,在DeepMind的AlphaGo中,人工智能也沒有使用任何預先設定好的動作序列。
然而,學習后的特征表示方法仍然面臨困難。一個關鍵的限制是,一個模型需要大量的數據才能學習特征并且不過度擬合。
表1 小分子最常用和最有用的分子表示(表格翻譯自原文)
人工智能算法
類似于分子表示,人工智能算法可以大致分為使用特征工程或特征學習。SVM、KNN、RF、線性回歸和MLP模型屬于特征工程;CNN、RNN和MPNN以及Transformers屬于特征學習。這種劃分并不完全明確,許多已學習特征的模型也將分子描述符作為輸入。 在特征工程模型之外,MLP已被證明至少與支持SVM、KNN、RFs和線性回歸模型相匹配,甚至經常在溶解度、細胞生長抑制、logD和CLINT等數據集上優于SVM、KNN、RFs和線性回歸模型。雖然Ma等和Korotcov 等研究都同意MLPs優于所有其他模型,但Korotcov等發現,在hERG端點上,DNNs的表現更差,而Ma等發現DNNs的表現明顯更好。盡管它們的模型架構略有不同,但這些差異只會帶來適度的改變,不會對性能產生顯著的變化。事實上,主要的區別在于Korotcov等人在他們的訓練集中使用了大約500種化合物,而Ma等人使用了大約50000種化合物。也就是說,在大型復雜數據集上,特征學習模型比特征工程模型表現得更好。
表2 預測分子性質最常用和最有用的機器學習算法(表格翻譯自原文)
數據質量和適用性領域****************
1.適用領域****************
模型的適用領域(The applicability domn,AD)指模型可以合理應用于預測的響應空間和描述符空間。藥物發現空間正在擴展到小分子以外,面向的是更具有挑戰性的、新的靶標。Hanser等人將AD的概念擴展到如圖1所示的模型的決策域(decision domain,DD)。圖1是一個層級結構,定義了一個空間,在這個空間中,模型可以在三個方面做出預測:(1)適用性,(2)可靠性,(3)可判定性。適用性衡量模型所要求的預測是否符合預期。可靠性衡量模型在其訓練集中是否被給予足夠的信息來做出明智的預測。可判定性衡量的是一個決策的實際有用程度。雖然沒有明確說明,但大多數AD方法都可應用這個框架,這為分析模型的泛化性提供了一個有用的方法。
**圖1 三級決策域層級結構及限制其泛化的因素(圖片來自原文)**2.數據質量
對于實際的模型構建,數據是最基本的限制。在藥物發現過程中的數據集生成較為困難,每個實驗數據點都必須由生物學家和化學家來測量,這需要時間和資源。高通量初級試驗的數據較多,而資源密集型的PK/PD和毒性端點所包含的數據較少,這些端點在候選藥物選擇的后期階段更為重要。 藥物發現中的數據量與人工智能的其他領域進行對比:在計算機視覺中,ImageNet擁有120萬個數據點用于圖像識別;在GPT3的自然語言處理中,研究人員使用了5000億個文本數據標記。這種數量的數據對于任何端點來說都是難以獲得的,PubChem的所有生物活性數據量也只有大約2.7億個。盡管數據增強是一項強大的技術,即通過創建額外的樣本以供模型學習,例如,通過采樣不同的SMILES或同一化合物的不同構象,然而這并不能改變化合物的實驗數據有限這一事實,因此無法表示新穎的化學物質。 還有一些更具體的、影響泛化性的因素。數據集可能會有很大的誤差,或者偏向于特定的結構或端點值。另外,噪聲數據集的問題降低了每個數據點的可靠性,從而降低了整個模型的可靠性。同時,模型不能比它所訓練的實驗數據更準確。因此,對于任何試驗數據源,必須與領域專家一起仔細評估試驗的穩健性和可靠性,以確定如何在模型構建中使用它。
3.數據集構建
近年來,無論是在工業領域還是公共領域,藥物發現相關的數據量都有了很大的增長。在PubChem、ChEMBL和ZINC等數據庫中存在的數據集,可供大眾使用。制藥公司有自己的內部專有數據庫。為了創建更大、更全面的數據庫,以構建更精確的模型,人們一直在努力將這些專有數據庫集中在一起。其中規模最大的是MELLODDY,這是一個由10家制藥公司組成的聯盟,它使用聯邦學習(federated learning,FL)來訓練人工智能模型。 然而,許多數據集往往是異構的,因此不能直接應用模型。在篩選過程中,必須非常小心,如果匯總數據,則必須聘請領域專家。此外,數據歸一化過程必須統一應用到整個數據集。在執行數據管理之后,數據分割的選擇,創建訓練、測試和驗證集,對于生成可泛化模型也至關重要。
********學習框架
為了克服這些數據問題,研發人員提出了遷移學習、多任務學習和元學習框架。這些框架都建立在分子性質預測任務彼此相似這一假設的基礎上,這些模型的基礎思想是,通過給人工智能模型提供其他任務的額外信息,可以讓它在某些特定任務中表現得更好。此類任務基于的假設是,所有的分子性質預測任務都植根于某些物理、化學和生物系統。
1.遷移學習
通過遷移學習,模型將知識從一個任務推廣到另一個任務,以提高模型的適用性和可判定性。這種方法已經在一定程度上被用于調整全局模型以創建局部模型的實踐中,兩種最常見的遷移學習方法是:一、基于功能,其中一個模型學習一些分子表示,然后用于其他模型,二、基于參數,一個模型在一個任務上訓練,然后它的權重作為近似解,微調至不同的任務。
2.多任務學習
多任務學習是一個單一的人工智能模型在同一時間預測一個化合物的許多不同的屬性。這個框架背后的核心概念是,人工智能模型將在它所預測的每個屬性之間共享信息。在適用性領域方面,假設我們有一種化合物,我們想要預測它的某些性質,而該化合物沒有類似的化合物與實驗數據。如果我們訓練一個單任務模型,它就會脫離適用性領域。但對于多任務學習,假設可能存在不同性質的類似化合物的實驗數據,人工智能模型可以利用這些信息做出明智的預測。
3.元學習
在元學習框架中,創建了一個二階模型,二階模型接收任務的數據,然后輸出另一個人工智能模型的規范,然后在任務上進行訓練。這些規范可以是模型的類型、要使用的超參數或權值初始化。 **圖2 以下部分的圖形表示:(a)遷移學習模型;(b)多任務學習模型;(c)元學習模型(表格來自原文)
**總結
關鍵ADME/Tox端點和活性預測的人工智能模型對早期藥物發現過程具有很高的應用價值,因為它們將加速臨床選擇更安全、更有效的藥物,最終降低經濟成本。仍然存在的關鍵挑戰是數據的可用性和依賴于數據的模型的泛化性。 必須仔細評估數據的偏差或噪聲,仔細地進行一致化處理,以構建穩健的數據集。在構建數據集之后,必須開發模型,以便從數據中最好地歸納并做出適當的預測。雖然目前選擇使用哪些組件來創建模型還沒有明確的答案,但總體趨勢是向學習特征表示和深度學習模型發展,并且被集成在一些元學習、遷移學習或多任務學習框架下。
**參考文獻 **[1] HUANG D Z, BABER J C, BAHMANYAR S S. The challenges of generalizability in artificial intelligence for ADME/Tox endpointand activity prediction. Expert Opinion on Drug Discovery, 2021, 16(9):1045-1056.
供稿:張滿湛
**校稿:張夢婷/馮紫燕編輯:毛麗韞華東理工大學/上海市新藥設計重點實驗室/李洪林教授課題組