幾何深度學習藥物發現
藥物發現是一個非常漫長和昂貴的過程,平均需要10年以上,花費25億美元來開發一種新藥。人工智能有可能通過從大量生物醫學數據中提取證據,顯著加快藥物發現的進程,從而徹底改變整個制藥行業。特別是,圖表示學習和幾何深度學習——機器學習和數據挖掘社區中一個快速增長的主題,專注于圖結構和3D數據的深度學習——已經看到了藥物發現的巨大機遇,因為該領域的許多數據都表示為圖形或3D結構(如分子,蛋白質,生物醫學知識圖譜)。在這次演講中,我將介紹我們在藥物發現幾何深度學習方面的最新進展,以及一個新發布的用于藥物發現的開源機器學習平臺——TorchDrug。
圖機器學習(GML)因其建模生物分子結構、它們之間的功能關系以及整合多組數據集的能力而受到制藥和生物技術行業越來越多的關注。在此,我們提出了一個關于藥物發現和研發多學科的學術-工業綜述的主題。在介紹了關鍵術語和建模方法之后,我們按時間順序介紹了藥物開發流程,以確定和總結工作包括: 靶標識別、小分子和生物制劑的設計,以及藥物的重新利用。盡管該領域仍處于新興階段,但關鍵的里程碑,包括重新用途的藥物進入體內研究,表明GML將成為生物醫學機器學習的建模框架選擇。
引言
從藥物發現到上市,平均超過10億美元,可能持續12年或更長時間[1 - 3]; 由于高流失率,很少有人能在10年內進入市場[4,5]。整個過程的高損耗不僅使投資不確定,而且需要市場批準的藥物為早期的失敗買單。盡管在過去十多年里,整個行業都在關注效率問題,同時也受到了一些出版物和年度報告的推動,這些報告強調了終結排他性和生產率下降會導致收入下降,但事實證明,在科學、技術和監管變革的背景下,明顯的改善是難以實現的。由于上述原因,現在人們對運用計算方法來加快藥物發現和研發管道[6]的各個部分更感興趣,見圖1。
數字技術已經改變了產生大量數據的藥物研發過程。變化范圍從電子實驗室筆記本[7],電子法規提交,通過增加實驗室、實驗和臨床試驗數據收集[8],包括設備的使用[9,10],到精準醫療和“大數據”[11]的使用。收集到的關于治療的數據遠遠超出了研發范圍,包括醫院、專家和初級保健醫療專業人員的患者記錄——包括從社交媒體上獲取的觀察數據,例如藥物警戒數據[12,13]。通過可重復使用藥物的數據庫,有無數的在線數據庫和其他信息來源,包括科學文獻、臨床試驗信息[14,15]。技術的進步現在允許更大的組學分析,而不僅僅是基因分型和全基因組測序(WGS);微流體技術和抗體標記的標準化使得單細胞技術廣泛應用于轉錄組的研究,例如使用RNA-seq[16],蛋白質組(靶向),例如通過大量細胞檢測[17],甚至多種方式結合[18]。
在藥物發現過程中產生和使用的生物醫學數據的關鍵特征之一是其相互關聯的性質。這種數據結構可以用圖表示,這是一種數學抽象,在生物學的各個學科和領域中廣泛使用,以模擬在不同尺度上進行干預的生物實體之間的各種相互作用。在分子尺度上,蛋白質和其他生物分子的氨基酸殘基[19,20]和小分子藥物的組成原子和化學鍵結構[21,22]可以用圖表示。在中間尺度上,相互作用組是捕獲生物分子物種(如代謝物、mRNA、蛋白質)[23]之間特定類型相互作用的圖,其中蛋白質-蛋白質相互作用(PPI)圖可能是最常見的。最后,在更高的抽象層次上,知識圖譜可以表示電子病歷(EMR)中藥物、副作用、診斷、相關治療和檢測結果之間的復雜關系[24,25]。
在過去的十年里,兩個新興趨勢重塑了數據建模社區: 網絡分析和深度學習。“網絡醫學”范式早已在生物醫學領域[26]得到認可,借用了圖論和復雜網絡科學的多種方法,運用于生物圖,如PPIs和基因調控網絡(GRNs)。這一領域的大多數方法都局限于手工繪制的圖特征,如中心性度量和聚類。相比之下,深度神經網絡是一種特殊的機器學習算法,用于學習最優的特定任務特征。深度學習的影響在計算機視覺[27]和自然語言處理[28]方面具有開創性,但受限于對數據結構規律性的要求,局限于特定領域。在這兩個領域的收斂處是圖機器學習(GML),這是一類利用圖和其他不規則數據集(點云、網格、流形等)的結構的新ML方法。
GML方法的基本思想是學習節點29,30、邊(如預測推薦系統中的未來交互)或整個圖31的有效特征表示。特別是,圖神經網絡(GNN)[32-34],它是專為圖結構數據設計的深度神經網絡體系結構,正引起越來越多的興趣。GNN通過傳播鄰近節點的信息來迭代更新圖中節點的特征。這些方法已經成功地應用于各種任務和領域,如社交媒體和電子商務中的推薦[35-38],谷歌地圖[39]中的流量估計,社交媒體[40]中的錯誤信息檢測,以及自然科學的各個領域,包括建模流體,硬質固體,以及可變形材料相互作用[41]和粒子物理學中的事件分類[44,43]。
在生物醫學領域,GML在挖掘圖結構數據(包括藥物-靶標相互作用和通過知識圖譜嵌入進行關系預測)方面已經達到了最新水平[30,44,45];分子特性預測[21,22],包括預測吸收、分布、代謝和排泄(ADME)譜[46];靶標識別[47]到重新設計分子的早期工作[48,49]。最值得注意的是,Stokes等人利用定向信息傳遞的GNN作用于分子結構,為抗生素研發提出了可重用的候選抗生素,驗證了他們在體內的預測,從而提出了結構明顯不同于已知抗生素的合適的可重用候選抗生素。因此,GML方法在藥物開發過程中具有極大的應用前景。
結論:
歷史上,生物分子相互作用和基因調控網絡的分析一直具有巨大的學術興趣,但在藥物發現和開發中可翻譯的結果有限。
網絡醫學使用手工繪制的圖特征提供了很有前景的結果,但在整合不同的生物數據源的問題上缺乏任何有原則的解決方案: 結構數據(藥物和生物分子)、功能關系(抑制、激活等)和表達(RNA-seq、蛋白質組學等)。
深度學習目前已應用于生物醫學研究的多個領域,特別是在生物醫學圖像(如組織病理標本)的解釋方面,實現由上級到醫生的結果。
圖機器學習將網絡拓撲分析技術與深度學習技術相結合,學習有效的節點特征表示。
圖機器學習已被應用于藥物發現和開發中的問題,并取得了巨大的成功,出現了一些實驗結果: 小分子設計、藥物與靶標相互作用的預測、藥物與藥物相互作用的預測和藥物的重新利用都是比簡單的非圖ML方法取得了相當大的成功和改進的任務。
藥物發現是一個非常漫長和昂貴的過程,開發一種新藥平均需要10年以上,花費25億美元。人工智能有潛力通過從大量生物醫學數據中提取證據來顯著加快藥物發現過程,從而徹底改變整個制藥行業。圖表示學習技術是機器學習和數據挖掘領域中一個快速發展的主題,專注于圖形結構數據的深度學習。由于該領域中的許多數據都是分子和生物醫學知識圖等圖形結構的數據,它為藥物發現帶來了巨大的機遇。在本次演講中,我將介紹我們在藥物發現的圖表示學習方面的最新進展,包括: (1)分子性質預測; (2)從頭分子設計與優化; (3)反合成預測。
在這次演講中,我將介紹我們在學習知識圖推理邏輯規則方面的最新進展。邏輯規則在用于預測和推廣到其他任務時提供了可解釋,因此是學習的關鍵。現有的方法要么面臨在大搜索空間中搜索的問題(如神經邏輯編程),要么由于稀疏獎勵而無效優化(如基于強化學習的技術)。為了解決這些局限性,本文提出了一個稱為RNNLogic的概率模型。RNNLogic將邏輯規則視為一個潛在變量,同時用邏輯規則訓練規則生成器和推理預測器。我們開發了一種基于EM的優化算法。在每次迭代中,推理預測器首先更新,以探索一些生成的邏輯規則進行推理。在E-step中,我們通過后驗推理從所有生成的規則中選取一組既有規則生成器又有推理預測器的高質量規則;而在M步中,規則生成器將用E步中選擇的規則進行更新。在四個數據集上的實驗證明了RNNLogic的有效性。
視頻:
【導讀】國際人工智能會議AAAI 2021論文將在全程線上舉辦,時間在 2 月 2 日-2 月 9 日,本屆大會也將是第 35 屆 AAAI 大會。大會涵蓋了眾多最近研究進展報告,來自MIla唐建博士、FeiWang博士、Feixiong Cheng共同做了關于人工智能藥物發現的進展報告,非常值得關注!
藥物發現是一個漫長而昂貴的過程,平均需要10年時間和25億美元來開發一種新藥。人工智能有潛力通過分析生物醫學領域產生的大量數據,如生物測定、化學實驗和生物醫學文獻,來顯著加速藥物發現的進程。最近,在許多不同的領域,包括機器學習、數據挖掘和生物醫學領域,人們對開發人工智能技術用于藥物發現越來越感興趣。在本教程中,我們將詳細介紹藥物發現中的關鍵問題,如分子性質預測、新生分子設計和分子優化、反合成反應和預測、藥物再利用和組合,以及針對這些問題的人工智能關鍵技術進展。本教程可以作為對藥物發現感興趣的計算機科學家和藥物發現從業者的入門材料,以便沿著這個方向學習最新的人工智能技術。
AAAI 2021://deepgraphlearning.github.io/DrugTutorial_AAAI2021/ KDD 2021:
目錄:
藥物概述 Drug Discovery Overview [20 min, presented by Feixiong]
深度學習,傳統基于網絡方法,圖表示學習 Deep Learning, Traditional Network-based Methods, Graph Representation Learning [15 min, presented by Fei]
分子性質預測 Molecule Properties Prediction [30 min, presented by Jian]
新生分子的生成和優化,De novo Molecule Generation and Optimization [40 min, presented by Jian and Fei]
反應預測與反合成,Reaction Prediction and Retrosynthesis [30 min, presented by Jian]
Reaction prediction [(Jin et al., 2017), (Schwaller et al., 2019), (Sacha et al., 2020)]
Retrosynthesis [(Dai et al., 2019), (Shi et al., 2020), (Sacha et al., 2020)]
基于多組學和臨床數據的藥物再利用,Multiomics and Clinical Data-based Drug Repurposing [45 min, presented by Feixiong and Fei]
Network-based approach [(Cheng et al., 2018)]
Graph Neural Network-based approach [(Gysi et al., 2020) ]
Case Study on COVID-19 [(Zhou et al., 2020), (Gysi et al., 2020)]
其他話題,Other Topics [15 min, presented by Fei]
結論與未來方向,Conclusion and Future Directions [15 min, presented by Fei]
講者:
唐建,加拿大蒙特利爾學習算法研究院 (MILA) 以及加拿大蒙特利爾大學商學院助理教授、博士生導師。主要研究方向為:圖表示學習、圖研究網絡、知識圖譜、藥物發現。曾獲得機器學習頂級會議ICML2014的最佳論文以及數據挖掘頂級會議WWW‘16的最佳論文提名。發表了一系列在圖表示學習領域的經典論文包括LINE、LargeVis、RotatE以及最近的Graph Markov Neural Networks (GMNN)。
Fei Wang,美國康奈爾大學威爾醫學院副教授,主要研究方向為數據挖掘及其在健康數據科學中的應用。他在人工智能和醫學領域發表了250多篇論文,被引用超過1.27萬次,H指數是56。他的論文在數據挖掘和醫學信息學的頂級國際會議上獲得了8項最佳論文獎。
Feixiong Cheng博士,克利夫蘭診所基因組醫學研究所的首席研究員。鄭博士致力于開發計算和實驗網絡醫學技術,以促進疾病異質性的表征,從而接近協調的、以患者為中心的戰略的目標,以創新診斷和治療的發展。
參考文獻:
Sun, F.-Y., Hoffmann, J., Verma, V., & Tang, J. (2020). Infograph: Unsupervised and semi-supervised graph-level representation learning via mutual information maximization. ICLR.
Shi, C., Xu, M., Zhu, Z., Zhang, W., Zhang, M., & Tang, J. (2020). GraphAF: a flow-based autoregressive model for molecular graph generation. ICLR.
Shi, C., Xu, M., Guo, H., Zhang, M., & Tang, J. (2020). A Graph to Graphs Framework for Retrosynthesis Prediction. ICML.
Gottipati, S. K., Sattarov, B., Niu, S., Pathak, Y., Wei, H., Liu, S., Thomas, K. M. J., Blackburn, S., Coley, C. W., Tang, J., & others. (2020). Learning To Navigate The Synthetically Accessible Chemical Space Using Reinforcement Learning. ICML.
Jin, W., Barzilay, R., & Jaakkola, T. (2018). Junction tree variational autoencoder for molecular graph generation. ICML.
You, J., Liu, B., Ying, Z., Pande, V., & Leskovec, J. (2018). Graph convolutional policy network for goal-directed molecular graph generation. Advances in Neural Information Processing Systems, 6410–6421.
Zang, C., & Wang, F. (2020). MoFlow: An Invertible Flow Model for Generating Molecular Graphs. Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 617–626.
Sun, M., Zhao, S., Gilvary, C., Elemento, O., Zhou, J., & Wang, F. (2020). Graph convolutional networks for computational drug development and discovery. Briefings in Bioinformatics, 21(3), 919–935.
Hu, W., Liu, B., Gomes, J., Zitnik, M., Liang, P., Pande, V., & Leskovec, J. (2019). Strategies for Pre-training Graph Neural Networks. ArXiv Preprint ArXiv:1905.12265.
Gilmer, J., Schoenholz, S. S., Riley, P. F., Vinyals, O., & Dahl, G. E. (2017). Neural message passing for quantum chemistry. ArXiv Preprint ArXiv:1704.01212.
Kipf, T. N., & Welling, M. (2016). Semi-supervised classification with graph convolutional networks. ArXiv Preprint ArXiv:1609.02907.
Xu, K., Hu, W., Leskovec, J., & Jegelka, S. (2018). How powerful are graph neural networks? ArXiv Preprint ArXiv:1810.00826.
Jin, W., Coley, C., Barzilay, R., & Jaakkola, T. (2017). Predicting organic reaction outcomes with weisfeiler-lehman network. Advances in Neural Information Processing Systems, 2607–2616.
Schwaller, P., Laino, T., Gaudin, T., Bolgar, P., Hunter, C. A., Bekas, C., & Lee, A. A. (2019). Molecular transformer: A model for uncertainty-calibrated chemical reaction prediction. ACS Central Science, 5(9), 1572–1583.
Sacha, M., B?a?, M., Byrski, P., W?odarczyk-Pruszyński, P., & Jastrz?bski, S. (2020). Molecule Edit Graph Attention Network: Modeling Chemical Reactions as Sequences of Graph Edits. ArXiv Preprint ArXiv:2006.15426.
Dai, H., Li, C., Coley, C., Dai, B., & Song, L. (2019). Retrosynthesis prediction with conditional graph logic network. Advances in Neural Information Processing Systems, 8872–8882.
Zhou, Y., Hou, Y., Shen, J., Huang, Y., Martin, W., & Cheng, F. (2020). Network-based drug repurposing for novel coronavirus 2019-nCoV/SARS-CoV-2. Cell Discovery, 6(1), 1–18.
Zeng, X., Zhu, S., Liu, X., Zhou, Y., Nussinov, R., & Cheng, F. (2019). deepDR: a network-based deep learning approach to in silico drug repositioning. Bioinformatics, 35(24), 5191–5198.
Zhou, Y., Wang, F., Jian, T., R., N., & Cheng, F. (2020). Artificial Intelligence in Drug Repurposing. The Lancet Digital Health.
Chen, H., Cheng, F., & Li, J. (2020). iDrug: Integration of drug repositioning and drug-target prediction via cross-network embedding. PLoS Computational Biology, 16(7), e1008040.
Cheng, F., Kovács, I. A., & Barabási, A.-L. (2019). Network-based prediction of drug combinations. Nature Communications, 10(1), 1–11.
Cheng, F., Desai, R. J., Handy, D. E., Wang, R., Schneeweiss, S., Barabási, A.-L., & Loscalzo, J. (2018). Network-based approach to prediction and population-based validation of in silico drug repurposing. Nature Communications, 9(1), 1–12.
Gysi, D. M., Valle, í. D., Zitnik, M., Ameli, A., Gan, X., Varol, O., Sanchez, H., Baron, R. M., Ghiassian, D., Loscalzo, J., & others. (2020). Network medicine framework for identifying drug repurposing opportunities for covid-19. ArXiv Preprint ArXiv:2004.07229.
Zhou, Y., Hou, Y., Shen, J., Kallianpur, A., Zein, J., Culver, D. A., Farha, S., Comhair, S., Fiocchi, C., Gack, M. U., & others. (2020). A Network Medicine Approach to Investigation and Population-based Validation of Disease Manifestations and Drug Repurposing for COVID-19. ChemRxiv.
近年來,圖表示學習的研究激增,包括深度圖嵌入(deep graph embeddings)技術、卷積神經網絡對圖結構數據的泛化以及受置信傳播啟發的神經信息傳遞方法。
與此同時,圖表示學習的這些進步促成了許多領域的最新成果,包括化學合成、3D 視覺、推薦系統、問題解答和社交網絡分析等。
加拿大麥吉爾大學計算機科學助理教授 William Hamilton 的《圖表示學習》(Graph Representation Learning)報告系統性介紹最新圖表示學習的進展。
隨著機器學習在各種應用領域的顯著成功,我們正目睹越來越多的人對機器學習在藥物發現和開發中的應用感興趣。
在本教程中,我們將介紹機器學習在過去幾年中取得的關鍵進展,并強調這些進展在藥物開發中帶來的根本性的新機遇。我們感興趣的是這些進步為什么以及如何幫助完成與藥品有關的任務。我們通過六個關鍵任務詳細闡述了機器學習在藥物開發中的應用:(a)合成預測和新藥設計,(b)分子性質預測,(c)虛擬藥物篩選和藥物靶標相互作用,(d)臨床試驗招募,(e)藥物再利用,(f)藥物不良反應和多用藥。
我們討論這些關鍵藥物相關任務的方法背后的理論基礎,闡明基于不同配方的各種方法,并總結代表性的應用。我們將涵蓋生成模型、強化學習以及深度表示學習和嵌入方面的最新進展。為此,我們提出了一個用于端到端藥物開發的人工智能算法工具箱。
藥物的發現和開發是一個漫長而昂貴的過程。它通常從分子和目標的實驗發現開始(即藥物從頭設計),并在轉入臨床試驗之前通過細胞系、類器官和動物的體外實驗驗證發現。一種新藥從發現到監管機構批準的整個過程可能需要長達12年,成本高達28億美元。此外,每個藥物開發階段都存在巨大的不確定性(1:50 000的成功率)。
機器學習方法已成為解決這些挑戰和加速藥物開發的一種有前途的工具。本教程將介紹以下與藥物相關的主要任務:
合成預測和藥物從頭設計(即從頭設計一個全新的分子)的目的是生成化學上正確的結構,以協助復雜的分子合成。
分子特性預測的目的是通過預測分子特性,如效力、生物活性和毒性,從分子數據來確定分子的治療效果。
虛擬藥物篩選和藥物靶標識別的目的是預測藥物如何通過與靶標蛋白結合并影響其下游活性來影響人體。
臨床試驗招募的目的是找到合適的醫生幫助進行試驗,以及找到合格的患者參與試驗。
藥物再利用尋求通過藥物化學、目標和藥物與疾病之間的副作用相似性來發現已知藥物以及新分子的新用途。
藥物不良反應、多重用藥和藥物-食品相互作用預測的目的是預測藥物不良反應產生的機制,建議替代藥物成員的預期藥理作用沒有負面的健康影響,并預測食品成分對相互作用藥物的影響。
然后,我們將討論解決這些與毒品有關的任務的主要方法:
生成模型。我們重點研究了適用于新分子設計的變分自編碼器(VAE)和生成對抗網絡(GAN)。他們以已知治療性質的以直線或圖形為基礎的化合物表示為輸入,將化合物編碼為潛在空間,然后解碼為新的藥物樣品。
強化學習。我們主要討論策略梯度法,最先進的分子生成方法,可以結合特定領域的分子合成知識。
深度表示學習。我們提出主要的神經體系結構學習表示藥物相關的數據。這些方法是相關的,因為它們在與藥物有關的任務中達到了最先進的性能。例如,這些方法被用于自動學習藥物指紋,學習藥物蛋白結合親和力,并招募患者參加臨床試驗。此外,圖嵌入方法用于研究藥物組合,并預測藥物效應,因為藥物擴散到生物網絡中,超出了它們直接結合的分子。
目錄內容:
【導讀】圖表示學習是當下研究的熱點之一。HEC 蒙特利爾大學商學院助理教授唐建唐建博士最近總結了《圖表示學習》研究進展,總結了他和組里學生們和這些年來在圖表示學習方向上比較重要的工作。非常值得學習!
唐建博士自2017年12月起擔任Mila(魁北克AI研究所)和HEC Montreal的助理教授。他是加拿大CIFAR第一批人工智能主席(CIFAR AI Research Chair)。他的研究方向是深度圖表示學習,在知識圖譜、藥物發現和推薦系統等領域有著廣泛的應用。他是密歇根大學和卡內基梅隆大學的研究員。他在北京大學獲得博士學位,并在密歇根大學做了兩年的訪問學者。他在微軟亞洲研究院做了兩年的研究員。他在圖表示學習(如LINE、LargeVis和RotatE)方面的工作得到了廣泛的認可。他獲得了ICML ' 14的最佳論文獎和WWW ' 16的最佳論文提名。
個人主頁: //jian-tang.com/
圖表示學習:算法與應用
圖在現實世界中是無處不在的,涵蓋了從社交網絡、推薦系統、知識圖譜、計算機視覺和藥物發現等各種應用。要分析圖數據,一個重要的先決條件是要有有效的圖數據表示,這在很大程度上決定了大多數下游任務的性能。在本報告中,我將介紹圖的學習表示的最新進展,如節點表示學習、圖的可視化、知識圖譜的嵌入、圖的神經網絡、圖的生成及其在各種任務中的應用。
地址: