亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

**數字化、大規模和高通量技術的出現產生了前所未有的數據,為今天的藥物發現利用機器學習(ML)提供了一個極好的機會。**通過識別ML中的相關問題和合適配置,我們可以將這些不斷增加的數據轉化為發現更好的藥物,并縮短藥物開發周期,從而為以前無法治愈的疾病提供更便宜的藥物和治療選擇。**本文提出了四種機器學習方法來解決當今藥物研發流程中的不同挑戰,以快速為臨床試驗提供更可行的藥物候選,并最終改善所有人的生活質量。**本文提出一種批均衡方法,利用風格遷移生成對抗網絡來調節細胞圖像中常見的批效果,以便可以更有效地將它們用于高通量體外篩選。描述了一個能量啟發的SE(3)等變模型,以高效和準確地估計分子構象的分布,從而可以提高基于硅結構的篩選的準確性。提出了一個用于目標感知分子生成的3D全原子擴散框架,可以探索現有篩選庫之外的新化學,并提出新的藥物候選以結合挑戰性疾病的靶點。描述了一種反應預測算法,將基于規則的系統(整數線性規劃)和數據驅動的方法(圖神經網絡)結合在一起,可以從所描述的篩選管道或生成模型中有效地合成候選藥物。最后,我們使用圖神經網絡對氣味分子(而不是藥物)進行建模,并找到許多物種共享的通用氣味空間。我們假設,新陳代謝的生物學驅動了這種趨同進化,我們對這些與不同代謝過程相關的揮發性有機化合物的建模能力,可能對我們如何理解動物嗅覺和研究人類健康有很大的影響。綜上所述,本文展示了機器學習在大數據時代改變藥物發現和人類健康的潛力。

付費5元查看完整內容

相關內容

“機器學習是近20多年興起的一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等多門學科。機器學習理論主要是設計和分析一些讓 可以自動“ ”的算法。機器學習算法是一類從數據中自動分析獲得規律,并利用規律對未知數據進行預測的算法。因為學習算法中涉及了大量的統計學理論,機器學習與統計推斷學聯系尤為密切,也被稱為統計學習理論。算法設計方面,機器學習理論關注可以實現的,行之有效的學習算法。很多 問題屬于 ,所以部分的機器學習研究是開發容易處理的近似算法。” ——中文維基百科

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

2022年10月28日,來自巴基斯坦的研究團隊在期刊Journal of Biomolecular Structure and Dynamics上發表綜述論文Deep learning in drug discovery: a futuristic modality to materialize the large datasets for cheminformatics。論文全面總結了人工智能方法在藥物發現中的應用,并針對Covid-19的藥物發現過程進行了詳細的分析。

1 摘要

人工智能的發展模仿了人腦的工作原理來理解現代問題。傳統的方法,如高通量篩選(high-throughput screening, HTS)和組合化學,由于只能處理較小的數據集,這對制藥業來說是漫長而昂貴的。深度學習是一種精巧的人工智能方法,它可以對特定系統進行全面的理解。

目前,制藥業正在采用深度學習技術來加強研究和開發過程。多向算法在QSAR分析、藥物從頭設計、ADME評估、物理化學分析、臨床前開發,以及臨床試驗數據精確性方面發揮著至關重要的作用。在這項研究中,作者調查了多種算法的性能,包括深度神經網絡(deep neural networks, DNN)、卷積神經網絡(convolutional neural networks, CNN)和多任務學習(multi-task learning, MTL)。研究表明,卷積神經網絡、循環神經網絡和深度信念網絡(deep belief network)對于藥效學屬性的分子描述是兼容的、準確的和有效的。在Covid-19中,現有的藥理化合物也已經使用深度學習模型進行了重新設計。在沒有Covid-19疫苗的情況下,藥物瑞德西韋(remdesivir)和藥物奧司他韋(oseltamivir)已被廣泛用于治療嚴重的SARS-CoV-2感染。總之,這些結果表明了在藥物發現過程中采用深度學習策略的潛在好處。

2 介紹

20世紀末,化學信息學被引入藥物研發過程。濕實驗方法開發藥物成功率低、耗時長、花費高,藥物研發過程轉向了新的范式。通常,生成精確的先導化合物,且具有良好的吸收、分布、代謝、排泄、毒性(ADMET)性質和物理化學性質是該行業面臨的最大挑戰。計算工具有提高藥物開發過程的分析準確性的潛力。計算機輔助基于結構的藥物設計(structure-based drug design, SBDD)和基于配體的藥物設計(ligand-based drug design, LBDD)方法在計算藥物設計過程中占有一席之地。

多年以來,機器學習方法被用于不同的領域,但存在冗余和過擬合等問題。這些問題阻礙了機器學習模型的應用。2006年,Hinton等人設計了一個深度信念網絡(deep belief network, DBN)。DBN由一組非線性隱藏層組成。它有助于克服冗余和過擬合問題。在深度學習中,Frank Rosenblatt于1957年首次創建了神經網絡模式,并將其稱為深度神經網絡(deep neural network, DNN)。神經網絡如今可以處理以前不可能的圖像識別問題。監督學習、無監督學習和半監督學習是使用基于梯度下降的反向傳播策略來克服冗余和過擬合問題的常用工具。

2.1 醫療中的深度學習

人工智能技術可以應用于醫療領域的很多方面(如圖1所示),并被認為有助于醫生的臨床診斷。在心臟病學、糖尿病、視網膜病變、抗生素耐藥基因和阿爾茨海默病研究中,各種深度學習模型被開發用于預測疾病狀況和藥物的療效。已有研究模型可以精確地將心肌病分為限制性和收縮性病理。除了心血管、代謝和其他疾病,人工智能還可以改善腫瘤診斷。深度學習模型有效地指示了新冠肺炎模式,并對疾病進行了分類。

 圖1 深度學習在藥物發現和生物標志物開發中的潛力。每個藥物發現時期的深度學習算法應用,包括臨床評估、生物過程結合、化學修飾和開發、化合物的新合成。

2.2 藥物設計中的深度學習

深度學習是機器學習的一個子類,更廣泛地說是人工智能的一個子類。在機器學習中,新特征的處理和生成通常基于小數據集,通過支持向量機(SVM)、隨機森林(RF)、k最近鄰(KNN)、線性回歸、邏輯回歸、樸素貝葉斯、決策樹等算法進行處理,這些算法僅在二分類中進行。人工神經網絡(artificial neural network, ANN)是人工智能的最簡單形式,如圖2所示。ANN由2-3層組成,包括單個輸入層和隱藏層,然后是作為神經元的單個輸出層。深度學習將大腦功能模擬為ANN。它包含一組多個隱藏層以提取所需信息。深度學習是一個自動化過程,使用圖形處理單元(GPU)和張量處理單元(TPU)加速來確保計算任務的自動化。為了執行專門的任務,深度學習中的開源編程語言包括torch、Deeplearning4j、CNTK、python和R。深度學習可分為監督學習、無監督學習和強化學習。卷積神經網絡(CNN)已經應用于自然語言處理(NLP)、圖文摘要、圖像分類和語音識別。CNN由三個基本層組成,稱為卷積層、池化層和全連接層。CNN通過稀疏連接和共享權重融入卷積層提取特征。池化層完善了魯棒性特征,并通過全連接層生成輸出數據。另一方面,DNN架構是一種前饋算法,可以從輸入數據中提取復雜特征,并將其映射到輸出模式中。DNN有多個隱藏層網絡,可以自動處理輸入數據。深度生成算法(deep generative algorithm, DGA)模型是一種基于無監督學習結構的模型,可以從高維輸入數據源中提取未標記的數據。深度信念網絡(DBN)和受限玻爾茲曼機器(RBM)是類似模型的例子。循環神經網絡(RNN)不僅基于輸入數據,還基于先前事件的輸入序列。RNN通過將單個元素保存在在隱藏層單元中并連接相鄰的隱藏節點來為序列數據處理提供預測。RNN使用反向傳播訓練以最小化模型中的誤差。長短期記憶神經網絡(LSTM)是RNN另一種變體。這都是藥物設計和開發過程中最常見的算法。

圖2 (A)淺層人工神經網絡(淺路徑)和(B)深層神經網絡之間的區別。

3 QSAR預測

Neves等人2018年開發一種經濟、快速且高效的工具建模定量結構-活性關系(quantitative structure–activity relationship, QSAR)。該方法廣泛應用于預測定量結構-活性關系,其基于化學結構的描述性統計。高通量篩選通過為精確篩選提供豐富的數據,提高了QSAR的有效性。由于提取新的苗頭化合物的高成本,HTS的使用受到限制。QSAR存在活性懸崖問題。雖然對特定蛋白質靶標具有活性,但結構相似的化合物在抑制潛力方面表現出差異,并改變了QSAR反應。出現這個問題的原因可能是工具選擇了效率低的描述符,也有可能是學習只是在淺層中進行。深度學習模型在QSAR評估過程中緩解了此類問題。深度神經網絡模型中高效開發的算法有可能克服活性懸崖、不準確和其他與QSAR方法有關的問題。因此,深度學習模型廣泛應用于QSAR預測,如AtomNet。它是一種基于深度卷積神經網絡的方法,可以從一個獨特的層面預測具有更好結合模式的新化合物。它針對在57%以上的靶標,對于AUC指標顯示出0.9(滿分1)的精度,這高于已知的對接模型。其優于先前使用的RF和SVM模型,證明了深度學習模型在確定化學結構生物活性特征方面的能力。

4 藥物從頭設計

藥物從頭設計是一種基于特定靶標所需特征構建新化學實體的計算技術。深度學習模型,改進了從頭開始的過程。一些算法提高這些模型的效率,如強化學習在碳和氮原子位置交換、優化分子性質和手性化合物形成方面具有優勢,可以提高發現苗頭化合物的效率。2019年,Niclas Stahl等人使用強化學習生成了2,048,000個化學結構,其中387個化合物含有所需的理想性質和分子特征。該模型基于365,521個化學結構進行訓練。較大的數據集增強了強化學習在選擇最佳分子特征方面的學習能力。該模型表明,大數據集提高了模型設計發現具有良好特征的新化合物的效率。

除了基于RL的模型,基于RNN的模型也被用于藥物從頭設計。有研究者將ChEMBL數據庫中的50,000,000個SMILES格式的化合物輸入RNN模型中開發新分子。該技術生成的864,880個化合物與輸入數據和重復數據沒有任何相似性。基于RNN的深度生成方法也可利用SMILES進行藥物從頭合成,如基于生成對抗網絡(generative adversarial networks, GANs)和變分自動編碼器(variational autoencoders, VAEs)。另外,多任務學習可以同時篩選合成化合物的多個化學性質,已有研究者將其應用于藥物從頭設計中。

5 ADME屬性

吸收(Absorption)、分布(Distribution)、代謝(metabolism)和排泄(excretion),是被認為是藥物開發過程的重要評估參數的藥代動力學屬性(見圖3)。英國GlaxoSmithKline公司開創了成功的計算ADME建模。多任務學習被認為是藥物開發過程中的一種有優勢的模式。有研究者開發了多任務的圖神經網絡模型、多種機器學習工具結合方法用于預測化合物的ADME屬性。

 圖3 深度學習算法在藥物發現中的應用,包括從頭藥物設計、理化性質預測、藥物親和力預測、QSAR、ADME性質預測、毒性分析,以及最新應用于SARS-CoV-2的藥物發現。

6 毒性預測

化合物在表現出治療效果的同時,也可能對細胞體具有毒性作用。2014年,美國國家衛生研究院針對12,000種化合物的計算模型發起了Tox21挑戰。其選擇了650種化合物進行驗證,主要針對與毒性問題高度相關的核受體信號通路(nuclear receptor signaling pathway, NR)和應激反應(stress response pathway, SR)通路。深度學習在機器學習和高通量篩選技術中表現最佳。隨后,一場使用深度學習的比賽被舉辦。化合物中的毒物基團識別是篩選性質的主要任務,如電子供體/受體、芳香環或疏水區。在比賽中,有研究者使用擴展連接性指紋-4(extended connectivity fingerprint-4, ECFP4)進行化合物特征的二進制表示。多任務學習方法學習到了Tox21挑戰數據中的獨特特征,并從模型學習到細小特征(如磺酰基和毒性基團簇),接著提取了層次化的抽象特征。該模型在Tox21數據挑戰的所有工具中處于領先地位,成功完成了15項任務中的8項。在Tox-21挑戰之后,研究者開始了更廣泛的探索,以發現更小的毒性結構。另外,也有研究者結合隨機森林模型和DNN模型來提取毒性基團的特征。也有研究將遺傳算法融入KNN分類模型中以選擇相關描述符,來計算分子描述符的毒性分布。

7 物理化學性質

藥物動力學參數的準確評估和預測對藥物發現和開發過程有積極作用。深度學習模型在預測化合物的物理化學參數有著諸多應用。如,Moonshik Shin等人使用FDA推薦的人類結直腸癌細胞系(Caco-2)的深度神經網絡模型來確定化合物的滲透性和藥物轉運性質。他們使用了兩名獨立研究人員提供的SMILES字符串。663種化合物用于訓練和驗證深度學習模型,剩余的用于測試模型的準確性;其還與目前使用的計算模型進行了比較,主要有:基于隱含狄利克雷分配(latent dirichlet allocation, LDA)的分類器和基于梯度增強(gradient boost, GBT)的分類器。深度神經網絡模型取得了不錯的表現。 在水溶性、親脂性、電離常數pKa等性質的預測中,研究者也提出了諸多深度學習模型,例如深度學習模型在pka值的預測中產生了顯著的結果。由于分子中存在多個離解/電離位點,這種預測對于其他模型都不方便。一項研究引入了人工神經網絡模型,其基于大量數據集訓練,并用少量數據集進行測試模型的準確性,發現該模型優于pka分析的傳統計算方法。

藥物-靶標結合是篩選化合物的基本過程。藥物-靶標結合基于結構起作用,藥物需要與靶蛋白的3D結構進行相互作用,而基于配體的結合通過已知抑制化合物的實驗數據處理相互作用模式。原子卷積神經網絡(Atomic Convolutional Neural Network, ACNN)是最新開發的基于原子CNN的工具,它分層提取空間特征。對于深度學習在物理化學性質預測方面的應用可以詳見圖4。

 圖4 示例一個包含人工智能和深度學習方法的探索藥物設計過程。1. 化合物數據庫:PubChem包含247百萬化合物,ZINC包含230百萬化合物,TargetMol包含約5000自然分子。2. 從頭化合物設計,通過計算方法設計特定靶標的化合物實體。3. QSAR:根據化合物分子的結構分析其生物屬性。4. 物理化學屬性:確定藥物分子屬性水溶性(aqueous)、親脂性(lipophilicity)、pKa和親和力(drug affinity)的相容性。5. ADMET:藥物的藥代動力學參數,如吸收、分布、代謝、排泄和毒性。6. 濕實驗合成。7. 體外細胞實驗。8. 體內分析和臨床前實驗。9. 臨床試驗:評估安全性,確定劑量,鑒別副作用,評估效用,與已市場化藥物比較。

8 深度學習對防治傳染病的意義

傳染病是由細菌、病毒和真菌等微生物引起的。隨著數學工具的引入,研究人員現在能夠更好地預測流行病,理解每種傳染病的特征,并確定可能的治療靶標。本文回顧了一些算法,以證明深度學習在推動傳染病抑制劑研究的應用。作者重點介紹了新冠肺炎抑制劑的相關研究,其中自然語言中的注意力機制也被引入其中,建立了基于卷積神經網絡模型以研究藥物-靶標相互作用(見圖5),模型基于大量的化合物庫進行訓練,部分數據庫如表1所示。

 圖5 一個典型的CNN模型由文本層(text layer)、卷積層(convolutional layer)和池化層(pooling layer)組成,其可以從給定數據中提取特定的特征。通過多層相互作用的密集網絡,整合FASTA格式的靶標蛋白和SMILES格式的潛在化合物。

表1 可用于現代計算技術和深度學習方法化學/藥物分子的化合物數據庫

9 結論

人工智能正成為人類發展的基本組成部分,深度學習正通過逐步和穩定的潛力發展到科學領域,以推進開發可用的計算工具。新興的深度學習工具對當前技術領域中可用于制藥的方法提出了挑戰。這些工具的目標是從現有的化學空間從頭設計和開發化合物。論文介紹的數據庫是基礎化學數據的豐富來源。對于QSAR方法中的問題,如活性懸崖形成鹽橋(activity cliffs forms salt bridge),AtomNet為靶標預測了更好的結合親和力的藥物。除了AtomNet,遺傳算法和其他一些工具也有助于預測配體和受體的對接分數。循環神經網絡、強化學習、深度信念網絡和生成對抗網絡等技術已被用于從頭化合物生成,并報告了更好的H-供體(H-donors)、H-受體(H-acceptors)、可旋轉鍵(rotatable bonds)、logP和總極性表面積(total polar surface area),這對于化學物作為候選藥物的適用性至關重要。深度學習預測和開發具有這些性質的化合物的性能似乎與現有工具相當。藥物研發的另一個最重要的性質是其化合物的ADME性質。多任務學習和圖神經網絡已被應用于預測這些性質。這些模型在識別實質性候選化合物及其改善作用方面發揮了潛在作用,這些化合物有成為成功的藥物分子的潛力。這些方法顯示的另一個重要方面是預測物理化學性質的可靠性。圖神經網絡、基于隱含狄利克雷分配的模型、深度神經網絡等一些算法已經成功地用于預測水溶性、親脂性和pka的活性。深度學習方法最可靠的服務是其應用在SARS-CoV-2大流行中的最新方法,該方法影響了世界各地的重要人群。這些方法優于傳統方法,并發現了幾種針對新冠肺炎靶標的新型藥物化合物。盡管與傳統技術相比,計算方法的結果稍好一些,但其局限性迫使研究者試圖尋找潛在候選方案。因為它在某些方面被認為是一個黑盒子,但呈現的結果正在變得可靠。人工智能技術的成果正在浮出水面。參考資料Raza A, Chohan T A, Buabeid M, et al. Deep learning in drug discovery: a futuristic modality to materialize the large datasets for cheminformatics[J]. Journal of Biomolecular Structure and Dynamics, 2022: 1-16.

付費5元查看完整內容

機器學習方法已經廣泛應用于藥物發現領域,使得更強大和高效的模型成為可能。在深度模型出現之前,建模分子在很大程度上是由專家知識驅動的;為了表現分子結構的復雜性,這些手工設計的規則被證明是不夠的。深度學習模型是強大的,因為它們可以學習問題的重要統計特征——但只有正確的歸納偏差。我們在兩個分子問題的背景下解決這個重要的問題:表征和生成。深度學習的典型成功在于它能夠將輸入域映射到有意義的表示空間。這對于分子問題尤其尖銳,分子之間的“正確”關系微妙而復雜。本論文的第一部分將重點討論分子表征,特別是性質和反應預測。在這里,我們探索了一種用于分子表示的Transformer式架構,提供了將這些模型應用于圖形結構對象的新工具。拋開傳統的圖神經網絡范式,我們展示了分子表示原型網絡的有效性,它允許我們對分子的學習性質原型進行推理。最后,我們在改進反應預測的背景下研究分子表示。本論文的第二部分將集中在分子生成,這是至關重要的藥物發現作為一種手段,提出有前途的藥物候選人。我們開發了一種新的多性質分子生成方法,通過首先學習分子片段的分布詞匯。然后,利用這個詞匯,我們調查了化學空間的有效探索方法。

//dspace.mit.edu/handle/1721.1/143362

機器學習已經迅速改變了藥物發現的傳統渠道,為過程的每一步提供了新的工具。許多傳統上需要廣泛、專業領域知識的問題已經通過深度學習工具解決,使它們更高效、更廉價。先前的化學信息學方法使用許多手工設計的規則來建模小分子。這些技術被用于解決諸如性質預測之類的問題,其中的任務是預測分子的性質。然而,試圖解決這些表示問題的傳統方法由于其不靈活的特性而缺乏良好的泛化能力。深度學習模型的變革性方面在于模型直接從數據中學習和提取重要特征的能力。然而,這只有在正確的結構偏差和模型基礎上的建模假設下才可能實現。在分子問題上天真地應用深度方法會限制模型的能力或有用性,阻礙它們的推廣能力和在實踐中的有用性。因此,利用正確的歸納偏差的重要性不能被低估。

在深度學習方法出現之前,分子建模需要繁重的工程和固定的表示,通常被稱為定量構效關系(QSAR)方法。在這些方法中,指紋技術是非常受歡迎的,大致可以分為基于結構的[30]、拓撲[1]、循環[8]和藥效團指紋等幾種類型[91]。其中一些指紋(如基于結構的MACCS[30]指紋)是高度特定的表示,由一組固定的預定義結構的指示函數組成。其他的指紋,拓撲的和圓形的,其中包括摩根指紋更靈活。這些指紋通過枚舉路徑或環形鄰域來捕獲局部拓撲。然而,問題仍然存在于生成方法的確定性本質中:如果這些預定義規則沒有為任務捕獲正確的表示,它們將不能很好地工作。例如,對于許多小分子問題來說,性質懸崖(property cliff)仍然是一個具有挑戰性的問題,這是一種類似分子表現出不同性質的現象。這個問題對于分子指紋尤其尖銳,因為特征是固定的。然而,使用深度模型也不能解決這個問題,因為深度模型很容易與數據過度擬合,并且提供較差的泛化。

因此,我們的深度學習模型納入正確類型的結構偏差是至關重要的。圖神經網絡通過迭代聚合方案進行操作,在每一步,節點從其鄰居聚合信息。依次,一個節點應該包含越來越多的關于更大的鄰域的信息。節點表示最終聚合為表示圖的單個向量。雖然這種簡單的范式有時是有效的,但可能并不總是包含正確的分子任務類型的偏見。例如,當考慮分子的特性時,這種局部鄰域聚集可能無法捕捉到很重要的遠程依賴關系。更重要的是,也許在二維分子圖上的聚集并不適合理想的分子表示,我們應該觀察三維結構。對于分子的深度模型的發展有許多考慮,但它們需要正確的結構才能有效。指紋表示很簡單,但不靈活,經常涉及很多人類設計的規則。另一方面,深度模型很容易過擬合,無法捕捉正確的結構表示。

付費5元查看完整內容

最近,以人工智能(ai)為基礎的新藥開發大幅縮短了新藥開發的時間和成本,因此備受關注。隨著深度學習(DL)技術的進步和藥物相關數據的增長,許多基于深度學習的方法正在藥物開發過程的所有步驟中出現。尤其值得一提的是,藥物化學家面臨著選擇和設計潛在藥物以進行臨床前試驗的重大問題。兩個主要的挑戰是預測藥物和可藥物靶點之間的相互作用,以及生成適合感興趣靶點的新分子結構。因此,我們回顧了近年來深度學習在藥物-靶點相互作用(DTI)預測和藥物從頭設計方面的應用。此外,我們還介紹了各種藥物和蛋白質表示、DL模型以及用于模型訓練和測試的常用基準數據集或工具的全面總結。最后,我們提出了未來基于dl的DTI預測和從頭設計藥物的剩余挑戰。

//www.ncbi.nlm.nih.gov/pmc/articles/PMC8470987/

付費5元查看完整內容

人工智能已應用于藥物設計的各種方面,如藥物-蛋白質相互作用預測、藥物療效的發現、確保安全性生物標志物。本綜述提供了在藥物開發的各個階段通過ML工具和技術發現藥物的可行文獻,以加速研究過程,降低臨床試驗的風險和支出。機器學習技術改進了在不同應用中的藥物數據決策,如QSAR分析、hit發現、從頭藥物架構檢索準確的結果。在本綜述中,靶點驗證、預后生物標志物、數字病理學都被認為是存在問題的。ML挑戰必須適用于可解釋性結果不足的主要原因,這可能會限制藥物發現中的應用。在臨床試驗中,必須生成絕對數據和方法學數據,以解決在驗證ML技術、改進決策、提高ML方法的意識以及推斷藥物發現中的風險失敗方面的許多難題。 //pubmed.ncbi.nlm.nih.gov/34393317/

付費5元查看完整內容

為藥物開發人員而不是計算機科學家寫的,這一專論采用了一種系統的方法來挖掘科學數據源,涵蓋了從化合物篩選到先導化合物選擇和個性化藥物的合理藥物發現的所有關鍵步驟。第一部分明確地分為四個部分,討論了不同的可用的數據來源,包括商業和非商業的,而下一節著眼于數據挖掘在藥物發現中的作用和價值。第三部分比較了多藥理學最常見的應用和策略,其中數據挖掘可以大大提高研究工作。書的最后一部分是致力于復合測試的系統生物學方法。

在整本書中,工業和學術藥物發現策略被處理,貢獻者來自兩個領域,使一個知情的決定,何時和哪些數據挖掘工具使用自己的藥物發現項目。

一般來說,從數據庫中提取信息稱為數據挖掘。數據庫是一種數據集合,其組織方式允許方便地訪問、管理和更新其內容。數據挖掘包括數字和統計技術,可以應用于許多領域的數據,包括藥物發現。數據挖掘的功能定義是使用數值分析、可視化或統計技術來識別數據集中重要的數值關系,從而更好地理解數據并預測未來的結果。通過數據挖掘,我們可以得到一個模型,該模型將一組分子描述符與諸如功效或ADMET特性等生物關鍵屬性聯系起來。所得模型可用于預測新化合物的關鍵屬性值,為后續篩選確定優先級,并深入了解化合物的構效關系。數據挖掘模型范圍從簡單的、由線性技術導出的參數方程到復雜的、由非線性技術導出的非線性模型。文獻[1-7]提供了更詳細的信息。

這本書分為四個部分。第一部分涉及藥物發現中使用的不同數據來源,例如,蛋白質結構數據庫和主要的小分子生物活性數據庫。第二部分重點介紹數據分析和數據豐富的不同方法。在這里,我們提出了對HTS數據挖掘和識別不同目標命中的工業見解。另一章展示了強大的數據可視化工具在簡化這些數據方面的優勢,從而促進了它們的解釋。第三部分包括多種藥理學的一些應用。例如,在化學基因組學時代,數據挖掘可以為配體分析和目標捕捉帶來積極的結果。最后,在第四部分,系統生物學方法被考慮。例如,讀者被介紹到綜合和模塊化分析方法,以挖掘大分子和表型數據。結果表明,該方法能夠降低高維數據的復雜性,并為整合不同類型的組學數據提供了一種方法。在另一章中,建立了一套新的方法,定量地衡量化學品對生物系統的生物影響。

付費5元查看完整內容

圖機器學習(GML)因其建模生物分子結構、它們之間的功能關系以及整合多組數據集的能力而受到制藥和生物技術行業越來越多的關注。在此,我們提出了一個關于藥物發現和研發多學科的學術-工業綜述的主題。在介紹了關鍵術語和建模方法之后,我們按時間順序介紹了藥物開發流程,以確定和總結工作包括: 靶標識別、小分子和生物制劑的設計,以及藥物的重新利用。盡管該領域仍處于新興階段,但關鍵的里程碑,包括重新用途的藥物進入體內研究,表明GML將成為生物醫學機器學習的建模框架選擇。

引言

從藥物發現到上市,平均超過10億美元,可能持續12年或更長時間[1 - 3]; 由于高流失率,很少有人能在10年內進入市場[4,5]。整個過程的高損耗不僅使投資不確定,而且需要市場批準的藥物為早期的失敗買單。盡管在過去十多年里,整個行業都在關注效率問題,同時也受到了一些出版物和年度報告的推動,這些報告強調了終結排他性和生產率下降會導致收入下降,但事實證明,在科學、技術和監管變革的背景下,明顯的改善是難以實現的。由于上述原因,現在人們對運用計算方法來加快藥物發現和研發管道[6]的各個部分更感興趣,見圖1。

數字技術已經改變了產生大量數據的藥物研發過程。變化范圍從電子實驗室筆記本[7],電子法規提交,通過增加實驗室、實驗和臨床試驗數據收集[8],包括設備的使用[9,10],到精準醫療和“大數據”[11]的使用。收集到的關于治療的數據遠遠超出了研發范圍,包括醫院、專家和初級保健醫療專業人員的患者記錄——包括從社交媒體上獲取的觀察數據,例如藥物警戒數據[12,13]。通過可重復使用藥物的數據庫,有無數的在線數據庫和其他信息來源,包括科學文獻、臨床試驗信息[14,15]。技術的進步現在允許更大的組學分析,而不僅僅是基因分型和全基因組測序(WGS);微流體技術和抗體標記的標準化使得單細胞技術廣泛應用于轉錄組的研究,例如使用RNA-seq[16],蛋白質組(靶向),例如通過大量細胞檢測[17],甚至多種方式結合[18]。

在藥物發現過程中產生和使用的生物醫學數據的關鍵特征之一是其相互關聯的性質。這種數據結構可以用圖表示,這是一種數學抽象,在生物學的各個學科和領域中廣泛使用,以模擬在不同尺度上進行干預的生物實體之間的各種相互作用。在分子尺度上,蛋白質和其他生物分子的氨基酸殘基[19,20]和小分子藥物的組成原子和化學鍵結構[21,22]可以用圖表示。在中間尺度上,相互作用組是捕獲生物分子物種(如代謝物、mRNA、蛋白質)[23]之間特定類型相互作用的圖,其中蛋白質-蛋白質相互作用(PPI)圖可能是最常見的。最后,在更高的抽象層次上,知識圖譜可以表示電子病歷(EMR)中藥物、副作用、診斷、相關治療和檢測結果之間的復雜關系[24,25]。

在過去的十年里,兩個新興趨勢重塑了數據建模社區: 網絡分析和深度學習。“網絡醫學”范式早已在生物醫學領域[26]得到認可,借用了圖論和復雜網絡科學的多種方法,運用于生物圖,如PPIs和基因調控網絡(GRNs)。這一領域的大多數方法都局限于手工繪制的圖特征,如中心性度量和聚類。相比之下,深度神經網絡是一種特殊的機器學習算法,用于學習最優的特定任務特征。深度學習的影響在計算機視覺[27]和自然語言處理[28]方面具有開創性,但受限于對數據結構規律性的要求,局限于特定領域。在這兩個領域的收斂處是圖機器學習(GML),這是一類利用圖和其他不規則數據集(點云、網格、流形等)的結構的新ML方法。

GML方法的基本思想是學習節點29,30、邊(如預測推薦系統中的未來交互)或整個圖31的有效特征表示。特別是,圖神經網絡(GNN)[32-34],它是專為圖結構數據設計的深度神經網絡體系結構,正引起越來越多的興趣。GNN通過傳播鄰近節點的信息來迭代更新圖中節點的特征。這些方法已經成功地應用于各種任務和領域,如社交媒體和電子商務中的推薦[35-38],谷歌地圖[39]中的流量估計,社交媒體[40]中的錯誤信息檢測,以及自然科學的各個領域,包括建模流體,硬質固體,以及可變形材料相互作用[41]和粒子物理學中的事件分類[44,43]。

在生物醫學領域,GML在挖掘圖結構數據(包括藥物-靶標相互作用和通過知識圖譜嵌入進行關系預測)方面已經達到了最新水平[30,44,45];分子特性預測[21,22],包括預測吸收、分布、代謝和排泄(ADME)譜[46];靶標識別[47]到重新設計分子的早期工作[48,49]。最值得注意的是,Stokes等人利用定向信息傳遞的GNN作用于分子結構,為抗生素研發提出了可重用的候選抗生素,驗證了他們在體內的預測,從而提出了結構明顯不同于已知抗生素的合適的可重用候選抗生素。因此,GML方法在藥物開發過程中具有極大的應用前景。

結論:

  • 歷史上,生物分子相互作用和基因調控網絡的分析一直具有巨大的學術興趣,但在藥物發現和開發中可翻譯的結果有限。

  • 網絡醫學使用手工繪制的圖特征提供了很有前景的結果,但在整合不同的生物數據源的問題上缺乏任何有原則的解決方案: 結構數據(藥物和生物分子)、功能關系(抑制、激活等)和表達(RNA-seq、蛋白質組學等)。

  • 深度學習目前已應用于生物醫學研究的多個領域,特別是在生物醫學圖像(如組織病理標本)的解釋方面,實現由上級到醫生的結果。

  • 圖機器學習將網絡拓撲分析技術與深度學習技術相結合,學習有效的節點特征表示。

  • 圖機器學習已被應用于藥物發現和開發中的問題,并取得了巨大的成功,出現了一些實驗結果: 小分子設計、藥物與靶標相互作用的預測、藥物與藥物相互作用的預測和藥物的重新利用都是比簡單的非圖ML方法取得了相當大的成功和改進的任務。

付費5元查看完整內容

向量嵌入模型是現代機器學習知識表示和推理方法的基石。這些方法旨在通過在低維向量空間中學習概念和其他領域對象的表示,將語義問題轉化為幾何問題。本著這種精神,這項工作提倡基于密度和區域的表示學習。將領域元素作為幾何對象嵌入到單點之外,使我們能夠自然地表示廣度和一詞多義,進行不對稱比較,回答復雜的查詢,并在標記數據稀缺時提供強烈的歸納偏見。我們提出了一個使用高斯密度的詞表示模型,實現了概念之間的不對稱隱含判斷,以及一個基于軸對齊超矩形表示(盒)格的加權傳遞關系和多元離散數據的概率模型。我們將探討這些嵌入方法在不同的稀疏性、邊緣權值、相關性和獨立結構的適用性,以及表示的擴展和不同的優化策略。我們從理論上研究了盒格的表示能力,并提出了擴展模型來解決在建模困難的分布和圖方面的不足。

付費5元查看完整內容
北京阿比特科技有限公司