亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

由于在計算機視覺和自然語言處理等領域的成功應用,深度學習方法經歷了一場革命。在這篇論文中,我們描述了幾種利用深度學習應用于臨床前藥物發現的新方法。

首先,我們提出了一種包含基本3D信息的生成式分子連接器設計方法。在大規模測試中,我們發現我們的方法在性能上大大優于基于數據庫的方法,即之前解決這個問題的事實上的方法。通過一系列案例研究,我們展示了我們的方法在支架跳躍、片段連接和PROTAC設計中的應用。然后,我們擴展了這個框架,以包含物理上有意義的3D結構信息,為生成過程提供了更豐富的先驗,并將我們的方法應用于分子細化任務,如R-group設計。

然后我們將注意力轉向預測建模,特別是基于結構的虛擬篩選。我們發現,用于一般計算機視覺任務的卷積神經網絡(CNNs)的進展適用于基于結構的虛擬篩選。此外,我們提出了兩種技術來將領域特定的知識合并到這個框架中。首先,我們展示了對接的局限性,需要使用多姿勢評分,并演示了平均評分策略的好處。其次,利用蛋白質家族之間的差異知識,提出了一種遷移學習方法來構建蛋白質家族特定模型。

最后,我們研究了生成方法如何用于改進基于結構的虛擬篩選中使用的訓練和基準集。我們提出了一種深度學習方法,該方法根據用戶偏好的規格生成誘餌,以控制誘餌偏差或構造具有定義偏差的集合。我們表明,我們的方法顯著減少了這些集合中包含的偏差。我們驗證了我們生成的分子在基于對接的方法中分離生物活性化合物時比之前的誘餌更具挑戰性。此外,我們表明,基于CNN的基于結構的虛擬篩選方法可以訓練這些化合物。

付費5元查看完整內容

相關內容

 機器學習的一個分支,它基于試圖使用包含復雜結構或由多重非線性變換構成的多個處理層對數據進行高層抽象的一系列算法。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

自深度學習革命以來,機器學習文獻中的一個總體趨勢是大型深度模型將持續優于小型淺模型。然而,這種趨勢也帶來了計算需求不斷增加的缺點,最近許多最先進的成果所需的資源遠遠超出了頂級行業實驗室的范圍。這些問題引發了關于機器學習研究民主化的非常現實的擔憂,如果不加以解決,最終可能會導致更多的權力和財富集中在今天能夠向其人工智能研究項目投資巨額資金的機構中。

遷移學習技術是這些問題的潛在解決方案,它允許大型的、通用的模型經過一次訓練,然后在各種情況下重用,只需要最少的計算來適應它們。本文探索了遷移學習的新算法和應用,包括分層強化學習、生成式建模和計算社會科學等領域。在分層強化學習領域內,本文提出一種算法,允許在選項之間遷移(即在不同的選項之間遷移)。例如,時間上抽象的動作),用于獨立但相似的任務。在生成建模領域,我們提出了一種算法,可以在新的數據上重用現有的可逆生成模型,而不產生任何額外的訓練成本。最后,在計算社會科學領域,本文表明,可以從人類設計的模型中遷移知識,以檢測針對排名算法的惡意活動。

在這篇論文中提出的所有算法之間的共同線索是它們本質上是貝葉斯的。我們認為,貝葉斯范式自然適合于遷移學習應用,因為貝葉斯先驗可以作為適應性強的通用模型,通過推理過程可以轉換為特定任務的后驗。

付費5元查看完整內容

摘要

在計算機視覺和自然語言處理等領域的成功應用推動下,深度學習方法經歷了一場革命。在這篇論文中,我們描述了幾種將深度學習應用于臨床前藥物發現的新型方法。

首先,我們提出了一種設計分子連接物的生成方法,其中包含了基本的三維信息。在大規模的測試中,我們發現我們的方法大大超過了基于數據庫的方法。通過一系列的案例研究,我們證明了我們的方法在支架跳躍、片段連接和針對嵌合體(PROTAC)設計中的應用。然后,我們將這一框架擴展到包括物理意義上的三維結構信息,為生成過程提供更豐富的先驗,并將我們的方法應用于分子闡述任務,如R-group設計。

然后,我們將注意力轉向預測模型,特別是基于結構的虛擬篩選。我們發現用于一般計算機視覺任務的卷積神經網絡(CNN)的進展也適用于基于結構的虛擬篩選。此外,我們提出了兩種技術,將特定領域的知識納入這一框架。首先,我們表明,由于對接的限制,有必要使用多姿多彩的評分,并證明平均評分政策的好處。其次,我們提出了一種轉移學習方法,利用蛋白質家族之間的差異知識,構建蛋白質家族的特定模型。

最后,我們研究了如何使用生成方法來改善基于結構的虛擬篩選中所使用的訓練和基準集。我們提出了一種深度學習方法,根據用戶的偏好規格生成誘餌,以控制誘餌偏差或構建具有確定偏差的集合。我們表明,我們的方法極大地減少了這種集合中包含的偏差。我們驗證了我們生成的分子對于基于對接的方法來說比以前的誘餌更具有挑戰性,可以與生物活性化合物分開。此外,我們表明,基于CNN的結構化虛擬篩選方法可以在這類化合物上進行訓練。

研究動機

藥物是各種醫療狀況的關鍵治療手段,也是一個正常運作的衛生系統的重要組成部分(世界衛生組織,2010)。然而,目前有許多醫療需求,包括現有的和新出現的,現有藥物都無法滿足(Kaplan 等,2013)。最近由當前冠狀病毒大流行(COVID-19,Rosa等人,2020)引起的世界范圍內的緊急情況,進一步強調了在未滿足的醫療需求發生時迅速有效地解決這些需求的能力。

開發新的治療方法是一個極具挑戰性的多階段過程,涉及許多學科,通常需要多年才能完成。平均而言,每個新療法估計要花費15-30億美元,這取決于如何計算,(Avorn,2015;DiMasi等,2016)并需要超過十年的時間(Paul等,2010)。2008-16年,FDA平均每年批準31種新藥(U.S. Food and Drug Administration, 2018a)。這些數字沒有改善,因此,目前的做法被稱為不可持續(Moors等人,2014;安永會計師事務所,2017)。

藥物研發的大部分成本來自于失敗的高幾率,投入足夠的時間和財政資源遠不能保證成功。最近的一項研究發現,所有藥物開發項目中只有13.8%最終獲得批準,而治療罕見疾病的藥物,也被稱為 "孤兒藥",總體成功率低至6.2%(Wong等人,2018)。失敗的原因有很多,我們將在第1.3.1節詳細討論。藥物開發中的高成本和低生產率是一個長期存在的問題,對于這個問題的解決是至關重要的(Myers和Baker,2001)。

計算機輔助藥物設計(CADD)被認為有可能加速這一過程并降低開發新療法的費用(Ou-Yang等,2012)。然而,盡管在整個藥物發現工作流程中廣泛采用了計算方法,但成本仍在持續增加(DiMasi等人,2003;Avorn,2015;DiMasi等人,2016),生產率持續低下(Khanna,2012)。我們仍然非常需要新的技術和方法來徹底改變藥物發現

最近,在深度學習興起的推動下,人們對人工智能在廣泛領域的應用重新產生了興趣。雖然深度學習的許多核心原理在幾十年前就被提出來了(如Rosenblatt,1958;Fukushima,1980;Rumelhart等人,1986),但直到2012年,這些技術的力量和有效性才被證明,這就是現在所稱的 "ImageNet時刻"。在一年一度的ImageNet大規模視覺識別挑戰賽中,Krizhevsky等人(2012年)通過采用深度神經網絡,比下一個最好的競爭者高出41%。人們普遍認為,這一突破是由前所未有的標記數據的可用性和計算能力的結合而實現的。這導致基于學習的系統在圖像識別(He等人,2015)、單人游戲(Mnih等人,2015)和雙人游戲(包括圍棋(Silver等人,2016;Silver等人,2017)、國際象棋(Silver等人,2018)和《星際爭霸II》(Vinyals等人,2019)方面與人類相匹配,甚至經常超過人類。

這些進展迅速引起了化學信息學領域的注意,并報道了幾個早期的有希望的結果。2013年,深度神經網絡是默克公司分子活性挑戰中表現最好的模型(Ma等人,2015年),而在2015年的Tox21毒性數據挑戰中也取得了類似的結果(Mayr等人,2016年)。

基于學習的算法在藥物發現中有著悠久的歷史。早期的定量結構活性關系(QSAR)模型首次描述于20世紀60年代初(Hansch等人,1962),并已成為普遍現象(Salt等人,1992)。然而,傳統的機器學習和經典的統計方法通常要求目標輸入的明確特征化,如分子或蛋白質-配體復合物,以一維向量的形式(Klambauer等,2019)。這一要求導致僅在分子特性預測方面就開發了數百種描述符(例如Deng等人,2004;Zhang等人,2006;Durrant和McCammon,2011)。然而,深度學習方法的一個優勢被認為是其成功的關鍵,它能夠消除抽象的需要,并允許直接學習更多的數據類型(Klambauer等人,2019)。

最后,上面討論的QSAR模型通常是定制的模型,在一個特定的藥物發現項目的背景下,根據少量的數據構建。因此,雖然很有用,但它們并不具有普遍的適用性,而且往往不能超越具體的化學系列。在其他領域(如ImageNet,Deng等人,2009)的成功表明,通用模型的一個關鍵要求是足夠的數據(Halevy等人,2009;Sun等人,2017)。在過去的十年中,公開的分子活性和生化數據(如Kim等人,2015;Papadatos等人,2015)以及結構數據(Berman等人,2000;Burley等人,2019)數量迅速增加,這主要是由于關注度的提高和新實驗技術的出現(如高通量篩選,Inglese等人,2007)。

最近在蛋白質結構預測領域取得的成功就是一個例子,AlphaFold(Senior等人,2020)和AlphaFold 2(Jumper等人,2020)分別在CASP 13和14中的表現達到了頂峰(Kryshtafovych等人,2019),這說明了這些數據的可用性在其他方面是不可能的。雖然在將深度學習應用于藥物發現方面存在許多挑戰,這些挑戰將在第1.5節中進一步討論,但這是一個令人難以置信的發展,進一步突出了深度學習的前景。

本論文的重點是為藥物發現過程開發深度學習方法。在這一章中,我們首先討論了機器學習的幾個關鍵發展,并介紹了兩個可以在化學信息學中使用的一般深度學習方法。然后,我們簡要地總結了藥物發現過程,并討論了計算方法是如何用于藥物發現的。我們重點討論了這些方法如何被用來篩選大型虛擬化合物庫,以尋找最初的熱門分子。然后,我們描述了計算方法,特別是基于機器學習的方法,如何被用來設計新的化合物,并強調了分子設計的幾個常見挑戰。最后,我們概述了本論文的結構和主要貢獻。

機器學習在藥物發現中的挑戰

機器學習在藥物發現中的挑戰很多,橫跨所有領域,包括數據、算法、政治和實踐。在此,我們將簡要地談一談。

首先是依賴昂貴的(在時間和成本方面)實驗數據進行訓練和驗證。這與深度學習在圍棋(Silver等人,2016)或國際象棋(Silver等人,2018)等游戲中的成功形成對比,在這些游戲中,訓練數據可以在模擬中完美生成。這促使人們開發出能夠從少量數據中學習的方法(例如,少數射擊學習,Altae-Tran等人,2017)或有效利用其他可用數據(例如,轉移學習,Pan和Yang,2010;元學習,Maudsley,1979)。進一步的算法挑戰來自于生物和化學數據的性質,包括這些數據的格式(如圖表,第1.2.2節)以及固有的噪聲。

一個關鍵的挑戰是我們如何對成功進行量化。盛行的人類主導的過程遠非無懈可擊(見第1.3.2節),但目前還無法量化藥物化學的成功(Green等人,2018)。有鑒于此,算法成功的標準是什么?一些人告誡說,不要把計算方法的門檻定得太高(Green等人,2018)。

最后,實現機器學習方法的全部影響將需要投入大量的資源。在真實世界的藥物發現項目中進行實驗驗證是評估機器學習在藥物化學中的貢獻和確定需要改進的領域的關鍵下一步。

論文大綱

在本章中,我們強調了藥物發現所面臨的挑戰,并促使機器學習的應用成為一種部分解決方案。我們討論了幾個關鍵的機器學習方法在藥物發現中的應用。在這篇論文中,我們描述了幾種利用深度學習應用于臨床前藥物發現的新型方法學。

在第二章中,我們提出了一種生成方法來設計分子連接物,其中包含了基本的三維信息。在大規模的測試中,我們發現我們的方法大大超過了基于數據庫的方法,也就是以前解決這個問題的事實方法。通過一系列的案例研究,我們展示了我們的方法在支架跳躍、片段連接和PROTAC設計中的應用。

在第三章中,我們擴展了我們的連接物設計框架,以納入物理意義上的三維結構信息,為生成過程提供更豐富的先驗。此外,我們證明了我們的方法可以應用于分子闡述任務,如R組設計,只需改變訓練集,無需對方法進行其他修改。

在第四章中,我們將注意力轉向預測性建模和基于結構的虛擬篩選。我們發現,用于一般計算機視覺任務的CNN方法的進展也適用于SBVS。此外,我們提出了兩種技術來將特定領域的知識納入這個框架。首先,我們表明,由于對接的限制,有必要使用多姿多彩的評分,并證明了平均評分政策的好處。其次,我們提出了一種轉移學習方法,利用蛋白質家族之間的差異知識,構建蛋白質家族的特定模型。

在第五章中,我們研究了如何使用生成方法來改進SBVS中使用的訓練和基準集。我們提出了一種深度學習方法,該方法可以根據用戶的偏好規格生成誘餌,以控制誘餌的偏差或構建具有定義偏差的集合。我們表明,我們的方法大大減少了這種集合中包含的偏見。我們驗證了我們生成的分子對于對接方法來說比以前的誘餌更具有挑戰性,可以與活性物質分離。此外,我們表明,基于CNN的SBVS方法可以在這類化合物上進行訓練。

最后,在第六章,我們總結了這項工作的結果。我們討論了主要的結論,并描述了本論文以后可能開展的工作。

付費5元查看完整內容

機器學習方法已經廣泛應用于藥物發現領域,使得更強大和高效的模型成為可能。在深度模型出現之前,建模分子在很大程度上是由專家知識驅動的;為了表現分子結構的復雜性,這些手工設計的規則被證明是不夠的。深度學習模型是強大的,因為它們可以學習問題的重要統計特征——但只有正確的歸納偏差。我們在兩個分子問題的背景下解決這個重要的問題:表征和生成。深度學習的典型成功在于它能夠將輸入域映射到有意義的表示空間。這對于分子問題尤其尖銳,分子之間的“正確”關系微妙而復雜。本論文的第一部分將重點討論分子表征,特別是性質和反應預測。在這里,我們探索了一種用于分子表示的Transformer式架構,提供了將這些模型應用于圖形結構對象的新工具。拋開傳統的圖神經網絡范式,我們展示了分子表示原型網絡的有效性,它允許我們對分子的學習性質原型進行推理。最后,我們在改進反應預測的背景下研究分子表示。本論文的第二部分將集中在分子生成,這是至關重要的藥物發現作為一種手段,提出有前途的藥物候選人。我們開發了一種新的多性質分子生成方法,通過首先學習分子片段的分布詞匯。然后,利用這個詞匯,我們調查了化學空間的有效探索方法。

//dspace.mit.edu/handle/1721.1/143362

機器學習已經迅速改變了藥物發現的傳統渠道,為過程的每一步提供了新的工具。許多傳統上需要廣泛、專業領域知識的問題已經通過深度學習工具解決,使它們更高效、更廉價。先前的化學信息學方法使用許多手工設計的規則來建模小分子。這些技術被用于解決諸如性質預測之類的問題,其中的任務是預測分子的性質。然而,試圖解決這些表示問題的傳統方法由于其不靈活的特性而缺乏良好的泛化能力。深度學習模型的變革性方面在于模型直接從數據中學習和提取重要特征的能力。然而,這只有在正確的結構偏差和模型基礎上的建模假設下才可能實現。在分子問題上天真地應用深度方法會限制模型的能力或有用性,阻礙它們的推廣能力和在實踐中的有用性。因此,利用正確的歸納偏差的重要性不能被低估。

在深度學習方法出現之前,分子建模需要繁重的工程和固定的表示,通常被稱為定量構效關系(QSAR)方法。在這些方法中,指紋技術是非常受歡迎的,大致可以分為基于結構的[30]、拓撲[1]、循環[8]和藥效團指紋等幾種類型[91]。其中一些指紋(如基于結構的MACCS[30]指紋)是高度特定的表示,由一組固定的預定義結構的指示函數組成。其他的指紋,拓撲的和圓形的,其中包括摩根指紋更靈活。這些指紋通過枚舉路徑或環形鄰域來捕獲局部拓撲。然而,問題仍然存在于生成方法的確定性本質中:如果這些預定義規則沒有為任務捕獲正確的表示,它們將不能很好地工作。例如,對于許多小分子問題來說,性質懸崖(property cliff)仍然是一個具有挑戰性的問題,這是一種類似分子表現出不同性質的現象。這個問題對于分子指紋尤其尖銳,因為特征是固定的。然而,使用深度模型也不能解決這個問題,因為深度模型很容易與數據過度擬合,并且提供較差的泛化。

因此,我們的深度學習模型納入正確類型的結構偏差是至關重要的。圖神經網絡通過迭代聚合方案進行操作,在每一步,節點從其鄰居聚合信息。依次,一個節點應該包含越來越多的關于更大的鄰域的信息。節點表示最終聚合為表示圖的單個向量。雖然這種簡單的范式有時是有效的,但可能并不總是包含正確的分子任務類型的偏見。例如,當考慮分子的特性時,這種局部鄰域聚集可能無法捕捉到很重要的遠程依賴關系。更重要的是,也許在二維分子圖上的聚集并不適合理想的分子表示,我們應該觀察三維結構。對于分子的深度模型的發展有許多考慮,但它們需要正確的結構才能有效。指紋表示很簡單,但不靈活,經常涉及很多人類設計的規則。另一方面,深度模型很容易過擬合,無法捕捉正確的結構表示。

付費5元查看完整內容

近年來,計算機的巨大進展引領著神經網絡的革命,影響了從自然語言處理到計算機視覺等各領域。同時,深度學習也影響著藥物研發的許多領域,包括細胞圖像分析,有機分子合成路線的設計和分子生成(新化學分子的設計)等。 本文獻關注深度學習影響分子設計的兩個關鍵領域:分子性質預測和分子生成。

介紹

基于藥物相關數據進行分子的生成與評估是新藥設計的關鍵任務。在藥物設計早期,藥物研發通常依靠藥物化學家的經驗進行藥物分子的設計與驗證。藥物化學家會合成一組化合物并對其進行生物活性測試,查看測試產生的數據,并利用對基礎學科的理解來決定下一步要合成哪些分子。他們將以上步驟進行迭代,最終得到所需的目標分子。 20世紀30年代,定量結構-活性關系(Quantitative Structure-Activity Relationship,QSAR)的發展,為化學結構與各種理化性質之間建立了一個數學模型。這些用于性質預測的QSAR模型奠定了許多虛擬篩選策略的基礎。虛擬篩選使用大量候選分子數據集得到更小的數據集用于后續的合成或者購買。 之后許多研究團隊產生了新的想法。他們編寫了計算機程序來進行從頭分子設計進而生成新分子。這些程序通常在蛋白質結合位點上添加原子或官能團來“生長”現有的分子,然后使用各種打分函數來評估這些分子,并將更優分子用于合成。雖然這些全新的設計方法取得了一些成功,但它們并沒有被廣泛采用。 在近幾年深度學習發展的推動下,分子生成和分子性質預測領域開始復蘇。深度學習應用于分子性質預測,包括預測生物活性、ADME(Absorption, Distribution, Metabolism, and Excretion)和與毒性靶標(eg: hERG——thehumanEther-à-go-go-RelatedGene)的相互作用等。其不依賴于專家定義的分子特征集,而是使用可調整到特定任務的學習特征。相關性質預測模型的性能優于更傳統的QSAR方法。當應用于分子生成領域時,深度學習并不是隨機擴展現有的分子,也不是使用一套規則來連接現有的分子片段,而是從現有的分子訓練集中學習規則生成分子。通過將這些生成方法與預測模型相結合,研究人員能夠設計出滿足特定生物活性的分子。

分子性質預測

分子性質預測方法應用于虛擬篩選領域可以減少實驗篩選相關的時間和費用,同時拓寬可探索的化學空間。虛擬篩選可在短時間內評估數十億分子,相比實驗篩選方法快速很多。研究相關分子性質預測算法可以加速藥物發現。

1.用于分子性質預測的神經網絡

神經網絡模型的關鍵在于如何在機器學習算法中以較合理的方式表示分子。早期的模型使用專家構建的特征(如指紋與描述符)來表示分子。機器學習算法的作用是學習如何權衡這些特征,以提供準確的性質預測。這類模型的預測準確性很大程度上取決于所選特征的質量。而神經網絡直接從數據中自行學習合適的特征表示。輸入分子集與性質數據集進行網絡的訓練后,向網絡輸入新分子,我們可以得到該分子的性質預測值(如圖1)。

圖1 分子性質預測模型[1]****

作者列舉了一些深度學習應用于分子性質預測領域的研究。其中包括預測實驗毒性的回溯性研究——Tox21挑戰(Tox21 Challenge);以及前瞻性研究——發現新藥(新抗生素)。 Tox21挑戰中,研究小組使用了各種機器學習方法來預測實驗毒性分析的結果。Hochreiter團隊使用的深度學習模型贏得了15項挑戰中的9項。Feinberg研究團隊建立在各種藥物數據集上的模型的R2(相關系數)平均增加0.16。Yang團隊建立的模型在19個公共基準中的11個基準上表現較基線模型要好。 前瞻性研究中簡要描述了Stokes團隊應用性質預測進行虛擬篩選進而發現強效抗生素這一過程(見圖2)。該團隊選用了2335種已上市的藥物和天然產物,確定它們抑制大腸桿菌生長的能力;之后創建深度學習模型,在含1.07億商業化合物的數據庫中篩選預測分子,進而對所得分子進行后續生物測試。

圖2 Stokes應用性質預測發現了一種新型抗生素過程[1]**********

2.分子性質預測準確性的數據要求******

預測模型的準確性在很大程度上也取決于能否獲得合適的數據。 給定了大量的參數,神經網絡模型需要足夠多的訓練數據來學習最佳的分子表示,并最終預測任務本身。性質預測這一任務所需的數據量可達數萬以上。對于藥物研究來說,獲取大樣本很困難。典型先導化合物優化生成的分子量通常不足以提供給神經網絡進行模型訓練。然而,大量數據集也不一定能成功擴展新化學空間。預測分子與原始訓練集的散度不能太大。分子與訓練集的散度越大,模型就越難正確地預測分子屬性。此外,現有的置信度估計方法也不能充分評估模型預測的正確性。

3.分子性質預測中不確定性的度量******


當使用機器學習模型來預測一個分子的生物活性或物理性質時,了解該預測中性質預測值的不確定性很重要。然而該領域學者對評估不確定性的方法并未達成共識。在機器學習模型中量化分子的相似性和評估不確定性則更困難。 Hirschfeld等人使用了5個基準數據集來評估神經網絡模型中的幾種量化不確定性的方法。其中包括: ①集成方法:改變網絡參數創建集成模型,整個集成模型的方差用于不確定性的度量。 ②均值-方差評估方法:訓練其中一個網絡用于預測特定分子預測值的均值與方差。 ③基于分子指紋或基于距離表示潛在空間的度量方法。 ④聯合方法:即利用神經網絡與潛在空間表示相結合的方法輸出分子性質預測的不確定性值。 而作者認為這些方法可靠性均較低,需要進行進一步研究。

4.數據增強策略

在神經網絡中可使用數據增強的方法緩解大數據量的這一需要。例如在分析圖像時,可以通過旋轉或模糊圖像來創建更大的數據集,并將這些修改后的圖像作為附加示例插入到數據集中。而在分子性質預測數據集中,一般數據增強策略有兩種:一個是利用其他相關性質預測(例如相關蛋白質靶標的活性)的數據進行增強進而訓練網絡;另一個是對現有分子結構進行增強得到更大的數據庫進行網絡訓練,進而學習到較好特征進行分子性質預測。然而這兩種方法并沒有很成功,還需進一步研究。分子從頭設計與生成模型

分子生成模型從2017年開始出現,之后一直是一個比較熱門的研究領域。這些生成模型方法受到了來自計算機視覺和自然語言處理等領域的啟發,產生了許多神經網絡架構,網絡性能也在進一步提高。1.****分子生成模型的種類第一種可行的分子生成技術采用了被稱為自動編碼器(AutoEncoder, AE)(如圖3)的神經網絡。AE由編碼器和解碼器組成。編碼器以連續編碼的方式編碼分子,促進分子屬性的預測和優化,解碼器學習將一個優化的連續表示映射回具有改進屬性的分子圖,進而生成新分子。

圖3 生成模型的自動編碼器(AE)架構示意圖**[1]******

第二種方法稱為循環神經網絡(Recurrent Neural Network, RNN)。RNN被設計用來學習序列數據,如文本語音等,也可用來生成分子。RNN在一個已知分子的數據庫上訓練時,網絡可以學習到分子的哪些部分會被連接。經過訓練后,網絡將得到原子或官能團被連接的概率,不同分子集得到的概率不同。

第三種方法稱為強化學習(ReinforcementLearning, RL)。該技術使用的網絡用于描述智能體(Agent)在與環境的交互過程中,通過學習策略達到回報最大化或實現特定目標的問題。RL應用于分子生成時,定義一系列“move”。這些“move”通過添加和修飾原子及原子鍵使分子生長或改變。目標通常被定義為基于預測模型的屬性值。之后網絡使用各種策略來實現目標。使用RL可生成滿足多個目標的分子,這些生成的分子與目標分子具有高相似性以及高類藥性等性質。

第四種生成方法文獻作者在此篇綜述中并沒有提及,筆者在此進行補充,該方法稱為生成對抗網絡(Generative Adversarial Networks , GAN)。GAN網絡由一個生成器(Generator)與一個判別器(Discriminator)組成。生成器生成類似于訓練集的數據, 判別器判斷數據的真假(是否來源于生成器)。生成器與判別器相互博弈,最終生成器生成的分子可以達到真假難辨的地步。

**2.**分子生成模型的分子表示方法

生成模型分子結構的文本表示首次應用的是SMILES(Simplified Molecular Input Line Entry System)字符串,進而將SMILES轉換成連續向量,然后根據所需要的性質進一步優化。優化后的新向量再被解碼成一個代表輸出分子的SMILES字符串。 在SMILES表征的基礎上,研究人員又開發了能夠有效處理分子圖的編碼和解碼算法,這種方法可明確地捕獲官能團及其空間排列,以及分子整體骨架等信息。 最近的研究進一步增加了分子的三維信息表示方式,探索了尋找優化分子的替代算法。其中一種方法是用給定的起始分子及改進性質后的對應分子作為配對進行訓練。這種方法可以被看作是匹配分子對分析(Matched MolecularPairs Analysis, MMPA)的神經網絡版本,其中模型在隱藏空間中學習軌跡,即使隱藏空間不平滑,也具有魯棒性,并支持生成不同的輸出(如圖4)。

圖4 使用編碼器解碼器生成分子的連續表示****[1]********

3.分子生成模型的相關研究

文獻作者列舉了分子生成相關應用研究,評估方法及未來發展前景。 分子生成的應用包括Merk設計的類視黃酮X受體(Retinoid X Receptors, RXRs)或過氧化物酶體增殖物激活受體(Peroxisome Proliferator-Activated Receptors, PPARs)的激動劑,Zhavoronkov設計生成的盤狀蛋白結構域受體1(Discoidin Domain Receptor 1, DDR1)抑制劑。而學者Walters和Murcko對生成模型提出質疑,因為生成的DDR1抑制劑與之前發表的上市藥物高度相關(見圖5)。于是,文獻作者引出生成模型的評估方法。

**圖5 模型生成化合物1與上市藥物ponatinib的比較

[1]**

生成模型評估方法有GuacaMol算法、分子枚舉比較方法以及Molecular Sets(MOSES)方法 (MOSES方法綜述作者沒有提及,筆者對其進行補充)。GuacaMol算法通過一系列的測試來評估算法生成分子的有效性、唯一性和多樣性以及評估生成模型探索化學空間的能力。分子枚舉比較方法使用生成的分子與化學空間(Zhang使用了GDB-13數據庫)詳盡枚舉的分子進行比較。 MOSES設計了一個分子生成基準平臺,該平臺提供了分子結構數據集、基準模型的實現方法以及它們的評估指標。其中評價指標與GuacaMol較為類似,主要有分子數據集分布指標與單個分子性質指標這兩類。 未來可能針對分子合成性開發基于可用試劑的分子生成模型,并生成具有目標性質(包括所需的分子相互作用,ADME性質等)的分子。

********總結與展望

雖然藥物發現領域由于人工智能的推動得到了加速發展,但它是一個復雜的過程,還有很多問題有待解決。 首先,藥物研發需要優化多個參數,包括靶點有效性,脫靶副作用,藥代動力學等。現有的研究只解決了其中部分問題。其次,研究人員需要用于正確構建研究模型的訓練數據,現有的數據有時會存在許多問題。未來研究人員可能會創建更加智能的方法來識別并排除可能包含錯誤的數據,構建模型的研究人員也會與實驗人員合作,確保數據適用于模型訓練。 我們不應該完全否定人工智能,但也不應該認為它是一種“萬能藥”。隨著人工智能繼續被用于藥物發現,它將成為藥物研發過程中廣泛使用的一種工具。

**參考文獻 *[1] W.Patrick Walters and Regina Barzilay. Applications of Deep Learning in MoleculeGeneration and Molecular Property Prediction. Accounts of Chemical Research. 2021, 54: 263-270.


供稿:胡楓

付費5元查看完整內容

基于藥物相關數據進行分子的生成與評估是新藥設計的關鍵任務。在藥物設計早期,藥物研發通常依靠藥物化學家的經驗進行藥物分子的設計與驗證。藥物化學家會合成一組化合物并對其進行生物活性測試,查看測試產生的數據,并利用對基礎學科的理解來決定下一步要合成哪些分子。他們將以上步驟進行迭代,最終得到所需的目標分子。

20世紀30年代,定量結構-活性關系(Quantitative Structure-Activity Relationship,QSAR)的發展,為化學結構與各種理化性質之間建立了一個數學模型。這些用于性質預測的QSAR模型奠定了許多虛擬篩選策略的基礎。虛擬篩選使用大量候選分子數據集得到更小的數據集用于后續的合成或者購買。

之后許多研究團隊產生了新的想法。他們編寫了計算機程序來進行從頭分子設計進而生成新分子。這些程序通常在蛋白質結合位點上添加原子或官能團來“生長”現有的分子,然后使用各種打分函數來評估這些分子,并將更優分子用于合成。雖然這些全新的設計方法取得了一些成功,但它們并沒有被廣泛采用。

在近幾年深度學習發展的推動下,分子生成和分子性質預測領域開始復蘇。深度學習應用于分子性質預測,包括預測生物活性、ADME(Absorption, Distribution, Metabolism, and Excretion)和與毒性靶標(eg: hERG——thehumanEther-à-go-go-RelatedGene)的相互作用等。其不依賴于專家定義的分子特征集,而是使用可調整到特定任務的學習特征。相關性質預測模型的性能優于更傳統的QSAR方法。當應用于分子生成領域時,深度學習并不是隨機擴展現有的分子,也不是使用一套規則來連接現有的分子片段,而是從現有的分子訓練集中學習規則生成分子。通過將這些生成方法與預測模型相結合,研究人員能夠設計出滿足特定生物活性的分子。

付費5元查看完整內容

我們對世界的體驗是多模態的,然而深度學習網絡傳統上是為圖像、音頻片段或文本等單模態輸入而設計和訓練的。在這篇論文中,我們提出了策略來利用多模態信息(以視覺、文本、語音和非語音音頻的形式)來自動理解以人為中心的視頻。本文提出的關鍵思想是 (i)跨模態監督,(ii)自監督表示學習和(iii)模態融合。在跨模態監督中,來自監督豐富的模態的數據標簽被用于學習另一個缺乏監督的目標模態的表示,從而避免了在目標模態域中昂貴的手動注釋的需要。這有效地利用了模態之間的冗余或重疊信息。我們將展現該技術在三個不同任務中的效用; 首先,我們使用人臉識別和視覺主動說話人檢測來管理一個被稱為VoxCeleb的大規模人類語音視聽數據集,對其進行訓練,產生了最先進的說話人識別模型; 其次,我們訓練了一個基于文本的模型來預測僅從轉錄的語音中的動作標簽,并將這些標簽轉移到相應的視頻中。使用這些標簽進行的訓練使我們能夠在完全監督的動作識別模型上表現得更好,而這些模型是通過昂貴的人工監督進行訓練的; 第三,我們從為情感識別而訓練的人臉模型中提取信息到語音領域,而在語音領域,手動情感標注是昂貴的。本文探討的第二個關鍵思想是利用模態冗余進行自監督表示學習。在這里,我們學習了在沒有任何人工監督的情況下,在任何一種模式下的視聽表示,特別是對于人類的面孔和聲音。與現有的表示不同,我們的聯合表示支持從音頻到視覺的跨模態檢索,反之亦然。然后,我們將這項工作擴展到明確地消除習得偏見,從而實現更大的泛化。最后,我們通過開發新的模態融合架構,有效地結合不同模式下的互補信息。通過將視頻中的多個模態的信息提取到一個單一的、緊湊的視頻表示,我們實現了對可能丟失、損壞、閉塞或具有不同級別背景噪聲的單峰輸入的魯棒性。利用這些模型,我們在動作識別和視頻文本檢索方面都取得了最先進的結果。

//www.robots.ox.ac.uk/~vgg/publications/2020/Nagrani20e/nagrani20e.pdf

付費5元查看完整內容
北京阿比特科技有限公司