亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本文介紹由蘭州大學黎育權和騰訊量子實驗室謝昌諭博士等人發表在Nature Machine Intelligence期刊上的研究成果,論文通訊作者為姚小軍教授。文章中報道了一種自動圖學習方法,能夠在人工不參與的情況下,在多種不同任務上取得先進的預測性能,超越過去的主流模型。作者還提出一種新的分子魯棒性實驗方法,并發現模型集成能夠大幅提升魯棒性。

1 研究背景

藥物發現是一個耗時、昂貴和復雜的過程,在人類健康和福祉中發揮著至關重要的作用。機器學習方法,尤其是圖學習方法有可能顯著提高藥物發現效率。它們能從現有藥物相關數據集中進行學習,從而來預測分子相互作用和性質。同時,這也是機器學習能夠從廣闊的化學空間中以極快的速度和低成本尋找潛在候選藥物的關鍵所在。

然而,在少部分數據集上追求高預測性能已經固化了它們的架構和超參數,這使得它們在新數據的利用上不在有優勢。這種固化限制了他們在新數據上的學習能力和應用,使得他們的性能變得平庸。此外,大多數圖學習方法嚴重依賴深度學習的專家知識來實現其聲稱的最先進結果。當作者不給出這些具體的神經網絡架構和參數的時候,后來的研究人員甚至無法復現他們的模型性能。

這項工作提出了基于圖學習的自適應機器(Graph learning based adaptive machine, GLAM),它可以適應數據集并在無需人工干預的情況下做出準確的預測。

2主要貢獻

(1)提出一種自動機器學習方法,可以同時應用于分子屬性預測、藥物-蛋白相關關系預測、藥物-藥物相互作用預測。

(2)在相對公平比較的情況下(相同數據集分割),對比目前主流模型并取得最佳性能,包括分子屬性預測任務,藥物-靶標相關關系預測任務。 (3)提出一種合理的圖模型魯棒性測試方法,并發現集成模型比單模型的魯棒性好。

3 方法

本文的方法跟過去的設計一個圖網絡不同,本文利用自動化的流程從數據集中學習并逐步建立一個預測器,如圖 1 和圖2所示。以前的圖學習方法嚴重依賴人類專家來設計架構、調整模型超參數、選擇優化器和選擇損失函數。本文將這四個項目組合成一個配置,并將潛在的配置放入一個配置空間。從這個配置空間開始,GLAM 執行一系列步驟來構建預測器,如圖 2 所示。GLAM首先從配置空間中采樣了很多配置。然后將數據集喂給到這些配置以進行低保真訓練,從而得到驗證集分數以便于選擇性能高的配置。低保真訓練是指少量輪次的快速訓練,從而得到所有配置的驗證分數以快速估計他們的預測性能。高保真訓練是指使用巨量的輪次(帶早停)來精準地估計所選配置的預測性能。最后,將所有選定的預測器集成并建立一個最終預測器。

圖1. GLAM和傳統方法的對比.

圖 2. GLAM 具體流程圖.

本文設計了兩種通用架構,一種用于分子相互作用,另一種用于分子性質,如圖 3 所示。通用架構中的每個模塊都有自己的設計空間,如圖 4 所示。這些神經網絡架構接受的輸入都為圖,包括分子圖和蛋白圖。本文以原子為節點,以鍵為邊建立分子圖。對于蛋白圖,本文首先使用RaptorX計算得到接觸圖(contact map),然后以氨基酸殘基為節點,以接觸圖提供的信息作為邊建立蛋白圖。DTI任務同時考慮分子圖和蛋白圖作為輸入。DDI任務考慮兩個分子圖同時作為輸入。分子性質預測則接受單分子圖作為輸入。

圖 3. 應用于DTI和分子性質預測的神經網絡架構.

3 結果和討論 3.1適應數據集并取得高性能 GLAM是為了適應數據集以獲得高預測性能而設計的。為了考察該方法的適應性和性能,本文在14個數據集上與一系列具有代表性的傳統方法進行了性能比較。測試數據集的類型包括藥物-蛋白質相互作用、藥物-藥物相互作用、物理化學性質、生物活性、藥代動力學和毒性。考慮到不同的數據集分割會導致不同的性能,本文讓所有的方法共享相同的數據集分割,以獲得公平的評價。為了體現GCN,GAT,MPNN在不同架構和參數的差異,本文還盡量使用人工的方式優化架構并調整參數,以達到在某個數據集上達到最佳性能,以便于對比其適應性。最后,本文在這些數據集上運行基準測試。

與所有傳統方法相比,本文提出的方法能夠很好地適應數據集,并取得了良好的預測性能,如表1、表2和表3所示。傳統方法在不同數據集上固化下來的架構和參數表現出乘次不齊的性能,而GLAM可以在沒有人為干預的情況下始終如一地獲得最好的分數。因此,GLAM準備成為一種靈活、可靠和值得信賴的方法,在藥物設計的廣泛應用中都能很好地發揮作用。

表1. DTI任務上的性能對比

注:以上所有方法測試基于相同數據集分割。

表2. 分子性質預測任務上的性能對比

注:以上所有方法測試基于相同數據集分割,分割方式為基于scaffold的隨機分割。

3.2面對分子結構擾動表現出高魯棒性 本文認為魯棒性也是衡量一種方法是否優秀的重要指標。本文假設,當施加對分子性質影響很小的結構擾動時,一個魯棒的預測器不應顯著改變其輸出。機器學習方法可能受到各種自然干擾的影響,如果這樣的干擾發生在一些安全敏感型行業(如醫療),后果可能是災難性的。如圖4所示,本文跟多個主流模型進行了對比。GLAM 的魯棒性很可能是由于在流程末端的模型集成。集成的主要思想是訓練幾個模型,通過平均得到最終的預測。擾動分子結構可能會影響單個預測器,但不太可能會顯著影響混合模型。更多關于魯棒性實驗的細節見論文原文。

表4. 魯棒性實驗

4 總結 本文提出了一種靈活的方法,可以適應任何數據集并做出準確的預測。所提出的方法采用自適應的自動機器學習流程從數據集中學習并得到一個高性能,高魯棒的預測器。在沒有任何人工干預的情況下,該方法在所有測試數據集上實現了比基于手工設計的的傳統方法更好的預測性能。此外,本文發現所提出的方法比傳統方法更魯棒。這是第一個為分子數據設計的自動圖學習方法。它的出現能夠為新出現的全新數據賦能,即使充分利用好這些新數據。

參考資料 Li, Y., Hsieh, CY., Lu, R. et al. An adaptive graph learning method for automated molecular interactions and properties predictions. Nat Mach Intell (2022). //doi.org/10.1038/s42256-022-00501-8

付費5元查看完整內容

相關內容

編譯 | 任宣百 審稿 | 劉名權 本文介紹由瑞典分子人工智能研究所的Atanas Patronov團隊發表在Nature Machine Intelligence的研究成果。作者將課程學習應用于藥物發現中。在全新的設計平臺中實現課程學習(CL),并將其應用于不同復雜性的分子設計問題中。結果表明,與標準的基于策略的強化學習相比,課程學習能夠加速學習效率和優化模型輸出的質量。

1 簡介 分子設計需要在化學空間中進行多參數優化(MPO)搜索,估計在1023-1060個分子的范圍內。之前的分子設計方法有虛擬篩選(VS)等,但隨著深度學習的興起,深度學習已逐漸替代VS方法。深度學習與依賴于枚舉分子的方法相比,可以在更大的化學空間中進行采樣。

使用基于策略的強化學習(RL)、基于價值的RL、學習分子潛在空間,以及其他方法(樹搜索和遺傳算法)的深度生成模型已經被提出來設計具有期望特性的分子。在基于策略的RL中,agent(生成模型)學習策略(在給定狀態下采取的一系列行動)來產生最大化獎勵的分子,這是根據預定義的獎勵函數計算出來的。通常,基于物理的結合親和力相似方法,例如分子docking,把它作為獎勵函數的一個組成部分,來設計具有更強預測活性的分子。給定足夠長的訓練時間,這些模型可以學習生成滿足所需的MPO目標的分子。然而,由于復雜的獎勵函數難以找到最小值,在這種情況下,agent可能會從化學空間中遠離預期目標的區域進行多次采樣。因此,基于策略的RL對于復雜的MPO目標是不可行的,從而導致計算資源的次優分配,且最終合成結果為次優分子。

在這項工作中,作者在從頭開始的分子設計平臺REINVENT的基礎上,引入了CL方法,用于解決基于策略的RL任務中存在的問題,使用CL擴展了REINVENT對復雜獎勵函數的適用性。作者通過設計3-磷酸肌酸依賴性蛋白激酶-1(PDK1)的案例研究來證明CL在REINVENT中的有效性。作者表明,與基于策略的RL相比,CL可以規避高計算成本。此外,課程提供了一種自然的方法,例如,課程中的微小改變可以引導分子設計,以一種可預測的方式控制結果的質量和多樣性。

2 結果 CL概述 在CL中,將一個復雜的任務分解為更簡單的組成任務,以加速訓練和收斂。其目標是在提供生成目標之前,指導agent去學習越來越復雜的任務。agent學習從課程階段一直進行到生成階段,并由課程進展標準進行控制,檢查agent是否為每個目標達到了足夠的分數閾值(圖1)。在前者中,使用復雜性逐漸增加的順序任務來訓練agent。在后者中,agent在滿足生成目標的有利化學空間區域取樣化合物。在生成階段維護agent策略更新,以確保來自不同最小值的agent樣本。

圖1 CL概述

目標scaffold構建 作者表明CL可以引導agent生成具有相對復雜scaffold的化合物,該化合物不存在于訓練集中(圖2)。CL可以通過將目標scaffold分解為更簡單的子結構,從而加速收斂(圖2)。有五個課程目標,每個目標依次分配到更復雜的子結構,課程進展標準閾值為0.8。該agent的任務是生成具有子結構的化合物,直到平均分數為0.8。當滿足一個課程發展標準時,就會激活一個連續的和更復雜的課程目標。每次課程目標的更新都會伴隨著平均分數的急劇下降,例如,在大約在150 epoch左右(圖2),當前不可能取樣的化合物也會偶然地出現具有連續的子結構。在訓練過程中,agent學會了生成具有越來越復雜的子結構的化合物,直到構建出目標scaffold。

圖2 CL目標scaffold構建

滿足分子docking約束 作者利用單一的課程目標,可以加速agent的生成效率,并生成滿足docking約束的化合物,即預測保留了實驗驗證的交互作用。首先,作者證明了基線RL的生成目標具有挑戰性(圖3b,c)。在前100個epoch,docking分數約為0,這表明基本上沒有化合物滿足docking約束。對于100-200的epoch,一些化合物滿足docking約束,但分數仍然很低。只有從第200個epoch開始,docking分數才開始提高,并指示agent開始進入生成狀態的點。很明顯,基線RL是次優的,因為該agent花費了大量的時間來生成不滿足生成目標的化合物。

為了解決模型受限于基線RL問題,作者設計了課程并引入了兩個課程目標來指導分子生成:Tanimoto(2D)和ROCS(3D)。前者的基本原理是,通過教agent首先生成與參考配體具有二維相似性的化合物,隨后生成的化合物將有更大的可能性滿足docking約束。ROCS的基本原理是相同的,除了使用三維相似性來匹配參考配體的形狀和靜電場。使用Tanimoto和ROCS進行三次基線RL實驗與CL進行比較。這些基線實驗并沒有提高agent的生成率,并且可以觀察到與(圖3b、c)中所示的基線相似的訓練進度對于Tanimoto(2D)和ROCS(3D),該agent能夠立即生成滿足docking約束的化合物(圖3b)。更具體地說,盡管在Tanimoto(2D)實驗中,docking開始于一個相對較低的值(但高于基線RL),但該agent在前50個epoch迅速改善。在ROCS(3D)場景中,在300個epoch時CL超過基線RL方法獲得的最高分數。結果是直觀的,因為強制agent首先學習生成與參考配體具有更高的二維相似性的化合物,生成分子會更可能滿足docking約束。當使用ROCS作為課程目標時,也進行了類似的觀察(圖3c)。為了可視化結果的質量,作者將選定生成的化合物的結合姿態與參考配體進行重疊(圖3d)。

圖3 設計PDK1抑制劑的基線RL與CL對比

通過課程模型增強目標的優化 為了進一步研究基線RL和CL實驗的輸出,作者將三次重復實驗中收集到的化合物的所有docking分數匯總起來,結果分布如圖4所示。首先,與基線RL相比,CL產生了明顯更多的有利化合物,因為CL只存儲了那些通過了基于docking和QED的最低分數的化合物。第二,CL生成的化合物比基線RL生成的擁有更高的平均docking分數。第三,對于這兩個課程目標(Tanimoto和ROCS),high scenario比low scenario具有更大docking分數密度。

圖4 基線RL與CL docking分數分布

課程目標保持探索分子scaffold 通過從三次重復實驗中提取并平均獨特的Bemis-Murcko scaffold的數量來研究scaffold的多樣性,如圖5所示。CL實驗比基線RL產生了更多獨特的scaffold。在課程目標中,Tanimoto比ROCS產生了更多獨特的scaffold。類似地,對于Tanimoto和ROCS,high scenario比low scenario產生更多獨特的scaffold。為了評估生成的scaffold的質量,如果相應的化合物比參考配體具有更有利的docking分數,作者將scaffold表示為“有利的”。從絕對計數和百分比來看,CL比基線RL產生更獨特和有利的scaffold(圖5)。這與圖4中的對接分數分布一致,說明了CL實驗的docking分數更富集。結果表明,使用課程目標增加了生成的有利scaffold的數量,并保持了由多樣性過濾器強制執行的agent探索。

圖5 基線RL與CL生成獨特的Bemis-Murcko scaffold的比較

引導agent策略在生成目標優化和解決方案空間多樣性之間進行權衡 為了進一步闡明課程目標的作用,以及agent在下游生成任務中保留獲得知識的程度,從CL Tanimoto實驗中收集到化合物,并計算每個epoch與參考配體的平均Tanimoto相似度(化合物和scaffold)(圖6a)。左邊的子圖顯示了Tanimoto相似度在low scenario和high scenario下的逐漸優化,代表了課程階段。右邊的子圖顯示了在生成階段收集到的所有化合物的Tanimoto相似性。總的來說,高Tanimoto實驗生成的化合物與低Tanimoto實驗生成的化合物與參考配體具有更大的Tanimoto相似性,與預期一致。此外,在scaffold水平上,Tanimoto相似性的逐漸降低進一步支持了CL進行scaffold跳躍的能力(圖6a)。相對于基線RL實驗,CL實驗中收集的化合物表現出更大的相似性,解釋為從化學空間的“更近”區域取樣化合物(圖6b)。此外,high scenario比low scenario具有更高的交叉Tanimoto相似性密度。采用均勻流形近似和投影(UMAP)作為降維技術,以可視化CL Tanimoto實驗的空間多樣性。從low scenario和high scenario中采樣的化合物之間有顯著的相似性,沒有scaffold重疊(圖6c)。

圖6 agent知識保留與課程目標對解決方案空間多樣性的影響

3 總結與討論 在這項工作中,作者在分子從頭設計平臺REINVENT的基礎上,通過調整CL來加速agent在復雜MPO目標上的收斂。相對于基線RL而言,即使是由一個課程目標組成的課程,也能成功地引導agent高效的完成任務。作者展示了CL在兩個生成目標上的應用:構建一個相對復雜的scaffold和滿足一個分子docking的約束。在前者中,在相同的epoch下,CL成功地從比較簡單的成分中構建出復雜的scaffold,而基線RL則無法做到。在第二個應用例子中,使用Tanimoto(二維)或ROCS(三維)與參考配體的形狀相似性作為課程目標,引導agent到滿足docking約束的化學空間區域進行采樣。相比之下,基線RL花了很多時間產生不利的化合物。CL通過提供教給agent特定知識的能力,促進了agent對生成目標的直接引導。結果表明,相對于基線RL,教agent在更大程度上優化課程目標可以提高滿足復雜生成目標的能力。 參考資料 Jeff Guo?, Vendy Fialková, Juan Diego Arango, Christian Margreitter. et al. Improving de novo molecular design with curriculum learning. Nature Machine Intelligence (2022). //www.nature.com/articles/s42256-022-00494-4
數據

代碼

付費5元查看完整內容

基于藥物相關數據進行分子的生成與評估是新藥設計的關鍵任務。在藥物設計早期,藥物研發通常依靠藥物化學家的經驗進行藥物分子的設計與驗證。藥物化學家會合成一組化合物并對其進行生物活性測試,查看測試產生的數據,并利用對基礎學科的理解來決定下一步要合成哪些分子。他們將以上步驟進行迭代,最終得到所需的目標分子。

20世紀30年代,定量結構-活性關系(Quantitative Structure-Activity Relationship,QSAR)的發展,為化學結構與各種理化性質之間建立了一個數學模型。這些用于性質預測的QSAR模型奠定了許多虛擬篩選策略的基礎。虛擬篩選使用大量候選分子數據集得到更小的數據集用于后續的合成或者購買。

之后許多研究團隊產生了新的想法。他們編寫了計算機程序來進行從頭分子設計進而生成新分子。這些程序通常在蛋白質結合位點上添加原子或官能團來“生長”現有的分子,然后使用各種打分函數來評估這些分子,并將更優分子用于合成。雖然這些全新的設計方法取得了一些成功,但它們并沒有被廣泛采用。

在近幾年深度學習發展的推動下,分子生成和分子性質預測領域開始復蘇。深度學習應用于分子性質預測,包括預測生物活性、ADME(Absorption, Distribution, Metabolism, and Excretion)和與毒性靶標(eg: hERG——thehumanEther-à-go-go-RelatedGene)的相互作用等。其不依賴于專家定義的分子特征集,而是使用可調整到特定任務的學習特征。相關性質預測模型的性能優于更傳統的QSAR方法。當應用于分子生成領域時,深度學習并不是隨機擴展現有的分子,也不是使用一套規則來連接現有的分子片段,而是從現有的分子訓練集中學習規則生成分子。通過將這些生成方法與預測模型相結合,研究人員能夠設計出滿足特定生物活性的分子。

付費5元查看完整內容
北京阿比特科技有限公司