亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

編譯 | 洪越今天給大家介紹由廈門大學劉向榮教授團隊發表在Bioinformatics上的文章,文章提出一個用于DDI預測的鏈接感知圖注意網絡,稱為LaGAT。該模型能夠基于不同的藥物對在知識圖譜中為藥物實體產生不同的注意途徑;作者在兩個公開的DDI數據集上進行了實驗,并可視化了模型生成的注意力路徑。結果證明,LaGAT能夠更好地捕捉語義關系,并能夠基于知識圖譜做出更具有可解釋性的DDI預測。

1 研究背景 藥物相互作用(DDI)是指當患者同時服用兩種或多種藥物時,藥物的療效可能增強或減弱,甚至可能出現副作用。DDI預測是藥理學和臨床應用中的一個極具挑戰性的問題。隨著大型生物醫學數據庫的日益可用,藥物相關的大規模生物知識圖譜與深度學習技術已被廣泛用于DDI預測,比如圖神經網絡(GNN)和翻譯嵌入(TransE)。然而,大型知識圖譜不可避免地存在數據噪聲問題,這限制了基于知識圖譜模型的泛化性能和可解釋性。最近的研究試圖通過圖注意力網絡(GAT)來解決這個問題。然而,GAT只依賴于藥物節點的拓撲結構為其鄰居節點分配固定的注意力權重,而沒有考慮不同藥物對中藥物節點所關注的鄰居節點會發生變化。所以基于GAT的模型做出的預測依然在可解釋性上存在不足,同時限制了自身的泛化性能。因此,該論文提出了一種鏈路感知的圖注意力網絡LaGAT,能夠根據不同的藥物對為藥物實體生成動態的注意力權重,對不同類型的DDI進行端到端的預測,并且模型生成的注意力權重具有良好的可解釋性。

2 模型與方法 作者提出的模型框架可以分解為三個部分: 子圖采樣模塊、鏈路感知圖注意層和分層聚合層,如圖1所示。首先,子圖采樣模塊從數據集中提取藥物對,形成 DDI 矩陣。同時得到每種藥物的 H-hop 鄰居節點,并隨機對每一Hop的鄰居節點進行采樣構成藥物的子圖。然后,鏈路感知注意層嵌入藥物u,v子圖中包含的所有節點并計算子圖中每個節點的鄰居節點的注意權重,使每個節點根據注意權重聚合其鄰居節點的嵌入表示來對自身的嵌入表示進行更新。最后,分層聚集層連接藥物節點每次更新的嵌入表示,得到藥物節點的最終特征向量,并預測 DDI 的標簽。

圖1 LaGAT框架圖

作者比較了GAT 層和LaGAT層的區別,來體現LaGAT層的優勢。傳統的GAT層使用節點本身的嵌入表示作為查詢向量,結合相鄰節點的嵌入表示來學習注意力權重。作者認為,這種策略雖然成功地使每個節點對其鄰居分配不同的權值,但是它的局限性在于,只要節點的拓撲結構是確定的,它最終學習到的注意力權重就是確定的;而鏈路預測任務使用藥物對作為監督信號,在不同的藥物對中,每個節點需要注意的節點并不固定,藥物子圖中的注意路徑應根據藥物對而變化。LaGAT層則根據不同的藥物對選擇不同的藥物節點的嵌入表示作為查詢向量,來學習注意力權重。比如圖1中,LaGAT 使用藥物 v 作為查詢向量來計算藥物 u 子圖中每個節點的注意力重量(淺紅框) ,并使用藥物 u 作為查詢向量來計算藥物 v 子圖中每個節點的注意力重量(綠框)。文中以偽代碼的形式展示了LaGAT層具體的計算方式,如圖2所示。

圖2 LaGAT層的計算實現

3 實驗 作者使用兩個廣泛使用的數據集 (1)二分類 DDI: 使用KEGG -drug的數據構建 KG和DDI 矩陣,其中包含1,925個批準的藥物和56,983個批準的相互作用。(2)多分類DDI: 使用 DrugBank提供的數據構建 KG 和DDI,其中包含映射到 DrugBank 標識符(ID)的1709種藥物和涉及86種藥理學關系的136351種藥物對藥物之間的關系。評估指標結果如表2所示。可以看出,即使沒有使用最后的分層聚合層,作者的方法LaGAT-base依然優于基準方法。

為了進一步驗證模型性能,作者在各個參數下比較了自己的方法與基準方法在都使用分層聚合層后的效果,如圖3所示。可以看出,在不同超參數下,作者提出的方法都優于基準方法,并且和GAT以及GAT-const相比,LaGAT在鏈路預測任務上存在優勢,側面支持了作者的假設。

圖3 消融實驗

最后作者從測試集中挑選了一組典型案例,對模型生成的注意力權重進行了可視化,如圖4所示。

對于每個藥物節點,作者用粗體連接邊來突出注意力權重排名前3的路徑,用粉色節點表示兩個藥物的共同鄰居節點,然后用節點大小來表示每個節點的注意力權重。對于Midazolam和Cyclosporine,LaGAT 分配的概率最高的 DDI 類型是“藥物一的血清濃度會增加,當它與藥物二結合時”。可以看到,模型將高注意力權重分配給兩種藥物共有的實體節點:酶節點“CYP 3A4”。研究表明,Cyclosporine在腸道和肝臟中由 CYP450 酶代謝,主要由 CYP 3A4 和 CYP 3A5 貢獻,它會競爭性抑制人肝微粒體中的 CYP3A4 ,而Midazolam的生物轉化是由具有高度可變活性 的 CYP 3A4 介導的,這支持了模型的預測。對于Midazolam和Amobarbital,LaGAT 分配的概率最高的 DDI 類型是“可能會增加不良反應的風險或嚴重程度”。可以看到,模型將高注意力權重分配給兩種藥物共有的實體節點:藥物類別節點”精神疾病相關“和藥物類別“GABA(A) 受體亞基 alpha-1”節點。研究表明,阿莫巴比妥(與所有巴比妥類藥物一樣)通過與 α 位點的 GABAA 受體結合起作用,且巴比妥酸鹽能增強 GABA 對這種受體的作用,這支持了模型的預測。

值得注意的是, LaGAT為藥物Midazolam在不同的DDI預測中生成了具有可解釋性的不同的注意力路徑,并且作者指出,如果沒有使用LaGAT,模型雖然能正確預測Midazolam和Amobarbital的DDI類型,但無法正確預測Midazolam和Cyclosporine的DDI類型。這從側面說明,LaGAT不僅有助于生成具有可解釋性的注意力路徑,還能提高模型的預測性能。

圖4 LaGAT 產生的注意力路徑。

5 總結 文章提出了一種基于鏈路感知的圖注意網絡,用于藥物相互作用預測任務。它能夠在不同的DDI中為同一藥物實體產生不同的注意途徑,為 KG 模型預測的結果提供可解釋性。此外,案例研究的可視化結果表明,該注意力方法可以學習更準確的語義,這有利于模型預測不同類型的 DDI。同時文章作者也表示,今后將嘗試利用藥物的分子特征生成生成更好的初始嵌入表示進行特征融合,來解決冷啟動問題。 參考資料 Yue Hong, Pengyu Luo, Shuting Jin, Xiangrong Liu, LaGAT: Link-aware Graph Attention Network for Drug-Drug Interaction Prediction, Bioinformatics, 2022;, btac682, //doi.org/10.1093/bioinformatics/btac682
代碼

付費5元查看完整內容

相關內容

醫學領域的人工智能是使用機器學習模型搜索醫療數據,發現洞察,從而幫助改善健康狀況和患者體驗。 得益于近年來計算機科學和信息技術的發展,人工智能 (AI) 正迅速成為現代醫學中不可或缺的一部分。 由人工智能支持的人工智能算法和其他應用程序正在為臨床和研究領域的醫學專業人員提供支持。

2022年7月13日,中山大學陳語謙團隊在Chemical Science上發表文章。作者提出了一種子結構感知圖神經網絡,以學習尺度自適應的藥物分子關鍵子結構,從而對藥物-藥物相關性進行可解釋性預測(Learning size-adaptive molecular substructures for explainable drug–drug interaction prediction by substructure-aware graph neural network,SA-DDI)。

該網絡結合了新的子結構注意機制和用于DDI預測的子結構-子結構交互模塊(substructure-substructure interaction module,SSIM)的消息傳遞神經網絡。 具體而言,子結構注意力是基于分子中官能團的尺寸和形狀通常不規則的化學直覺,設計來捕捉尺寸和形狀自適應的子結構。DDI基本上是由化學子結構相互作用引起的。因此,**SSIM通過突出重要的子結構,而不強調次要的子結構用于DDI預測,從而對子結構-子結構相互作用進行建模。**SA-DDI超過了其他方法,且SA-DDI對藥物的結構信息敏感,能夠檢測DDI的關鍵子結構。這些優點表明,該方法提高了DDI預測建模的泛化和解釋能力。

背景

藥物-藥物相互作用(drug-drug interaction,DDI)會對人體產生難以預期的藥理作用,其因果機制通常未知。圖神經網絡(GNN)已被開發用于更好地理解DDI。然而,識別對DDI預測貢獻最大的關鍵子結構對GNN來說仍是一個挑戰。因為,GNN最常見的讀出函數(即全局平均值或者加和池化)不適合DDI預測。例如,通過直接計算子結構表示的總和或者平均值,主要的子結構可能被次要的子結構信息掩蓋。所以,有必要引入注意力機制與挖掘藥物相互感知作用的策略,自適應地捕捉藥物分子的子結構,更好地進行DDI預測。 方法

SA-DDI總體框架如圖1所示。一般而言,DDI預測任務是開發一個計算模型,該模型將兩種藥物作為輸入,并生成一個輸出預測,指示它們之間是否存在相互作用(即副作用)。首先,利用輸入前饋模塊(即多層感知器)對節點進行非線性變換,以獲得更好的特征表示。然后,將兩個分子圖輸入到配備有子結構注意力的GNN中,以提取尺寸和形狀自適應子結構。最后,將提取的子結構輸入SSIM,以學習子結構-子結構相互作用,模型從中進行DDI預測。 GNN因其在描述分子的原子和鍵的化學問題中的自然適用性而受到關注。一般來說,GNN由以下三個階段組成:(1)通過聚合來自其鄰居節點的消息(即消息傳遞)來更新節點級特征;(2)通過使用讀出函數聚合分子圖中的所有節點級特征,生成圖級特征向量;(3)基于圖級特征向量預測圖的標簽。 在第一階段,節點級隱藏特征通過在相鄰節點之間傳遞消息來更新T次(即T次迭代)。在每次迭代中,代表節點半徑的感受野可以通過訪問其相鄰節點的信息來放大。節點可以被視為在第T次迭代后以自身為中心、半徑為T的子結構。然后,在最后一個時間步驟T處更新的節點級隱藏特征在所有節點上聚合,以生成給定圖的圖級特征向量。最后,使用圖級特征向量來預測整個圖的標簽,例如分子性質。 在這項研究中,作者使用有向圖消息傳遞神經網絡(directed message passing neural networks,D-MPNN),用于分子子結構提取。然而在第二階段中,典型的讀出函數計算來自圖的所有節點級特征的平均值或者總和,以獲得給定圖的圖級表示,但它對于DDI預測具有缺點。因此,作者引入了新的子結構注意機制,也就是通過自注意力池化(self-attention graph pooling,SAGPool)讀出函數計算給定圖的圖級表示。

圖1. SA-DDI模型 在使用SAGPool得到分子圖的初步表示之后,子結構-子結構相互作用模塊(SSIM)通過交互一對藥物分子的圖級別表示和節點級別表示信息,更新分子圖的表示,通過拼接一對藥物的表示向量并輸入多層感知器得到最終預測結果(是否具有相互作用)。

結果

作者將所提出的SA-DDI與現有的多種方法進行了比較。為了研究D-MPNN,子結構注意力和子結構-子結構交互模塊如何提高模型性能,還考慮SA-DDI的以下變體: SA-DDI_MPNN將D-MPNN替換為MPNN。 SA-DDI_noSA是SA-DDI的一種變體,可消除子結構注意力。 SA-DDI_GMP用全局平均池化代替SSIM。 表1表明,使用D-MPNN,子結構注意力和子結構-子結構交互模塊的SA-DDI,在各項指標上均超越了其他方法。 表1. 不同方法對比

如果不了解和驗證GNN的內部工作機制,就不能完全信任GNN,這限制了其在藥物發現場景中的應用。為了研究原子節點隱藏向量在學習過程中的演變,作者通過測量圖神經網絡最后一層的節點隱藏向量的皮爾遜相關系數來獲得原子對之間的相似系數。 圖2給出了四種藥物及其在學習過程中的原子相似度矩陣。熱圖在開始時顯示出某種程度的混亂,然后在學習過程中清晰地分組成簇。以圖2(b)普環啶(procyclidine)為例,發現在迭代150次時,原子大致分為四個簇:異丙醇,四氫吡咯,苯基環己烷和苯。這一發現符合我們對其結構的直覺。 這些結果表明,SA-DDI可以捕獲分子的結構信息。此外,SA-DDI能夠識別分子中的相同官能團,如(d)芐托品(benzatropine)中的苯b1和b2,它還可以區分具有細微結構差異的官能團,如苯基環己烷和苯,如(b)所示。

圖2. 可視化 總結

本文提出了一種基于圖的模型,稱為SA-DDI,用于DDI預測。基于DDI從根本上是由化學子結構相互作用引起,本文提出了兩種新的策略,包括子結構注意力和相互感知,專門用于檢測具有不規則大小和形狀的藥物分子的子結構,并對子結構與子結構之間的相互作用進行建模。SA-DDI超過了最先進的方法,可以捕獲藥物的結構信息,并檢測DDI的基本子結構,使模型的學習過程更加透明和可操作。SA-DDI是提高DDI預測建模泛化和解釋能力的有力工具。 參考資料 [1]Yang et al. Learning size-adaptive molecular substructures for explainable drug–drug interaction prediction by substructure-aware graph neural network. Chem. Sci. 2022 [2]Yang et al. Analyzing Learned Molecular Representations for Property Prediction. J. Chem. Inf. Model. 2019 [3]Lee et al. Self-Attention Graph Pooling. ICML. 2019

--------- End ---------

付費5元查看完整內容

今天給大家介紹一篇由廈門大學研究團隊發表在Briefings in Bioinformatics的文章。作者在該論文中將DTI預測視為一個鏈路預測問題,并提出了一種基于具有注意機制的異構圖的端到端模型(DTI-HETA)。

摘要藥物-靶標相互作用(DTI)預測在藥物重新定位、藥物發現和藥物設計中起著重要作用。然而,由于化學和基因組空間的龐大以及藥物和靶標之間相互作用的復雜性,DTI的實驗鑒定具有成本高且耗時長的問題。近年來,新興的圖神經網絡(GNN)被應用于DTI預測,因為DTI可以有效地用圖表示。然而,其中的部分方法僅基于齊次圖,另外部分方法由兩個不可聯合訓練的解耦步驟組成。為了通過整合異構圖信息進一步探索基于GNN的DTI預測,本研究將DTI預測視為一個鏈路預測問題,并提出了一種基于具有注意力機制的異構圖的端到端模型(DTI-HETA)。該模型在藥物靶標信息構造的異構圖上利用圖卷積神經網絡獲得藥物和靶標的嵌入表示,并在節點的信息聚合過程中引入了圖注意機制。在得到藥物和靶標的嵌入表示后,模型應用內積解碼器來進行DTI預測。為了評估DTIHETA的性能,本研究在兩個數據集上進行了實驗。實驗結果表明,本文的模型優于現有的方法。 1.****研究背景盡管在藥物研究和開發方面取得了許多進展,但傳統的藥物發現過程仍然具有風險。風險主要體現在耗時和成本上,統計表明藥物新分子實體研發的時間周期估計為12年,成本估計為18億美元。目前,加速藥物發現過程的關鍵是確定藥物是否能與靶相互作用,因為識別藥物和靶點之間的相互作用有助于候選新藥的有效篩選工作。盡管有成千上萬的化合物存儲在各種數據庫中,但大多數化合物沒有相應的目標信息。隨著藥物和靶點可用數據的增長,越來越多的學者試圖研究有效的計算方法來識別新的藥物-靶點相互作用(DTI)。目前,DTI預測的計算方法主要有三類:基于配體的方法、對接模擬和化學基因組學方法。雖然在生物學上被廣泛接受,但基于配體的方法和對接模擬面臨許多限制,例如已知配體的數量不足、蛋白質的3D結構未知等等。化學基因組學方法可進一步分為幾類,如基于機器學習的方法和基于相似性的方法。在這些化學基因組學方法中,基于機器學習和深度學習的模型因其可靠的預測結果而備受關注。在這些方法中,關于藥物和靶點的知識被編碼為特征以訓練模型。然后將訓練后的模型用于預測新的DTI。這些方法通常涉及特征提取和DTI預測兩方面,但在構建模型時很少考慮藥物-靶點對的潛在有效相互作用,并且不能利用藥物-藥物和靶點-靶點相似關系。此外,這種方法僅使用DTI矩陣作為用于訓練的標記矩陣,忽略了異構生物數據中包含的信息。最近,圖形神經網絡(GNN)的快速發展將深度學習的應用擴展到了圖結構領域,相關方法也應用于藥物發現。然而,現有的一些基于圖的方法一方面是為齊次圖設計的,缺少異構數據源的各種信息。另外,這些方法在聚合中心節點信息時沒有考慮不同相鄰節點的貢獻,導致預測性能較差。本文基于對相關工作中不足的分析,提出了一種應用注意力機制和圖卷積方法基于異構圖的端到端DTI預測模型。 2.模型方法

圖1.DTI-HETA模型架構圖在本模型中,首先基于藥物-藥物和靶標-靶標相似度矩陣和DTI矩陣構建異構圖。然后,利用圖卷積神經網絡獲得藥物和目標的嵌入表示。為了突出不同鄰域節點在聚集圖卷積信息中對中心節點的貢獻,在節點嵌入過程中引入了圖注意機制(GAT)。最后,應用內積解碼器來預測DTI。模型的整體架構如圖1所示。模型的圖卷積模塊使用圖G中中心節點的相鄰節點來定義信息傳播框架,在這里稱為節點的局部計算圖。參數和權重在所有局部計算圖之間共享,在同一局部計算圖中應使用相同的信息傳播方法。如圖1的圖嵌入部分所示,有四種不同的局部計算圖:(a)、(b)、(c)和(d)。在(a)中,中心節點是藥物d1,并且其所有相鄰節點是藥物;在(b)中,中心節點d3是藥物,并且存在兩種類型的相鄰節點:藥物d1和d5以及靶標t4。(c)和(d)是另兩種情況,其中目標節點位于中心。在GCN的每一層中,根據原始圖中的邊類型計算四個局部計算圖。局部計算圖隱藏狀態的計算先對中心節點的相鄰節點進行線性變換,相同邊類型共享權重系數,然后求和并使用ReLu函數進行激活,從而得到該局部計算圖的隱藏狀態。藥物和靶標節點的隱藏狀態由節點在各自局部計算圖上的隱藏狀態相加得到。另外,模型考慮到不同相鄰節點的貢獻不同,引入了圖注意機制(GAT)。GAT在中心節點信息聚合過程中學習得到一個注意力系數e,為相鄰節點分配不同的權重。以節點i和j為例,GAT分別對兩個節點執行線性變換,然后使用一個映射函數f將注意力系數eij分配給圖中的節點。映射函數f通過一個單層前向傳播神經網絡學習得到。為了比較不同節點之間的注意力系數,再使用softmax函數進行歸一化。在計算節點i和j之間的注意力系數之后,GAT可以將不同的權重分配給中心節點的相鄰節點。 作者認為本模型的優點有: 1.基于異構圖設計預測模型,可以充分利用數據所攜帶的信息。2.為異構圖設計相應的圖卷積策略,并引入GAT以突出相鄰節點的不同貢獻。3.以端到端的方式訓練模型,模型參數可以更有效地更新。 **3.**驗證實驗

模型驗證實驗包括三個方面:1.作者基于自己構建的數據集,分析模型中涉及的參數,包括節點嵌入維數和卷積層數,獲得一組最優模型參數。

圖2.模型參數實驗結果圖

實驗結果如圖2所示。其中,隨著節點嵌入維數的增大,模型性能先提高,然后逐漸降低。作者分析當d太小時,節點嵌入攜帶的信息過少,導致擬合不足并影響最終的預測性能。而當d太大時,提取的節點嵌入可能包含噪聲,這也會影響預測性能。而卷積層數的增加則會一直導致模型性能的逐漸下降。這是因為圖卷積會使相鄰節點的表示更加接近,層數過度增加將導致節點表示收斂到一個點,從而導致過度平滑。同時,層數的增加也導致模型參數數量急劇增加,這可能導致過度擬合,影響預測性能。 2. 對比分析了不同解碼器對預測性能的影響。

圖3.解碼器實驗結果圖

實驗結果如圖3所示,結果表明內積解碼器比雙線性解碼器有更好的預測結果。這可能是因為雙線性解碼器引入了可訓練權重矩陣,增加了模型中的參數并導致過擬合。此外,DTI-HETA模型使用簡單解碼器,可以獲得更好的預測結果,表明該模型不依賴于特定解碼器。 3. 將本文提出的模型在兩個數據集上與其他方法進行比較,以驗證其優越性

表1.作者數據集上不同模型的AUC和AUPR比較表1顯示了DTI-HETA在作者自己構建數據集上與其他六個其他模型之間的比較結果。

表2 .Yamanishi-Enzyme數據集上不同模型的AUC和AUPR比較

表3 Yamanishi-Ion數據集上不同模型的AUC和AUPR比較

** **表4 Yamanishi-Enzyme數據集上不同模型的Accuracy , Sensitivity和Specificity比較

** **表5 Yamanishi-Ion數據集上不同模型的Accuracy , Sensitivity和Specificity比較

另外,由于Yamanishi數據集廣泛用于其他研究,因此選擇了一些最先進的模型與DTI-HETA進行比較,具體比較結果見表2-表5。實驗結果表明,本文提出的模型在性能上比其他模型均具有一定的優勢。 **4.**總結

目前,藥物和靶蛋白的異構圖已成為DTI預測的有力工具。但是基于藥物-靶點異構圖的GNN模型的巨大潛力尚未得到充分利用。面臨的問題比如正負數據的類別不平衡可能會影響GNN方法的性能。此外,GNN可以容易地捕獲數據集中可能存在的偏差模式。 在本研究中,本文提出了DTI-HETA,一種用于預測異構數據源DTI的端到端GCN模型。DTI-HETA通過定義圖卷積獲得藥物和目標的節點嵌入表示,該圖卷積將注意力機制引入異構圖中,然后使用解碼器預測潛在的DTI。實驗結果表明,DTI-HETA優于最先進的端到端模型和非端到端模式。 此外,作者認為盡管DTI-HETA顯示了良好的預測性能,但該研究仍面臨一些挑戰。 首先,數據處理時隨機選擇未知藥物-靶點對作為陰性樣本,這可能限制模型的預測精度,未來希望可以將實驗測量的陰性樣品作為陰性樣本。另一個挑戰是,下一步的工作可以考慮合并和探索更多與藥物和靶點相關的異質網絡,如代謝網絡和藥物-疾病網絡。這些不同的異構網絡將提供有助于DTI預測的豐富語義信息。 總的來說,DTI-HETA模型可以通過縮小DTI的搜索空間,推動新型DTI的發現工作,并且可能為理解藥物作用的潛在機制提供重要提示。

付費5元查看完整內容

——背景——

分子的物理化學性質,如水溶性、親脂性、膜通透性和解離度,對藥物開發先導化合物的篩選具有重要意義。準確、高效地預測分子性質是藥物研發的基本問題之一。表征學習已被證明大大提高了分子性質預測的性能。然而,基于監督學習的分子表示算法由于標記數據有限,只能在有限的化學空間內進行搜索,泛化能力較差。為了應對這一問題,2022年8月6日,中南大學的鄧磊課題組提出了一種基于attention-wise masking的對比學習預訓練模型ATMOL,改進對分子的編碼與分子性質的預測。該工作發表在Briefings in Bioinformatics,題為“Attention-wise masked graph contrastive learning for predicting molecular property”。 ——方法——

圖1:分子性質預測算法ATMOL的流程示意圖。如圖1所示,完整的算法分為兩大部分,第一部分是對分子進行編碼的預訓練模型,第二部分是用于下游分子性質預測的遷移學習。其中預訓練模型的數據來自ZINC數據庫,遷移學習的數據來自MoleculeNet數據庫。第一部分預訓練模型包含3個關鍵的步驟:(a)首先作者基于SMILES對輸入的分子構建分子圖,然后使用圖注意力網絡(Graph Attention Network,GAT)將分子圖編碼到隱空間。(b)對編碼后的分子圖,根據GAT編碼器學習到的attention權重對邊或節點添加mask,從而產生增廣的分子圖。(c)通過最小化增廣分子圖與原始分子圖之間的對比損失(Contrastive loss)來捕獲重要結構和高階語義,優化分子表示。對于訓練好的分子表示模型,第二部分將固定預訓練模型的參數不變,提取分子表示用于遷移學習,僅通過訓練兩個全連接層來預測分子性質。**——預測效果——**作者從多個維度對算法的設置進行了檢驗,并對預測效果進行了評估。對于分子性質的預測,作者在包含多種分子性質的7個數據庫上進行測試。首先,作者將基于Attention-wise mask的預訓練模型與基于監督學習的方法進行比較,發現算法ATMOL所用的對比學習預訓練模型對分子性質的預測效果顯著好于基于監督學習的方法,并且同時對分子圖的邊和節點添加mask比只對邊或節點添加mask效果更好。表1:比較ATMOL方法與基于監督學習的方法預測分子性質的結果。表頭表示在7個不同的數據庫上的預測結果。

添加mask的方式包括隨機添加或根據attention權重添加,結果顯示對attention權重最大的邊和節點添加mask效果最好,而以往常用的隨機添加mask則效果最差(圖2,左)。經過測試,作者發現添加25%(占所有邊和節點的比例)的mask效果最好,說明低比例的mask無法產生有效的增廣圖,而高比例的mask則可能破壞了重要的分子結構從而導致預測結果變差(圖2,右)。除此之外,作者還利用不同大小的數據集分別訓練模型,結果顯示基于大數據集上的結果優于基于小數據集上的結果。

圖2:左,4種添加mask的方式對預測結果的影響。右,添加mask的比例對預測結果的影響。作者還將ATMOL與前人報道的5種基于自監督的分子表征算法同時用于分子性質的預測,進行比較。結果顯示ATMOL總體優于其它5種算法,且基于大數據集的ATMOL算法在某些測試集上效果提升格外明顯(表2)。表2:ATMOL與其它5種算法預測分子性質結果比較。

最后,作者試圖探索算法的可解釋性,通過可視化attention權重,作者發現在圖3所示的例子中,算法學習到的高attention權重與已報道的關乎分子性質的重要組分相匹配。

圖3:Attention權重可視化示例。(a)和(c)代表同一個分子;(b)和(d)代表同一個分子。**——總結與討論——**鄧磊課題組提出的ATMOL算法,構建了一個基于attention-wise masking的對比學習預訓練模型,在預測分子性質的任務上取得了不錯的提升。值得注意的是,作者認為對attention權重最大的部分添加mask,能夠擴展負樣本并使其更加多樣化,從而有利于提高對比學習的效果。作者對算法可解釋性的探索,也顯示了ATMOL具有提取分子關鍵結構的潛力。參考文獻:

[1] Liu, H., Huang, Y., Liu, X. & Deng, L. "Attention-wise masked graph contrastive learning for predicting molecular property." Briefings in Bioinformatics, bbac303. DOI: 10.1093/bib/bbac303 點擊左下角的"閱讀原文"即可查看原文章。


作者:陳佳曉 審稿:謝維新 編輯:黃志賢

GoDesign ID:Molecular_Design_Lab ( 掃描下方二維碼可以訂閱哦!)

本文為GoDesign原創編譯,如需轉載,請在公眾號后臺留言。

付費5元查看完整內容
北京阿比特科技有限公司