今天給大家介紹一篇由廈門大學研究團隊發表在Briefings in Bioinformatics的文章。作者在該論文中將DTI預測視為一個鏈路預測問題,并提出了一種基于具有注意機制的異構圖的端到端模型(DTI-HETA)。
摘要藥物-靶標相互作用(DTI)預測在藥物重新定位、藥物發現和藥物設計中起著重要作用。然而,由于化學和基因組空間的龐大以及藥物和靶標之間相互作用的復雜性,DTI的實驗鑒定具有成本高且耗時長的問題。近年來,新興的圖神經網絡(GNN)被應用于DTI預測,因為DTI可以有效地用圖表示。然而,其中的部分方法僅基于齊次圖,另外部分方法由兩個不可聯合訓練的解耦步驟組成。為了通過整合異構圖信息進一步探索基于GNN的DTI預測,本研究將DTI預測視為一個鏈路預測問題,并提出了一種基于具有注意力機制的異構圖的端到端模型(DTI-HETA)。該模型在藥物靶標信息構造的異構圖上利用圖卷積神經網絡獲得藥物和靶標的嵌入表示,并在節點的信息聚合過程中引入了圖注意機制。在得到藥物和靶標的嵌入表示后,模型應用內積解碼器來進行DTI預測。為了評估DTIHETA的性能,本研究在兩個數據集上進行了實驗。實驗結果表明,本文的模型優于現有的方法。 1.****研究背景盡管在藥物研究和開發方面取得了許多進展,但傳統的藥物發現過程仍然具有風險。風險主要體現在耗時和成本上,統計表明藥物新分子實體研發的時間周期估計為12年,成本估計為18億美元。目前,加速藥物發現過程的關鍵是確定藥物是否能與靶相互作用,因為識別藥物和靶點之間的相互作用有助于候選新藥的有效篩選工作。盡管有成千上萬的化合物存儲在各種數據庫中,但大多數化合物沒有相應的目標信息。隨著藥物和靶點可用數據的增長,越來越多的學者試圖研究有效的計算方法來識別新的藥物-靶點相互作用(DTI)。目前,DTI預測的計算方法主要有三類:基于配體的方法、對接模擬和化學基因組學方法。雖然在生物學上被廣泛接受,但基于配體的方法和對接模擬面臨許多限制,例如已知配體的數量不足、蛋白質的3D結構未知等等。化學基因組學方法可進一步分為幾類,如基于機器學習的方法和基于相似性的方法。在這些化學基因組學方法中,基于機器學習和深度學習的模型因其可靠的預測結果而備受關注。在這些方法中,關于藥物和靶點的知識被編碼為特征以訓練模型。然后將訓練后的模型用于預測新的DTI。這些方法通常涉及特征提取和DTI預測兩方面,但在構建模型時很少考慮藥物-靶點對的潛在有效相互作用,并且不能利用藥物-藥物和靶點-靶點相似關系。此外,這種方法僅使用DTI矩陣作為用于訓練的標記矩陣,忽略了異構生物數據中包含的信息。最近,圖形神經網絡(GNN)的快速發展將深度學習的應用擴展到了圖結構領域,相關方法也應用于藥物發現。然而,現有的一些基于圖的方法一方面是為齊次圖設計的,缺少異構數據源的各種信息。另外,這些方法在聚合中心節點信息時沒有考慮不同相鄰節點的貢獻,導致預測性能較差。本文基于對相關工作中不足的分析,提出了一種應用注意力機制和圖卷積方法基于異構圖的端到端DTI預測模型。 2.模型方法
圖1.DTI-HETA模型架構圖在本模型中,首先基于藥物-藥物和靶標-靶標相似度矩陣和DTI矩陣構建異構圖。然后,利用圖卷積神經網絡獲得藥物和目標的嵌入表示。為了突出不同鄰域節點在聚集圖卷積信息中對中心節點的貢獻,在節點嵌入過程中引入了圖注意機制(GAT)。最后,應用內積解碼器來預測DTI。模型的整體架構如圖1所示。模型的圖卷積模塊使用圖G中中心節點的相鄰節點來定義信息傳播框架,在這里稱為節點的局部計算圖。參數和權重在所有局部計算圖之間共享,在同一局部計算圖中應使用相同的信息傳播方法。如圖1的圖嵌入部分所示,有四種不同的局部計算圖:(a)、(b)、(c)和(d)。在(a)中,中心節點是藥物d1,并且其所有相鄰節點是藥物;在(b)中,中心節點d3是藥物,并且存在兩種類型的相鄰節點:藥物d1和d5以及靶標t4。(c)和(d)是另兩種情況,其中目標節點位于中心。在GCN的每一層中,根據原始圖中的邊類型計算四個局部計算圖。局部計算圖隱藏狀態的計算先對中心節點的相鄰節點進行線性變換,相同邊類型共享權重系數,然后求和并使用ReLu函數進行激活,從而得到該局部計算圖的隱藏狀態。藥物和靶標節點的隱藏狀態由節點在各自局部計算圖上的隱藏狀態相加得到。另外,模型考慮到不同相鄰節點的貢獻不同,引入了圖注意機制(GAT)。GAT在中心節點信息聚合過程中學習得到一個注意力系數e,為相鄰節點分配不同的權重。以節點i和j為例,GAT分別對兩個節點執行線性變換,然后使用一個映射函數f將注意力系數eij分配給圖中的節點。映射函數f通過一個單層前向傳播神經網絡學習得到。為了比較不同節點之間的注意力系數,再使用softmax函數進行歸一化。在計算節點i和j之間的注意力系數之后,GAT可以將不同的權重分配給中心節點的相鄰節點。 作者認為本模型的優點有: 1.基于異構圖設計預測模型,可以充分利用數據所攜帶的信息。2.為異構圖設計相應的圖卷積策略,并引入GAT以突出相鄰節點的不同貢獻。3.以端到端的方式訓練模型,模型參數可以更有效地更新。 **3.**驗證實驗
模型驗證實驗包括三個方面:1.作者基于自己構建的數據集,分析模型中涉及的參數,包括節點嵌入維數和卷積層數,獲得一組最優模型參數。
圖2.模型參數實驗結果圖
實驗結果如圖2所示。其中,隨著節點嵌入維數的增大,模型性能先提高,然后逐漸降低。作者分析當d太小時,節點嵌入攜帶的信息過少,導致擬合不足并影響最終的預測性能。而當d太大時,提取的節點嵌入可能包含噪聲,這也會影響預測性能。而卷積層數的增加則會一直導致模型性能的逐漸下降。這是因為圖卷積會使相鄰節點的表示更加接近,層數過度增加將導致節點表示收斂到一個點,從而導致過度平滑。同時,層數的增加也導致模型參數數量急劇增加,這可能導致過度擬合,影響預測性能。 2. 對比分析了不同解碼器對預測性能的影響。
圖3.解碼器實驗結果圖
實驗結果如圖3所示,結果表明內積解碼器比雙線性解碼器有更好的預測結果。這可能是因為雙線性解碼器引入了可訓練權重矩陣,增加了模型中的參數并導致過擬合。此外,DTI-HETA模型使用簡單解碼器,可以獲得更好的預測結果,表明該模型不依賴于特定解碼器。 3. 將本文提出的模型在兩個數據集上與其他方法進行比較,以驗證其優越性
表1.作者數據集上不同模型的AUC和AUPR比較表1顯示了DTI-HETA在作者自己構建數據集上與其他六個其他模型之間的比較結果。
表2 .Yamanishi-Enzyme數據集上不同模型的AUC和AUPR比較
表3 Yamanishi-Ion數據集上不同模型的AUC和AUPR比較
** **表4 Yamanishi-Enzyme數據集上不同模型的Accuracy , Sensitivity和Specificity比較
** **表5 Yamanishi-Ion數據集上不同模型的Accuracy , Sensitivity和Specificity比較
另外,由于Yamanishi數據集廣泛用于其他研究,因此選擇了一些最先進的模型與DTI-HETA進行比較,具體比較結果見表2-表5。實驗結果表明,本文提出的模型在性能上比其他模型均具有一定的優勢。 **4.**總結
目前,藥物和靶蛋白的異構圖已成為DTI預測的有力工具。但是基于藥物-靶點異構圖的GNN模型的巨大潛力尚未得到充分利用。面臨的問題比如正負數據的類別不平衡可能會影響GNN方法的性能。此外,GNN可以容易地捕獲數據集中可能存在的偏差模式。 在本研究中,本文提出了DTI-HETA,一種用于預測異構數據源DTI的端到端GCN模型。DTI-HETA通過定義圖卷積獲得藥物和目標的節點嵌入表示,該圖卷積將注意力機制引入異構圖中,然后使用解碼器預測潛在的DTI。實驗結果表明,DTI-HETA優于最先進的端到端模型和非端到端模式。 此外,作者認為盡管DTI-HETA顯示了良好的預測性能,但該研究仍面臨一些挑戰。 首先,數據處理時隨機選擇未知藥物-靶點對作為陰性樣本,這可能限制模型的預測精度,未來希望可以將實驗測量的陰性樣品作為陰性樣本。另一個挑戰是,下一步的工作可以考慮合并和探索更多與藥物和靶點相關的異質網絡,如代謝網絡和藥物-疾病網絡。這些不同的異構網絡將提供有助于DTI預測的豐富語義信息。 總的來說,DTI-HETA模型可以通過縮小DTI的搜索空間,推動新型DTI的發現工作,并且可能為理解藥物作用的潛在機制提供重要提示。
2022年9月12日,哈爾濱醫科大學生物信息科學與技術學院程亮教授團隊和南京醫科大學生物醫學工程與信息學院劉云教授團隊合作在Bioinformatics上發表文章《MGPLI: Exploring multigranular representations for protein-ligand interaction prediction》。作者提出了一個多粒度的蛋白-配體相互作用預測模型MGPLI。模型利用Transformer和CNN網絡分別提取了蛋白和藥物的子序列級和字符級信息,并將兩者融合用于預測蛋白-配體相互作用。模型在不同的數據集上進行了評估,性能表現優秀。
1 摘要
目標:預測針對蛋白質-靶標的潛在藥物結合親和力的能力一直是計算藥物發現的基本挑戰。傳統的體外和體內實驗成本高且耗時,需要在大的化合物空間上進行搜索。近年來,基于深度學習的藥物-靶標結合親和力(drug-target binding affinity, DTA)預測模型取得了顯著成功。
結果:隨著Transformer模型最近的成功,作者提出了一種多粒度蛋白質-配體相互作用(Multi-Granularity Protein Ligand Interaction, MGPLI)預測模型,該模型采用Transformer編碼器來表示字符級(character-level)特征和片段級(fragment-level)特征,建模殘基和原子或其片段之間可能的相互作用。此外,作者使用卷積神經網絡(CNN)提取基于transformer編碼器輸出的高級特征,并使用highway層融合蛋白質和藥物特征。作者在不同的蛋白質-配體相互作用數據集上評估MGPLI,與最先進的基線相比,本模型表現出更好的預測性能。
2 問題形式化可以將DTI預測視為一個回歸任務,即預測給定藥物-靶標蛋白對之間的親和力.藥物的SMILES序列可以表示為:.蛋白的氨基酸序列可以表示為:.則,數據集中的樣本可以表示為一個元組:
模型的目標則是通過建立一個從
到
的映射來預測藥物-靶標蛋白之間的親和力。
3 方法如圖1所示,論文的主要步驟為:
下面詳細介紹部分模塊。
圖1 MGPLI的模型架構
作者采用了名為sentence piece tokenization的算法對藥物和蛋白序列進行片段化。sentence piece tokenization是一種數據驅動的算法,可以直接使用原始序列數據進行訓練,并分詞。對于蛋白,作者在來自于UniprotKB數據庫的0.56M蛋白序列上進行了預訓練;對于藥物,作者在來自于ChEMBL數據庫的1.6M化合物上進行了預訓練。 作者將藥物和蛋白分別進行子序列化和字符化,這是兩種不同粒度的特征,可以互補。對于蛋白的氨基酸序列:,可以轉化為子序列的序列:,和字符序列:.對于藥物的SMILES序列:可以轉化為子序列的序列:,和字符序列:. 3.2 多粒度嵌入(Multigranular embedding)對于得到的四種序列,作者首先將其通過四個可訓練的矩陣, , , 進行嵌入。為了建模不同位置元件的關系,作者加入了絕對位置編碼(absolute positional encoding):為了避免過擬合和不穩定的訓練過程,作者添加了層標準化技術: 和dropout技術。綜上可以將四種序列信息表示為,即
**3.3 Transformer-CNN **Transformer-CNN的結構如圖2所示。transformer-CNN的優勢是可以同時提取對預測DTA重要的全局序列信息和局部特征信息。
圖2 提出的transformer-CNN的結構如右圖所示,transformer-CNN單元如左圖所示對于具體的transformer編碼器,自然包括多頭注意力層(multihead attention layer)、位置前饋網絡(positionwise feedforward network)、殘差連接(residual connection)和層標準化(layer normalization)。可以形式化表示為:
接著作者使用了一維卷積(one-dimensional CNNs)和最大池化(max pooling)操作來提取高級特征,可以將這個特征映射表示為:最后,則可分別得到藥物和靶標蛋白的不同粒度特征:,,,.
由于不同粒度的子序列和原子級別的特征存在重疊(overlap),如果使用簡單的拼接操作可能會造成冗余且影響模型的學習能力。為了高效地整合不同粒度的信息,作者設計了一個簡單的帶有門控機制(gating mechanism)的highway 前饋網絡來控制信息的流動。每個highway層包括一個信息攜帶門(carry gate, Cr)和一個變換門(transform gate, Tr)。為了保持簡潔,作者定義。 最后作者采用均方差(Mean square error, MSE)作為loss函數,即 作者也給出了詳細的參數設置情況,如表1所示。表1 參數設置情況
4 數據和結果
4.1 數據作者采用了3個流行的數據集用于評估模型:KIBA數據集、Davis數據集、Binding DB數據集。數據的統計情況如表2所示。表2 使用的3個數據集的統計情況
4.2 評估指標作者采用了CI、MSE和Pearson相關系數定量衡量模型的性能。
圖3 MGPLI和對比方法在Davis、KIBA和BindingDB數據集上的性能表現。誤差線表示標準誤差。 如圖3所示,作者將MGPLI與其他基準模型進行了比較。作者也進行了消減實驗、藥物的靶標選擇性(target selectivity)、PDBBind數據集上的性能評估和比較等分析。
5 總結
在本文中,作者提出了一種新的深度學習模型MGPLI,用于DTA預測任務。MGPLI使用來自藥物和蛋白質序列的多粒度信息;也就是說,它整合了SMILES和氨基酸序列中的原子級和子序列級信息。利用這種多粒度信息,MGPLI通過使用transformer編碼器和CNN學習原子級和子序列級的表示。為了有效地融合這些表示,MGPLI采用highway層來調節連續訓練周期中的信息流。在三個公共數據集上的實驗結果表明,MGPLI在隨機劃分和盲劃分場景中都顯著優于最先進的模型。盡管MGPLI在PDBbind數據集上的表現并不優于最先進的方法,但本方法仍然是對蛋白質-配體相互作用預測任務上的有效貢獻,并可能在未來的工作中進一步增強。
--------- End ---------