亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

圖神經網絡(GNNs)利用各種方法將卷積的概念推廣到圖中,已被廣泛應用于許多學習任務,包括物理系統建模,尋找分子表示來估計量子化學計算等。大多數現有的GNNs通過將網絡設想為一個消息傳遞方案來解決置換不變性,其中每個節點求和來自其鄰居的特征向量。我們認為該方案對GNN的表示能力施加了限制,使得每個節點在被求和聚合后失去了它們的身份。因此,我們提出了一種新的通用架構,稱為協變成分網絡(CCNs),其中節點特征由高階張量表示,并根據其接受野對稱群的特定表示進行協變/等價變換。實驗表明,CCNs在標準圖學習基準和估計密度泛函理論(DFT)計算的分子性質方面優于競爭方法。這種新穎的機器學習方法允許科學家有效地提取化學知識,并探索日益增長的化學數據。

從多尺度角度理解圖對于捕獲分子、蛋白質、基因組等的大規模結構至關重要。為此,我們引入了多分辨率等變圖變分自編碼器(MGVAE),這是第一個以多分辨率和等變方式學習和生成圖的分層生成模型。MGVAE建立在多分辨率圖網絡(MGN)之上,該體系結構顯式地學習頂點的多級硬聚類,從而形成真正的多分辨率層次結構。然后,MGVAE采用層次變分自編碼器模型,在給定潛在分布層次的情況下,隨機生成多個分辨率層次的圖。我們提出的框架實現了幾個生成任務,包括通用圖生成、分子生成、無監督分子表示學習、引用圖鏈接預測和基于圖的圖像生成。MGVAE的未來應用范圍從先導優化增強最有前途的化合物在藥物發現到尋找穩定的晶體結構在材料科學。

//people.cs.uchicago.edu/~hytruongson/PhD-Thesis.pdf 一般來說,我們希望學習由每個原子的一組電荷-位置對指定的分子數據。這個問題對旋轉和平移是不變的。我們使用協變激活來“烘焙”這些對稱性,同時保留局部幾何信息。我們提出協變分子神經網絡(Cormorant),一種旋轉協變神經網絡結構,用于學習復雜多體物理系統的行為和特性。我們將這些網絡應用到分子系統中,有兩個目標:學習用于分子動力學模擬的原子勢能面,以及學習通過密度泛函理論計算的分子基態性質。我們的網絡的一些關鍵特征是:(a)每個神經元明確地對應于原子的一個子集;(b)每個神經元的激活與旋轉協變,確保整個網絡完全旋轉不變。此外,我們的網絡中的非線性是基于張量乘積和Clebsch-Gordan分解,允許網絡完全在傅里葉空間中運行。Cormorant在從MD-17數據集的構象幾何圖形中學習分子勢能面方面明顯優于其他算法,在學習GDB-9數據集上分子的幾何、能量、電子和熱力學性質方面與其他方法具有競爭力。

多分辨率矩陣分解(MMF)在快速矩陣分解算法中是不尋常的,因為它不做低秩的假設。這使得MMF特別適合于建模具有復雜的多尺度或層次結構的某些類型的圖。雖然MMF有望產生一個有用的小波基,但找到因式分解本身是困難的,現有的貪婪方法往往是脆弱的。因此,我們提出了MMF的“可學習”版本,該版本結合強化學習和通過反向傳播誤差的Stiefel流形優化,仔細優化了因式分解。基于MMF在分解歸一化圖拉普拉斯時產生的小波基,利用稀疏小波變換定義的圖卷積,構造譜域小波網絡學習圖。我們已經證明,由我們的可學習MMF產生的小波基遠遠優于先前的MMF算法,相應的小波網絡在引用圖的標準節點分類和分子圖分類上產生了最先進的結果。這對于理解和可視化復雜的層級結構(如社會網絡和生物數據)是一個很有前途的方向。

付費5元查看完整內容

相關內容

作者 | 李政毅審核 | 黃 鋒

今天給大家介紹的是特拉維夫大學發表在IJCAI-2022上的一篇文章:"Geometric Transformer for End-to-End Molecule Properties Prediction"。由于Transformer能夠表征元素之間復雜的相互作用,已經成為許多應用中的首選方法。然而,將Transformer架構擴展到非序列數據如分子數據,并使其在小數據集上進行訓練仍然是一個挑戰。在這項工作中,作者為分子屬性預測引入了一個基于Transformer的架構,通過對分子幾何形狀的初始編碼以及學習到的門控自我注意機制來修改經典的位置編碼器,能夠捕獲分子的幾何形狀。同時,作者進一步提出了一個分子數據的增強方案,能夠避免過度參數化引起的過擬合。所提出的框架優于最先進的方法,同時完全基于純機器學習,即該方法不包含量子化學領域的知識,也不使用除成對原子距離之外的擴展幾何輸入。

1 研究背景

化合物的性質通常可以使用密度泛函理論或從頭計算量子化學等方法來估計。但是這些方法的計算成本很高,因此其適用性有限。近年來,許多方法已經開始利用機器學習來降低有效預測分子性質所需的計算復雜性。在這方面,許多貢獻集中在創建原子或分子水平的手工表示,作為各種機器學習方法的輸入。薛定諤方程表明,給定分子的基態性質僅是原子間距離和核電荷的函數。基于這一發現,最近的幾種方法以端到端的方式預測分子性質,其中輸入由原子的類型和空間位置定義。這些方法通常包含量子化學知識,并依賴于廣泛的超參數調整。 作者的模型不使用擴展的領域知識,僅基于簡單的距離相關性假設,即原子元素之間的距離越大,相互作用越小。與其他工作相反,該框架沒有假定任何擴展的輸入,例如量子力學性質,復雜的幾何信息,如彎曲或扭轉角度等。作者設計的Transformer被賦予了一個適應的位置編碼器,并在模型的不同級別上學習了原子間的幾何嵌入,允許增加表征能力,同時可以保持分子對剛性變換和排列的不變性。

2 模型介紹

模型的整體架構

Geometric Positional Encoding

分子預測必須滿足基本對稱性和物理定律的不變性,例如對剛性空間變換(旋轉和平移)和相同類型原子的置換不變性。因此,模型中的位置輸入被變換為原子間的歐氏距離,以保持剛性變換的不變性,而置換不變性是通過相同類型原子的相同的初始原子特征來實現。 由于原子的初始嵌入完全基于原子的類型,無法區分相同的的原子,且省略了分子的幾何結構。原始Transformer的位置編碼模塊旨在將序列元素的接近程度傳入到初始嵌入。在分子預測任務中,由于輸入被定義為集合而不是序列,因此需要調整位置編碼器以提供幾何感知的初始嵌入。在這里,作者使用原子間距離矩陣來為每個原子嵌入傳入位置信息,如下所示:

和分別表示原子i的初始嵌入以及原子i和其他原子之間的歐氏距離,位置編碼可以提原子的初始幾何感知嵌入

Geometric Self-Attention

自注意機制使得能夠準確地學習分子幾何結構信息以及分子復雜的幾何相互作用。作者提出將原子的成對距離信息加入到自注意力層的計算中,自注意力層將會被擴展為如下的形式:

從上圖可以看出,如果兩個原子的歐式距離超過給定的截止距離,那么ψω將趨近于0,同時二者通過注意力層計算的分數應該是趨近于0。在這之前,已經提出了幾種方法來擴展自注意機制,如下公式(4)和(5)所示:

 但是這兩種方法要么難以學習,要么不滿足原子互作的物理定律。作者建議直接設計為相乘的形式,如下所示:

通過這種方式,原子間的距離將會對注意力層計算的原子間的分數產生直接的影響。

Learning the Graph Geometry

現有的很多方法都很難對交互功能ψω建模。從力場方法到最近的基于學習的方法,需要經驗地重新定義歐幾里得成對距離,以便滿足物理定律。通常情況下,這些方法中存在的最關鍵的超參數之一是截止距離。 在這里,作者建議學習在transformer的每個級別的成對距離ψω。通過ψω對距離進行變換與自注意力機制相結合,使得能夠根據預測目標直接優化原子間的距離表示以及截止距離,消除了繁瑣的超參數,允許以自適應方式進行學習。 作者將ψω參數化為一個淺層、全連通的神經網絡,并通過距離平方來進一步增強相似性的映射強度。并且變換距離為,從而加快了訓練速度。下圖展示了在transformer的不同的塊中通過ψω得到的變換的原子間距離。有趣的是,一些獲得的截止距離位于其他工作(2?6?)中的經驗值附近。

Regularization via Molecule Augmentation

transformer一般都是非常大的、過度參數化的模型。減少過擬合的最有效技術之一是數據增強。然而,增加分子數據并不簡單,特別是對于回歸任務,因為修改一種原子類型或其空間位置會對分子性質產生不可預測的影響。混合策略從成對(或更多)的數據中創建新的樣本。在這里,根據最初的距離相關性假設,作者建議將混合策略思想擴展到分子,通過創建由兩個相距較遠的分子組成的系統來獲得新的樣本。作者將新系統的性質定義為兩個分子的性質之和。模型計算得到的原子之間的注意力分數使得模型能夠學習如何將兩個相距較遠的子系統分開,并減少過擬合。如下圖所示,新系統定義為兩個分子經過旋轉平移之后的組合:

目標是使得模型在新系統數據下可以實現下面的目標,即新系統的分子屬性=兩個原分子屬性值的加和:

3 實驗

Dataset

在table 1(左)中,顯示了模型在QM9數據集上的平均絕對誤差(MAE);在table 2(右)中使用MD17來測試分子動力學模擬中的模型性能:

Comparison and Ablation Studies

比較了不同自注意模塊的影響。給出了方法的收斂曲線,如Figure 7(左)所示。同時給出了訓練過程中數據增強對模型泛化的影響。Figure 7(右)顯示了對于屬性U0和μ,數據增強對模型收斂的影響。可以看出,在這兩種情況下,當應用數據增強時,訓練集和驗證集之間的泛化差距被極大地減小:

4 文章地址

//arxiv.org/abs/2110.13721

付費5元查看完整內容

編譯 | 陳睿哲

審稿 | 劉名權 今天給大家介紹的是來洛桑聯邦理工學院、MIT等團隊2022年10月發表在Arxiv上的預印本《Equivariant 3D-Conditional Diffusion Models for Molecular Linker Design》。

1 摘要 基于片段(fragment)的藥物發現已經成為早期藥物開發的一個有效范式。這一領域的一個開放挑戰是設計在interest的斷開分子片段之間的連接(linker),以獲得化學相關的候選藥物分子。在這項工作中,我們提出了一個擴散模型,一個E(3)等變3D條件擴散模型的分子連接設計模型。給定一組不相連的片段,我們的模型將缺失的原子放在中間,并設計了一個包含所有初始片段的分子。與以前只能連接分子片段對的方法不同,我們的方法可以連接任意數量的片段。此外,該模型還會自動確定連接器中的原子數及其連接點指向輸入片段。我們證明了擴散連接模型在生成更多樣化和綜合可獲得的分子的標準數據集上優于其他方法。此外,我們在現實應用中實驗測試了我們的方法,表明它可以成功地生成基于目標蛋白口袋條件的有效連接。

2 簡介 據估計,藥物的分子空間將超過10的60次方個結構,在該空間中搜索對藥物設計提出了重大挑戰。縮小這個空間大小的一個方法是從片段開始,片段是一種較小的分子化合物,通常有不超過20個重(非氫)原子。這種策略被稱為基于片段的藥物設計。給定一個蛋白質口袋(目標蛋白的一部分,利用合適的特性結合配體),計算確定與口袋相互作用的片段是一種比實驗性高通量篩選方法更便宜、更有效的替代方法。一旦相關片段被識別出來并與目標蛋白對接,就需要將它們結合成一個單一的、連接的分子。在片段連接、合并和生長等各種策略中,前者是首選,因為它可以快速提高目標和化合物的結合能。這項工作解決了連接的問題。

早期的分子連接設計的計算方法是基于數據庫搜索和物理模擬,這兩種方法都是計算密集型的。現有的方法要么基于語法模式識別,要么基于自回歸模型。前一種方法只使用SMILES,而后者則考慮了輸入片段的三維位置和方向。然而,這些方法對于原子的排列并不是等變的,只能結合成對的片段。

連接的設計依賴于目標蛋白口袋,正確地使用這些信息可以提高整體化合物的親和力。然而,到目前為止,還沒有計算方法的分子連接器設計,考慮到口袋。在這項工作中,我們提出了DiffLinker,一個條件擴散模型,它為一組表示為三維原子點云的輸入片段生成分子連接器。首先,我們的模型生成預期連接的大小,然后從正態分布中采樣初始連接原子的類型和位置。接下來,使用以輸入片段為條件的神經網絡迭代地更新連接原子類型和坐標。最終,去噪的連接原子和輸入片段原子形成一個連接分子,如圖1所示。

DiffLinker具有幾個理想的特性:它關于平移、旋轉、反射和排列等變,它不受輸入片段數量的限制,它不需要關于附著原子的信息,并生成任意大小的連接器。此外,DiffLinker的調節機制允許傳遞關于周圍蛋白質口袋原子的額外信息,這使該模型適用于基于結構的藥物設計應用。

我們的經驗表明,在生成片段對之間的化學相關連接方面比以前的方法更有效。我們的方法在合成可及性和藥物相似性方面取得了最先進的結果,這使其更適合用于藥物設計管道。此外,擴散連接器在生成的連接的多樣性方面顯著優于其他方法。我們進一步提出了一個更具挑戰性的基準測試,并表明我們的方法能夠成功地連接兩個以上的片段,而這是其他方法無法做到的。我們還證明了擴散蛋白可以基于目標蛋白質口袋:我們的模型尊重周圍蛋白質原子施加的幾何約束,并生成與相應口袋有最小沖突的分子。據我們所知,DiffLinker是第一個不受輸入片段數量限制并描述口袋信息的方法。這項工作的總體目標是為從業者提供一個有效的工具,分子連接子生成在現實的藥物設計場景。

3 方法 在本節中,我們將介紹DiffLinker,一種新的E(3)等變擴散模型,用于生成以3D片段為條件的分子連接。我們制定了底層去噪分布的等方差要求,并再提出了一個可學習的動態函數。我們討論了取樣一個連接的大小和調節蛋白質口袋的策略。完整的連接器生成工作流程如圖1所示。

3.1 EQUIVARIANT 3D-CONDITIONAL DIFFUSION MODEL 與其他分子生成的擴散模型不同,我們的方法以三維數據為條件。更具體地說,我們假設每個點云x都有一個相應的上下文u,這是另一個由所有輸入片段和蛋白質口袋原子組成的點云,這些原子在整個擴散和去噪過程中保持不變,如圖1所示。因此,我們考慮公式擴散過程中的生成過程在點云x上操作,同時基于固定的相應上下文。

條件去噪模型的馬爾科夫鏈定義:

函數f的選擇在很大程度上取決于要解決的問題和可用的先驗。在我們的實驗中,我們考慮了兩個情況。首先,我們利用了應該由連接器連接的原子的信息。我們稱這些原子為錨點,并將f (u)定義為錨點的質心。然而,在現實世界中,不太可能知道哪些原子應該是錨點。在這種情況下,我們將f (u)定義為整個環境u的質心。

我們注意到概率模型p與平移并不是等變的。為了克服這一問題,我們構造了附加平移不變的網絡?。然后,我們不再從N (f (u))采樣初始噪聲,而是將數據集中在f (u),從標準正態分布中采樣。

3.2 EQUIVARIANT GRAPH NEURAL NETWORK 建模擴散模型動力學的可學習函數?被實現為一個改進的E(3)等變圖神經網絡(EGNN)。它的輸入是時間t和上下文u的連接z_t的噪聲版本。這兩部分被建模為一個單一的全連通圖,其中節點用坐標r和特征向量h表示。

為了使函數?對平移不變,我們從預測噪聲的坐標分量中減去初始坐標:

EGNN由等變圖卷積層組成,消息傳遞的過程如下:

節點坐標的后一種更新由可學習函數φ_vel計算。我們的圖中包含了一個有噪聲的連接器z_t和一個固定的上下文u,而?的目的是預測應該從z_t的坐標和特征中減去的噪聲。因此,在計算動態時,保持上下文坐標不變是很自然的,并且在每個EGCL步驟中只對連接部分應用非零位移。因此,我們對節點位移的建模如下:

通過構造實現了卷積層的等方差。消息φ_e和節點更新φ_h只依賴于標量節點特征和E(3)不變的節點之間的距離。坐標更新φ_vel另外線性地依賴于坐標向量之間的差值,這使得它們成為E(3)等變的。

由于我們只對與連接相關的部分感興趣,因此我們放棄了上下文節點的坐標和特征,并將元組[z_r,z_h]視為EGNN輸出。

3.3 LINKER SIZE PREDICTION 為了預測一組片段之間缺失的連接的大小,我們將片段表示為一個全連接圖,使用原子類型的獨熱編碼作為節點特征,節點之間的距離為邊特征。由此,一個單獨訓練的GNN產生了連接大小的概率。我們的假設是,相對的片段的位置和方向以及原子類型包含了所有預測最可能的潛在連接大小的必要信息。當生成一個連接時,我們首先用在訓練數據中看到的連接大小列表上的分類分布上的預測概率對其大小進行采樣,如圖1所示。

3.4 PROTEIN POCKET CONDITIONING 在現實世界中基于片段的藥物設計應用中,經常會發生片段被選擇并連接到目標蛋白口袋中。要提出一種候選藥物分子,這些片段必須被連接起來。當生成連接時,應該考慮到周圍的口袋,并構建一個與蛋白質口袋原子沒有沖突的連接(換句話說,連接和口袋原子的配置應該是現實的),并保持較高的結合強度。為了將口袋條件反射添加到DiffLinker中,我們將一個蛋白質口袋表示為一個原子點云,并將其視為上下文u的一部分。我們還擴展了節點特征,用一個額外的二進制標記來標記屬于蛋白質口袋的原子。最后,由于新的上下文點云包含了更多的原子,我們修改了數據點z_t和傳遞給神經網絡?的上下文u的聯合表示。我們不考慮全連通圖,而是基于4A?的距離截止來分配節點之間的邊,因為它使得到的圖更不密集,并抵消了節點數量的增加帶來的計算負載。

4 實驗結果 在ZINC、CASF和GEOM測試集上的性能指標。前三個指標是為了評估所生成的分子的化學相關性。最后三個指標評估了這些方法的標準生成特性。

ZINC和CASF:雖然我們的模型在更多的應用中具有更大的靈活性和適用性,但在生成的分子的化學相關性方面,它們在標準基準測試的ZINC和CASF方面也優于其他方法。如表1所示,通過DiffLinker取樣的分子更容易合成獲得,并表現出更高的藥物相似性,這對于藥物設計應用尤為重要。此外,我們的模型生成了包含更多環的連接。此外,我們的分子通常具有更高的化學和幾何相似性,如表2中的SCRDKit評分所示。在有效性方面,我們的模型的性能與其他方法相同。兩種自回歸方法在每個生成步驟中都明確地使用了價規則,而我們的模型顯示出能夠從數據中學習這些規則。值得注意的是,對連接的大小進行采樣顯著提高了生成的連接的新穎性和唯一性,而沒有顯著退化最重要的指標。

與最近提出的自回歸模型DeLinker和3DLinker相比,它的主要優勢是在任意數量的片段之間一次性生成整個連接。這克服了DeLinker和3DLinker的局限性,它們一次只能連接兩個片段。雖然這些自回歸模型可以進行調整,以便在生長分子時迭代地連接片段對,但在這種情況下,不能考慮到完整的背景。因此,更有可能產生次優解。為了說明這一差異,我們采用了3DLinker來迭代地連接分子中需要連接兩個以上片段的片段對。如表1所示,3DLinker在幾乎84%的情況下無法構建有效分子,無法恢復任何參考分子,而盡管該數據集中連接器的復雜性更高,但我們的模型達到了94%的有效性,恢復了50%以上的參考分子。此外,由3DLinker生成的分子在連接體中沒有環,QED大大降低,而且更難合成。

為了說明DiffLinker考慮周圍口袋的能力,我們在口袋數據集上訓練了三個模型:它們分別基于全原子口袋表示,基于口袋主干原子和非條件。我們還計算了生成的分子和周圍口袋之間的沖突次數。如果兩個原子之間的距離小于它們的范德華半徑之和,我們就說兩個原子之間會發生沖突。如圖2所示,以全原子口袋表示為條件的模型產生的分子具有幾乎相同數量的沖突(平均每個分子7次沖突)(平均每個分子6次沖突)。根據口袋信息的數量有一個明顯的趨勢:口袋主干原子的模型平均產生14次沖突的分子,而非條件模型平均產生21次沖突的分子。

5 總結 在這項工作中,我們提出了DiffLinker,一個新的E(3)等變3D條件擴散模型的分子連接設計。DiffLinker通過生成一個連接,從一組斷開連接的片段中設計真實的分子,即一個相互連接輸入片段的原子點云。雖然以前的方法只能連接成對的片段,但擴散連接模型可以擴展到任意數量的片段。我們的方法不需要指定片段的附著點,并從片段中預測連接大小的分布。我們表明,所提出的方法在標準基準上優于其他模型,并產生更多的化學相關分子。此外,我們還證明了我們的模型可以以蛋白質口袋為條件,并產生具有最小沖突次數的連接。我們相信,我們的方法將加速潛在候選藥物的開發,并有潛力在基于片段的藥物設計領域得到廣泛應用。 參考資料 //doi.org/10.48550/arXiv.2210.05274

付費5元查看完整內容

機器學習方法已經廣泛應用于藥物發現領域,使得更強大和高效的模型成為可能。在深度模型出現之前,建模分子在很大程度上是由專家知識驅動的;為了表現分子結構的復雜性,這些手工設計的規則被證明是不夠的。深度學習模型是強大的,因為它們可以學習問題的重要統計特征——但只有正確的歸納偏差。我們在兩個分子問題的背景下解決這個重要的問題:表征和生成。深度學習的典型成功在于它能夠將輸入域映射到有意義的表示空間。這對于分子問題尤其尖銳,分子之間的“正確”關系微妙而復雜。本論文的第一部分將重點討論分子表征,特別是性質和反應預測。在這里,我們探索了一種用于分子表示的Transformer式架構,提供了將這些模型應用于圖形結構對象的新工具。拋開傳統的圖神經網絡范式,我們展示了分子表示原型網絡的有效性,它允許我們對分子的學習性質原型進行推理。最后,我們在改進反應預測的背景下研究分子表示。本論文的第二部分將集中在分子生成,這是至關重要的藥物發現作為一種手段,提出有前途的藥物候選人。我們開發了一種新的多性質分子生成方法,通過首先學習分子片段的分布詞匯。然后,利用這個詞匯,我們調查了化學空間的有效探索方法。

//dspace.mit.edu/handle/1721.1/143362

機器學習已經迅速改變了藥物發現的傳統渠道,為過程的每一步提供了新的工具。許多傳統上需要廣泛、專業領域知識的問題已經通過深度學習工具解決,使它們更高效、更廉價。先前的化學信息學方法使用許多手工設計的規則來建模小分子。這些技術被用于解決諸如性質預測之類的問題,其中的任務是預測分子的性質。然而,試圖解決這些表示問題的傳統方法由于其不靈活的特性而缺乏良好的泛化能力。深度學習模型的變革性方面在于模型直接從數據中學習和提取重要特征的能力。然而,這只有在正確的結構偏差和模型基礎上的建模假設下才可能實現。在分子問題上天真地應用深度方法會限制模型的能力或有用性,阻礙它們的推廣能力和在實踐中的有用性。因此,利用正確的歸納偏差的重要性不能被低估。

在深度學習方法出現之前,分子建模需要繁重的工程和固定的表示,通常被稱為定量構效關系(QSAR)方法。在這些方法中,指紋技術是非常受歡迎的,大致可以分為基于結構的[30]、拓撲[1]、循環[8]和藥效團指紋等幾種類型[91]。其中一些指紋(如基于結構的MACCS[30]指紋)是高度特定的表示,由一組固定的預定義結構的指示函數組成。其他的指紋,拓撲的和圓形的,其中包括摩根指紋更靈活。這些指紋通過枚舉路徑或環形鄰域來捕獲局部拓撲。然而,問題仍然存在于生成方法的確定性本質中:如果這些預定義規則沒有為任務捕獲正確的表示,它們將不能很好地工作。例如,對于許多小分子問題來說,性質懸崖(property cliff)仍然是一個具有挑戰性的問題,這是一種類似分子表現出不同性質的現象。這個問題對于分子指紋尤其尖銳,因為特征是固定的。然而,使用深度模型也不能解決這個問題,因為深度模型很容易與數據過度擬合,并且提供較差的泛化。

因此,我們的深度學習模型納入正確類型的結構偏差是至關重要的。圖神經網絡通過迭代聚合方案進行操作,在每一步,節點從其鄰居聚合信息。依次,一個節點應該包含越來越多的關于更大的鄰域的信息。節點表示最終聚合為表示圖的單個向量。雖然這種簡單的范式有時是有效的,但可能并不總是包含正確的分子任務類型的偏見。例如,當考慮分子的特性時,這種局部鄰域聚集可能無法捕捉到很重要的遠程依賴關系。更重要的是,也許在二維分子圖上的聚集并不適合理想的分子表示,我們應該觀察三維結構。對于分子的深度模型的發展有許多考慮,但它們需要正確的結構才能有效。指紋表示很簡單,但不靈活,經常涉及很多人類設計的規則。另一方面,深度模型很容易過擬合,無法捕捉正確的結構表示。

付費5元查看完整內容

引言

幾何深度學習(GDL)是一種基于神經網絡架構的學習方法,它可以整合并處理對稱信息。GDL在分子建模應用中有著特殊的應用前景,在這些應用中存在著具有不同對稱性和抽象層次的各種分子表示。本文綜述了分子GDL在藥物發現、化學合成預測和量子化學中的應用。重點放在學習的分子特征的相關性和它們的互補的完善的分子描述符。本文綜述了當前的挑戰和機遇,并對GDL在分子科學中的應用前景進行了展望。

摘要

深度學習是基于神經網絡的人工智能(AI)[1,2]的一個實例,近年來的進展已經在分子科學領域得到了廣泛的應用,如藥物發現[3,4]、量子化學[5]和結構生物學[6,7]。深度學習的兩個特點使得它在應用于分子時特別有前途。首先,深度學習方法可以處理“非結構化”數據表示,如文本序列[8,9]、語音信號[10,11]、圖像[12-14]和圖形[15,16]。這種能力對于分子系統,尤其有用,化學家們已經開發出許多模型(即“分子表示”),捕獲分子性質在不同的萃取級別(圖1)。第二個關鍵特征是,深度學習可以執行特征提取(或學習)的特性從輸入數據, 也就是說,從輸入數據生成數據驅動的特性,而不需要人工干預。這兩個特性對于深度學習來說很有前途,可以作為“經典”機器學習應用(如定量結構-活性關系[QSAR])的補充,在這些應用中,分子特征 (即“分子描述符”[17])是通過基于規則的算法進行先驗編碼的。從非結構化數據中學習并獲得數據驅動的分子特征的能力,導致了人工智能在分子科學中的前所未有的應用。

幾何深度學習(GDL)是深度學習領域最有前景的進展之一。幾何深度學習是一個涵蓋新興技術的總稱,這些技術將神經網絡推廣到歐幾里得和非歐幾里得域,如圖、流形、網格或字符串表示[15]。一般來說,GDL包含了包含幾何先驗的方法,即關于輸入變量的結構、空間和對稱屬性的信息。利用這種幾何先驗來提高模型捕獲的信息的質量。盡管GDL越來越多地應用于分子建模[5,18,19],但其在該領域的全部潛力仍未得到充分挖掘。

本文的目的是 :(1) 對GDL在分子系統中的應用進行結構化和協調的綜述; (2)概述該領域的主要研究方向; (3) 預測GDL的未來影響。重點介紹了三個應用領域,即藥物發現、量子化學和計算機輔助合成規劃(CASP),特別關注了GDL方法學習到的數據驅動分子特征。所選術語的詞匯表見框1。

幾何深度學習原理

幾何深度學習這個詞是在2017年[15]誕生的。雖然GDL最初用于應用于非歐幾里得數據[15]的方法,但現在它擴展到所有包含幾何先驗[21]的深度學習方法,即有關感興趣系統的結構和對稱信息。在GDL中,對稱是一個至關重要的概念,因為它包含了系統與操作(轉換)相關的屬性,如平移、反射、旋轉、縮放或排列(框2)。

分子幾何深度學習

GDL在分子系統中的應用具有挑戰性,部分原因是有多種有效的方法來表示相同的分子實體。分子表示可以根據它們不同的提煉水平以及它們所捕獲的物理、化學和幾何方面進行分類。重要的是,所有這些表示都是同一現實的模型,因此“適合于某些目的,而不適合其他目的”[63]。GDL提供了用相同分子的不同表示進行實驗的機會,并利用它們的內在幾何特征來提高模型的質量。此外,由于GDL的特征提取(特征學習)功能,它已經多次被證明在為手頭的任務提供相關分子屬性方面是有用的。在接下來的章節中,我們將描述最流行的分子GDL方法及其在化學中的應用,并根據用于深度學習的分子表示進行分組: 分子圖、網格、字符串和曲面。

總結與展望

化學中的幾何深度學習使研究人員能夠利用不同非結構化分子表征的對稱性,從而為分子結構生成和性質預測提供更大的靈活性和通用性的可用計算模型。這些方法代表了對基于分子描述符或其他人類工程特征的經典化學信息學方法的有效替代。對于那些通常需要高度工程化規則的建模任務(例如,從頭設計的化學轉換,以及CASP的活性位點規范),GDL的好處已經得到了一致的顯示。在已發表的GDL應用中,每種分子表示都顯示出各自的優缺點。

付費5元查看完整內容
北京阿比特科技有限公司