編譯 | 劉名權 審稿 | 陳睿哲 本文介紹一篇來自于蘇黎世聯邦理工大學的Gisbert Schneider等人的關于幾何深度學習的綜述《Structure-based Drug Design With Geometric Deep Learning》。
基于結構的藥物設計利用大分子的三維幾何信息,如蛋白質或者核酸,來識別合適的配體。幾何深度學習,一個基于神經網絡的新興機器學習概念已經被應用到大分子結構中。作者介紹了幾何深度學習在生物有機化學和藥物化學中的最新應用,突出它在基于結構的藥物發現和設計中的潛力。
介紹
分子表示 大分子結構的表示取決于有關機器學習任務和所選結構。近期文獻中所用到的三種最常見的大分子表示分別是:網格、曲面和圖。這三種表示具有獨特的幾何形狀和對稱性。
3D網格 定義為由三維空間中的體素組成的歐氏數據結構。網格中的每一個體素都有固定的的鄰域幾何特征。即(i)每個體素都有相同的鄰域結構(由鄰居的數量和鄰居間的距離),和(ii)體素具有通過網格的空間維度定義的固定順序。
3D表面 由多邊形(面)組成網格坐標的三維排列(“網格空間”)。這些多邊形可以根據它們的化學特征以及由局部網格的幾何特征進行區分。
3D圖 定義為是由節點(用單個原子)和它們的邊構成的非歐氏數據結構。圖形的非歐氏幾何起源于單個節點具有不同的鄰域結構,即每個節點可以有不同數量的鄰居和不同舉例。節點和邊一般沒有順序。
對稱性 根據分子的輸入表示和目標性質,將對稱性注入到深度學習架構中能更有效的進行學習。和分子系統最相關的三個對稱群分別是:歐式群(Euclidean group,E(3))、特殊歐式群(Special Euclidean group SE(3))、排列群。E(3)和SE(3)都包括3D坐標系統中的旋轉和平移變換,此外,E(3)還包括反射變換。因此,如果一個網絡需要對手性輸入給出不同的結果,需要考慮SE(3)。排列群主要和節點順序對神經網絡性能的影響有關。通常,使用排列不變的池化(求和,取極值)操作。
分子性質預測
主要討論基于大分子(包含配體)結構預測標量的一些方法。比如配體結合能預測或者對接姿勢評分。
基于網格的方法 幾種使用3D網格大分子表示和卷積神經網絡(CNNs)來預測想要性質的方法。KDEEP通過使用3D網格表示蛋白質-配體復合物來預測絕對結合能,其中每一個體素的特征由編碼藥理性質的通道所決定。由于3D-CNN缺少旋轉不變性,通常將輸入進行90°旋轉作為數據增強。3D可控CNNs在傳統的3D-CNN基礎上進行擴展,它能提供SE(3)等變卷積對類網格數據進行處理。SE(3)等變性可以通過可控核的線性組合實現。
基于分子表面的方法 HoloProt,一種用于預測結合能和蛋白質方程的方法,它通過結合基于序列、表面、結構的圖表示,在不同長度規模上進行編碼。表面級別的圖利用三角化的蛋白質表面上的節點,這些節點富含物化和幾何信息,但是結構級別的圖則利用氨基酸殘基節點捕獲3D結構。最后,使用多級消息傳遞網絡對兩種表征進行聚合并結合配體圖輸出最終想要的物理量(用于結合能預測)。
基于3D圖的方法 各種方法使用3D圖捕捉大分子的結構并且將它和配體信息結合,要么使用額外的配體編碼要么直接對大分子-配體復合物進行處理。通過使用3D圖而不是直接對笛卡爾坐標進行操作,這些方法通常關于輸入結構的旋轉平移操作不變。
有不同的方法建立3D圖。他們要么使用節點距離的編碼作為邊特征,要么使用不同的邊類型(例如,分子類和分子間的邊應當不同),要么如果兩個節點之間的距離小于小于某個閾值作為一條邊。這些方法并不相互排斥,可以任意組合使用。
直接使用節點間距離作為邊的一個例子是,SIGN通過迭代的使用帶有角度或者距離考量的相互作用層來預測分子結合能,從而在消息傳遞階段加入空間朝向知識。
通過結合直接距離編碼和不同的邊特征,PIGNet旨在于預測結合能。為了達這個目的,PIGNet使用門-增強的圖注意力網絡建模含有物理信息的成對的相互作用過程。
使用不同的邊類型方法包括PotentiakNet和InteractionGraphNet用于結合能預測,區別在于使用共價和非共價,分子內和分子間的圖卷積。另一種方法是使用無監督的自編碼器生成具有代表性的結合口袋表征,隨后使用基于歐幾里得距離cutoff的蛋白質級別的圖卷積對蛋白質-配體對進行分類。
區別于直接使用蛋白質結構的3D圖最近提出的一種方法“蛋白質-配體相互作用圖(PLIGs)”直接將蛋白質環境的信息加入到配體圖的特征中,因而減小了問題規模。
結合位點/界面預測
結合位點預測旨在于預測大分子結構的部分區域,這些區域可以作為小分子、類藥物配體的結合位點或者其它大分子的反應界面。
基于網格的方法 DeepSite是一種早期的方法,它使用常規的3D網格表示蛋白質,其中,每一個體素特征由相鄰原子類型的藥效特性決定。使用滑動的子網格,該網絡輸出每一個子網格可能接近結合位點的概率。Rnet擴展了這種方法來預測RNA和配體的結合位點。
基于分子表面的方法 MaSIF(分子表面相互作用指紋)以及它的可微分版本dMaSIF使用大分子表面表示用于結合位點預測,同樣也可用于分類。基于表面的方式在測地空間中對蛋白質表面上的每一個點進行描述,這樣表面上的兩個點間的距離由分子表面決定,而不是歐式距離。該方法可以分成三個階段,表面首先分解成獨立的塊。每一個塊中的點的特征由幾何和化學性質決定。使用測地線卷積將這些特征轉換為數值向量用于下游任務。以上兩個步驟對于最初的方法來說非常昂貴,但是dMaSIF是端對端可微的并且直接作用于原子類型和坐標。
基于3D圖的方法 作用于分子結構3D圖表示的網絡已經被廣泛地用于結合位點和相互作用界面的預測當中。一個例子是,使用旋轉平移等變的方式利用邊特征(包含距離和角度)讓模型獲得幾何理解,隨后使用空間圖卷積或者圖Transformer預測成對的殘基級別的作用勢。
其它方法 ScanNet使用E(3)不變的幾何深度學習模型通過基于結構的線性高斯核濾波器預測蛋白質-蛋白質和蛋白質-抗體結合位點。
結合姿勢生成/分子對接
對接姿勢生成,即生成兩個大分子之間或者大分子和配體之間的結合構象。
基于圖表示和混合表示的方法 EquiDock使用一種SE(3)等變的消息傳遞網絡,并結合最優傳輸以一種剛體、盲對接的方式來預測兩個蛋白質分子的結合構象。該網絡預測一個旋轉矩陣和平移向量來移動一個蛋白質結構得到結合姿勢,保持另一個蛋白質固定,從而保證最終的構象與兩個參與者的初始朝向和位置無關。EquiBind對該方法進行擴展,通過改變初始結構的鍵角,考慮小分子配體的靈活性。DeepDock為小分子結合姿勢預測構建了一個幾何深度學習模型,其中,結合位點是用多面體網格表示,小分子使用3D圖表示。DiffDock使用基于擴散的生成模型進行分子對接。該方法在兩個階段生成可控數量的結合姿勢:首先,評分模型使用逆擴散過程將隨機初始的配體姿勢通過旋轉、平移、改變鍵角轉換為預測的姿勢。其次,置信模型預測一個二分類標簽表明生成的配體姿勢的均方誤差是否小于閾值,以此來評估結合姿勢的正確率。其中,評分模型使用蛋白質表示是殘基級別的3D圖,置信模型使用的是原子級別的3D圖表示。
從頭設計
分子設計旨在于從頭設計出具有想要的生物和物理性質的分子結構。
化學語言模型 當前,用于分子從頭設計的最成功的深度學習模型是所謂的化學語言模型(CLMs),它們使用基于序列的分子表示(例如SMILES序列)。使用CLMs進行基于配體的從頭設計在生成想要的物化性質的分子中取得重大成功。這樣的基于配體的深度生成模型已經被拓展到可以利用顯式的靶蛋白信息。如下圖所示:
此外,還有人使用基于3D網格的蛋白質結合位點表示作為輸入,用于學習隱空間然后被編碼成序列。
基于圖的方式 現如今,已經有人提出了根據大分子結合位點的3D結構直接生成配體分子潛在的3D結構。結合位點可以使用3D圖進行表示。他們順序的從預先學習到的的分布中采樣出原子,并且已經被證明具有一系列的分子性質。最近提出了一種E(3)等變的擴散模型,它能夠通過對正態分布的點降噪生成分子的3D圖。該過程也被拓展到在結合位點內進行分子的從頭生成,例如DiffSBDD和TargetDiff。DifferLinker為結合口袋中的片段生成合適的連接器。盡管這些基于圖的3D從頭設計模型能構建大部分新型的分子,它們的實際應用仍然需要探索。
未來展望
以前的研究表明,結合物理學的某些方面和模型中的對稱性往往會增加準確性、普遍性和可解釋性。作者進一步期望基于結構的藥物設計的深度學習研究將跟隨制藥行業的趨勢進行發展。
最近的工作表明,許多深度學習架構僅在 PDBbind 數據集上訓練,僅僅只是記住訓練數據而不是學習蛋白質-配體結構之間有意義的映射和結合親和力,導致泛化能力差。該領域的未來工作可能會受益于合適的基準數據集,以及構建此類數據集的指南。
3D 感知模型,例如基于歸一化流的方法,可能會出現在未來生成模型領域最前沿的研究。全面評估在現實世界中的效用藥物設計背景的新模型,最重要的是實驗驗證建議的分子結構。因為并非所有在該領域工作的研究組都會有專業知識、設備來執行所需的實驗測試、和實驗人員的合作將是非常有價值的。 參考資料 //arxiv.org/abs/2210.11250
編譯|陳澤慧
審稿|侯琳琳 今天給大家帶來的是洛桑聯邦理工學院(EPFL)聯合微軟研究院Max Welling課題組、牛津、劍橋、康奈爾等團隊于2022年10月發表在arxiv上的預印本《Structure-based Drug Design with Equivariant Diffusion Models》。在本文中作者將基于結構的藥物設計(SBDD)表述為一個3D條件生成問題,并提出了DiffSBDD,一個 E(3)等變的3D條件擴散模型,它關于平移、旋轉、反射和排列等變,并可以根據蛋白質口袋的條件生成新的配體。
簡介
合理設計藥物分子化合物仍然是生物制藥研究中的一個突出挑戰。基于結構的藥物設計(structure-based drug design, SBDD)旨在生成可以與特定的3D蛋白質結構結合的高親和力和特異性的小分子配體。然而,SBDD仍然具有很大的挑戰性和局限性。傳統的SBDD在大規模化學數據庫上進行高通量實驗或虛擬篩選,但這不僅昂貴且耗時。近些年,生物分子的幾何結構建模的快速發展,為基于結構的藥物設計提供了一個有希望的方向。盡管利用深度神經網絡來替代對接模型已成為常態,但基于深度學習的配體與靶標蛋白結合的設計仍然是一個尚未解決的問題。
在這項工作中,作者為基于結構的藥物設計(DiffSBDD)開發了一個等變擴散模型,這是在該方向第一個這樣的模型。具體來說,作者將 SBDD 當作3D 條件生成問題,目的是生成對特定蛋白質靶標具有高結合親和力的多種配體。作者提出了一個 E(3) 等變的3D 條件擴散模型,該模型關于平移、旋轉、反射和排列等變。作者介紹了兩種策略,即以蛋白質為條件的生成和以蛋白質口袋為條件產生新配體的配體修復生成。具體來說,蛋白質的條件生成是將蛋白質視為一個固定的環境,而配體修復模型則對蛋白質-配體復合物的聯合分布進行建模,并在推理過程中修復新配體。同時,作者進一步整理了從binding MOAD導出的實驗確定的結合數據集,該數據集補充了常用的合成Crossdocked數據集,以驗證提出的模型在現實綁定場景下的性能。實驗結果表明,DiffSBDD能夠生成新的、多樣化的、類藥物的配體,并與給定的蛋白質口袋有高結合親和力。
圖1:蛋白質條件下的 DiffSBDD。首先模擬前向擴散過程q,以獲得在T個時間段內漸進式噪聲樣本的軌跡。然后訓練一個模型p_來反轉或去噪這個以目標結構為條件的過程。一旦訓練完成,就能夠從高斯分布中抽取新的候選藥物。原子特征和坐標都在整個過程中擴散。配體 在擴散過程中表示為全連接圖(為清楚起見,未顯示邊緣),并且在生成結束時將共價鍵添加到生成的點云中。蛋白質以圖形式表示,但為了清楚起見,此處顯示為表面。
方法
作者利用一個等變DDPM,結合特定的蛋白質靶標來生成分子并結合構象,并將蛋白質和配體點云表示為由 EGNNs 進一步處理的全連接圖。作者考慮了兩種不同的 3D口袋調節方法:(1)一個條件 DDPM,它在每個去噪步驟中接收一個固定的口袋表示作為背景,以及(2)一個近似配體-口袋對的聯合分布的模型,并在推理時與修復相結合。
pocket-conditioned small molecule generation
在條件分子的生成設置中,作者在去噪過程的每個步驟中都提供固定的三維上下文。為此,作者用上標 P 表示的蛋白質口袋節點來補充,用上標 L 表示的配體節點點云,并且在整個反向擴散過程中保持不變(圖 2)。
作者使用 EGNN 對噪聲預測器 進行參數化。為了使用單個 GNN 處理配體和口袋節點,原子類型和殘基類型首先通過單獨的可學習 MLP 嵌入到一個聯合節點的嵌入空間中,并且將坐標更新步驟確定為以下內容:
以確保三維蛋白質上下文在整個 EGNN 層中保持固定。
等變性 在具有3D條件的概率設置中,作者希望在以下意義上確保E(3)-等變:
對正交組 O(3)(包括旋轉和反射)的等變性是可以實現的,因為作者是用各向同性的高斯來模擬先驗和過渡概率,其中平均矢量在上下文的旋轉中進行等價變換。然而,確保平移等變并不容易,因為過渡概率本質上不是平移等變的。為了規避這個問題,作者遵循以前的工作,將整個采樣過程限制在系統的質心(CoM)為零的線性子空間。在實踐中,這是通過在進行似然計算或去噪步驟之前減去系統的質心來實現的。
joint distribution with inpainting
作為上述條件方法的擴展,作者還提出了一種配體修復方法。修復最初作為一種用于完成圖像被遮蔽部分的技術引入,目前已被應用于多個領域,包括生物分子結構。在這里,作者將這個想法擴展到三維點云數據。
作者首先訓練一個無條件的 DDPM 來近似配體和口袋節點的聯合分布。這使能夠在沒有額外上下文的情況下對新對進行采樣。為了以目標蛋白質袋為條件,需要通過修改概率轉換步驟將上下文注入采樣過程。在擴散步驟t-1, 蛋白質口袋和配體相組合的潛在表示,是從口袋的前向噪聲版本組裝而成的,該版本是與 DDPM 根據步驟t的上一個潛在表示預測的配體節點相結合。
以這種方式,作者以相反的順序從t=T 到t=0遍歷馬爾可夫鏈,在每一步中用它們的前向噪聲對應物替換預測的口袋節點。等式 (12)限制給定蛋白質口袋的生成過程。由于噪聲計劃在t=0時將噪聲過程的方差降低到幾乎為零,因此可以保證最終樣本包含蛋白質口袋的不受干擾的表示。
由于該模型被訓練以近似配體-口袋對的無條件聯合分布,除了將蛋白質和配體節點特征嵌入公共空間的全連接神經網絡外,該訓練過程與 Hoogeboom 等人開發的無條件分子生成過程相同。已知蛋白質口袋的調節完全委托給采樣算法,這意味著這種方法不僅限于配體修復,而且原則上允許在不重新訓練的情況下掩蓋和替換配體口袋系統的任意部分。
等變性 與條件生成一樣,類似的要求也適用于聯合概率模型,作者希望有 E(3)不變性,這可以通過等價流從不變先驗中獲得。與之前的方法相比,主要的復雜問題是缺少參考框架,無法定義有效的平移不變的先驗噪聲分布 ,因為這樣的分布不能整合為一個。因此,有必要將概率模型限制在一個無 CoM 的子空間,如以前的工作中所述。雖然反向擴散過程是為無 CoM 系統定義的,但用等式(11)-(13)中描述的已知口袋的新擴散版本取代預測的口袋節點坐標可能導致非零CoM。為了防止這種情況,作者翻譯已知口袋的表示,使其質心與預測的表示相吻合:
然后創建新的組合表示
圖 2:條件生成和修復方法之間的比較。條件式模型在蛋白質口袋 的固定上下文中學習去噪分子數據。在修復場景中,模型首先學習近似配體和口袋節點的聯合分布。對于采樣,通過在每個去噪步驟中將配體的潛在表示與口袋的前向擴散表示相結合來提供上下文。
實驗
CrossDocked
作者使用 CrossDocked 數據集并遵循與之前工作相同的過濾和拆分策略。這導致訓練集有 100,000個高質量的蛋白質-配體對,測試集有100個蛋白質。使用 MMseqs2通過 30% 的序列同一性完成拆分。
表 1中的實驗結果表明,DiffSBDD 可以生成具有預測的高結合親和力的多種小分子化合物,符合最先進的性能。我們沒有看到條件模型和修復方法之間的顯著差異。多樣性分數可以說是最有趣的,因為這表明與以前的方法相比,作者的模型能夠采樣更多的化學空間,同時保持高結合性能,這是早期基于結構的先導發現中最重要的要求之一。
表1 對來自CrossDocked測試集的目標生成的分子的評價。*表示重新評估了提供的生成配體
給出了兩個靶(2jjg和3kc1)的代表性分子選擇,這組分子的策劃是為了代表實驗中的高得分分子,其中顯示了現實的和非現實的motif。值得注意的是,為3kc1生成的第二個分子在與參考配體相同的口袋位置具有相似的三環基序,而參考配體是通過傳統的 SBDD 方法設計的,以通過環狀系統的形狀互補性最大限度地提高疏水相互作用。然而,即使是生成的分子中得分最高的,也存在一些不規則的現象。例如,針對 2jjg(來自Inpainting-)的分子中的大量三角形和 3kc1 的大環將被證明難以合成。
圖3 在CrossDocked上訓練DiffSBDD模型,并針對氨基轉移酶(top,PDB:2jjg)和水解酶(bottom,PDB:3kc1)進行評估。比較了條件和修復方法(分別使用全原子和級蛋白質表示),并展示了每個模型的三個高親和力分子。’Sim’是生成的配體和參考配體之間的Tanimoto相似度
Binding MOAD
作者評估了在 Binding MOAD中發現的實驗確定的蛋白質-配體復合物的方法,這些復合物根據蛋白質的酶委托編號進行過濾和拆分。這會產生 40,354 個蛋白質-配體對用于訓練和 130 對用于測試。
數據集 Binding MOAD與實驗確定的結合復合物數據的結果如下表所示。在 130個測試口袋中,每個口袋都產生了 100個有效配體,共產生了 13000個分子。DiffSBDD 生成了高度多樣化的分子,但平均對接分數低于該數據集的相應參考配體。
表 2 對來自 Binding MOAD 測試集的目標口袋生成的分子的評估
為代表性靶標生成的分子如圖 4 所示。靶標 (PDB: 6c0b) 是參與微生物感染和可能的腫瘤抑制的人類受體。參考分子是一種有助于受體結合的長脂肪酸,其可旋轉鍵的數量過多,而氫鍵供體/受體的數量較少,因此被認為是合適的藥物(QED 為 0.36)。然而,提出的模型通過添加由少量可旋轉鍵連接的芳香環來生成類似藥物(QED 介于 0.63-0.85 之間)和適當大小的分子,這允許分子采用互補的結合幾何形狀并且在熵上是有利的(通過減少自由度),這是一種經典的藥物化學技術。
圖4 在 Binding MOAD 上訓練的DiffSBDD模型針對人類受體蛋白(PDB:6c0b)進行了評估。比較了條件和修復方法(兩者都是),并給出了每個模型中親和力最高的三個分子。
結論
在這項工作中,作者提出了 DiffSBDD,一種基于結構的用于藥物設計的 E(3)-等變3D 條件擴散模型。作者在合成基準和實驗確定的蛋白質-配體復合物的新數據集上證明了 DiffSBDD 在生成新的且多樣化的配體方面的有效性,這些配體對給定的蛋白質口袋具有預測的高親和力。作者證明,在廣泛的分子指標上,基于修復的方法可以取得與直接調節相競爭的結果。因此,將這種更通用的策略擴展到全原子口袋表示,有望完成各種其他基于結構的藥物設計任務,例如先導優化或接頭設計,以及無需重新訓練的結合位點設計。
參考資料 Schneuing A, Du Y, Harris C, et al. Structure-based Drug Design with Equivariant Diffusion Models[J]. arXiv preprint arXiv:2210.13695, 2022.
預測類藥物分子如何結合到特定的蛋白質目標是藥物發現的核心問題。一種極其快速的計算綁定方法將使快速虛擬篩選或藥物工程等關鍵應用成為可能。現有方法的計算成本很高,因為它們依賴于大量的候選樣本,并結合了評分、排名和微調步驟。我們用一種SE(3)-等變幾何深度學習模型EQUIBIND挑戰這一范式,該模型可以直接預測
i)受體結合位置(盲對接)和 ii)配體結合姿勢和方向。與傳統和最近的基線相比,EquiBind實現了顯著的加速和更好的質量。此外,我們還展示了在以增加運行時間為代價將其與現有的微調技術結合使用時的額外改進。最后,我們提出了一種新穎的、快速的微調模型,該模型根據給定輸入原子點云的von Mises角距離的封閉全局極小值來調整配體旋轉鍵的扭轉角,避免了先前昂貴的能量最小化差分進化策略。
//www.zhuanzhi.ai/paper/7e1cc60c20e48a58c627b1779b77c957
引言
幾何深度學習(GDL)是一種基于神經網絡架構的學習方法,它可以整合并處理對稱信息。GDL在分子建模應用中有著特殊的應用前景,在這些應用中存在著具有不同對稱性和抽象層次的各種分子表示。本文綜述了分子GDL在藥物發現、化學合成預測和量子化學中的應用。重點放在學習的分子特征的相關性和它們的互補的完善的分子描述符。本文綜述了當前的挑戰和機遇,并對GDL在分子科學中的應用前景進行了展望。
摘要
深度學習是基于神經網絡的人工智能(AI)[1,2]的一個實例,近年來的進展已經在分子科學領域得到了廣泛的應用,如藥物發現[3,4]、量子化學[5]和結構生物學[6,7]。深度學習的兩個特點使得它在應用于分子時特別有前途。首先,深度學習方法可以處理“非結構化”數據表示,如文本序列[8,9]、語音信號[10,11]、圖像[12-14]和圖形[15,16]。這種能力對于分子系統,尤其有用,化學家們已經開發出許多模型(即“分子表示”),捕獲分子性質在不同的萃取級別(圖1)。第二個關鍵特征是,深度學習可以執行特征提取(或學習)的特性從輸入數據, 也就是說,從輸入數據生成數據驅動的特性,而不需要人工干預。這兩個特性對于深度學習來說很有前途,可以作為“經典”機器學習應用(如定量結構-活性關系[QSAR])的補充,在這些應用中,分子特征 (即“分子描述符”[17])是通過基于規則的算法進行先驗編碼的。從非結構化數據中學習并獲得數據驅動的分子特征的能力,導致了人工智能在分子科學中的前所未有的應用。
幾何深度學習(GDL)是深度學習領域最有前景的進展之一。幾何深度學習是一個涵蓋新興技術的總稱,這些技術將神經網絡推廣到歐幾里得和非歐幾里得域,如圖、流形、網格或字符串表示[15]。一般來說,GDL包含了包含幾何先驗的方法,即關于輸入變量的結構、空間和對稱屬性的信息。利用這種幾何先驗來提高模型捕獲的信息的質量。盡管GDL越來越多地應用于分子建模[5,18,19],但其在該領域的全部潛力仍未得到充分挖掘。
本文的目的是 :(1) 對GDL在分子系統中的應用進行結構化和協調的綜述; (2)概述該領域的主要研究方向; (3) 預測GDL的未來影響。重點介紹了三個應用領域,即藥物發現、量子化學和計算機輔助合成規劃(CASP),特別關注了GDL方法學習到的數據驅動分子特征。所選術語的詞匯表見框1。
幾何深度學習原理
幾何深度學習這個詞是在2017年[15]誕生的。雖然GDL最初用于應用于非歐幾里得數據[15]的方法,但現在它擴展到所有包含幾何先驗[21]的深度學習方法,即有關感興趣系統的結構和對稱信息。在GDL中,對稱是一個至關重要的概念,因為它包含了系統與操作(轉換)相關的屬性,如平移、反射、旋轉、縮放或排列(框2)。
分子幾何深度學習
GDL在分子系統中的應用具有挑戰性,部分原因是有多種有效的方法來表示相同的分子實體。分子表示可以根據它們不同的提煉水平以及它們所捕獲的物理、化學和幾何方面進行分類。重要的是,所有這些表示都是同一現實的模型,因此“適合于某些目的,而不適合其他目的”[63]。GDL提供了用相同分子的不同表示進行實驗的機會,并利用它們的內在幾何特征來提高模型的質量。此外,由于GDL的特征提取(特征學習)功能,它已經多次被證明在為手頭的任務提供相關分子屬性方面是有用的。在接下來的章節中,我們將描述最流行的分子GDL方法及其在化學中的應用,并根據用于深度學習的分子表示進行分組: 分子圖、網格、字符串和曲面。
總結與展望
化學中的幾何深度學習使研究人員能夠利用不同非結構化分子表征的對稱性,從而為分子結構生成和性質預測提供更大的靈活性和通用性的可用計算模型。這些方法代表了對基于分子描述符或其他人類工程特征的經典化學信息學方法的有效替代。對于那些通常需要高度工程化規則的建模任務(例如,從頭設計的化學轉換,以及CASP的活性位點規范),GDL的好處已經得到了一致的顯示。在已發表的GDL應用中,每種分子表示都顯示出各自的優缺點。