本次文獻匯報分享一篇2021年3月哈佛大學的研究人員發表于《EXPERT OPINION ONDRUG DISCOVERY》的文章[1]。
前言
簡介:近年來,人工智能(Artificialintelligence,AI)在計算機視覺、自然語言處理和游戲等領域取得了巨大進展。在藥物發現領域,盡管已經有一些人工智能模型成功應用于ADME/T和活性預測,但仍然存在一個關鍵的挑戰:這些預測模型是否具有可泛化性?
涵蓋的領域:作者總結了藥物早期發現階段用于ADMET性質預測的人工智能模型的相關概念,進一步討論了人工智能部署的適用性領域和數據集構建問題。進一步回顧了多任務、遷移和元學習的作用,這些學習框架利用輔助數據來克服泛化問題。
專家意見:作者的結論是,將可靠和信息豐富的人工智能模型集成到藥物發現流程中,最有前途的方向是將學習特征表示、深度學習和新穎的學習框架結合起來。這樣的方案能很好地解決藥物發現相關的數據集稀疏和不完整的問題。
介紹
人工智能技術和深度學習(deeplearning,DL)技術已經在計算機視覺、自然語言處理、圍棋游戲等多種領域產生了令人難以置信的結果。人工智能的廣泛應用給藥物的發現和重新利用帶來了很大的希望,具有里程碑意義的案例包括新抗生素halicin的發現,以及AlphaFold2從序列到蛋白質結構的成功預測。盡管歷年來大型人工智能模型的訓練成本和資源消耗都很高,但計算機技術的創新已經打破了這些障礙。 從人工智能中受益的藥物發現的關鍵領域之一是ADME/T性質預測,通過定量結構活性關系(quantitative structure–activity relationship,QSAR)模型來預測多種性質,從簡單的物理化學性質到復雜的藥代動力學(pharmacokinetic,PK)、藥效學和毒理學特性。重要的PK端點包括清除率、通透性和穩定性;重要的藥效學端點包括藥物靶標特異性和選擇性;重要的毒理學端點包括細胞色素P450誘導和hERG抑制。
預測模型的可用性是非常重要的,決定了化學家和生物學家是否能在臨床中選擇最有可能成功的候選藥物。這些計算工具可以降低候選藥物的流失率和研究成本,從而降低新藥的價格,減輕病人的負擔。 有許多的研究評估了新興的人工智能模型與傳統的機器學習和化學信息學模型。默克公司舉辦了一個Kaggle競賽,挑戰參賽者為15個不同的QSAR數據集建立模型。獲勝的項目使用的是深度神經網絡(deep neural network,DNN)。2015年,Ma等分析了這些結果,發現深度神經網絡的簡單應用通常優于隨機森林(random forests,RFs)。2018年,Mayr等使用ChEMBL數據庫對機器學習模型進行了詳細的藥物靶點預測比較,類似地發現DNN優于RFs,以及支持向量機(support vector machines,SVMs)、k-最近鄰(K-nearest-neighbors,KNN)、樸素貝葉斯(Na?veBayes,NB)和相似集成方法(a similarity ensemble approach,SEA)。
未來的挑戰在于提高人工智能的泛化能力,即從很少的數據推廣到更廣泛的化學空間。在某種程度上,這是一個固有的、棘手的問題;畢竟,人工智能模型只能基于現有數據進行預測。而且,藥物發現的數據非常稀疏,在廣闊的可能性化學空間中只有很少的實驗數據點,而且根據分析的準確性和靈敏度,常常是帶有噪聲的,但這一挑戰并非不可克服。
目前有很多工具和案例研究可以成功地對數據稀缺的環境建模。因此,開發用于性質預測的人工智能模型仍有很大的潛力。
人工智能分子性質預測正在迅速發展。盡管新模型多種多樣,但每一種模型都有相同的兩部分結構:(1)分子表征方法,它以計算機可讀的格式對化合物進行編碼;(2)人工智能算法,它基于分子表示法進行預測。這些是決定人工智能模型的準確性和可泛化性的決定性因素。
分子表征
在QSAR建模的早期歷史中,分子描述符是人工定制的,用于非常小的數據集的特定模型框架。如果研究人員知道一個特定的性質依賴于一個特定的描述符,那么他們就可以使用那個描述符。然而,在大多數情況下,其中的關系更加復雜,包含了多種因素的組合。因此,當研究人員開始處理更大、更多樣化的數據集時,對通用描述符的需求變得非常明顯。多年來,研究人員開發和測試了許多類型的描述符。
描述符的選擇應該遵守一下規定:首先,描述符應謹慎選擇和刪減,以避免過擬合。第二,描述符應該盡可能具有多樣性。不同的描述符集合涵蓋了物理化學空間的不同部分,必須確保一組描述符為特定的性質而建立,并且描述符能夠擴展和泛化狹窄的訓練集。第三,描述符在描述符空間中應該盡可能地相互正交。這使得模型具有更強的可解釋性,同時也避免了將冗余的信息合并到模型中。
選擇正確的描述符的困難很大程度上在于第一點和第二點之間的沖突。特別是在預測具有未知的或定義不清的數據框架的小型數據集時,很難找到一組合理的避免模型過擬合的描述符,同時仍包含模型作出準確預測所需的所有信息。
選擇合適的分子描述符是一個特征工程問題。近來,某些模型試圖通過直接從化合物的結構中學習特征表示來克服特征選擇的缺點,通常表示為分子圖、圖理論矩陣或SMILES。使用學習得到的特征而不是設計的特征已經成為近來人工智能的一個基本主題。例如,在計算機視覺領域的重大突破ImageNet,它使用DL和大量的卷積層,而不是手工設計的特征。同樣,在DeepMind的AlphaGo中,人工智能也沒有使用任何預先設定好的動作序列。
然而,學習后的特征表示方法仍然面臨困難。一個關鍵的限制是,一個模型需要大量的數據才能學習特征并且不過度擬合。
表1 小分子最常用和最有用的分子表示(表格翻譯自原文)
人工智能算法
類似于分子表示,人工智能算法可以大致分為使用特征工程或特征學習。SVM、KNN、RF、線性回歸和MLP模型屬于特征工程;CNN、RNN和MPNN以及Transformers屬于特征學習。這種劃分并不完全明確,許多已學習特征的模型也將分子描述符作為輸入。 在特征工程模型之外,MLP已被證明至少與支持SVM、KNN、RFs和線性回歸模型相匹配,甚至經常在溶解度、細胞生長抑制、logD和CLINT等數據集上優于SVM、KNN、RFs和線性回歸模型。雖然Ma等和Korotcov 等研究都同意MLPs優于所有其他模型,但Korotcov等發現,在hERG端點上,DNNs的表現更差,而Ma等發現DNNs的表現明顯更好。盡管它們的模型架構略有不同,但這些差異只會帶來適度的改變,不會對性能產生顯著的變化。事實上,主要的區別在于Korotcov等人在他們的訓練集中使用了大約500種化合物,而Ma等人使用了大約50000種化合物。也就是說,在大型復雜數據集上,特征學習模型比特征工程模型表現得更好。
表2 預測分子性質最常用和最有用的機器學習算法(表格翻譯自原文)
數據質量和適用性領域****************
1.適用領域****************
模型的適用領域(The applicability domn,AD)指模型可以合理應用于預測的響應空間和描述符空間。藥物發現空間正在擴展到小分子以外,面向的是更具有挑戰性的、新的靶標。Hanser等人將AD的概念擴展到如圖1所示的模型的決策域(decision domain,DD)。圖1是一個層級結構,定義了一個空間,在這個空間中,模型可以在三個方面做出預測:(1)適用性,(2)可靠性,(3)可判定性。適用性衡量模型所要求的預測是否符合預期。可靠性衡量模型在其訓練集中是否被給予足夠的信息來做出明智的預測。可判定性衡量的是一個決策的實際有用程度。雖然沒有明確說明,但大多數AD方法都可應用這個框架,這為分析模型的泛化性提供了一個有用的方法。
**圖1 三級決策域層級結構及限制其泛化的因素(圖片來自原文)**2.數據質量
對于實際的模型構建,數據是最基本的限制。在藥物發現過程中的數據集生成較為困難,每個實驗數據點都必須由生物學家和化學家來測量,這需要時間和資源。高通量初級試驗的數據較多,而資源密集型的PK/PD和毒性端點所包含的數據較少,這些端點在候選藥物選擇的后期階段更為重要。 藥物發現中的數據量與人工智能的其他領域進行對比:在計算機視覺中,ImageNet擁有120萬個數據點用于圖像識別;在GPT3的自然語言處理中,研究人員使用了5000億個文本數據標記。這種數量的數據對于任何端點來說都是難以獲得的,PubChem的所有生物活性數據量也只有大約2.7億個。盡管數據增強是一項強大的技術,即通過創建額外的樣本以供模型學習,例如,通過采樣不同的SMILES或同一化合物的不同構象,然而這并不能改變化合物的實驗數據有限這一事實,因此無法表示新穎的化學物質。 還有一些更具體的、影響泛化性的因素。數據集可能會有很大的誤差,或者偏向于特定的結構或端點值。另外,噪聲數據集的問題降低了每個數據點的可靠性,從而降低了整個模型的可靠性。同時,模型不能比它所訓練的實驗數據更準確。因此,對于任何試驗數據源,必須與領域專家一起仔細評估試驗的穩健性和可靠性,以確定如何在模型構建中使用它。
3.數據集構建
近年來,無論是在工業領域還是公共領域,藥物發現相關的數據量都有了很大的增長。在PubChem、ChEMBL和ZINC等數據庫中存在的數據集,可供大眾使用。制藥公司有自己的內部專有數據庫。為了創建更大、更全面的數據庫,以構建更精確的模型,人們一直在努力將這些專有數據庫集中在一起。其中規模最大的是MELLODDY,這是一個由10家制藥公司組成的聯盟,它使用聯邦學習(federated learning,FL)來訓練人工智能模型。 然而,許多數據集往往是異構的,因此不能直接應用模型。在篩選過程中,必須非常小心,如果匯總數據,則必須聘請領域專家。此外,數據歸一化過程必須統一應用到整個數據集。在執行數據管理之后,數據分割的選擇,創建訓練、測試和驗證集,對于生成可泛化模型也至關重要。
********學習框架
為了克服這些數據問題,研發人員提出了遷移學習、多任務學習和元學習框架。這些框架都建立在分子性質預測任務彼此相似這一假設的基礎上,這些模型的基礎思想是,通過給人工智能模型提供其他任務的額外信息,可以讓它在某些特定任務中表現得更好。此類任務基于的假設是,所有的分子性質預測任務都植根于某些物理、化學和生物系統。
1.遷移學習
通過遷移學習,模型將知識從一個任務推廣到另一個任務,以提高模型的適用性和可判定性。這種方法已經在一定程度上被用于調整全局模型以創建局部模型的實踐中,兩種最常見的遷移學習方法是:一、基于功能,其中一個模型學習一些分子表示,然后用于其他模型,二、基于參數,一個模型在一個任務上訓練,然后它的權重作為近似解,微調至不同的任務。
2.多任務學習
多任務學習是一個單一的人工智能模型在同一時間預測一個化合物的許多不同的屬性。這個框架背后的核心概念是,人工智能模型將在它所預測的每個屬性之間共享信息。在適用性領域方面,假設我們有一種化合物,我們想要預測它的某些性質,而該化合物沒有類似的化合物與實驗數據。如果我們訓練一個單任務模型,它就會脫離適用性領域。但對于多任務學習,假設可能存在不同性質的類似化合物的實驗數據,人工智能模型可以利用這些信息做出明智的預測。
3.元學習
在元學習框架中,創建了一個二階模型,二階模型接收任務的數據,然后輸出另一個人工智能模型的規范,然后在任務上進行訓練。這些規范可以是模型的類型、要使用的超參數或權值初始化。 **圖2 以下部分的圖形表示:(a)遷移學習模型;(b)多任務學習模型;(c)元學習模型(表格來自原文)
**總結
關鍵ADME/Tox端點和活性預測的人工智能模型對早期藥物發現過程具有很高的應用價值,因為它們將加速臨床選擇更安全、更有效的藥物,最終降低經濟成本。仍然存在的關鍵挑戰是數據的可用性和依賴于數據的模型的泛化性。 必須仔細評估數據的偏差或噪聲,仔細地進行一致化處理,以構建穩健的數據集。在構建數據集之后,必須開發模型,以便從數據中最好地歸納并做出適當的預測。雖然目前選擇使用哪些組件來創建模型還沒有明確的答案,但總體趨勢是向學習特征表示和深度學習模型發展,并且被集成在一些元學習、遷移學習或多任務學習框架下。
**參考文獻 **[1] HUANG D Z, BABER J C, BAHMANYAR S S. The challenges of generalizability in artificial intelligence for ADME/Tox endpointand activity prediction. Expert Opinion on Drug Discovery, 2021, 16(9):1045-1056.
供稿:張滿湛
**校稿:張夢婷/馮紫燕編輯:毛麗韞華東理工大學/上海市新藥設計重點實驗室/李洪林教授課題組
2022年6月21日,來自小分子變構藥物發現公司HotSpot Therapeutics的Michael Schauperl等人在J Chem Inf Model雜志發表文章,探討了基于AI的蛋白質結構預測方法對藥物發現領域的關鍵貢獻,以及所面臨的局限性和挑戰。
主要內容整理如下。
摘要 蛋白質是人體的分子機器,其功能失常往往導致疾病。因此,蛋白質是藥物發現的關鍵靶點。蛋白質的三維結構決定了其生物功能,其構象狀態決定了底物、輔助因子和蛋白質的結合。合理的藥物發現采用工程小分子選擇性地與蛋白質相互作用以調節其功能。為了選擇性地靶向蛋白質并設計小分子,了解蛋白質的結構及其所有特定的構象至關重要。不幸的是,對于大量與藥物發現有關的蛋白質來說,其三維結構還沒有通過實驗解決。 最近,AlphaFold2,一個基于深度神經網絡的機器學習應用,能夠以前所未有的準確性預測蛋白質的未知結構。盡管AlphaFold2取得了令人印象深刻的進展,但自然界仍然對結構預測領域提出了挑戰。**在本文中,我們探討了AlphaFold2和相關方法如何幫助提高藥物設計效率。**我們強調了先進的機器學習方法在哪些方面需要進一步改進,以便成功地、充分地應用于制藥行業。
前言 計算方法和機器學習在藥物發現方面有很長的歷史。1981年,《財富》雜志宣布了 "下一次工業革命",其中描述了計算機如何幫助藥物設計。計算模型幾乎存在于藥物設計的每個方面。例如,合成可及性和逆合成預測有助于合成規劃,大量的序列數據有助于識別新的藥物靶點,口袋識別的ML方法是當今最先進的方法,基于ML的毒性預測和PD/PK建模方法也經常被使用。 蛋白質是所有生物系統的分子馬達。了解蛋白質及其功能作用對于我們了解生物過程以及藥物設計至關重要。 本文探討了最新一代的機器學習方法如何可能改變蛋白質結構預測的游戲規則,并強調了對藥物發現領域的關鍵貢獻。我們討論了這些方法在復雜的藥物設計中所面臨的局限性和挑戰,并區分了哪些藥物設計問題可以用目前的方法 (如RoseTTAFold、RGN2和AF2) 輕松解決,哪些不能。我們為計算生物學家和化學家提供了有效、合理的基于結構的藥物設計的要點。我們還展望了在近期和中期內可以對這些算法做出哪些進一步的改進,以利于藥物設計。 基于AI的蛋白質結構預測如何幫助基于結構的藥物發現 新一代的基于人工智能的結構預測工具已經顯示出一些令人印象深刻的成功案例。 CASP訪問者之一的Andrei Lupas報告說,來自AF2的結構預測幫助他解決了他的實驗室多年來苦苦追尋的一個古細菌跨膜受體的晶體結構。AF2提供了正確的結構模板,可以用來求解實驗結構。Baker和同事報道了使用RoseTTAFold解決p101-Gβγ-結合域與PI2Kγ的異源二聚體復合物的冷凍電鏡結構。Fowler和Williamson建議使用AF2作為核磁共振結構細化的標準工具。 預測尚未結晶的結構域的蛋白質結構是生物學和藥物發現方面的一大飛躍。Pfam是一個廣泛使用的基于序列的蛋白質分類資源。到目前為止,四分之三的Pfam結構域家族沒有被頻繁地結晶 (即每個家族少于10個結構),其中一半以上沒有在任何實驗結構中發現。正確預測這些結構域使我們能夠從結構的角度審視大量的新靶點。可以這么說,如果關于這些蛋白質的唯一知識是其氨基酸序列,那么AF2結構是目前最好的結構。 AF2預測的結構為基于結構的藥物設計提供了許多新型蛋白質靶點的入口。三維結構使計算化學家能夠在蛋白質表面搜索口袋和功能相關區域。檢測一個合適的口袋是藥物開發的一個重要步驟。當蛋白質結構已知時,可采用對接、虛擬篩選、自由能計算和其他基于結構的計算方法。 盡管,AF2在所有蛋白質上的表現都不盡相同,但該算法通過提供一種稱為預測lDDT得分 (plDDT) 的準確性估計,幫助科學家了解其結構預測的好壞。plDDT得分有助于了解蛋白質的哪些區域被建模為高置信度,因此可以在藥物設計過程中以類似于實驗結構的方式使用。 **置信度較高的人類蛋白質的預測,對其在藥物設計項目中的應用很有意義。**例如,對于F-box LRR重復蛋白-8 (FBXL8_HUMAN),蛋白質數據庫 (AF-Q96CD0-F1-model_v1) 中沒有具有高序列一致性的模板。然而,AF2可以預測一個具有高置信度的結構 (plDDT=92)。 圖2A顯示了對人類受體酪氨酸蛋白激酶ERBB-2 (ERBB2) 的預測,并根據其plDDT得分對氨基酸進行著色。ERBB2是曲妥珠單抗的靶點,曲妥珠單抗是一種單克隆抗體,1998年被批準用于治療HER2+乳腺癌和胃癌。
圖2. (A) 人類受體酪氨酸蛋白激酶erbB-2蛋白的結構,按預測的lDDT分數著色。(B) ERBB2蛋白的預測對準誤差。 不過,激酶結構域相對于其他結構域的方向有一個很大的預測對準誤差,因為這個結構域沒有像其他結構域那樣在同一個晶體中得到解決。如圖2A所示,一個長環連接激酶和N端結構域。環路的預測不太可靠,使得方向性預測也不太可靠。這突出表明,準確預測域與域之間的相互作用比預測單域結構更具挑戰性。這對藥物設計的影響將在下一節進一步討論。
基于AI的結構化方法的進一步挑戰 蛋白質存在多種構象,這些構象都與它的功能作用和生物學影響有關。此外,蛋白質不是僅僅通過其序列就可以完全描述的。體內的蛋白質通常會受到多種翻譯后修飾 (PTMs) 的影響,這些修飾會以一種激烈的方式改變蛋白質結構。它們可以與其他蛋白質、輔助因子、DNA和RNA形成復雜的結構,這也可以誘發結構變化。此外,小分子的結合也可以改變蛋白質的結構,例如變構位點。 接下來,我們將討論蛋白質折疊是如何應用于目前的藥物發現方法中的,以及它們的局限性在哪里。
預測所有相關構象狀態
解決蛋白質的結構問題通常使藥物設計項目向前邁進一大步。然而,蛋白質的實驗結構特定于所采用的構建體和蛋白質的PTM狀態。此外,一個蛋白質的構象狀態是一個集合,單一的代表性結構可能不足以完全描述一個蛋白質及其生物學功能。 AF2由五個模型組成,每個模型都做出了自己的預測。然而,AF2預測的五個不同結構通常非常接近,見圖3 (紅色結構)。這些相似的預測結構可能無法涵蓋一個蛋白質的生物功能的所有方面。
蛋白質確實以許多不同的構象出現,然而藥物可能只與蛋白質的某種狀態結合。 一個突出的例子是人類鉀離子電壓門控通道H亞家族成員2 (hERG) 蛋白。 hERG的突變體和小分子與hERG的相互作用可導致先天性長QT綜合征。與結構變化相關的動力學非常獨特,使其成為重要的蛋白質靶點。hERG K+通道的三個主要構象是關閉、開放和不活躍。AF2對hERG通道的結構預測僅與Cryo-EM預測的結構相似 (見圖3A)。除了訓練期間提供的構象,AF2不能預測其他相關的構象。
圖3:(A) 人類鉀離子電壓門通道H亞家族成員2的冷凍電鏡結構 (5VA1,綠色) 和AlphaFold2預測 (高置信區,紅色;低置信區,灰色)。所有的AF2預測都與報道的冷凍電鏡結構相似。(B) 人類酪氨酸蛋白激酶ABL1的活性 (1M52,綠色) 和非活性形式 (2HYY,藍色) 的激活環構象。AF2的預測 (紅色) 僅與激活環的活性形式相似。(C) 磷酸化 (活性,綠色,5V61) 、非磷酸化 (非活性,藍色,2Y9Q) 和AlphaFold2 (紅色) 的有絲分裂原激活蛋白激酶-1 (MAPK1) 的激活環構象。AlphaFold2模型預測的是活性和非活性形式的混合。 對于hERG,許多突變和天然變體,以及結合和阻斷該通道的化合物都是已知的。關于突變和結構變異的信息直到現在還沒有被AF2使用,但經常被制藥業的生物學家和化學家用來理解一個蛋白質及其功能。納入這些突變并理解其結構含義將是未來ML方法的一個良好方向。
另一個例子是人類酪氨酸-蛋白激酶ABL1。 激酶參與多種途徑的調節,其激活必須受到嚴格控制。因此,一個激酶的活性和非活性狀態的平衡必須在細胞中得到精確的調節。在一個過于簡化的表示中,一個激酶只存在這兩種非常不同的構象。雖然絕大多數ATP競爭性抑制劑都與激酶的活性構象結合,但少數小分子,例如抗癌藥物伊馬替尼,卻選擇性地與ABL1的非活性形式結合。與特定構象的結合是引入激酶抑制劑的選擇性的一種方式。 圖3B顯示了人類酪氨酸-蛋白激酶ABL1的活性 (開放) 和非活性 (封閉) 構象。然而,**即使激酶的多種構象已被存入蛋白質數據庫,AF2也不能預測ABL1的非活性狀態。**所有五個AF2模型都預測了激活環的活性構象。從ML的角度來看,這可能是一個理想的結果,因為模型之間的一致性很高,但對于藥物設計過程來說是不利的,因為所有的狀態都參與了對靶點的調節。 此外,**AF2還不能區分一個預測是對應于一個特定蛋白質的活性或非活性狀態。AF2對結構的基本功能沒有任何了解,它預測的是它認為最有可能出現在PDB中的狀態。**如果對于一個藥物設計問題,需要某種狀態的結構,那么基于所需構象的相關蛋白質結構建立一個同源模型可能是有利的。 與目前用于AF2的五種模型相比,提出能夠預測更多不同構象的模型來覆蓋構象差異將是有益的。此外,整合關于不同區域的動力學估計也有助于揭示蛋白質藥物相互作用的某些方面。我們想強調的是,研究界已經開始解決這個問題并修改了AlphaFold2。通過引入突變和降低MSA的序列深度,產生了一套更多樣化的結構。
預測蛋白質翻譯后修飾
結構變化和從活性狀態到非活性狀態的轉變往往與PTMs有關,例如泛素化、磷酸化、乙酰化和甲基化。激酶和磷酸酶是細胞中的核心開關。它們通過對關鍵殘基的磷酸化或去磷酸化來激活或停用某些途徑。很多時候,這種PTMs與蛋白質結構的變化相伴而生,如結構域的移動、環路構象的變化、蛋白質的二聚化/聚合。 殘基修飾可以引發根本性的結構變化,這在AF2中還沒有得到考慮。
在考慮MAPK1時,這一挑戰變得很明顯。人類MAPK1有活性和非活性構象,這兩種構象在PDB中經常被報道 (總共有113個PDB結構)。激活環在殘基Thr-185和Tyr-187被磷酸化后改變其構象。有趣的是,AF2預測了兩種狀態之間的中間構象 (見圖3C,紅色),因為相應的模型是在所有113個結構上訓練的。它不能區分磷酸化、活性 (圖3C,綠色) 和非磷酸化、非活性 (圖3C,藍色) 的蛋白質形式。 這種行為的另一個例子是干擾素調控因子 (IRF) 家族。IRFs是特別有趣的藥物開發靶點,因為它們參與了腫瘤的抑制和對病原體的免疫反應。IRF蛋白擁有兩個不同的結構域:一個N端DNA結合結構域和一個C端調節結構域。C端調節結構域包含一個IRF關聯結構域 (IAD),它對二聚體的形成至關重要。IRF通過阻斷IAD結構域而具有自抑制功能。磷酸化后,自抑制 (單體) 形式不穩定并形成二聚體,已觀察到異二聚體和同二聚體。 出于藥物發現的目的,全面了解參與IRFs激活的結構機制是至關重要的。然而,像磷酸化這樣的PTM沒有包含在目前基于人工智能的結構預測工具的輸入序列中,這使得我們無法預測它們因PTM而引起的結構變化。
圖4A顯示了IRF3的野生型和擬磷突變體的晶體結構和預測的AF2結構。AF2結構總是類似于單體 (無活性、未磷酸化的結構)。盡管PDB中報道了IRF3的一個二聚體結構,但單體結構的發現更為頻繁。對于IRF5,ML預測總是產生IAD結構域的非抑制性構象,見圖4B。PDB中報告的唯一IRF5結構是二聚體形式。 這個例子強調了AF2預測的結構最有可能在PDB中找到。AF2只能預測PDB中報道的IRF蛋白構象之一。然而,令人驚訝的是,鑒于IRF3和IRF5的折疊結構非常相似,不同的構象被預測出來,尤其是AF2對新的折疊結構有很好的概括性。
圖4:(A) IRF3的單體 (綠色,1QWT) 和二聚體 (粉色,5JEM) 的晶體結構以及AF2對野生型序列 (藍色) 和IRF3的擬磷突變體S386/396E (紅色) 的預測。(B) 二聚體的晶體結構 (綠色,3DSH) 和IRF5的野生型 (藍色) 擬磷突變體S435/446E (紅色) 的AF2預測。預測類似于在 PDB (訓練數據) 中發現的單個蛋白質的大多數結構,而不是蛋白質的磷酸化狀態。 包括有關PTM及其對結構的影響的信息是一個更難實現的目標。然而,由于PTM引起的結構變化是一個重要因素,基于這種因素修改結構預測方法將顯著推進藥物設計過程。
預測多域結構
PDB結構并不能完全代表人類的蛋白質組。如圖5A所示,某些蛋白質家族和超家族的代表性過高,而其他家族的代表性不足。這意味著,**AF2反映了一個固有的數據偏差,因為它是在PDB上訓練的。**眾所周知,PDB偏向于容易結晶的蛋白質和單域結構。在所有UniProt家族中,超過40%的家族沒有一個晶體結構被報道。 PDB數據庫本身和AF2使用的數據擴充都是偏向于單域預測的。這使得AF2在結構域的預測上很準確。然而,大多數人類蛋白質由一個以上的結構域組成。為了理解一個蛋白質的功能,需要準確地捕捉結構域-結構域方向性信息。域間建模是一項更難的任務,因為在PDB中可以學習的合適的例子比在域的層面上要少得多。盡管AF2對多域蛋白質的結構預測不如在域層面上準確,但AF2仍然在CASP14中贏得了這場比賽。 值得注意的是,具有最高置信度的AF2模型并不總是與實驗結構具有最佳一致性的模型。例如,在CASP14的T1024挑戰中,DeepMind團隊提交的第3個模型是正確得到域-域方向的模型 (RMSD Cα = 2.1),模型1的RMSD Cα為5.6,模型2的RMSD Cα為5.7。 對于基于結構的藥物設計來說,這些類型的不規則性可能是一個重要的問題,因為它表明所有模型都必須被處理和考慮,這是不實用且昂貴的。
圖5:(A) 在PDB中發現的每個UniProt家族 (n = 3892) 和UniProt超家族 (n = 331) 的蛋白質結構數量。70%以上的UniProt家族和50%以上的超家族的實驗結構都少于5個。(B) Miransertib (灰色) 與AKT1 (綠色) 的PH和激酶域之間的口袋結合的晶體結構。與晶體結構 (深綠色) 相比,AF2 (藍色) 預測PH域 (深藍色) 的方向不同。 針對結構域-結構域相互作用區域的小分子很重要,使制藥行業能夠追求新的靶點。
Miransertib是一個特別有趣的例子,它是一種與兩個結構域形成的口袋結合的化合物。它是一種AKT1的小分子抑制劑。它與激酶和PH結構域之間形成的一個口袋共價結合。 盡管文獻中已經報道了結構域-結構域的相互作用,但AF2預測PH結構域的方向與激酶結構域不同 (圖5B)。對于新的蛋白質,不能指望域-域的方向平均比已知結構的方向好。為了開發像miransertib這樣的藥物,對多域結構進行有把握的預測是至關重要的,特別是對域之間形成的口袋。 **提高域與域之間相互作用的準確性是基于人工智能的結構預測工具的未來挑戰之一,這可以幫助藥物發現。**多個研究小組已經試圖通過將AlphaFold2與其他工具相結合或試圖改進AF2算法本身來應對這一挑戰。然而,在多域預測的準確性與單體預測相當之前,必須進一步改進應用,以可靠地預測多域蛋白質。
預測蛋白質-蛋白質/RNA/DNA復合物
在IRFs中,結構的變化使異質或同質復合物的形成成為可能。復合物的形成是自然界中廣泛存在的現象,針對復合物的藥物也相當普遍。蛋白質-蛋白質相互作用 (PPI) 是當今化學生物學和藥物發現的主要挑戰之一。 然而,有幾種與蛋白質-蛋白質界面結合的藥物已經上市了。Tafamadis針對的是轉甲狀腺素四聚體形式的兩個甲狀腺素結合點中的一個。該小分子穩定了與家族性淀粉樣多發性神經病 (FAP) 相關的四聚體形式的蛋白質,如圖6A所示。在FAP中,轉甲狀腺素單體沒有緊密結合,可以從四聚體上脫落,錯誤折疊,然后聚集。這些聚集物對神經系統造成傷害。預見這種多域的相互作用將有助于合理的藥物設計,以便在未來開發出像Tafamadis的小分子抑制劑。
圖 6. (A) Tafamadis (灰色棒) 與運甲狀腺素蛋白 ( 5KCV )的四聚體結構形式結合不同深淺的綠色單體)。AF2 (青色卡通和表面) 確實準確地預測了結構的一個單體。(B) 靶向同源三聚體 CD40L 復合物 ( 3LKJ,不同深淺的綠色單體)。該化合物被鎖定在由三個單體形成的裂縫中。根據單體AF2結構 (青色卡通和表面),無法預測此口袋。 CD40L是一種腫瘤壞死因子,主要在活化的T細胞表面表達。一些針對CD40L及其相互作用的抗體已經進入臨床,用于治療狼瘡性腎炎、異體胰島移植排斥反應和動脈硬化。文獻中報道了一種抑制CD40L的小分子BIO8898的晶體結構,如圖6B所示。引人注目的是,該分子沒有結合到蛋白復合物的表面,而是深埋在亞單位之間,改變了蛋白與蛋白之間的相互作用及其對稱性。目前僅能預測單個氨基酸鏈。進一步推進算法,以訓練和預測一個結構是否以多聚體形式存在,是AF2發布以來已經做出的改進之一。然而,預測界面仍然具有挑戰性,不能像預測單一蛋白質鏈那樣準確和肯定地進行。
瞄準蛋白質-DNA和蛋白質-RNA界面是具有挑戰性的,改變蛋白質-DNA結合特性的藥物處于癌癥治療的第一線。 轉錄因子是引人注目的腫瘤學靶點,因為可以利用癌細胞的基因表達改變來進行治療。轉錄可以通過小的DNA結合化合物,通過抑制蛋白質-蛋白質的相互作用或通過與轉錄因子的DNA結合域的結合而成為靶點。后者長期以來被認為是不可藥用的。Huang等人報道了直接與STAT3的DNA結合域結合的分子,抑制了其轉錄活性,是該類藥物的概念證明。 **AF2 在預測域間聯系方面的能力不如域內聯系好,這突出了未來版本改進的可能途徑。**此外,AF2 可以在一定程度上了解蛋白質-蛋白質、蛋白質-DNA和蛋白質-RNA 結構域的情況,就像PDB中不同復雜類型的示例一樣。樣本數量相當有限,這使得ML算法對這些結構特征的預測變得復雜。學習準確可靠地預測這些更具挑戰性的結構是未來的目標之一,直到我們可以聲稱蛋白質結構預測問題得到解決。
預測蛋白質配體復合物
AF2的預測是純粹基于蛋白質的氨基酸序列的。獲得蛋白質在其載脂狀態 (apo state) 下的準確結構對每個藥物設計項目來說都是一個巨大的突破,因為它可以在蛋白質結構上尋找可能是可藥用的口袋。在確定了一個口袋后,計算模型可以幫助選擇適合口袋形狀的小分子。然而,這是對蛋白質配體結合過程的一種簡化。其基本假設是,蛋白質配體結合是以鎖 (蛋白質) 和鑰匙 (配體) 的方式進行。事實證明,這種假設在大多數情況下是過度簡化了。 如今,蛋白質配體結合可以通過兩個互補的模型來理解。首先,一個蛋白質有多種構象,這些構象可能與晶體結構有很大的不同,化合物有選擇地與這些構象中的一個結合。第二,誘導擬合,描述蛋白質口袋形狀可能發生變化以適應配體進入其口袋的過程。 圖7顯示了谷氨酸電離受體AMPA型亞單位2 (GLUR2) 的一個例子。GLUR2是在人類AMPA受體中發現的一個亞單位,是一個已知的癲癇分子靶點。GLUR2的無配體結構 (PDB代碼1FTO) 和配體結合結構 (PDB代碼1FTM) 之間的差異相當大,例如,殘基GLU193被翻轉,相應的環被移動了5埃。AF2從這兩個結構中學習了一些特征,因此,預測的結構是apo和holo蛋白的混合形式,這與在激酶中觀察到的活性和非活性構象的行為相似 (上文MAPK1的例子,圖3C)。如上所述,如果能有獨立預測apo和holo狀態的模型將是有益的。
圖7. 谷氨酸電離受體AMPA型亞單位2在其apo (灰色) 和holo (綠色) 形式下的蛋白質結構。來自AF2的預測結構以藍色顯示。AF2類似于實驗中已知的apo和holo結構的混合物。 蛋白質的動態變化以及配體的動態變化 (在較小程度上) 使得蛋白質配體結合成為一個更難準確預測的問題。與獨立的蛋白質結構的apo預測相比,這個問題增加了多層復雜性。與蛋白質由20個氨基酸組成相比,小分子可以由幾乎無窮無盡的不同結構塊生成。蛋白質和配體往往不是相互共價結合的。
預測小分子配體的結合位置是一項艱巨的任務,在藥物發現中還沒有得到解決 (對****接問題)。然而,將現有的小分子對接方法與精確的結構預測能力相結合,可以改善計算藥物發現。
接下來,更具挑戰性的是估計一個配體可能與某個口袋結合的強度 (評分問題)。這是藥物發現的圣杯,已有多種方法來描述蛋白質配體的結合,其準確性各不相同。使用基于結構的對接的虛擬篩選試圖用一個相對簡單的能量函數來估計一個化合物的結合能。它通常不考慮蛋白質靈活性的能量學,如果它考慮的話,通常也非常有限。自由能計算通常是更準確的預測,因為它們考慮了蛋白質和配體的靈活性。然而,與虛擬篩選相比,要求進行廣泛的計算,而且一次只能篩選少量的兩位數的化合物。 當使用像虛擬篩選這樣的方法時,側鏈往往被固定在其初始位置。因此,**預測側鏈在口袋中的方向變得比全局晶體結構預測更重要。**如第2節所述,AF2和RoseTTAFold的改進之一是端到端結構預測,這增加了側鏈的準確性。根據蛋白質結構的不同,這種提高的準確性也是不同的。DeepMind在Nature雜志論文中所示的例子中,側鏈的準確性令人印象深刻。然而,對于其他蛋白質來說,側鏈的建模并不那么準確。Jumper等人已經強調,對于plDDT得分高的氨基酸,側鏈的準確性更可能是正確的。與骨架結構預測相比,AF2對其猜測的準確度進行了預測,而對側鏈的預測則沒有這個功能。因此,不容易確定側鏈是否以高置信度被預測。 不同的側鏈靈活性是基于結構的藥物設計項目的一個問題。**在當前版本的AF2中,側鏈方向只是一個次要的方面,僅將其納入輔助損失。**將側鏈方向作為此類方法的主要目標,會對AF2結構如何用于藥物設計產生很大影響。
進一步的復雜性是,蛋白質配體的過程是在水環境中進行的。水分子通過介導蛋白質和配體之間的相互作用,在蛋白質配體結合中起著關鍵作用。在對接過程和分子動力學模擬中,經常保留晶體中的水分子。**AF2被設計為僅預測蛋白質結構,因此目前沒有預測任何水的位置。**然而,PDB中關于水分子的信息是多方面的。準確預測晶體結構中的水分子,甚至進一步預測哪些水參與配體的相互作用,是未來結構預測工具的另一個挑戰。水的位置可以通過另一種深度學習方法從PDB中的結晶水中學習,或者通過應用基于物理學的方法,例如WaterMap, GIST, 3DRISM和SZMAP來預測蛋白質結構。
基于人工智能的蛋白質穩定性方法
單點突變在蛋白質中頻繁發生,是導致大量遺傳疾病的原因,也是導致多種癌癥的原因。單個突變能夠導致蛋白質失去其結構穩定性,并從其原始狀態展開。 p53的多個突變能導致蛋白質結構的改變,這與它的功能喪失有關。p53的突變要么引起p53-DNA相互作用的構象變化,要么引起更全面的結構變化,降低p53的熱力學穩定性。 最近報道了幾種針對腫瘤抑制因子p53突變的候選藥物。它們要么是恢復野生型的功能,要么是降解突變版的蛋白。多個候選藥物,包括小分子藥物,但也包括抗體,現在正在進行臨床開發。**所有的ML方法都是在折疊結構上訓練的,因此偏向于預測一個折疊的蛋白質結構。因此,導致蛋白質展開的突變不太可能被正確預測。**此外,導致蛋白質結構發生較小變化的突變,仍然會對蛋白質的功能產生嚴重影響,也很難像藥物發現所需的那樣準確預測。 幾十種抗體被用于診斷和治療疾病。今天,大多數臨床使用的抗體都來自于自然界,而不是計算建模。計算方法大多集中在具有高二級結構含量和理想側鏈相互作用的穩定蛋白質上。然而,蛋白質的分子功能往往需要長環和空腔,這是對整個蛋白質結構的不穩定。因此,預測具有這種長環的蛋白質的穩定性是一個挑戰,正如在抗體的可變片段中看到的那樣。 遺憾的是,正如Ivankov和他的同事所強調的,**對蛋白質穩定性的準確預測并沒有在當前版本的結構預測中實現。**然而,存在幾種預測蛋白質穩定性的計算方法。將新的結構預測工具的準確結構預測與預測蛋白質穩定性的能力配對,似乎是這些方法的一個有趣的機會,將有助于抗體的設計,同時也有助于揭示導致不穩定突變的疾病。 結語 AF2在最新的CASP挑戰中表現出令人印象深刻的準確性,這在以前是從來沒有過的。然而,我們相信這只是基于人工智能的方法促進解決結構預測問題的一個起點。由于前面提到的所有挑戰,在我們宣布蛋白質結構預測挑戰已經成功解決之前,還有很多額外的工作要做。 盡管如此,目前的進步還是令人印象深刻。**本文強調了現代結構預測工具的優勢和劣勢,以及它們如何已經用于藥物設計。通過了解當前方法的缺點,可以更容易地將這些工具用于藥物設計過程中。**到目前為止,結構預測工具只是用來增加從實驗獲得的結構知識。在沒有實驗證據的情況下,純粹從模型結構開始藥物設計工作,現在可能還很牽強。然而,如果這些模型使用得當,并能產生有用的預測結果,就可以建立對預測結果的信任。 此外,多個研究小組開始解決AF2的一些缺點,如多聚體預測、多構象等。RoseTTAFold和AF2現在都是開源的,這使得社區的其他成員能夠在他們令人印象深刻的工作基礎上進一步發展ML系統,以解決仍然擺在我們面前的額外挑戰,并幫助藥物設計加速。我們相信,基于人工智能的蛋白質預測和設計方法,隨著它們的不斷成熟,將在生物學和醫學中發揮越來越重要的作用。 參考資料 Schauperl M, Denny RA. AI-Based Protein Structure Prediction in Drug Discovery: Impacts and Challenges. J Chem Inf Model. 2022 Jun 21. doi: 10.1021/acs.jcim.2c00026.
--------- End ---------
在過去幾十年里,計算機在化合物逆合成領域的應用取得了巨大的發展。本文分享了當前已有的計算機輔助逆合成工具,并討論了目前逆合成預測方法所面臨的挑戰和機遇[1-2]。
背景
逆合成的概念最初由Corey在20世紀60年代提出,用來描述通過斷鍵將一個復雜的目標分子還原為一個簡單前體的迭代過程,即從產物出發, 搜索可能的前體,最終找到可商購獲得的反應物。最初的逆合成預測主要依賴于經驗豐富的化學家的已有知識或經驗,缺乏系統的方法,所以難以滿足一直不斷快速增長的新有機化學反應的需求,也無法用于預測新的化學反應。近年來,得益于快速發展的數據驅動模型以及大型反應數據庫,化學家和計算機科學家在計算機輔助逆合成方面取得了顯著的進步。 本文是對目前人工智能輔助逆合成方法的綜述,介紹并評估了在過去五年中開發的計算機輔助逆合成工具,結尾討論了逆合成研究的未來發展方向以及目前面臨的挑戰。
逆合成基本理論
計算機輔助化合物合成路線規劃(CASP)的框架通常由四部分組成,包括:建議斷開的模板庫、根據目標分子生成候選反應物的遞歸模板應用模塊、具有市售起始材料的化學物數據庫、以及單步或多步合成步驟評分方法。在過去十年中,由于大型反應數據庫的建立和數據驅動計算工具的進步,逆合成預測方法取得了重大進展[3],本節主要介紹了逆合成方法中的一些關鍵概念。
反應的模板
反應模板是用于確定反應物如何通過斷鍵轉化為產物的一組規則。以前的反應模板是化學家定義和手動編碼的。例如Chematica,它是目前商業上可用的、手動編碼的反應庫之一,其涵蓋了大多數已知的反應規則,但手動編碼現在所有的化學反應是一項艱巨的任務。一種更先進的反應編碼方法是通過原子-原子映射算法提取反應中心,從而識別反應物和產物原子之間的對應關系。對于給定的反應,將一組鍵連接性改變的原子確定為反應中心,然后通過算法提取反應中心和相鄰原子并進行泛化,最終形成相應的逆合成模板(圖1)。
圖1** 酯化反應SMARTS模板**[2]****逆合成方法評估
評估單步逆合成模型性能的一個常見指標是 Top-N 準確度,即在前n條推薦結果中出現數據集中記錄的標準前體數量的百分比。該指標需要分子結構的精確匹配。此外,也可以通過分子相似性評分進行評估,即相似性得分為 1 表示結構相同。但近期研究人員們認為這種指標用來評估模型性能并不適合。 基于模板的逆合成模型
基于模板的逆合成模型是通過解決子圖同構問題將目標分子與整個模板庫匹配以獲得候選反應物(圖2)。該方法通常需要對反應數據庫進行詳盡的枚舉,因此需要輔以高效的圖論算法和虛擬篩選技術。
圖2** 基于模板的逆合成模型(阿司匹林逆合成預測)[2]**
同時,為了量化分子結構的可合成性,在模型中引入可合成性的評價指標。傳統的評價指標依賴于生成的SMILES字符串的長度,旨在將目標分子分成盡可能小的反應物。最近新的評價指標有:合成可行性分數(SASCORE)、SCScore、DRSVM以及分子復雜度等[4]。 基于模板的方法準確性較高,這主要是因為該方法的可解釋性,以及該方法需要提供指定的化學前體。然而,該方法對計算能力需求很高,并且在模板庫之外的泛化能力有限。
機器學習在基于模板的逆合成模型中的應用
基于模板的逆合成模型的研究主要集中在克服因枚舉反應模板而導致的高計算成本。為了解決這個問題,研究人員利用機器學習只選擇相關的模板,而不是使用完整的模板庫。這類基于模板的模型被稱為“聚焦模板應用程序”。該方法可以減少原來基于模板的方法的高計算強度,同時保持生成結果的化學可解釋性,但是仍然無法預測反應模板庫外的新反應。
無模板的逆合成模型
最近,無模板的逆合成方法引起了越來越多的關注,因其避免了高計算成本的子圖匹配問題。該方法利用分子的文本表示(SMILES或InChI)將逆合成問題轉換為序列到序列(seq2seq)預測問題,即將產物的SMILES字符串轉化為反應物的SMILES字符串。 無模板的逆合成模型顯示出優于基于模板方法的兩個優勢。首先,該模型可以隱式地學習反應規則和候選排名指標,從而避免了反應復雜度排名指標的使用。其次,無模板模型更加簡便,手動編碼反應模板仍然是基于模板的方法的主要缺點之一。 但無模板方法在逆合成預測中仍然相對較新。該領域的最新發展依賴于僅包含注意力機制的NLP模型,例如Transformer。并且目前無模板方法的預測準確率仍稍落后于基于模板的方法。解決無模板方法中無效 SMILES 字符串的輸出是提高該方法準確性的關鍵。
小結
機器學習通過從豐富的化學知識中學習,為多步逆合成規劃框架做出了貢獻。然而,基于機器學習的逆合成模型的性能在很大程度上取決于反應數據庫的質量。從文獻中收集的反應數據可能具有噪聲大且不準確的問題,所以高質量的數據庫將加速逆合成模型的進一步發展。 同時單純基于數據驅動的逆合成模型有時會缺乏可解釋性。尤其是基于序列的無模板方法可能會忽略斷鍵背后的重要化學意義,這會導致解碼生成不可行的逆合成路徑。因此提高機器學習可解釋性的方法可能是應對這一挑戰的解決方案。同時,由于大多數反應數據以常見反應類型為主,罕見反應在數據集中代表性不足,因此機器學習模型會從數據集中出現次數多的斷鍵規則中學習,從而忽略其他罕見但更加簡單的反應途徑的斷鍵可能性。減少模型偏差的一個解決方案是將數據驅動方法與基于模板的方法相結合。這兩種方法的結合可以提高模型的可解釋性,并為逆合成問題提供新穎有效的解決方案。 任何計算機輔助化合物逆合成路線規劃,都應通過實驗驗證,以確定計算機輔助逆合成方法的真實性能。此外,訓練數據中缺乏實驗條件是當前逆合成方法的另一挑戰。 人工智能驅動的藥物合成給社會帶來極大的便利。在數字化趨勢的推動下,人工智能有望成為建立自動化化學合成系統的基本組成部分,最終成為未來的“機器人化學家”。
**參考文獻 **
[1] Ucak U , Ashyrmamatov I , Ko J , et al. Retrosynthetic reaction pathway prediction through neural machine translation of atomic environments. Nature Communications, 2022, 13(1). DOI: 10.1038/s41467-022-28857-w. [2] Sun Y, Sahinidis N V. Computer-aided retrosynthetic design: fundamentals, tools, and outlook. Current Opinion in Chemical Engineering, 2022, 35: 100721. [3] Segler M , Preuss M , Waller M P . Planning chemical syntheses with deep neural networks and symbolic AI. Nature, 2018, 555(7698):604-612. [4] Thakkar A , V Chadimová, Bjerrum E J , et al. Retrosynthetic accessibility score (RAscore) – rapid machine learned synthesizability classification from AI driven retrosynthetic planning. Chemical Science, 2021. DOI: 10.1039/D0SC05401A.
供稿:張紅文
校稿:張夢婷/謝金欣編輯:王思雨華東理工大學/上海市新藥設計重點實驗室/李洪林教授課題組▼招聘博后▼華東理工大學李洪林教授團隊誠聘博士后
Li's Lab地址:上海市梅隴路130號 電話:課題組網站: 長按掃碼可關注
近年來,計算機的巨大進展引領著神經網絡的革命,影響了從自然語言處理到計算機視覺等各領域。同時,深度學習也影響著藥物研發的許多領域,包括細胞圖像分析,有機分子合成路線的設計和分子生成(新化學分子的設計)等。 本文獻關注深度學習影響分子設計的兩個關鍵領域:分子性質預測和分子生成。
介紹
基于藥物相關數據進行分子的生成與評估是新藥設計的關鍵任務。在藥物設計早期,藥物研發通常依靠藥物化學家的經驗進行藥物分子的設計與驗證。藥物化學家會合成一組化合物并對其進行生物活性測試,查看測試產生的數據,并利用對基礎學科的理解來決定下一步要合成哪些分子。他們將以上步驟進行迭代,最終得到所需的目標分子。 20世紀30年代,定量結構-活性關系(Quantitative Structure-Activity Relationship,QSAR)的發展,為化學結構與各種理化性質之間建立了一個數學模型。這些用于性質預測的QSAR模型奠定了許多虛擬篩選策略的基礎。虛擬篩選使用大量候選分子數據集得到更小的數據集用于后續的合成或者購買。 之后許多研究團隊產生了新的想法。他們編寫了計算機程序來進行從頭分子設計進而生成新分子。這些程序通常在蛋白質結合位點上添加原子或官能團來“生長”現有的分子,然后使用各種打分函數來評估這些分子,并將更優分子用于合成。雖然這些全新的設計方法取得了一些成功,但它們并沒有被廣泛采用。 在近幾年深度學習發展的推動下,分子生成和分子性質預測領域開始復蘇。深度學習應用于分子性質預測,包括預測生物活性、ADME(Absorption, Distribution, Metabolism, and Excretion)和與毒性靶標(eg: hERG——thehumanEther-à-go-go-RelatedGene)的相互作用等。其不依賴于專家定義的分子特征集,而是使用可調整到特定任務的學習特征。相關性質預測模型的性能優于更傳統的QSAR方法。當應用于分子生成領域時,深度學習并不是隨機擴展現有的分子,也不是使用一套規則來連接現有的分子片段,而是從現有的分子訓練集中學習規則生成分子。通過將這些生成方法與預測模型相結合,研究人員能夠設計出滿足特定生物活性的分子。
分子性質預測
分子性質預測方法應用于虛擬篩選領域可以減少實驗篩選相關的時間和費用,同時拓寬可探索的化學空間。虛擬篩選可在短時間內評估數十億分子,相比實驗篩選方法快速很多。研究相關分子性質預測算法可以加速藥物發現。
1.用于分子性質預測的神經網絡
神經網絡模型的關鍵在于如何在機器學習算法中以較合理的方式表示分子。早期的模型使用專家構建的特征(如指紋與描述符)來表示分子。機器學習算法的作用是學習如何權衡這些特征,以提供準確的性質預測。這類模型的預測準確性很大程度上取決于所選特征的質量。而神經網絡直接從數據中自行學習合適的特征表示。輸入分子集與性質數據集進行網絡的訓練后,向網絡輸入新分子,我們可以得到該分子的性質預測值(如圖1)。
圖1 分子性質預測模型[1]****
作者列舉了一些深度學習應用于分子性質預測領域的研究。其中包括預測實驗毒性的回溯性研究——Tox21挑戰(Tox21 Challenge);以及前瞻性研究——發現新藥(新抗生素)。 Tox21挑戰中,研究小組使用了各種機器學習方法來預測實驗毒性分析的結果。Hochreiter團隊使用的深度學習模型贏得了15項挑戰中的9項。Feinberg研究團隊建立在各種藥物數據集上的模型的R2(相關系數)平均增加0.16。Yang團隊建立的模型在19個公共基準中的11個基準上表現較基線模型要好。 前瞻性研究中簡要描述了Stokes團隊應用性質預測進行虛擬篩選進而發現強效抗生素這一過程(見圖2)。該團隊選用了2335種已上市的藥物和天然產物,確定它們抑制大腸桿菌生長的能力;之后創建深度學習模型,在含1.07億商業化合物的數據庫中篩選預測分子,進而對所得分子進行后續生物測試。
圖2 Stokes應用性質預測發現了一種新型抗生素過程[1]**********
2.分子性質預測準確性的數據要求******
預測模型的準確性在很大程度上也取決于能否獲得合適的數據。 給定了大量的參數,神經網絡模型需要足夠多的訓練數據來學習最佳的分子表示,并最終預測任務本身。性質預測這一任務所需的數據量可達數萬以上。對于藥物研究來說,獲取大樣本很困難。典型先導化合物優化生成的分子量通常不足以提供給神經網絡進行模型訓練。然而,大量數據集也不一定能成功擴展新化學空間。預測分子與原始訓練集的散度不能太大。分子與訓練集的散度越大,模型就越難正確地預測分子屬性。此外,現有的置信度估計方法也不能充分評估模型預測的正確性。
3.分子性質預測中不確定性的度量******
當使用機器學習模型來預測一個分子的生物活性或物理性質時,了解該預測中性質預測值的不確定性很重要。然而該領域學者對評估不確定性的方法并未達成共識。在機器學習模型中量化分子的相似性和評估不確定性則更困難。 Hirschfeld等人使用了5個基準數據集來評估神經網絡模型中的幾種量化不確定性的方法。其中包括: ①集成方法:改變網絡參數創建集成模型,整個集成模型的方差用于不確定性的度量。 ②均值-方差評估方法:訓練其中一個網絡用于預測特定分子預測值的均值與方差。 ③基于分子指紋或基于距離表示潛在空間的度量方法。 ④聯合方法:即利用神經網絡與潛在空間表示相結合的方法輸出分子性質預測的不確定性值。 而作者認為這些方法可靠性均較低,需要進行進一步研究。
4.數據增強策略
在神經網絡中可使用數據增強的方法緩解大數據量的這一需要。例如在分析圖像時,可以通過旋轉或模糊圖像來創建更大的數據集,并將這些修改后的圖像作為附加示例插入到數據集中。而在分子性質預測數據集中,一般數據增強策略有兩種:一個是利用其他相關性質預測(例如相關蛋白質靶標的活性)的數據進行增強進而訓練網絡;另一個是對現有分子結構進行增強得到更大的數據庫進行網絡訓練,進而學習到較好特征進行分子性質預測。然而這兩種方法并沒有很成功,還需進一步研究。分子從頭設計與生成模型
分子生成模型從2017年開始出現,之后一直是一個比較熱門的研究領域。這些生成模型方法受到了來自計算機視覺和自然語言處理等領域的啟發,產生了許多神經網絡架構,網絡性能也在進一步提高。1.****分子生成模型的種類第一種可行的分子生成技術采用了被稱為自動編碼器(AutoEncoder, AE)(如圖3)的神經網絡。AE由編碼器和解碼器組成。編碼器以連續編碼的方式編碼分子,促進分子屬性的預測和優化,解碼器學習將一個優化的連續表示映射回具有改進屬性的分子圖,進而生成新分子。
圖3 生成模型的自動編碼器(AE)架構示意圖**[1]******
第三種方法稱為強化學習(ReinforcementLearning, RL)。該技術使用的網絡用于描述智能體(Agent)在與環境的交互過程中,通過學習策略達到回報最大化或實現特定目標的問題。RL應用于分子生成時,定義一系列“move”。這些“move”通過添加和修飾原子及原子鍵使分子生長或改變。目標通常被定義為基于預測模型的屬性值。之后網絡使用各種策略來實現目標。使用RL可生成滿足多個目標的分子,這些生成的分子與目標分子具有高相似性以及高類藥性等性質。
第四種生成方法文獻作者在此篇綜述中并沒有提及,筆者在此進行補充,該方法稱為生成對抗網絡(Generative Adversarial Networks , GAN)。GAN網絡由一個生成器(Generator)與一個判別器(Discriminator)組成。生成器生成類似于訓練集的數據, 判別器判斷數據的真假(是否來源于生成器)。生成器與判別器相互博弈,最終生成器生成的分子可以達到真假難辨的地步。
**2.**分子生成模型的分子表示方法
生成模型分子結構的文本表示首次應用的是SMILES(Simplified Molecular Input Line Entry System)字符串,進而將SMILES轉換成連續向量,然后根據所需要的性質進一步優化。優化后的新向量再被解碼成一個代表輸出分子的SMILES字符串。 在SMILES表征的基礎上,研究人員又開發了能夠有效處理分子圖的編碼和解碼算法,這種方法可明確地捕獲官能團及其空間排列,以及分子整體骨架等信息。 最近的研究進一步增加了分子的三維信息表示方式,探索了尋找優化分子的替代算法。其中一種方法是用給定的起始分子及改進性質后的對應分子作為配對進行訓練。這種方法可以被看作是匹配分子對分析(Matched MolecularPairs Analysis, MMPA)的神經網絡版本,其中模型在隱藏空間中學習軌跡,即使隱藏空間不平滑,也具有魯棒性,并支持生成不同的輸出(如圖4)。
圖4 使用編碼器解碼器生成分子的連續表示****[1]********
3.分子生成模型的相關研究
文獻作者列舉了分子生成相關應用研究,評估方法及未來發展前景。 分子生成的應用包括Merk設計的類視黃酮X受體(Retinoid X Receptors, RXRs)或過氧化物酶體增殖物激活受體(Peroxisome Proliferator-Activated Receptors, PPARs)的激動劑,Zhavoronkov設計生成的盤狀蛋白結構域受體1(Discoidin Domain Receptor 1, DDR1)抑制劑。而學者Walters和Murcko對生成模型提出質疑,因為生成的DDR1抑制劑與之前發表的上市藥物高度相關(見圖5)。于是,文獻作者引出生成模型的評估方法。
**圖5 模型生成化合物1與上市藥物ponatinib的比較
[1]**
生成模型評估方法有GuacaMol算法、分子枚舉比較方法以及Molecular Sets(MOSES)方法 (MOSES方法綜述作者沒有提及,筆者對其進行補充)。GuacaMol算法通過一系列的測試來評估算法生成分子的有效性、唯一性和多樣性以及評估生成模型探索化學空間的能力。分子枚舉比較方法使用生成的分子與化學空間(Zhang使用了GDB-13數據庫)詳盡枚舉的分子進行比較。 MOSES設計了一個分子生成基準平臺,該平臺提供了分子結構數據集、基準模型的實現方法以及它們的評估指標。其中評價指標與GuacaMol較為類似,主要有分子數據集分布指標與單個分子性質指標這兩類。 未來可能針對分子合成性開發基于可用試劑的分子生成模型,并生成具有目標性質(包括所需的分子相互作用,ADME性質等)的分子。
********總結與展望
雖然藥物發現領域由于人工智能的推動得到了加速發展,但它是一個復雜的過程,還有很多問題有待解決。 首先,藥物研發需要優化多個參數,包括靶點有效性,脫靶副作用,藥代動力學等。現有的研究只解決了其中部分問題。其次,研究人員需要用于正確構建研究模型的訓練數據,現有的數據有時會存在許多問題。未來研究人員可能會創建更加智能的方法來識別并排除可能包含錯誤的數據,構建模型的研究人員也會與實驗人員合作,確保數據適用于模型訓練。 我們不應該完全否定人工智能,但也不應該認為它是一種“萬能藥”。隨著人工智能繼續被用于藥物發現,它將成為藥物研發過程中廣泛使用的一種工具。
**參考文獻 *[1] W.Patrick Walters and Regina Barzilay. Applications of Deep Learning in MoleculeGeneration and Molecular Property Prediction. Accounts of Chemical Research. 2021, 54: 263-270.
供稿:胡楓
基于藥物相關數據進行分子的生成與評估是新藥設計的關鍵任務。在藥物設計早期,藥物研發通常依靠藥物化學家的經驗進行藥物分子的設計與驗證。藥物化學家會合成一組化合物并對其進行生物活性測試,查看測試產生的數據,并利用對基礎學科的理解來決定下一步要合成哪些分子。他們將以上步驟進行迭代,最終得到所需的目標分子。
20世紀30年代,定量結構-活性關系(Quantitative Structure-Activity Relationship,QSAR)的發展,為化學結構與各種理化性質之間建立了一個數學模型。這些用于性質預測的QSAR模型奠定了許多虛擬篩選策略的基礎。虛擬篩選使用大量候選分子數據集得到更小的數據集用于后續的合成或者購買。
之后許多研究團隊產生了新的想法。他們編寫了計算機程序來進行從頭分子設計進而生成新分子。這些程序通常在蛋白質結合位點上添加原子或官能團來“生長”現有的分子,然后使用各種打分函數來評估這些分子,并將更優分子用于合成。雖然這些全新的設計方法取得了一些成功,但它們并沒有被廣泛采用。
在近幾年深度學習發展的推動下,分子生成和分子性質預測領域開始復蘇。深度學習應用于分子性質預測,包括預測生物活性、ADME(Absorption, Distribution, Metabolism, and Excretion)和與毒性靶標(eg: hERG——thehumanEther-à-go-go-RelatedGene)的相互作用等。其不依賴于專家定義的分子特征集,而是使用可調整到特定任務的學習特征。相關性質預測模型的性能優于更傳統的QSAR方法。當應用于分子生成領域時,深度學習并不是隨機擴展現有的分子,也不是使用一套規則來連接現有的分子片段,而是從現有的分子訓練集中學習規則生成分子。通過將這些生成方法與預測模型相結合,研究人員能夠設計出滿足特定生物活性的分子。
最近,以人工智能(ai)為基礎的新藥開發大幅縮短了新藥開發的時間和成本,因此備受關注。隨著深度學習(DL)技術的進步和藥物相關數據的增長,許多基于深度學習的方法正在藥物開發過程的所有步驟中出現。尤其值得一提的是,藥物化學家面臨著選擇和設計潛在藥物以進行臨床前試驗的重大問題。兩個主要的挑戰是預測藥物和可藥物靶點之間的相互作用,以及生成適合感興趣靶點的新分子結構。因此,我們回顧了近年來深度學習在藥物-靶點相互作用(DTI)預測和藥物從頭設計方面的應用。此外,我們還介紹了各種藥物和蛋白質表示、DL模型以及用于模型訓練和測試的常用基準數據集或工具的全面總結。最后,我們提出了未來基于dl的DTI預測和從頭設計藥物的剩余挑戰。
//www.ncbi.nlm.nih.gov/pmc/articles/PMC8470987/
藥物設計和開發是制藥公司和化學科學家的一個重要研究領域。然而,低療效、脫靶給藥、耗時和高成本是影響藥物設計和發現的障礙和挑戰。此外,來自基因組學、蛋白質組學、微陣列數據和臨床試驗的復雜大數據也給藥物發現帶來了障礙。人工智能和機器學習技術在藥物發現和開發中發揮著至關重要的作用。換句話說,人工神經網絡和深度學習算法使該領域現代化。機器學習和深度學習算法已在多肽合成、基于結構的虛擬篩選、基于配體的虛擬篩選、毒性預測、藥物監測和釋放、藥效載體建模、定量構效關系、藥物再定位、多藥理學和物理化學活性。過去的證據加強了人工智能和深度學習在該領域的應用。此外,新的數據挖掘、管理和管理技術為最近開發的建模算法提供了關鍵支持。綜上所述,人工智能和深度學習的進步為合理的藥物設計和發現過程提供了絕佳的機會,這將最終影響人類。與藥物設計和開發有關的主要問題是時間消耗和生產成本。此外,低效率、不準確的靶向給藥和不適當的劑量也是阻礙藥物給藥和開發過程的障礙。隨著技術的進步,結合人工智能算法的計算機輔助藥物設計可以消除傳統藥物設計和開發的挑戰和障礙。人工智能被稱為由機器學習組成的超集,而機器學習包括監督學習、非監督學習和強化學習。此外,作為機器學習的子集,深度學習已廣泛應用于藥物設計和開發。人工神經網絡、深度神經網絡、支持向量機、分類和回歸、生成式對抗網絡、符號學習和元學習是應用于藥物設計和發現過程的算法的例子。人工智能已經應用于藥物設計開發過程的不同領域,如從多肽合成到分子設計,從虛擬篩選到分子對接,從定量構效關系到藥物重新定位,從蛋白質錯誤折疊到蛋白質-蛋白質相互作用,以及多藥理學的分子途徑鑒定。人工智能原理已應用于活性和非活性的分類、藥物釋放監測、臨床前和臨床開發、一級和二級藥物篩選、生物標志物開發、藥物制造、生物活性鑒定和理化性質、毒性預測、以及行為模式的識別。
人工智能已應用于藥物設計的各種方面,如藥物-蛋白質相互作用預測、藥物療效的發現、確保安全性生物標志物。本綜述提供了在藥物開發的各個階段通過ML工具和技術發現藥物的可行文獻,以加速研究過程,降低臨床試驗的風險和支出。機器學習技術改進了在不同應用中的藥物數據決策,如QSAR分析、hit發現、從頭藥物架構檢索準確的結果。在本綜述中,靶點驗證、預后生物標志物、數字病理學都被認為是存在問題的。ML挑戰必須適用于可解釋性結果不足的主要原因,這可能會限制藥物發現中的應用。在臨床試驗中,必須生成絕對數據和方法學數據,以解決在驗證ML技術、改進決策、提高ML方法的意識以及推斷藥物發現中的風險失敗方面的許多難題。 //pubmed.ncbi.nlm.nih.gov/34393317/
“人工智能”(AI)最近在圖像和語音識別等領域產生了深遠的影響,這一進展已經轉化為實際應用。然而,在藥物發現領域,這樣的進步仍然很少,原因之一是使用的數據本身。在這篇綜述中,我們討論了來自不同領域的數據的方面和差異,即圖像、語言、化學和生物領域的數據,可用的數據量,以及它們與藥物發現的相關性。未來需要我們對生物系統的理解,以及隨后生成足夠數量的與實際相關的數據,才能真正推進人工智能在藥物發現領域的發展,發現具有新型作用模式的新型化學物質,并在臨床中表現出理想的有效性和安全性。
//www.sciencedirect.com/science/article/pii/S00428?via%3Dihub
人工智能已經改變了許多領域,可能最顯著的是圖像和語音識別領域,導致了自動護照控制和“虛擬助手”(也涉及隱私等相關問題)。從現在開始,聚焦于技術方面,圖像識別方面的最新發展的起點可能是2010年由Schmidhuber和他的同事[1]發表的關于識別手寫字符的論文。2012年NIPS發表了一篇關于AlexNet[2]的論文,成功地利用了深度神經網絡對圖像進行分類,從而使這一領域快速發展起來。這個進展不僅依賴特定的選擇由作者(如使用連續卷積和匯聚層,使用修正線性(ReLU)單位,數據增加和dropout 層[3]],還有大量的標記數據可以從ImageNet庫[4],以及圖形處理單元(GPU)的使用。在語音識別方面,Hochreiter和他的同事[5]所做的諸如長期短時記憶(LSTM)的研究為最近的實際應用鋪平了道路,比如在移動設備和虛擬助手上。
人工智能先前成功的領域,如圖像分類和語音識別,在以下方面不同于藥物發現領域中可用的化學和生物數據:(i)可用數據的數量; ii) 能夠將其以合適的形式表示給計算機;iii)與可用數據本質一致的ML算法(例如,波形和RNNs,或圖像和CNNs具有這種潛在的一致性,而化學和生物數據不存在這種一致性); iv)分配有意義標簽的可能性(在藥物發現領域很大程度上取決于情況,如劑量、基因型、試驗設置等)。此外,近期的其他進展,如DeepMind在最近的CASP蛋白折疊競賽中以較大優勢獲勝[67],也需要評估在藥物發現的背景下,這究竟能讓我們做些什么。對于蛋白質折疊領域來說,這確實是一個非常重要的發展,因為預測折疊后的蛋白質狀態的精確度和速度現在是可能的。然而,在藥物發現領域,任何藥物的體內有效性和安全性的關鍵問題仍然和以前一樣——我們可能會比以前對接更多的靶點(并進行基于結構的設計),以更快地發現配體;如何將其轉化為體內情況是一個完全開放的問題,上面關于“配體”和“藥物”發現的評論和以前一樣適用。最近關于該主題的全面討論參見[68]。簡而言之,在圖像上識別物體、預測蛋白質結構和識別安全有效的藥物之間是有區別的。我們將在下面更詳細地描述這些差異。
【導讀】分布式機器學習Distributed Machine Learning是學術界和工業界關注的焦點。最近來自荷蘭的幾位研究人員撰寫了關于分布式機器學習的綜述,共33頁pdf和172篇文獻,概述了分布式機器學習相對于傳統(集中式)機器學習的挑戰和機遇,討論了用于分布式機器學習的技術,并對可用的系統進行了概述,從而全面概述了該領域的最新進展。
?論文地址: //www.zhuanzhi.ai/paper/161029da3ed8b6027a1199c026df7d07 ?
摘要 在過去的十年里,對人工智能的需求顯著增長,而機器學習技術的進步和利用硬件加速的能力推動了這種增長。然而,為了提高預測的質量并使機器學習解決方案在更復雜的應用中可行,需要大量的訓練數據。雖然小的機器學習模型可以用少量的數據進行訓練,但訓練大模型(如神經網絡)的輸入隨著參數的數量呈指數增長。由于處理訓練數據的需求已經超過了計算機器計算能力的增長,因此需要將機器學習的工作負載分布到多臺機器上,并將集中式的學習任務轉換為分布式系統。這些分布式系統提出了新的挑戰,首先是訓練過程的有效并行化和一致模型的創建。本文概述了分布式機器學習相對于傳統(集中式)機器學習的挑戰和機遇,討論了用于分布式機器學習的技術,并對可用的系統進行了概述,從而全面概述了該領域的最新進展。
1. 引言
近年來,新技術的快速發展導致了數據采集的空前增長。機器學習(ML)算法正越來越多地用于分析數據集和構建決策系統,因為問題的復雜性,算法解決方案是不可行的。例如控制自動駕駛汽車[23],識別語音[8],或者預測消費者行為[82]。
在某些情況下,訓練模型的長時間運行會引導解決方案設計者使用分布式系統來增加并行性和I/O帶寬總量,因為復雜應用程序所需的訓練數據很容易達到tb級的[29]。在其他情況下,當數據本身就是分布式的,或者數據太大而不能存儲在一臺機器上時,集中式解決方案甚至都不是一個選項。例如,大型企業對存儲在不同位置的[19]的數據進行事務處理,或者對大到無法移動和集中的天文數據進行事務處理[125]。
為了使這些類型的數據集可作為機器學習問題的訓練數據,必須選擇和實現能夠并行計算、數據分布和故障恢復能力的算法。在這一領域進行了豐富多樣的研究生態系統,我們將在本文中對其進行分類和討論。與之前關于分布式機器學習([120][124])或相關領域的調查([153][87][122][171][144])相比,我們對該問題應用了一個整體的觀點,并從分布式系統的角度討論了最先進的機器學習的實踐方面。
第2節深入討論了機器學習的系統挑戰,以及如何采用高性能計算(HPC)的思想來加速和提高可擴展性。第3節描述了分布式機器學習的參考體系結構,涵蓋了從算法到網絡通信模式的整個堆棧,這些模式可用于在各個節點之間交換狀態。第4節介紹了最廣泛使用的系統和庫的生態系統及其底層設計。最后,第5節討論了分布式機器學習的主要挑戰
2. 機器學習——高性能計算的挑戰?
近年來,機器學習技術在越來越復雜的應用中得到了廣泛應用。雖然出現了各種相互競爭的方法和算法,但所使用的數據表示在結構上驚人地相似。機器學習工作負載中的大多數計算都是關于向量、矩陣或張量的基本轉換——這是線性代數中眾所周知的問題。優化這些操作的需求是高性能計算社區數十年來一個非常活躍的研究領域。因此,一些來自HPC社區的技術和庫(如BLAS[89]或MPI[62])已經被機器學習社區成功地采用并集成到系統中。與此同時,HPC社區已經發現機器學習是一種新興的高價值工作負載,并開始將HPC方法應用于它們。Coates等人,[38]能夠在短短三天內,在他們的商用現貨高性能計算(COTS HPC)系統上訓練出一個10億個參數網絡。You等人[166]在Intel的Knights Landing(一種為高性能計算應用而設計的芯片)上優化了神經網絡的訓練。Kurth等人[84]證明了像提取天氣模式這樣的深度學習問題如何在大型并行高性能計算系統上進行優化和快速擴展。Yan等人[163]利用借鑒于HPC的輕量級概要分析等技術對工作負載需求進行建模,解決了在云計算基礎設施上調度深度神經網絡應用程序的挑戰。Li等人[91]研究了深度神經網絡在加速器上運行時對硬件錯誤的彈性特性,加速器通常部署在主要的高性能計算系統中。
與其他大規模計算挑戰一樣,加速工作負載有兩種基本的、互補的方法:向單個機器添加更多資源(垂直擴展或向上擴展)和向系統添加更多節點(水平擴展或向外擴展)。
3. 一個分布式機器學習的參考架構
圖1 機器學習的概述。在訓練階段,利用訓練數據和調整超參數對ML模型進行優化。然后利用訓練后的模型對輸入系統的新數據進行預測。
圖2 分布式機器學習中的并行性。數據并行性在di上訓練同一個模型的多個實例!模型并行性將單個模型的并行路徑分布到多個節點。
機器學習算法
機器學習算法學習根據數據做出決策或預測。我們根據以下三個特征對當前的ML算法進行了分類:
反饋、在學習過程中給算法的反饋類型
目的、期望的算法最終結果
方法、給出反饋時模型演化的本質
反饋 訓練算法需要反饋,這樣才能逐步提高模型的質量。反饋有幾種不同類型[165]:
包括 監督學習、無監督學習、半監督學習與強化學習
目的 機器學習算法可用于各種各樣的目的,如對圖像進行分類或預測事件的概率。它們通常用于以下任務[85]: 異常檢測、分類、聚類、降維、表示學習、回歸
每一個有效的ML算法都需要一種方法來迫使算法根據新的輸入數據進行改進,從而提高其準確性。通過算法的學習方式,我們識別出了不同的ML方法組: 演化算法、隨機梯度下降、支持向量機、感知器、神經網絡、規則機器學習、主題模型、矩陣分解。
圖3所示:基于分布程度的分布式機器學習拓撲
4. 分布式機器學習生態系統
圖4所示。分布式機器學習生態系統。通用分布式框架和單機ML系統和庫都在向分布式機器學習靠攏。云是ML的一種新的交付模型。
5 結論和當前的挑戰
分布式機器學習是一個蓬勃發展的生態系統,它在體系結構、算法、性能和效率方面都有各種各樣的解決方案。為了使分布式機器學習在第一時間成為可行的,必須克服一些基本的挑戰,例如,建立一種機制,使數據處理并行化,同時將結果組合成一個單一的一致模型。現在有工業級系統,針對日益增長的欲望與機器學習解決更復雜的問題,分布式機器學習越來越普遍和單機解決方案例外,類似于數據處理一般發展在過去的十年。然而,對于分布式機器學習的長期成功來說,仍然存在許多挑戰:性能、容錯、隱私、可移植性等。