亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

AlphaFold是DeepMind開發的一個人工智能系統,可以根據蛋白質的氨基酸序列預測蛋白質的3D結構。AlphaFold軟件和“AlphaFold蛋白質結構數據庫”(AlphaFold Protein Structure Database)向公眾開放已經一年了,用戶可以探索和研究他們感興趣的蛋白質。

機器學習模型有潛力成為生物學的核心工具,正如最近在蛋白質結構預測方面的進展所表明的那樣。在這次網絡研討會中,我將概述AlphaFold:該系統如何工作,如何獲得蛋白質結構預測,以及如何分析它們。然后,我將回顧構建系統的一些方法,并將討論如何為新應用程序評估AlphaFold。

近年來,蛋白質結構的計算模型的能力和準確性顯著提高,結構生物學的一些領域沒有受到影響。這些變化已經在當前版本的AlphaFold中實現,RoseTTAFold也不遠了。實驗結構生物學仍然需要解決預測結構中的歧異,并驗證細節,但高質量模型的可用性正在消除實驗中的許多瓶頸。即使沒有實驗結構,新的模型也足以產生有趣的假設,可以通過實驗來驗證,比如評估與遺傳疾病相關的變異是如何導致疾病的。通過在當前算法中使用的模式識別中添加明確的物理和化學,以及積極利用有限的實驗觀察,可以解決模型的局限性。我將討論AlphaFold對結構生物信息學的影響,通過強調一些大規模的努力和開發的結構搜索工具來描述AlphaFold模型。

探索AlphaFold的應用程序

討論目前AlphaFold在結構生物學中的優勢和局限性

識別結構預測對結構、計算生物學研究的影響

付費5元查看完整內容

相關內容

2022年7月28日,DeepMind官方網站發布AlphaFold最新進展:AlphaFold已經確定了地球上幾乎所有已知生物體中大約2億種蛋白質的結構。 通過與EMBL-EBI合作,DeepMind發布了科學界已知的幾乎所有已編目蛋白質的預測結構,這將使AlphaFold DB擴展超過200倍 (從近100萬個結構到超過2億個結構),有可能大大增加我們對生物學的理解。

今天的更新意味著主要蛋白質數據庫UniProt上的大多數頁面都會有一個預測結構。所有2億多個結構也將通過Google Cloud Public Datasets提供批量下載,使全世界的科學家更容易獲得AlphaFold。

對于這一進展,Nature發布文章聲稱,從今天開始,確定幾乎任何科學已知蛋白質的3D形狀將像在谷歌搜索中輸入一樣簡單。

DeepMind首席執行官Demis Hassabis在新聞發布會上說,“基本上你可以認為它涵蓋了整個蛋白質領域,我們正處于數字生物學新時代的開端”。 EMBL-EBI稱,在超過2.14億個預測中,大約35%被認為是高度準確的,這意味著它們與實驗確定的結構一樣好。另外45%的預測被認為有足夠的信心,在許多應用中可以依賴。 到目前為止,AlphaFold的影響

在首次發布12個月后,AlphaFold已經產生了令人難以置信的影響。 迄今為止,來自190個國家/地區的超過500,000名研究人員訪問了AlphaFold DB,查看了超過200萬個結構。DeepMind免費提供的結構也已集成到其他公共數據集,例如Ensembl、UniProt和 OpenTargets,數百萬用戶在這些數據集中訪問它們,作為日常工作流程的一部分。

只是開始

在官網文章中,Demis Hassabis稱: AlphaFold將生物學帶入了一個結構豐富的時代,以數字速度開啟了科學探索。AlphaFold DB充當蛋白質結構的“谷歌搜索”,為研究人員提供即時訪問他們正在研究的蛋白質的預測模型,使他們能夠集中精力并加快實驗工作。從抗擊疾病到開發疫苗,AlphaFold已經在我們面臨的一些最大的全球挑戰中取得了令人難以置信的進展,而這僅僅是我們將在未來幾年開始看到的影響的開始。這個擴展的數據庫將幫助更多的科學家開展工作,并開辟全新的科學探索途徑,例如元蛋白質組學。 DeepMind正在努力利用所有這些潛力,在許多領域進行大量投資:包括與新姊妹公司Isomorphic Labs合作,以人工智能為先的方法從第一性原理重新構想整個藥物發現過程;在著名的Francis Crick Institute建立濕實驗室,以加強人工智能與實驗技術之間的聯系,以促進對生物學 (包括蛋白質設計和基因組學) 的理解;并擴大我們AI for Science團隊,以加快我們基礎生物學研究的進一步進展,并將AI應用于其他有趣且重要的科學挑戰,例如氣候科學、量子化學和融合領域。 AlphaFold是對未來、以及將計算和人工智能方法應用于生物學的可能性的驚鴻一瞥。在其最基本的層面上,生物學可以被認為是一個信息處理系統,盡管是一個異常復雜和突發的系統。**正如數學是物理學的完美描述語言一樣,我們相信人工智能可能會成為應對生物學動態復雜性的正確技術。**AlphaFold是這方面的第一個重要的證明點,也是未來會有更多證明的標志。作為"數字生物學"這一新興領域的先驅,我們很高興看到人工智能的巨大潛力開始得到實現,成為人類推動科學發現和理解生命基本機制的最有用的工具之一。 AlphaFold突破時間表

01 2016年 當一個團隊慶祝時另一個團隊成立

2016年3月13日

DeepMind的AlphaGo程序在首爾的一場挑戰賽中擊敗了傳奇圍棋選手李世石。這一分水嶺時刻表明,DeepMind的人工智能技術具有足夠先進的潛力,可以應用于包括“蛋白質折疊問題”在內的科學挑戰。不久之后,DeepMind成立了一個小團隊,開始蛋白質結構預測工作。 02 2018年 AlphaFold性能的首次公開測試

2018年12月2日

AlphaFold的表現在CASP13中成為基準,排名第一 (在條目A7D下)。這些方法隨后發表在科學雜志Nature上。團隊擴大,并開始研究創新的新系統。 03 2020年 解決50年來生物學領域重大挑戰

2020年11月30日

AlphaFold2以巨大優勢贏得CASP14,并被CASP的組織者認為是解決50年歷史的“蛋白質折疊問題”的解決方案,因為它預測結構達到原子精度,中值誤差 (RMSD_95) 小于1埃,比次優系統準確3倍,可與實驗方法媲美。

2020年12月1日

John Jumper和Demis Hassabis各就AlphaFold系統的想法、架構和發布計劃向CASP14與會者進行30分鐘的演示,確認了DeepMind致力于為我們的工作提供廣泛訪問的承諾。 04 2021年 將AlphaFold的力量交到世界手中

2021年7月15日

Nature在“Highly accurate protein structure prediction with AlphaFold”一文中發表了AlphaFold的詳細方法,DeepMind開源了代碼以及詳細描述系統各個方面的60頁補充信息。

2021年7月22日

Nature發表了第二篇DeepMind論文,其中包含整個人類蛋白質組的結構預測,使已知的高置信度結構的數量增加了一倍。通過與歐洲分子生物學實驗室的歐洲生物信息學研究所 (EMBL-EBI) 密切合作,DeepMind推出了AlphaFold蛋白質結構數據庫,讓科學界可以自由和開放地訪問人類蛋白質組以及另外20種模式生物的總共超過350,000種結構。

2021年10月4日

DeepMind在biorxiv上發表了另一篇論文“Protein complex prediction with AlphaFold-Multimer”,該論文正確地解釋了多鏈蛋白質,并展示了與現有方法 (包括普通AlphaFold2) 相比在預測復合物方面的卓越性能。

2021年11月2日

DeepMind更新了AlphaFold2源代碼以解釋多鏈蛋白質復合物,顯著提高了預測蛋白質相互作用的準確性。

2021年12月9日

DeepMind在與EMBL-EBI合作的AlphaFold蛋白質結構數據庫中增加了超過40萬的蛋白質結構。這個版本包括了大多數蛋白質的結構,在UniProtKB/SwissProt中為大多數人工收集的UniProt條目添加了預測,使數據庫的規模增加了一倍多。 05 2022年 數據庫的數量級增長

2022年1月28日

DeepMind為與EMBL-EBI合作的AlphaFold蛋白質結構數據庫增加了27個新的蛋白質組 (19萬多個蛋白質),其中17個代表被忽視的熱帶疾病,這些疾病繼續破壞著全球10多億人的生活。迄今為止,全世界已有超過30萬名研究人員使用了該數據庫。

2022年7月28日

DeepMind將AlphaFold蛋白質結構數據庫從近100萬個結構擴展到超過2億個結構,包括對UniProt中大多數蛋白質的預測。 …… ……

參考資料

//www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universe

--------- End ---------

付費5元查看完整內容

2022年6月21日,來自小分子變構藥物發現公司HotSpot Therapeutics的Michael Schauperl等人在J Chem Inf Model雜志發表文章,探討了基于AI的蛋白質結構預測方法對藥物發現領域的關鍵貢獻,以及所面臨的局限性和挑戰。

主要內容整理如下。

摘要 蛋白質是人體的分子機器,其功能失常往往導致疾病。因此,蛋白質是藥物發現的關鍵靶點。蛋白質的三維結構決定了其生物功能,其構象狀態決定了底物、輔助因子和蛋白質的結合。合理的藥物發現采用工程小分子選擇性地與蛋白質相互作用以調節其功能。為了選擇性地靶向蛋白質并設計小分子,了解蛋白質的結構及其所有特定的構象至關重要。不幸的是,對于大量與藥物發現有關的蛋白質來說,其三維結構還沒有通過實驗解決。 最近,AlphaFold2,一個基于深度神經網絡的機器學習應用,能夠以前所未有的準確性預測蛋白質的未知結構。盡管AlphaFold2取得了令人印象深刻的進展,但自然界仍然對結構預測領域提出了挑戰。**在本文中,我們探討了AlphaFold2和相關方法如何幫助提高藥物設計效率。**我們強調了先進的機器學習方法在哪些方面需要進一步改進,以便成功地、充分地應用于制藥行業。

前言 計算方法和機器學習在藥物發現方面有很長的歷史。1981年,《財富》雜志宣布了 "下一次工業革命",其中描述了計算機如何幫助藥物設計。計算模型幾乎存在于藥物設計的每個方面。例如,合成可及性和逆合成預測有助于合成規劃,大量的序列數據有助于識別新的藥物靶點,口袋識別的ML方法是當今最先進的方法,基于ML的毒性預測和PD/PK建模方法也經常被使用。 蛋白質是所有生物系統的分子馬達。了解蛋白質及其功能作用對于我們了解生物過程以及藥物設計至關重要。 本文探討了最新一代的機器學習方法如何可能改變蛋白質結構預測的游戲規則,并強調了對藥物發現領域的關鍵貢獻。我們討論了這些方法在復雜的藥物設計中所面臨的局限性和挑戰,并區分了哪些藥物設計問題可以用目前的方法 (如RoseTTAFold、RGN2和AF2) 輕松解決,哪些不能。我們為計算生物學家和化學家提供了有效、合理的基于結構的藥物設計的要點。我們還展望了在近期和中期內可以對這些算法做出哪些進一步的改進,以利于藥物設計。 基于AI的蛋白質結構預測如何幫助基于結構的藥物發現 新一代的基于人工智能的結構預測工具已經顯示出一些令人印象深刻的成功案例。 CASP訪問者之一的Andrei Lupas報告說,來自AF2的結構預測幫助他解決了他的實驗室多年來苦苦追尋的一個古細菌跨膜受體的晶體結構。AF2提供了正確的結構模板,可以用來求解實驗結構。Baker和同事報道了使用RoseTTAFold解決p101-Gβγ-結合域與PI2Kγ的異源二聚體復合物的冷凍電鏡結構。Fowler和Williamson建議使用AF2作為核磁共振結構細化的標準工具。 預測尚未結晶的結構域的蛋白質結構是生物學和藥物發現方面的一大飛躍。Pfam是一個廣泛使用的基于序列的蛋白質分類資源。到目前為止,四分之三的Pfam結構域家族沒有被頻繁地結晶 (即每個家族少于10個結構),其中一半以上沒有在任何實驗結構中發現。正確預測這些結構域使我們能夠從結構的角度審視大量的新靶點。可以這么說,如果關于這些蛋白質的唯一知識是其氨基酸序列,那么AF2結構是目前最好的結構。 AF2預測的結構為基于結構的藥物設計提供了許多新型蛋白質靶點的入口。三維結構使計算化學家能夠在蛋白質表面搜索口袋和功能相關區域。檢測一個合適的口袋是藥物開發的一個重要步驟。當蛋白質結構已知時,可采用對接、虛擬篩選、自由能計算和其他基于結構的計算方法。 盡管,AF2在所有蛋白質上的表現都不盡相同,但該算法通過提供一種稱為預測lDDT得分 (plDDT) 的準確性估計,幫助科學家了解其結構預測的好壞。plDDT得分有助于了解蛋白質的哪些區域被建模為高置信度,因此可以在藥物設計過程中以類似于實驗結構的方式使用。 **置信度較高的人類蛋白質的預測,對其在藥物設計項目中的應用很有意義。**例如,對于F-box LRR重復蛋白-8 (FBXL8_HUMAN),蛋白質數據庫 (AF-Q96CD0-F1-model_v1) 中沒有具有高序列一致性的模板。然而,AF2可以預測一個具有高置信度的結構 (plDDT=92)。 圖2A顯示了對人類受體酪氨酸蛋白激酶ERBB-2 (ERBB2) 的預測,并根據其plDDT得分對氨基酸進行著色。ERBB2是曲妥珠單抗的靶點,曲妥珠單抗是一種單克隆抗體,1998年被批準用于治療HER2+乳腺癌和胃癌。

圖2. (A) 人類受體酪氨酸蛋白激酶erbB-2蛋白的結構,按預測的lDDT分數著色。(B) ERBB2蛋白的預測對準誤差。 不過,激酶結構域相對于其他結構域的方向有一個很大的預測對準誤差,因為這個結構域沒有像其他結構域那樣在同一個晶體中得到解決。如圖2A所示,一個長環連接激酶和N端結構域。環路的預測不太可靠,使得方向性預測也不太可靠。這突出表明,準確預測域與域之間的相互作用比預測單域結構更具挑戰性。這對藥物設計的影響將在下一節進一步討論。

基于AI的結構化方法的進一步挑戰 蛋白質存在多種構象,這些構象都與它的功能作用和生物學影響有關。此外,蛋白質不是僅僅通過其序列就可以完全描述的。體內的蛋白質通常會受到多種翻譯后修飾 (PTMs) 的影響,這些修飾會以一種激烈的方式改變蛋白質結構。它們可以與其他蛋白質、輔助因子、DNA和RNA形成復雜的結構,這也可以誘發結構變化。此外,小分子的結合也可以改變蛋白質的結構,例如變構位點。 接下來,我們將討論蛋白質折疊是如何應用于目前的藥物發現方法中的,以及它們的局限性在哪里。

預測所有相關構象狀態

解決蛋白質的結構問題通常使藥物設計項目向前邁進一大步。然而,蛋白質的實驗結構特定于所采用的構建體和蛋白質的PTM狀態。此外,一個蛋白質的構象狀態是一個集合,單一的代表性結構可能不足以完全描述一個蛋白質及其生物學功能。 AF2由五個模型組成,每個模型都做出了自己的預測。然而,AF2預測的五個不同結構通常非常接近,見圖3 (紅色結構)。這些相似的預測結構可能無法涵蓋一個蛋白質的生物功能的所有方面。

蛋白質確實以許多不同的構象出現,然而藥物可能只與蛋白質的某種狀態結合。 一個突出的例子是人類鉀離子電壓門控通道H亞家族成員2 (hERG) 蛋白。 hERG的突變體和小分子與hERG的相互作用可導致先天性長QT綜合征。與結構變化相關的動力學非常獨特,使其成為重要的蛋白質靶點。hERG K+通道的三個主要構象是關閉、開放和不活躍。AF2對hERG通道的結構預測僅與Cryo-EM預測的結構相似 (見圖3A)。除了訓練期間提供的構象,AF2不能預測其他相關的構象。

圖3:(A) 人類鉀離子電壓門通道H亞家族成員2的冷凍電鏡結構 (5VA1,綠色) 和AlphaFold2預測 (高置信區,紅色;低置信區,灰色)。所有的AF2預測都與報道的冷凍電鏡結構相似。(B) 人類酪氨酸蛋白激酶ABL1的活性 (1M52,綠色) 和非活性形式 (2HYY,藍色) 的激活環構象。AF2的預測 (紅色) 僅與激活環的活性形式相似。(C) 磷酸化 (活性,綠色,5V61) 、非磷酸化 (非活性,藍色,2Y9Q) 和AlphaFold2 (紅色) 的有絲分裂原激活蛋白激酶-1 (MAPK1) 的激活環構象。AlphaFold2模型預測的是活性和非活性形式的混合。 對于hERG,許多突變和天然變體,以及結合和阻斷該通道的化合物都是已知的。關于突變和結構變異的信息直到現在還沒有被AF2使用,但經常被制藥業的生物學家和化學家用來理解一個蛋白質及其功能。納入這些突變并理解其結構含義將是未來ML方法的一個良好方向。

另一個例子是人類酪氨酸-蛋白激酶ABL1。 激酶參與多種途徑的調節,其激活必須受到嚴格控制。因此,一個激酶的活性和非活性狀態的平衡必須在細胞中得到精確的調節。在一個過于簡化的表示中,一個激酶只存在這兩種非常不同的構象。雖然絕大多數ATP競爭性抑制劑都與激酶的活性構象結合,但少數小分子,例如抗癌藥物伊馬替尼,卻選擇性地與ABL1的非活性形式結合。與特定構象的結合是引入激酶抑制劑的選擇性的一種方式。 圖3B顯示了人類酪氨酸-蛋白激酶ABL1的活性 (開放) 和非活性 (封閉) 構象。然而,**即使激酶的多種構象已被存入蛋白質數據庫,AF2也不能預測ABL1的非活性狀態。**所有五個AF2模型都預測了激活環的活性構象。從ML的角度來看,這可能是一個理想的結果,因為模型之間的一致性很高,但對于藥物設計過程來說是不利的,因為所有的狀態都參與了對靶點的調節。 此外,**AF2還不能區分一個預測是對應于一個特定蛋白質的活性或非活性狀態。AF2對結構的基本功能沒有任何了解,它預測的是它認為最有可能出現在PDB中的狀態。**如果對于一個藥物設計問題,需要某種狀態的結構,那么基于所需構象的相關蛋白質結構建立一個同源模型可能是有利的。 與目前用于AF2的五種模型相比,提出能夠預測更多不同構象的模型來覆蓋構象差異將是有益的。此外,整合關于不同區域的動力學估計也有助于揭示蛋白質藥物相互作用的某些方面。我們想強調的是,研究界已經開始解決這個問題并修改了AlphaFold2。通過引入突變和降低MSA的序列深度,產生了一套更多樣化的結構。

預測蛋白質翻譯后修飾

結構變化和從活性狀態到非活性狀態的轉變往往與PTMs有關,例如泛素化、磷酸化、乙酰化和甲基化。激酶和磷酸酶是細胞中的核心開關。它們通過對關鍵殘基的磷酸化或去磷酸化來激活或停用某些途徑。很多時候,這種PTMs與蛋白質結構的變化相伴而生,如結構域的移動、環路構象的變化、蛋白質的二聚化/聚合。 殘基修飾可以引發根本性的結構變化,這在AF2中還沒有得到考慮。

在考慮MAPK1時,這一挑戰變得很明顯。人類MAPK1有活性和非活性構象,這兩種構象在PDB中經常被報道 (總共有113個PDB結構)。激活環在殘基Thr-185和Tyr-187被磷酸化后改變其構象。有趣的是,AF2預測了兩種狀態之間的中間構象 (見圖3C,紅色),因為相應的模型是在所有113個結構上訓練的。它不能區分磷酸化、活性 (圖3C,綠色) 和非磷酸化、非活性 (圖3C,藍色) 的蛋白質形式。 這種行為的另一個例子是干擾素調控因子 (IRF) 家族。IRFs是特別有趣的藥物開發靶點,因為它們參與了腫瘤的抑制和對病原體的免疫反應。IRF蛋白擁有兩個不同的結構域:一個N端DNA結合結構域和一個C端調節結構域。C端調節結構域包含一個IRF關聯結構域 (IAD),它對二聚體的形成至關重要。IRF通過阻斷IAD結構域而具有自抑制功能。磷酸化后,自抑制 (單體) 形式不穩定并形成二聚體,已觀察到異二聚體和同二聚體。 出于藥物發現的目的,全面了解參與IRFs激活的結構機制是至關重要的。然而,像磷酸化這樣的PTM沒有包含在目前基于人工智能的結構預測工具的輸入序列中,這使得我們無法預測它們因PTM而引起的結構變化。

圖4A顯示了IRF3的野生型和擬磷突變體的晶體結構和預測的AF2結構。AF2結構總是類似于單體 (無活性、未磷酸化的結構)。盡管PDB中報道了IRF3的一個二聚體結構,但單體結構的發現更為頻繁。對于IRF5,ML預測總是產生IAD結構域的非抑制性構象,見圖4B。PDB中報告的唯一IRF5結構是二聚體形式。 這個例子強調了AF2預測的結構最有可能在PDB中找到。AF2只能預測PDB中報道的IRF蛋白構象之一。然而,令人驚訝的是,鑒于IRF3和IRF5的折疊結構非常相似,不同的構象被預測出來,尤其是AF2對新的折疊結構有很好的概括性。

圖4:(A) IRF3的單體 (綠色,1QWT) 和二聚體 (粉色,5JEM) 的晶體結構以及AF2對野生型序列 (藍色) 和IRF3的擬磷突變體S386/396E (紅色) 的預測。(B) 二聚體的晶體結構 (綠色,3DSH) 和IRF5的野生型 (藍色) 擬磷突變體S435/446E (紅色) 的AF2預測。預測類似于在 PDB (訓練數據) 中發現的單個蛋白質的大多數結構,而不是蛋白質的磷酸化狀態。 包括有關PTM及其對結構的影響的信息是一個更難實現的目標。然而,由于PTM引起的結構變化是一個重要因素,基于這種因素修改結構預測方法將顯著推進藥物設計過程。

預測多域結構

PDB結構并不能完全代表人類的蛋白質組。如圖5A所示,某些蛋白質家族和超家族的代表性過高,而其他家族的代表性不足。這意味著,**AF2反映了一個固有的數據偏差,因為它是在PDB上訓練的。**眾所周知,PDB偏向于容易結晶的蛋白質和單域結構。在所有UniProt家族中,超過40%的家族沒有一個晶體結構被報道。 PDB數據庫本身和AF2使用的數據擴充都是偏向于單域預測的。這使得AF2在結構域的預測上很準確。然而,大多數人類蛋白質由一個以上的結構域組成。為了理解一個蛋白質的功能,需要準確地捕捉結構域-結構域方向性信息。域間建模是一項更難的任務,因為在PDB中可以學習的合適的例子比在域的層面上要少得多。盡管AF2對多域蛋白質的結構預測不如在域層面上準確,但AF2仍然在CASP14中贏得了這場比賽。 值得注意的是,具有最高置信度的AF2模型并不總是與實驗結構具有最佳一致性的模型。例如,在CASP14的T1024挑戰中,DeepMind團隊提交的第3個模型是正確得到域-域方向的模型 (RMSD Cα = 2.1),模型1的RMSD Cα為5.6,模型2的RMSD Cα為5.7。 對于基于結構的藥物設計來說,這些類型的不規則性可能是一個重要的問題,因為它表明所有模型都必須被處理和考慮,這是不實用且昂貴的。

圖5:(A) 在PDB中發現的每個UniProt家族 (n = 3892) 和UniProt超家族 (n = 331) 的蛋白質結構數量。70%以上的UniProt家族和50%以上的超家族的實驗結構都少于5個。(B) Miransertib (灰色) 與AKT1 (綠色) 的PH和激酶域之間的口袋結合的晶體結構。與晶體結構 (深綠色) 相比,AF2 (藍色) 預測PH域 (深藍色) 的方向不同。 針對結構域-結構域相互作用區域的小分子很重要,使制藥行業能夠追求新的靶點。

Miransertib是一個特別有趣的例子,它是一種與兩個結構域形成的口袋結合的化合物。它是一種AKT1的小分子抑制劑。它與激酶和PH結構域之間形成的一個口袋共價結合。 盡管文獻中已經報道了結構域-結構域的相互作用,但AF2預測PH結構域的方向與激酶結構域不同 (圖5B)。對于新的蛋白質,不能指望域-域的方向平均比已知結構的方向好。為了開發像miransertib這樣的藥物,對多域結構進行有把握的預測是至關重要的,特別是對域之間形成的口袋。 **提高域與域之間相互作用的準確性是基于人工智能的結構預測工具的未來挑戰之一,這可以幫助藥物發現。**多個研究小組已經試圖通過將AlphaFold2與其他工具相結合或試圖改進AF2算法本身來應對這一挑戰。然而,在多域預測的準確性與單體預測相當之前,必須進一步改進應用,以可靠地預測多域蛋白質。

預測蛋白質-蛋白質/RNA/DNA復合物

在IRFs中,結構的變化使異質或同質復合物的形成成為可能。復合物的形成是自然界中廣泛存在的現象,針對復合物的藥物也相當普遍。蛋白質-蛋白質相互作用 (PPI) 是當今化學生物學和藥物發現的主要挑戰之一。 然而,有幾種與蛋白質-蛋白質界面結合的藥物已經上市了。Tafamadis針對的是轉甲狀腺素四聚體形式的兩個甲狀腺素結合點中的一個。該小分子穩定了與家族性淀粉樣多發性神經病 (FAP) 相關的四聚體形式的蛋白質,如圖6A所示。在FAP中,轉甲狀腺素單體沒有緊密結合,可以從四聚體上脫落,錯誤折疊,然后聚集。這些聚集物對神經系統造成傷害。預見這種多域的相互作用將有助于合理的藥物設計,以便在未來開發出像Tafamadis的小分子抑制劑。

圖 6. (A) Tafamadis (灰色棒) 與運甲狀腺素蛋白 ( 5KCV )的四聚體結構形式結合不同深淺的綠色單體)。AF2 (青色卡通和表面) 確實準確地預測了結構的一個單體。(B) 靶向同源三聚體 CD40L 復合物 ( 3LKJ,不同深淺的綠色單體)。該化合物被鎖定在由三個單體形成的裂縫中。根據單體AF2結構 (青色卡通和表面),無法預測此口袋。 CD40L是一種腫瘤壞死因子,主要在活化的T細胞表面表達。一些針對CD40L及其相互作用的抗體已經進入臨床,用于治療狼瘡性腎炎、異體胰島移植排斥反應和動脈硬化。文獻中報道了一種抑制CD40L的小分子BIO8898的晶體結構,如圖6B所示。引人注目的是,該分子沒有結合到蛋白復合物的表面,而是深埋在亞單位之間,改變了蛋白與蛋白之間的相互作用及其對稱性。目前僅能預測單個氨基酸鏈。進一步推進算法,以訓練和預測一個結構是否以多聚體形式存在,是AF2發布以來已經做出的改進之一。然而,預測界面仍然具有挑戰性,不能像預測單一蛋白質鏈那樣準確和肯定地進行。

瞄準蛋白質-DNA和蛋白質-RNA界面是具有挑戰性的,改變蛋白質-DNA結合特性的藥物處于癌癥治療的第一線。 轉錄因子是引人注目的腫瘤學靶點,因為可以利用癌細胞的基因表達改變來進行治療。轉錄可以通過小的DNA結合化合物,通過抑制蛋白質-蛋白質的相互作用或通過與轉錄因子的DNA結合域的結合而成為靶點。后者長期以來被認為是不可藥用的。Huang等人報道了直接與STAT3的DNA結合域結合的分子,抑制了其轉錄活性,是該類藥物的概念證明。 **AF2 在預測域間聯系方面的能力不如域內聯系好,這突出了未來版本改進的可能途徑。**此外,AF2 可以在一定程度上了解蛋白質-蛋白質、蛋白質-DNA和蛋白質-RNA 結構域的情況,就像PDB中不同復雜類型的示例一樣。樣本數量相當有限,這使得ML算法對這些結構特征的預測變得復雜。學習準確可靠地預測這些更具挑戰性的結構是未來的目標之一,直到我們可以聲稱蛋白質結構預測問題得到解決。

預測蛋白質配體復合物

AF2的預測是純粹基于蛋白質的氨基酸序列的。獲得蛋白質在其載脂狀態 (apo state) 下的準確結構對每個藥物設計項目來說都是一個巨大的突破,因為它可以在蛋白質結構上尋找可能是可藥用的口袋。在確定了一個口袋后,計算模型可以幫助選擇適合口袋形狀的小分子。然而,這是對蛋白質配體結合過程的一種簡化。其基本假設是,蛋白質配體結合是以鎖 (蛋白質) 和鑰匙 (配體) 的方式進行。事實證明,這種假設在大多數情況下是過度簡化了。 如今,蛋白質配體結合可以通過兩個互補的模型來理解。首先,一個蛋白質有多種構象,這些構象可能與晶體結構有很大的不同,化合物有選擇地與這些構象中的一個結合。第二,誘導擬合,描述蛋白質口袋形狀可能發生變化以適應配體進入其口袋的過程。 圖7顯示了谷氨酸電離受體AMPA型亞單位2 (GLUR2) 的一個例子。GLUR2是在人類AMPA受體中發現的一個亞單位,是一個已知的癲癇分子靶點。GLUR2的無配體結構 (PDB代碼1FTO) 和配體結合結構 (PDB代碼1FTM) 之間的差異相當大,例如,殘基GLU193被翻轉,相應的環被移動了5埃。AF2從這兩個結構中學習了一些特征,因此,預測的結構是apo和holo蛋白的混合形式,這與在激酶中觀察到的活性和非活性構象的行為相似 (上文MAPK1的例子,圖3C)。如上所述,如果能有獨立預測apo和holo狀態的模型將是有益的。

圖7. 谷氨酸電離受體AMPA型亞單位2在其apo (灰色) 和holo (綠色) 形式下的蛋白質結構。來自AF2的預測結構以藍色顯示。AF2類似于實驗中已知的apo和holo結構的混合物。 蛋白質的動態變化以及配體的動態變化 (在較小程度上) 使得蛋白質配體結合成為一個更難準確預測的問題。與獨立的蛋白質結構的apo預測相比,這個問題增加了多層復雜性。與蛋白質由20個氨基酸組成相比,小分子可以由幾乎無窮無盡的不同結構塊生成。蛋白質和配體往往不是相互共價結合的。

預測小分子配體的結合位置是一項艱巨的任務,在藥物發現中還沒有得到解決 (對****接問題)。然而,將現有的小分子對接方法與精確的結構預測能力相結合,可以改善計算藥物發現。

接下來,更具挑戰性的是估計一個配體可能與某個口袋結合的強度 (評分問題)。這是藥物發現的圣杯,已有多種方法來描述蛋白質配體的結合,其準確性各不相同。使用基于結構的對接的虛擬篩選試圖用一個相對簡單的能量函數來估計一個化合物的結合能。它通常不考慮蛋白質靈活性的能量學,如果它考慮的話,通常也非常有限。自由能計算通常是更準確的預測,因為它們考慮了蛋白質和配體的靈活性。然而,與虛擬篩選相比,要求進行廣泛的計算,而且一次只能篩選少量的兩位數的化合物。 當使用像虛擬篩選這樣的方法時,側鏈往往被固定在其初始位置。因此,**預測側鏈在口袋中的方向變得比全局晶體結構預測更重要。**如第2節所述,AF2和RoseTTAFold的改進之一是端到端結構預測,這增加了側鏈的準確性。根據蛋白質結構的不同,這種提高的準確性也是不同的。DeepMind在Nature雜志論文中所示的例子中,側鏈的準確性令人印象深刻。然而,對于其他蛋白質來說,側鏈的建模并不那么準確。Jumper等人已經強調,對于plDDT得分高的氨基酸,側鏈的準確性更可能是正確的。與骨架結構預測相比,AF2對其猜測的準確度進行了預測,而對側鏈的預測則沒有這個功能。因此,不容易確定側鏈是否以高置信度被預測。 不同的側鏈靈活性是基于結構的藥物設計項目的一個問題。**在當前版本的AF2中,側鏈方向只是一個次要的方面,僅將其納入輔助損失。**將側鏈方向作為此類方法的主要目標,會對AF2結構如何用于藥物設計產生很大影響。

進一步的復雜性是,蛋白質配體的過程是在水環境中進行的。水分子通過介導蛋白質和配體之間的相互作用,在蛋白質配體結合中起著關鍵作用。在對接過程和分子動力學模擬中,經常保留晶體中的水分子。**AF2被設計為僅預測蛋白質結構,因此目前沒有預測任何水的位置。**然而,PDB中關于水分子的信息是多方面的。準確預測晶體結構中的水分子,甚至進一步預測哪些水參與配體的相互作用,是未來結構預測工具的另一個挑戰。水的位置可以通過另一種深度學習方法從PDB中的結晶水中學習,或者通過應用基于物理學的方法,例如WaterMap, GIST, 3DRISM和SZMAP來預測蛋白質結構。

基于人工智能的蛋白質穩定性方法

單點突變在蛋白質中頻繁發生,是導致大量遺傳疾病的原因,也是導致多種癌癥的原因。單個突變能夠導致蛋白質失去其結構穩定性,并從其原始狀態展開。 p53的多個突變能導致蛋白質結構的改變,這與它的功能喪失有關。p53的突變要么引起p53-DNA相互作用的構象變化,要么引起更全面的結構變化,降低p53的熱力學穩定性。 最近報道了幾種針對腫瘤抑制因子p53突變的候選藥物。它們要么是恢復野生型的功能,要么是降解突變版的蛋白。多個候選藥物,包括小分子藥物,但也包括抗體,現在正在進行臨床開發。**所有的ML方法都是在折疊結構上訓練的,因此偏向于預測一個折疊的蛋白質結構。因此,導致蛋白質展開的突變不太可能被正確預測。**此外,導致蛋白質結構發生較小變化的突變,仍然會對蛋白質的功能產生嚴重影響,也很難像藥物發現所需的那樣準確預測。 幾十種抗體被用于診斷和治療疾病。今天,大多數臨床使用的抗體都來自于自然界,而不是計算建模。計算方法大多集中在具有高二級結構含量和理想側鏈相互作用的穩定蛋白質上。然而,蛋白質的分子功能往往需要長環和空腔,這是對整個蛋白質結構的不穩定。因此,預測具有這種長環的蛋白質的穩定性是一個挑戰,正如在抗體的可變片段中看到的那樣。 遺憾的是,正如Ivankov和他的同事所強調的,**對蛋白質穩定性的準確預測并沒有在當前版本的結構預測中實現。**然而,存在幾種預測蛋白質穩定性的計算方法。將新的結構預測工具的準確結構預測與預測蛋白質穩定性的能力配對,似乎是這些方法的一個有趣的機會,將有助于抗體的設計,同時也有助于揭示導致不穩定突變的疾病。 結語 AF2在最新的CASP挑戰中表現出令人印象深刻的準確性,這在以前是從來沒有過的。然而,我們相信這只是基于人工智能的方法促進解決結構預測問題的一個起點。由于前面提到的所有挑戰,在我們宣布蛋白質結構預測挑戰已經成功解決之前,還有很多額外的工作要做。 盡管如此,目前的進步還是令人印象深刻。**本文強調了現代結構預測工具的優勢和劣勢,以及它們如何已經用于藥物設計。通過了解當前方法的缺點,可以更容易地將這些工具用于藥物設計過程中。**到目前為止,結構預測工具只是用來增加從實驗獲得的結構知識。在沒有實驗證據的情況下,純粹從模型結構開始藥物設計工作,現在可能還很牽強。然而,如果這些模型使用得當,并能產生有用的預測結果,就可以建立對預測結果的信任。 此外,多個研究小組開始解決AF2的一些缺點,如多聚體預測、多構象等。RoseTTAFold和AF2現在都是開源的,這使得社區的其他成員能夠在他們令人印象深刻的工作基礎上進一步發展ML系統,以解決仍然擺在我們面前的額外挑戰,并幫助藥物設計加速。我們相信,基于人工智能的蛋白質預測和設計方法,隨著它們的不斷成熟,將在生物學和醫學中發揮越來越重要的作用。 參考資料 Schauperl M, Denny RA. AI-Based Protein Structure Prediction in Drug Discovery: Impacts and Challenges. J Chem Inf Model. 2022 Jun 21. doi: 10.1021/acs.jcim.2c00026.

--------- End ---------

付費5元查看完整內容

演講者:

Richard Goodwin,PhD,阿斯利康 R&D 臨床藥理學與安全科學影像與 AI 影像與數據分析主管

簡介:

新穎的綜合分子成像技術為組織微環境中的分子和細胞景觀提供了新的視角。他們能夠以前所未有的細節描繪新療法的影響,從而提供研究疾病、患者群體以及藥物療效和安全性的新方法。這使其科學家能夠以前所未有的細節了解疾病的復雜性,從而能夠有效地開發和選擇新藥。

如今,尖端成像技術越來越多地用于支持通過研發新渠道對藥物的功效和安全性進行研究。本演講將介紹新的體內和體外的范圍所采用的成像技術,描述與擴大使用分子成像技術相關的數據挑戰,并解決新的數據集成和挖掘挑戰。大型隊列成像研究需要新的計算方法,這些研究涉及基于組織的多組學分析,以前所未有的細節整合空間關系。

在開發和部署新型分子成像技術的同時,毒理學數字病理學的革命也在發生。我們正在邁向數字化未來,我們的病理學家正在以數字方式評估和審查安全研究。這需要監管機構做出重大改變和接受。在本次演講中,還將了解我們如何通過對數字病理學的首次 GLP 驗證來改變毒理學病理學同行評審,以及這是如何成為關鍵步驟并為藥物發現和開發提供數字化未來。

付費5元查看完整內容

幾何深度學習藥物發現

藥物發現是一個非常漫長和昂貴的過程,平均需要10年以上,花費25億美元來開發一種新藥。人工智能有可能通過從大量生物醫學數據中提取證據,顯著加快藥物發現的進程,從而徹底改變整個制藥行業。特別是,圖表示學習和幾何深度學習——機器學習和數據挖掘社區中一個快速增長的主題,專注于圖結構和3D數據的深度學習——已經看到了藥物發現的巨大機遇,因為該領域的許多數據都表示為圖形或3D結構(如分子,蛋白質,生物醫學知識圖譜)。在這次演講中,我將介紹我們在藥物發現幾何深度學習方面的最新進展,以及一個新發布的用于藥物發現的開源機器學習平臺——TorchDrug。

付費5元查看完整內容

2020年11月30日,Google旗下DeepMind公司的AlphaFold2人工智能系統在第14屆國際蛋白質結構預測競賽(CASP)中取得桂冠,在評估中的總體中位數得分達到了92.4分,其準確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或X射線晶體學等實驗技術解析的蛋白質3D結構相媲美,有史以來首次把蛋白質結構預測任務做到了基本接近實用的水平。《自然》(Nature)雜志評論認為,AlphaFold2算法解決了困擾生物界“50年來的大問題”。近日,DeepMind在CASP14的關于AlphaFold2介紹Slides,公布相關技術細節,值得關注。

付費5元查看完整內容
北京阿比特科技有限公司