編譯 | 王建民 AlphaFold 闖入了我們的生活。一種強大的算法,強調了生物序列數據和人工智能(AI))的力量。AlphaFold有附加的項目和研究方向。一直在創建的數據庫承諾了無數的應用程序,這些應用程序具有巨大的潛在影響,但仍然難以推測。人工智能方法可以徹底改變個性化治療并帶來更明智的臨床試驗。他們承諾在重塑和改進藥物發現策略、選擇和優先考慮藥物靶點組合方面取得巨大飛躍。研究人員簡要概述了結構生物學中的人工智能,包括分子動力學模擬和預測微生物群與人類蛋白質之間的相互作用。研究人員強調了由深度學習驅動的AlphaFold在蛋白質結構預測方面所取得的進步及其對生命科學的強大影響。同時,AlphaFold 并沒有解決長達數十年的蛋白質折疊挑戰,也沒有識別折疊途徑。AlphaFold提供的模型沒有捕捉到像折疊和變構這樣的構象機制,而這些機制植根于系綜中,并由其動態分布控制。變構和信號是群體的特性。AlphaFold 也不會生成本質上無序的蛋白質和區域的系綜,而是通過它們的低結構概率來描述它們。由于 AlphaFold生成單級結構,而不是構象系綜,它無法闡明變構激活驅動熱點突變或變構耐藥的機制。然而,通過捕獲關鍵特征,深度學習技術可以使用單一預測構象作為生成多樣化系綜的基礎。
背景
AlphaFold克服了長達數年的瓶頸,有力地展示了人工智(AI)在生物研究中的力量。AlphaFold結合了許多深度學習的創新,以實驗規模的分辨率或接近實驗規模的分辨率預測蛋白質的三維結構,激發了社會各界對功能、進化和疾病研究的重新思考。快速生成的精確結構的龐大數量表明,新的、雄心勃勃的、推動前沿的研究將會出現。它也指出了應該重新考慮的研究項目。數據庫中正在匯編的豐富的高質量數據已經加強了需要蛋白質結構的研究,如繪制信號通路中的結合點和相互作用,以及識別熱點,包括潛在的和罕見的癌癥驅動突變。最深遠的影響可能是加速和改善新藥的研發,以及產生可用于這一重要目標的數據。人工智能的發展和應用可能會進一步幫助預測向下游傳播的信號是否足夠強大,以達到其基因組目標來激活(抑制)基因表達,并預測路徑。總的來說,這些強大的方法和它們所創建的數據庫改造和改變了涉及使用結構的傳統和正在進行的研究。它們也使研究人員更有勇氣退后一步,重新思考和創新我們的項目。
AlphaFold的成就得益于蛋白質數據庫(PDB),目前其規模已接近20萬個實驗確定的結構。它對PDB中的蛋白質序列進行了訓練,并使用輸入序列查詢蛋白質序列的數據庫來構建多序列比對。然而,它驚人的成功并沒有使研究人員對蛋白質序列究竟是如何折疊的有更深入的機理理解,因此沒有從序列上協助蛋白質的折疊。
研究人員注意到AlphaFold預測蛋白質序列的單級結構的 AlphaFold 無法直接解決基于整體構象狀態種群的變構機制。變構即信號隨著種群的變化而動態傳播,是調節和細胞壽命的基礎。由于靶向非保守變構位點具有更高的特異性和更低的毒性,變構也越來越多地出現在變構藥物中。 那么能否預見 AlphaFold 有助于揭示變構熱點突變和變構藥物發現的機制?AlphaFold 預測的剛性結構可以提交給生成此類系綜的MD模擬。同時,正如研究人員在此討論的那樣,其他基于 AI 的策略可以直接協助此類工作,最有效的是通過加速和增強 MD 模擬。也可能會繼續努力利用人工智能預測變構結合位點。盡管如此,有必要回想一下,變構位點的有效性取決于該位點的穩定相互作用和有效變構信號的啟動,這將更具挑戰性。當前預測變構結合位點的方法僅針對前者。從這個意義上說,它們類似于正構位點的表征,只是它們的評分是基于變構位點的統計數據。
正構藥物阻斷活性部位;變構藥物通過與遠處的位點結合來改變蛋白質的活性狀態,包括活性位點。AlphaFold 無法處理蛋白狀態的整體變化。人工智能策略可以,但需要超越對穩定交互的預測。
預測內在無序蛋白質(IDP))和區域(IDR)的結構是 AlphFold 不足的另一個問題。無序蛋白質(區域)的特征是廣泛且異質的整體,其中相對構象穩定性的差異很小,甚至很小,并且障礙很低。構象相互轉換,導致 AlphaFold 可靠地捕獲那些最受青睞的或構象分布的概率較低。然而,對構象的利用、學習和挖掘可以利用AI。
以人工智能為動力的算法,被輸入龐大的數據,并由新興的大規模計算能力促成,正在推動計算生物學的革命(。與量子計算不同,在人工智能和數據驅動的計算方面,必要規模的技術創新已經在手。
蛋白折疊與蛋白結構預測
蛋白質折疊 蛋白質折疊包含兩個問題:第一,蛋白質的氨基酸序列如何決定其 3D 原子結構的概念性問題;第二,如何從單一的氨基酸序列出發,成功地預測三維結構,而不使用與其他可用的(同源、同族)序列或任何相關序列結構有關的信息。這種計算預測方法的指導思想是:這就是蛋白質在自然界的折疊方式。溶液中基于單一序列的預測考慮了與氫鍵、離子對、范德華作用力以及主要由水介導的疏水相互作用有關的力,而疏水效應是蛋白質折疊的驅動力。這個正式的折疊問題出現在六十年前,同時出現的還有第一個原子分辨率的蛋白質結構。該結構導致了熱力學問題,即決定蛋白質結構的原子間力的平衡,蛋白質如何能夠快速折疊,也就是路徑動力學,以及蛋白質結構預測的計算問題。Christian Anfinsen和他的同事提出的具有里程碑意義的熱力學假說指出,蛋白質的原生結構是其熱力學上最穩定的結構,它只由其氨基酸序列和所處的條件決定,動力學不起作用。沒有其他的考慮因素,也就是說,它是在實驗室里合成的,還是在核糖體上合成的,還是經歷了伴侶的輔助折疊。折疊范式規定,未折疊的分子將總是自發地折疊成相同的形狀;也就是說,線性氨基酸序列指定了一個蛋白質的折疊原生狀態。Christian Anfinsen的熱力學假說強調能量景觀的形狀,其中原生狀態是自由能最低的狀態。在計算上,這種描述提出了預測蛋白質結構的問題,形成了主導該領域數十載的方法的基礎。如果只有序列是重要的,再加上物理化學力,那么 "好的 "算法就應該有可能折疊它。假設晶體結構代表最小能量狀態,那么預測結構的 "好壞 "就可以通過與它的比較來評估。Anfinsen的描述結合了備選構象的采樣、按能量排序和識別最低能量狀態。隨后的努力集中在二級結構的預測上,盡管疏水相互作用的主導作用表明二級結構是三維結構及其原因的結果。與變性狀態相比,原生結構的穩定性差異很小(5–10 kcal/mol),這使預測方法所面臨的挑戰更加復雜。
很早以前,Cyrus Levinthal就將蛋白質和預測算法面臨的關鍵問題概念化:在生物條件下,蛋白質搜索折疊空間并達到其最穩定的原生狀態的巨大時間尺度。對于預測算法的采樣骨干狀態,搜索空間大小隨著鏈的長度呈指數級增長,成為一種不可能。Levinthal認為,沒有必要搜索這個巨大的空間,因為能量景觀是漏斗狀的,而不是平坦的,因此可以引導采樣走向生物構象盆地。封裝的疏水核心優化了它們的vdW相互作用,限制了扭轉角,并取消了內部 "洞",氫鍵和鹽橋平衡了與水的相互作用的損失。Harold Scheraga采用物理化學的方法,率先研究破解氨基酸序列如何影響蛋白質的三維折疊途徑、熱力學和生物活性。無論是AlphaFold還是其他廣泛的蛋白質結構預測算法都沒有考慮折疊途徑。物理化學是隱含的;在AlphaFold的情況下,是通過人工智能來計算的。
蛋白結構預測 蛋白質結構的預測可以是基于模板的,也可以是無模板的,后者不使用與實驗結構的整體相似性。無模板建模利用了基于物理學的能量函數。兩者都可以利用機器學習和人工智能來使用PDB中的數據。基于模板的建模選擇一個結構模板并使用序列比對。無模板建模使用構象采樣和排序。它可以從相關序列的多序列比對開始,以預測局部結構特征,這將指導三維建模,然后再進行細化和排序。
綜合性的建模方法,從單個組件組裝結構,可能遭受高假陽性率。計算綜合方法可以結合實驗方法、生物信息學、物理學和統計學的數據,快速準確地確定蛋白質復合體的結構。該算法可以整合實驗數據以及已知結構的統計分析。
AlphaFold的顯著成功不僅對所有的PDB結構進行訓練,也對其預測的結構進行訓練,它使用結構和相關數據來預測有接觸的氨基酸對以及所有氨基酸對的距離。它還確保了氨基酸之間的距離滿足三角形不等式,節省了中間步驟的時間。到目前為止,AlphaFold照亮了一半的黑暗人類蛋白質。然而,問題仍然存在,例如一個特定的蛋白質存在哪些結構狀態,以及每個狀態的數量是多少。解決這些問題對于將蛋白質結構與功能聯系起來至關重要。這正是AlphaFold的不足之處。然而,它所產生的模型可以作為生成系綜的輸入,例如通過MD模擬,如果在足夠長的時間范圍內并行進行,它應該能夠產生這種系綜體。
結構-功能范式忽略了系綜和動態能量景觀
序列-結構-功能教條是一代人的試金石。它主導了分子生物學幾十年。它是由物理化學家提出的,他們解釋說,生物大分子在折疊的時候會發揮作用。因此,要了解分子的功能,就需要考慮它們的三維結構,這種變革性的范式成為現代生物學的一個原則。今天,人們普遍認識到,僵硬的分子不能發揮功能,從而使人們認識到,為了維持生命,分子的靈活性是一種必要。然而,這還沒有完全轉化為對能量景觀這一強大概念的理解。也就是說,生物大分子是動態物體,總是在各種具有不同能量的結構之間相互轉換,這就是變構機制的起源。這種作為構象間相互轉換的柔性概念對于理解生物過程及其調控至關重要,如蛋白質的激活是系綜體從非活性狀態向活性狀態的轉變,變構藥物如何發揮作用,細胞信號傳遞,以及通過構象選擇而非誘導契合的結合機制。從經典的結構-功能范式到生物分子功能和變構機制的動態能量景觀的概念演變,對AlphaFold的強大預測能力提出了挑戰。為了理解生物調控,應通過蛋白質組合的種群和相對能量將結構與功能聯系起來,這也是變構的基礎。盡管AlphaFold的預測具有變革性的力量和巨大的廣泛影響,但它無法直接解決這個問題。
圍繞它們的原生狀態,蛋白質景觀由快速轉換的構象組成。這些組合是 "模糊的"。與它們的環境和功能相關的事件,如pH值的變化,與離子、水和脂質的相互作用,以及小分子或大分子的結合,促進了構象的變化。這些變化被其局部受限的分子環境所阻撓。適應性強的結構變化會使系綜體發生變化。轉移后的、現在被填充的狀態受到其當前鄰近殘基構象的阻撓。結合和催化包括在相互作用部位建立和破壞共價和非共價相互作用。這些相互作用通過折疊傳播,影響了系綜體的構象狀態。系綜中的轉變改變了相對穩定性,即狀態的種群,從而影響了變構轉換。
生物大分子必須被統計描述,而不是靜態地描述。靜態描述是幾十年來的規范。然而,靜態描述不能捕捉功能。它不能描述蛋白質在某些激活事件中從非活性狀態激活到活性狀態。它也無法描述與激活劑的高親和力結合是如何將蛋白分子轉移到其活性狀態的。當試圖變構 "拯救突變 "是如何工作的,變構藥物是如何阻斷活性位點的,以及如何克服對抗它們的突變時,它將進一步失敗。如果蛋白質以單一結構存在,或者只在活性和非活性兩種狀態之間翻轉,那么在細胞中發生的所有這些過程都是不可能的。雖然有一個單一的構象是活性酶應該采取的生產性催化,但有多種方法可以使其失活,因此有許多非活性狀態。單一結構的概念孕育了 "鎖鑰式 "結合機制的概念。這種觀點被 "誘導配合 "機制所取代,后者認為只存在兩種狀態,即活性和非活性狀態。在誘導契合的情況下,配體與單一的 "開放 "蛋白質結構結合,蛋白質與剛性結合伙伴之間的相互作用誘導了蛋白質的構象變化。相反,構象選擇機制的理論是,能量表面承載了非常多的構象,而最適合的構象被選擇出來,隨后的小規模誘導擬合優化,主要是通過側鏈。
AlphaFold利用人工智能從序列中對蛋白質結構進行無模板預測,為生物學家提供具有良好分辨率的結構。它所產生的預測,就像那些通過同源模型獲得的預測一樣,是剛性的。柔性隱含地體現在某些區域沒有預測結構或預測結構的置信度很低,如內在無序蛋白質的情況。因此,曾經被置于生物學邊緣的計算方法,現在正處于最前沿,推動著 "第二次分子生物學革命"。AlphaFold可以推動生命科學的基本問題的突破,包括精準醫療,有望改變研究和加速藥物發現。它是由深度學習的創新所驅動的,這些創新似乎已經準備好改變醫學模擬。
人工智能和機器語言的應用
模擬中的人工智能和機器語言 用于分子模擬的機器學習──工具、策略和原理──最近已被回顧。機器學習已經對復雜原子系統的近似方法的發展產生了重大影響。在發展和整合MD模擬與深度學習方面的創新可以重現、解釋、預測和產生與生物大分子行為有關的數據。深度學習方法可以幫助MD模擬在效率和規模上更勝一籌,人工智能在深度學習技術和模擬之間架起橋梁。實現廣泛使用的挑戰包括人工智能和MD的順利連接以及工作流程的自動化。這些可以在MD模擬中普及新的深度學習工具,以有效地利用這兩種強大的方法。這一領域的出版物數量激增,強調了人們對人工智能和機器學習在模擬中潛力的認識。深度學習也已經在結構建模和設計、分析以及將這些與功能聯系起來方面得到了利用。
人工智能和機器語言在預測病原體-人類宿主PPI中的應用 人工智能和深度學習也正在被開發并應用于大分子結構的實驗測定和預測,以及PPI。
人工智能方法在人類-微生物組蛋白質-蛋白質相互作用中的應用。這些相互作用在人類健康和疾病中發揮著重要作用。關于微生物、細菌和病毒影響人類健康的數據正在迅速增加。它們可以通過與人類蛋白質的相互作用來調節人類的信號和免疫反應。為了破譯這種調控,重要的是確定具體的相互作用、參與的人類宿主蛋白以及復合物的結構。對相互作用的識別及其結構細節的原子分辨率允許理解參與病原體生存的機制并協助針對這些相互作用的藥物發現。這些相互作用幫助病原體躲避和繞過免疫防御,病原體劫持了宿主的信號傳遞。從機制上講,病原體蛋白質可以有類似于宿主的表面,使它們能夠模仿并與宿主蛋白質的相互作用競爭。它們與宿主蛋白結合,并重新調整其生理信號傳導。包括結構細節在內的數據非常少,大規模的實驗檢測具有挑戰性。因此,高效和強大的計算策略來預測相互作用是至關重要的。大規模的應用中,AlphaFold現在可以被用來實現這一目標。機器學習既允許大規模的高效和通用的應用,又能解決機器學習算法所能破譯的這種關系的復雜動態。
機器學習在PPI預測方面的挑戰與數據和方法都有關。由于微生物的數據有限,而不是人類的數據,微生物的樣本量很小。在基于序列的算法中,維度問題會很明顯,隨著特征大小的增加,難度會呈指數級增長。主成分分析(PCA)、統一流形近似和投影(UMAP)或自動編碼器可用于將樣本嵌入到低維空間,預處理和后處理管線可用于其他數據。在基于結構的方法中,問題可能與表征的數量和多樣性有關。與具有三維結構的宿主-微生物PPI有關的數據是稀少的,因此在訓練和評估計算方法方面面臨著問題。其他問題包括缺乏黃金標準測試數據集。評估指標也不明確,PPI網絡是稀疏等等。DeepMind的AlphaFold2在基于序列的蛋白質結構預測方面的成功,以及RoseTTAFold的開源對應物,以及公開的所有人類蛋白質的AlphaFold2預測,都是有利于科學界的重大舉措。 結論
人工智能和機器學習是附加的項目。它們被應用于不同的應用,包括生物網絡。它們影響著疾病生物學、藥物發現、微生物組研究和合成生物學。他們還發展了一個機器學習管線,用于蛋白質相互作用網絡中的分子復合體檢測,以及癌癥生存中主要信號通路的相關性。
這里,研究人員通過一些例子簡要介紹了AlphaFold的巨大影響,以及人工智能在結構生物學中的巨大影響。作者強調了AlphaFold能夠和不能完成的任務以及原因。變構機制屬于后一種類型。然而,通過對AlphaFold產生的模型進行MD模擬,這一目標也可以實現。即使模擬可以解決這個動力學問題,但在這樣的規模下,成本還是過高。需要一種轉變模式的機器學習方法來建立蛋白質動力學模型。
AlphaFold及其背后的深度學習創新為蛋白質科學開辟了下一個前沿領域,包括精準醫療。蛋白質結構與細胞生物學、化學、生物物理學和醫學相關。迄今為止,PDB數據庫中已有超過18萬個蛋白質結構,向全世界所有研究人員開放。然而,病原體的結構并不在其中,許多其他的結構也不在其中,而這些結構對人類健康至關重要。現在資源已經在那里了,隨著計算能力的不斷提高,這些資源最終也會在那里。盡管如此,這些結構的可用性是不夠的。對于這些生物物理學家來說,關鍵是要問什么重要的問題。研究重點應該是什么,這樣就不會重復已經完成的工作,而是利用新的能力來提出真正重要的問題。 參考資料 Nussinov, R., Zhang, M., Liu, Y. and Jang, H., 2022. AlphaFold, Artificial Intelligence (AI), and Allostery. The Journal of Physical Chemistry B.
編譯 | 王建民
人工智能(AI)方法已經并正在越來越多地被整合到生物信息學及其糖科學分支(即糖信息學)中實施的預測軟件中。人工智能技術在過去幾十年中不斷發展,它們在糖科學中的應用還不廣泛。這種有限的應用部分是由于糖類數據的特殊性造成的,眾所周知,這些數據是難以產生和分析的。盡管如此,隨著時間的推移,糖學、糖蛋白組學和糖結合數據的積累已經達到了一定程度,即使是最新的深度學習方法也能提供性能良好的預測器。
糖信息學,有時也稱為糖生物信息學,可以直接定義為生物信息學在糖科學中的應用。隨著系統生物學的興起和組學技術的擴展,生物信息學已成為生命科學研究不可或缺的一部分。
實驗組學數據集的龐大規模使生物信息學成為數據科學的基礎。近年來,重點已放在生成可查找、可訪問、可互操作和可重復使用的生物數據上。可查找是必不可少的,因為數據搜索是一項頻繁的任務,顯然應該讓最大的生命科學家社區變得容易。然而,盡管這項任務看起來很簡單,但它仍然主要要求數據和相關元數據與唯一且持久的標識符相關聯,其次是人和計算機的可讀性。可訪問性非常實用,因為它涉及使用這些標識符和標準化協議進行檢索。互操作性是嘗試合并或集成來自不同來源的數據的關鍵約束。為了變得可互操作,需要使用反映知識表示的標準語言來描述數據,通常稱為本體,否則也可以稱為受控詞匯表。可重用性最終可以通過描述良好的元數據來實現,包括數據來源和社區標準。最近的 SARS-CoV-2 大流行中,數據生成、共享和使用的激增是應用公平原則以造福所有人的一個很好的例子。
大量一致的數據是開發預測生物學結果的模型和方法的理想輸入。預測分子形狀/結構、位置、表達以及相互作用的無數解決方案填充了生物信息學工具箱。其中很大一部分依賴于人工智能(AI),主要是學習方法。盡管如此,為了實現穩健性和準確性,這些工具不僅需要高質量的數據,還需要隨著時間的推移進行微調。
作為生物信息學的一個子集,糖信息學面臨著類似的挑戰。糖數據與廣泛的生物學數據非常相似,分布在生物學和化學領域,但碳水化合物分子的復雜性和多樣性,以及它們的非模板驅動的生物合成,在這兩個領域之間造成了更大的差距。
幾十年來,碳水化合物化學研究通過國際純粹與應用化學聯盟 (IUPAC) 進行了國際協調,并于 1970 年成為其關聯組織[ //ico.chemistry.unimelb.edu.au/ ]。這種國際交流的古老基礎促使需要收集最終以 CarbBank 形式發生的數據,在生物信息學處于起步階段的時候設定了糖信息學的前提。與此同時,糖生物學家將他們的精力集中在多種形式的功能研究上,以揭示糖基化是位點特異性的,組織依賴性,并受環境影響。糖組學和糖蛋白組學已經成熟,可以提供越來越全面的數據集,剛剛開始填充數據庫。此外,從功能糖組學聯盟 (CFG) 倡議開始,陣列技術的發展將篩選數據引導到單個位置。
糖科學實驗數據的特性
任何預測或建模工具都需要進行數據處理,對可能的解決空間的定義越精確,工具的性能就越好。
稀疏性 “聚糖空間”維度的估計是有爭議的,讓人想起在測序之前對人類基因組含量的有爭議的估計。關于基因數量的推測范圍在 30 000 到 500 000 之間,而實際數據迫使每個人或多或少地大幅縮減規模。目前對聚糖生物合成的了解使其難以設定界限。從理論上講,考慮到所有已知物種,可能有數十億個結構,但實際上,GlyTouCan 目前包含接近 51 000 個結構(版本 3.1.0),由于分辨率不同,其中許多是多余的。一次考慮一個物種,智人可能是研究最多的,而且數字不再精確。事實上,使用非常規策略的新聚糖類型的范式轉換發現經常發生,這往往表明“標準”工作流程可能會錯過意想不到的結構。由于在聚糖空間中的分布不均勻,數據可以被認為是稀疏的。具體而言,稀疏性至少源于兩個主要來源:(i)在任何給定物種中尚不知道的聚糖部分和(ii)在糖組學實驗中未測量(或無法注釋)的聚糖部分,因為來樣加工,低豐度、電離困難、異構體和許多其他潛在問題。
異質性 聚糖的結構和功能的完整鑒定通常需要一組跨越化學、生物化學、親和力和篩選技術的實驗,這些實驗的結果是多種多樣的,其結果難以證實。
字段特定編碼 確定完整糖組所涉及的并發癥有兩個直接后果。一般來說,所需的時間和專業知識會阻止糖科學家冒險進入任何其他相關的組學領域。反過來,沒有接受過糖科學培訓的生命科學家通常不愿承擔大量額外工作來研究糖基化。最后,與生物學的部分脫節傾向于表征糖數據的產生。
從生物信息學的角度來看,這種鴻溝也存在。在過去的十年中,從基因組中繪制代謝途徑的圖譜使化學信息學更接近生物信息學。這需要共享數據格式以促進數據交換,以便準確描述反應,具有明確的底物和產物以及最初從基因組序列翻譯的確定的酶。
化學信息學與糖信息學的融合尚不清楚。GlyTouCan 的所有聚糖都在 IUPAC 中編碼。該數據庫中的每個結構都以聚糖的符號命名法 (SNFG) 表示,該命名法已被用作糖科學的標準。盡管如此,近年來,GlyTouCan、PubChem 和 ChEBI 之間更緊密的交互導致后兩個數據庫的聚糖條目中包含 WURCS 編碼和 SNFG 符號。
糖數據表示
從生物信息學中吸取的教訓 異質信息的精確記錄和描述是一項明確的糖信息學挑戰。圖 3突出顯示了引用每個實體的可能性:聚糖、其生物合成途徑或它包含的表位,在適當的數據庫中,具有唯一且穩定的標識符。這種觀點在生物信息學中廣泛傳播,在糖信息學中并不完全現實。
從蛋白質組學中吸取的教訓 質譜(MS)在蛋白質組學中的主導地位為糖組學開創了先河。特別是,肽 MS 數據處理的發展為處理聚糖和糖肽 MS 數據提供了線索。在蛋白質組學的早期,MS 數據處理的主要目標是改進蛋白質鑒定并通過自動化提高鑒定率,產生與組織或細胞系相關的已鑒定蛋白質列表。很快,理解這些列表的需要刺激了工具的實施,從而實現了比較方法。最后,相互作用組學的伴隨發展導致繪制蛋白質相互作用網絡圖,以支持對樣品中共同識別的蛋白質的解釋。由于糖組學落后于蛋白質組學,進展是相似的,但沒有那么先進。
AI對糖科學和發展前景的逐步影響
糖科學方法開發階段,糖信息學為統一由聚糖介導的分子相互作用提供了一個真正的機會。從測量到生物學背景和聚糖特性以及功能,糖信息學正在推進糖科學的各個方面,并有可能在未來繼續這樣做。
糖信息學中人工智能的預期演變
數據的演變 糖組學落后于其他組學的一個簡單解釋是缺乏聚糖的高通量測序。因此,數據的積累速度比基因組學或轉錄組學要慢得多。對于 N- 和 O- 連接聚糖之外的聚糖類別尤其如此。由于生物信息學現在適合處理 PB 的核苷酸序列并運行智能搜索以揭示隱藏的信息,這種對比更加引人注目。從這個意義上說,糖組學的未來取決于新技術的發展,這些技術可以實現多糖高通量測序,并改進其他類型多糖的分析。其他領域的努力,例如蛋白質測序的最新進展,表明測序原則上也可以應用于非核酸生物聚合物。
改進的預測 與許多科學領域一樣,人工智能方法越來越多地用于改進分類和預測。應用于糖科學各個方面的機器學習仍然主要依賴于人類設計的計算特征作為模型輸入。目前在這些任務上仍然優于深度學習方法的原因。深度學習最重要的優勢之一是它允許訪問超出樣本合理選擇特征的信息。因此,可以預期,使用適當格式的原始序列的深度學習方法將在未來產生更好的性能。
此外,雖然現有模型在很大程度上包括研究較少的聚糖類,例如植物和真菌多糖,但就其模型架構而言,可能有一些方法可以在涉及這些聚合物的任務上表現更好,例如考慮它們的重復結構體。然而,本手稿中描述的大多數預測任務的現有數據在很大程度上僅限于 N- 和 O- 連接的聚糖以及糖脂,并且以有限的方式包括糖胺聚糖。因此,可能需要改進可用數據和現有模型,以充分利用聚合聚糖中的信息。
另一方面,預測聚糖結合的目的是設計特定的配體,例如抑制病原體的聚糖結合蛋白,但需要更多的上下文敏感信息來確定特異性。特別是,現實的結合預測可能取決于其他特征,例如凝集素的表達和生理條件。最終,模型需要考慮所有這些方面,以及糖綴合物和聚糖結合蛋白的結構特征。如果在考慮聚糖的同時更系統地構建 3D 模型,這些將有所幫助,正如 AlphaFold2 預測所實現的那樣。
改進的表示 給定一個新的未知數據點,ML 模型學習到的數值表示也可用于找到最相似的已知數據點。在蛋白質組學中串聯質譜的背景下,這已被用于快速將未識別的光譜分配給肽。糖組學或糖蛋白質組學中的類似程序也可以推動這些領域的發展。除了相似性之外,無監督模型獲得的學習表示也可以看作是蛋白質序列的學習特征,可以被另一個下游模型使用。
橋接糖信息學和生物信息學 單細胞技術在大多數組學應用中像野火一樣蔓延開來,為每個學科提供了關于分子活性和相互作用的更具體和更精細的信息。Glycomics 還沒有從這樣的進步中受益。與直接分析聚糖結構相比,從調節糖基化的基因和生物合成途徑中是否更容易獲得信息仍然存在爭議。目前,糖工程在處理基因時往往更先進,但這并不排除一種尚未出現的嚴格單細胞糖組學方法。朝著這個方向邁出的第一步已經將部分/片段聚糖信息添加到單細胞分析和/或與其轉錄組的組合中。通過從不同的和互補的組學中收集相同級別的信息,將促進數據集成。
多尺度視圖 了解聚糖結構和功能細節所需的信息來源的多樣性和差異性仍然是糖生物學快速發展的障礙。最終,糖信息學的目標是從由技術限制人為創建的片段中恢復更全面的圖像。只要這個謎題即使不完整,至少也足夠先進,可以做出可靠的預測,它就會把精力集中在糖科學上。然而,聚糖對生物過程的關鍵貢獻,尤其是在細胞間通訊中,是不容忽視的,如上所述,糖組學應該與其他組學相結合。事實上,理解生物體的理想觀點是動態的,從原子到細胞、組織和器官水平。 參考資料 Bojar, D. and Lisacek, F., 2022. Glycoinformatics in the Artificial Intelligence Era. Chemical Reviews.
2022年7月28日,DeepMind官方網站發布AlphaFold最新進展:AlphaFold已經確定了地球上幾乎所有已知生物體中大約2億種蛋白質的結構。 通過與EMBL-EBI合作,DeepMind發布了科學界已知的幾乎所有已編目蛋白質的預測結構,這將使AlphaFold DB擴展超過200倍 (從近100萬個結構到超過2億個結構),有可能大大增加我們對生物學的理解。
今天的更新意味著主要蛋白質數據庫UniProt上的大多數頁面都會有一個預測結構。所有2億多個結構也將通過Google Cloud Public Datasets提供批量下載,使全世界的科學家更容易獲得AlphaFold。
對于這一進展,Nature發布文章聲稱,從今天開始,確定幾乎任何科學已知蛋白質的3D形狀將像在谷歌搜索中輸入一樣簡單。
DeepMind首席執行官Demis Hassabis在新聞發布會上說,“基本上你可以認為它涵蓋了整個蛋白質領域,我們正處于數字生物學新時代的開端”。 EMBL-EBI稱,在超過2.14億個預測中,大約35%被認為是高度準確的,這意味著它們與實驗確定的結構一樣好。另外45%的預測被認為有足夠的信心,在許多應用中可以依賴。 到目前為止,AlphaFold的影響
在首次發布12個月后,AlphaFold已經產生了令人難以置信的影響。 迄今為止,來自190個國家/地區的超過500,000名研究人員訪問了AlphaFold DB,查看了超過200萬個結構。DeepMind免費提供的結構也已集成到其他公共數據集,例如Ensembl、UniProt和 OpenTargets,數百萬用戶在這些數據集中訪問它們,作為日常工作流程的一部分。
只是開始
在官網文章中,Demis Hassabis稱: AlphaFold將生物學帶入了一個結構豐富的時代,以數字速度開啟了科學探索。AlphaFold DB充當蛋白質結構的“谷歌搜索”,為研究人員提供即時訪問他們正在研究的蛋白質的預測模型,使他們能夠集中精力并加快實驗工作。從抗擊疾病到開發疫苗,AlphaFold已經在我們面臨的一些最大的全球挑戰中取得了令人難以置信的進展,而這僅僅是我們將在未來幾年開始看到的影響的開始。這個擴展的數據庫將幫助更多的科學家開展工作,并開辟全新的科學探索途徑,例如元蛋白質組學。 DeepMind正在努力利用所有這些潛力,在許多領域進行大量投資:包括與新姊妹公司Isomorphic Labs合作,以人工智能為先的方法從第一性原理重新構想整個藥物發現過程;在著名的Francis Crick Institute建立濕實驗室,以加強人工智能與實驗技術之間的聯系,以促進對生物學 (包括蛋白質設計和基因組學) 的理解;并擴大我們AI for Science團隊,以加快我們基礎生物學研究的進一步進展,并將AI應用于其他有趣且重要的科學挑戰,例如氣候科學、量子化學和融合領域。 AlphaFold是對未來、以及將計算和人工智能方法應用于生物學的可能性的驚鴻一瞥。在其最基本的層面上,生物學可以被認為是一個信息處理系統,盡管是一個異常復雜和突發的系統。**正如數學是物理學的完美描述語言一樣,我們相信人工智能可能會成為應對生物學動態復雜性的正確技術。**AlphaFold是這方面的第一個重要的證明點,也是未來會有更多證明的標志。作為"數字生物學"這一新興領域的先驅,我們很高興看到人工智能的巨大潛力開始得到實現,成為人類推動科學發現和理解生命基本機制的最有用的工具之一。 AlphaFold突破時間表
01 2016年 當一個團隊慶祝時另一個團隊成立
2016年3月13日
DeepMind的AlphaGo程序在首爾的一場挑戰賽中擊敗了傳奇圍棋選手李世石。這一分水嶺時刻表明,DeepMind的人工智能技術具有足夠先進的潛力,可以應用于包括“蛋白質折疊問題”在內的科學挑戰。不久之后,DeepMind成立了一個小團隊,開始蛋白質結構預測工作。 02 2018年 AlphaFold性能的首次公開測試
2018年12月2日
AlphaFold的表現在CASP13中成為基準,排名第一 (在條目A7D下)。這些方法隨后發表在科學雜志Nature上。團隊擴大,并開始研究創新的新系統。 03 2020年 解決50年來生物學領域重大挑戰
2020年11月30日
AlphaFold2以巨大優勢贏得CASP14,并被CASP的組織者認為是解決50年歷史的“蛋白質折疊問題”的解決方案,因為它預測結構達到原子精度,中值誤差 (RMSD_95) 小于1埃,比次優系統準確3倍,可與實驗方法媲美。
2020年12月1日
John Jumper和Demis Hassabis各就AlphaFold系統的想法、架構和發布計劃向CASP14與會者進行30分鐘的演示,確認了DeepMind致力于為我們的工作提供廣泛訪問的承諾。 04 2021年 將AlphaFold的力量交到世界手中
2021年7月15日
Nature在“Highly accurate protein structure prediction with AlphaFold”一文中發表了AlphaFold的詳細方法,DeepMind開源了代碼以及詳細描述系統各個方面的60頁補充信息。
2021年7月22日
Nature發表了第二篇DeepMind論文,其中包含整個人類蛋白質組的結構預測,使已知的高置信度結構的數量增加了一倍。通過與歐洲分子生物學實驗室的歐洲生物信息學研究所 (EMBL-EBI) 密切合作,DeepMind推出了AlphaFold蛋白質結構數據庫,讓科學界可以自由和開放地訪問人類蛋白質組以及另外20種模式生物的總共超過350,000種結構。
2021年10月4日
DeepMind在biorxiv上發表了另一篇論文“Protein complex prediction with AlphaFold-Multimer”,該論文正確地解釋了多鏈蛋白質,并展示了與現有方法 (包括普通AlphaFold2) 相比在預測復合物方面的卓越性能。
2021年11月2日
DeepMind更新了AlphaFold2源代碼以解釋多鏈蛋白質復合物,顯著提高了預測蛋白質相互作用的準確性。
2021年12月9日
DeepMind在與EMBL-EBI合作的AlphaFold蛋白質結構數據庫中增加了超過40萬的蛋白質結構。這個版本包括了大多數蛋白質的結構,在UniProtKB/SwissProt中為大多數人工收集的UniProt條目添加了預測,使數據庫的規模增加了一倍多。 05 2022年 數據庫的數量級增長
2022年1月28日
DeepMind為與EMBL-EBI合作的AlphaFold蛋白質結構數據庫增加了27個新的蛋白質組 (19萬多個蛋白質),其中17個代表被忽視的熱帶疾病,這些疾病繼續破壞著全球10多億人的生活。迄今為止,全世界已有超過30萬名研究人員使用了該數據庫。
2022年7月28日
DeepMind將AlphaFold蛋白質結構數據庫從近100萬個結構擴展到超過2億個結構,包括對UniProt中大多數蛋白質的預測。 …… ……
參考資料
//www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universe
--------- End ---------
AlphaFold是DeepMind開發的一個人工智能系統,可以根據蛋白質的氨基酸序列預測蛋白質的3D結構。AlphaFold軟件和“AlphaFold蛋白質結構數據庫”(AlphaFold Protein Structure Database)向公眾開放已經一年了,用戶可以探索和研究他們感興趣的蛋白質。
機器學習模型有潛力成為生物學的核心工具,正如最近在蛋白質結構預測方面的進展所表明的那樣。在這次網絡研討會中,我將概述AlphaFold:該系統如何工作,如何獲得蛋白質結構預測,以及如何分析它們。然后,我將回顧構建系統的一些方法,并將討論如何為新應用程序評估AlphaFold。
近年來,蛋白質結構的計算模型的能力和準確性顯著提高,結構生物學的一些領域沒有受到影響。這些變化已經在當前版本的AlphaFold中實現,RoseTTAFold也不遠了。實驗結構生物學仍然需要解決預測結構中的歧異,并驗證細節,但高質量模型的可用性正在消除實驗中的許多瓶頸。即使沒有實驗結構,新的模型也足以產生有趣的假設,可以通過實驗來驗證,比如評估與遺傳疾病相關的變異是如何導致疾病的。通過在當前算法中使用的模式識別中添加明確的物理和化學,以及積極利用有限的實驗觀察,可以解決模型的局限性。我將討論AlphaFold對結構生物信息學的影響,通過強調一些大規模的努力和開發的結構搜索工具來描述AlphaFold模型。
探索AlphaFold的應用程序
討論目前AlphaFold在結構生物學中的優勢和局限性
識別結構預測對結構、計算生物學研究的影響
2022年4月27日,DeepMind科學工程師Tunyasuvunakool在Nat Rev Mol Cell Bio雜志發表評論文章,討論和分析了AI預測蛋白質結構的前景、機遇和挑戰。
2020年的CASP大賽標志著一項重大進展。機器學習方法AlphaFold預測了大多數目標蛋白的結構,評估人員稱其具有"與實驗相媲美"的準確性。本文討論了蛋白質結構預測方法的影響,強調了令人興奮的研究領域和剩余的挑戰。
機器學習是人工智能的一個領域,它涉及到在不明確編程的情況下使計算機執行復雜任務。這通常涉及收集大量的輸入實例數據集,并在每種情況下指定正確的輸出。在訓練期間,機器學習模型的參數被逐漸調整,以使其在訓練集上的輸出更加正確。在蛋白質結構預測的情況下,輸入將包括目標氨基酸序列,加上任何進化相關的序列和模板結構,而期望的輸出是折疊蛋白質的原子坐標。一個模型的確切細節和它的訓練程序會極大地影響性能,所以直到最近才開發出可以解決這個問題的高精確度的方法。
好的計算方法應該使我們有能力做更好的實驗,這是其重要性的核心。我們在蛋白質結構預測對實驗生物學的影響中看到了這一點。對于X射線晶體學家來說,良好模型的常規可用性使得更多的結構可以通過分子置換來解決,減少了花在實驗階段的時間。同時,在低溫冷凍電鏡中,將一個高精度的模型對接到密度圖中,可以加速模型的建立,并有可能提高其保真度。事實上,到目前為止,一些最令人印象深刻的應用是在綜合建模領域,其中低溫電鏡、X射線晶體學和結構預測被結合起來,以建立大型分子機器的模型。在這種情況下,預測和實驗相互促進,實驗數據也有助于驗證結構模型。
更廣泛地說,蛋白質結構預測可以支持對于表達和功能研究的有效規劃,為構建對象 (construct) 的設計和標簽的最佳位置提供建議。一個特別有用的應用可能是識別要突變以調節蛋白質功能的殘基。與蛋白質復合物預測相結合 (將在后面討論),這為更容易地破壞蛋白質功能和相互作用提供了可能。現在,良好的結構預測的普及,以及對這些方法認識的提高,使得結構指導的實驗計劃成為常規。
實驗測定和預測之間的一個主要區別是,后者可以大規模地進行,從而使需要大量結構數據的一系列不同的應用成為可能。例如,現在有了涵蓋整個蛋白質組的預測結構,就有可能將其他大規模的生物數據映射到預測上,允許在適當的背景下研究突變和翻譯后修飾。預測數據庫也可以用結構感知算法進行搜索,可能會導致更敏感的蛋白質分類。一般來說,大型數據集的可用性支持生物信息學方法的發展。一個很好的例子是將AlphaFold的置信度量納入蛋白質失調預測的工具中。 可以說,大規模的預測也為我們提供了一個更清晰的蛋白質組結構的知識圖景。在AlphaFold蛋白質結構數據庫中,除了任何結構良好的結構域外,我們還選擇顯示對帶狀低置信區域的預測。雖然這種觀點與實驗提供的觀點有很大不同,但它直接承認了這些區域在重要蛋白質中的普遍存在,其中一些可能對應于內在的無序。
生物學主要關注的是具有許多相互作用成分的復雜系統的行為。解決這類系統的一個自然的下一步是預測蛋白質復合物的結構。為此,最近開發的單鏈方法很快就被社會各界用來支持蛋白質復合物的預測,現在已經有了像AlphaFold Multimer這樣專門為這項任務訓練的模型。結構預測已經被大規模地應用于識別新的真核生物復合物和對已知復合物進行結構描述。 鑒于蛋白質相互作用的生物學重要性,這必將是未來研究的一個令人興奮的領域。我們可能很快就能獲得一幅顯示這些相互作用如何發生的分子細節的圖片,而不是把蛋白質-蛋白質相互作用網絡看作是二維圖。已經預測的復合物可以成為一個有用的工具,盡管像任何預測一樣,它們應該被謹慎地解釋。復雜的預測仍然是一個具有挑戰性的問題,而且目前的模型不如單一多肽可靠。特別是要考慮到假陰性的可能性,即對于一對確實有相互作用的蛋白質,沒有預測到可靠的界面。
隨著該領域的快速發展,預測方法被用來解決其他與蛋白質有關的問題,保持對方法性能的基準評估的謹慎態度非常重要。為一個新的計算方法設計一個適當的評估并不簡單。需要小心翼翼地確保任務與生物學家在實踐中使用該方法的方式相一致,并且與他們相關的數量也是衡量標準。為了進行嚴格的評估,測試案例必須與模型在訓練中看到的案例有足夠的區別,否則它可能會通過鸚鵡學舌來欺騙訓練數據。在生物學中,進化關系使得測試/訓練集的分割更加困難,即使一個特定的蛋白質沒有出現在模型的訓練集中,也許一個接近的同源物會出現。考慮負面例子也可能是有幫助的:如果一個模型的目的是預測復合物的結構,那么對于兩個沒有相互作用的蛋白質,它應該輸出什么,以清楚地傳達這一點? 最后,在結構預測領域,事實證明在模型輸出中加入置信度是非常有用的,可以為生物學家提供一些指導,讓他們知道應該相信預測的哪些部分。類似的置信度指標在其他領域可能會有所幫助。
看到成功應用蛋白質結構預測模型的方式多種多樣,這是非常了不起的。然而,最新方法所能解決的問題是有限的。特別是,它們并不具備回答從根本上講屬于蛋白質能量學的問題的能力,例如預測一個蛋白質可能采取的所有構象,或者確定一個突變對穩定性或與其相互作用伙伴的結合親和力的影響。 最先進的結構預測還缺少在實驗結構中發現的非蛋白質成分--核苷酸、離子、翻譯后修飾和配體。有時可以根據預測的蛋白質的局部幾何形狀推斷出離子等成分的存在。然而,預測是在不知道其他分子存在的情況下進行的,這使得模型無法根據生物環境進行調整。這些挑戰可能需要大量的進一步創新來解決。 生物學中的機器學習數據是什么使最近在蛋白質結構預測方面的進展成為可能?一個因素是對問題的具體化和對進展的評估,這一點必須歸功于CASP社區。然而,第二個值得注意的因素是蛋白質數據庫 (PDB) 的形式提供了一個優秀的數據集。PDB的幾個特點使其非常適合于機器學習:整個數據集很容易下載,文件具有一致的格式,每個條目都提供了高維數據而不是單一的測量,并且涵蓋了蛋白質空間的廣泛區域。PDB也很全面,基本上所有發表的結構都存放在那里。計算結構生物學極大地受益于PDB創始人的遠見卓識,以及對該項目的持續有力支持。如果其他領域也能實現類似的有利態勢,那么結構預測將成為生物學中機器學習的眾多成功案例之一。 參考資料 Tunyasuvunakool, K. The prospects and opportunities of protein structure prediction with AI. Nat Rev Mol Cell Biol (2022). //doi.org/10.1038/s41580-022-00488-5