亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

蛋白質溶解度的預測對于天然蛋白質的基礎研究至關重要,但對于工程或設計的蛋白質的生產和研究也越來越重要,因為工程性能的實驗確認取決于生產的能力。因此,對蛋白質溶解度的準確預測是蛋白質工程師廣泛尋求的。在這里,我們提出了一種新的方法,使用極端梯度提升(XGBoost)算法,通過各種數據源,包括預測的溶劑/可及性、二級結構等,來預測蛋白質的溶解度。我們的模型使用一個標準的保留測試集實現了高水平的性能,總體準確率為72%,是基于序列的機器學習模型中最高的。關鍵的是,我們的系統還產生了對預測很重要的特征信息,利用可解釋的人工智能來提供局部和全局的解釋器。利用這些信息,我們發現某些單肽、二肽和三肽與溶解度密切相關,蛋白質的無序性、相對溶劑可及性和某些二級結構的頻率等指標也是如此,這些指標都是來自其他預測模型的。重要的是,在我們的模型的圖形用戶界面中,我們利用局部解釋來幫助告知預測背后的推理,并建議修改。我們的模型的準確性和可解釋性應該允許快速預測蛋白質的溶解度,特別是對于沒有可靠結構信息的蛋白質和蛋白質家族。這將極大地提高我們通過機器學習指導的方法和其他蛋白質工程策略來實驗生產和研究蛋白質的能力。

圖2. 數據集和模型開發流程圖。來自Rawi等人的序列數據被縮減為15000個訓練集,并在測試集中保留了2000個序列。獲得了基于結構和序列的特征,包括NetSurfP-2.0和各種R軟件包的輸出。XGBoost、RF和Na?ve Bayes模型在匯編的數據集上進行了訓練,在整個訓練過程中通過交叉驗證確定了準確性,最后在保留的(n=2000)Chang等人的測試集上進行了評估。

付費5元查看完整內容

相關內容

醫學領域的人工智能是使用機器學習模型搜索醫療數據,發現洞察,從而幫助改善健康狀況和患者體驗。 得益于近年來計算機科學和信息技術的發展,人工智能 (AI) 正迅速成為現代醫學中不可或缺的一部分。 由人工智能支持的人工智能算法和其他應用程序正在為臨床和研究領域的醫學專業人員提供支持。

美陸軍的現代化優先事項包括開發增強現實和虛擬現實(AR/VR)模擬,以增加兵團和士兵的準備。美國陸軍工程研究與發展中心(ERDC)對AR/VR技術的使用在軍事和民用工程項目任務領域也在增長。ERDC海岸和水力實驗室(CHL)已經開發了一個艦船模擬器,用于評估世界各地的海灣渠道;然而,目前的模擬器在近岸海岸地區幾乎沒有物理真實性(圖1)。因此,ERDC團隊正在研究推進艦船模擬的機會,以提供未來的艦船模擬器(SSoF)。SSoF將配備一個VR模式,并將通過攝取Boussinesq型波浪模型的預計算輸出來更準確地解決近岸波浪現象。SSoF應用的最初原型是用于研究和開發目的;然而,所采用的技術將適用于其他學科和項目范圍,包括合成訓練環境(STE)和未來版本的船舶和海岸結構設計。

付費5元查看完整內容

因果推理一直是科學的一部分,從牛頓定律到毀滅性的COVID-19大流行病,因果思想已經定義了基本科學。原因解釋了 "為什么",而結果則描述了"什么"。這個領域本身包含了大量的學科,從統計學和計算機科學到經濟學和哲學。最近機器學習和人工智能系統的進步,使人們對從大量可用的觀察數據中識別和估計因果關系重新產生了興趣。這導致了各種新的研究,旨在提供識別和估計因果推斷的新方法。我們包括一個詳細的因果推斷框架、方法和評價的分類法。還提供了關于安全因果關系的概述。闡述了公開的挑戰,并描述了評估因果推斷方法的穩健性的措施。本報告旨在對此類因果關系的研究進行全面綜述。我們對因果關系框架進行了深入審查,并描述了不同的方法。

1 引言

因果概念,也被稱為因果關系,自科學本身誕生以來就定義了基礎科學。因果關系仍然是任何科學發現的核心,其中原因解釋了 "為什么",結果描述了 "什么"。因果關系經常被錯誤地與相關關系交替使用,盡管相關關系并不意味著因果關系。盡管相關關系對科學來說至關重要,但將相關關系錯誤地表述為因果關系會產生不利影響。例如,Covid-19和一些藥物之間的相關性導致未經證實的關于可能治療疾病的理論傳播開來。相關性指的是兩個具有特定趨勢的變量之間的關系,而因果性是指因果關系,即因要對果負責,而果在一定程度上依賴于因。因此,因果學習是指從數據中產生因果關系的過程。因果關系在我們的日常生活中也發揮著重要的、無所不在的作用。我們做出的每一個決定都有一個因果變量,決定了我們的生活方式。因此,假設因果學習是任何人工智能(AI)或機器學習(ML)系統的關鍵組成部分,無論其在商業和軍事應用中的用途如何,都是至關重要的。因果學習在過去20年內的研究活動有所增加,每年的出版物反映了因果研究的快速上升(圖1)。

圖 1 因果推理和因果關系的年度出版物(數據來自 Scopus)

過去十年中,人工智能/機器學習系統的最新進展使人工推理系統成為許多行業的前沿。隨著AI/ML系統有望自主行動并顯示出類似人類的智慧,仍然存在一些基本的挑戰,如穩健性、可遷移性、可解釋性和因果關系。雖然AI/ML系統在預測的準確性和精確性方面取得了巨大的成就,但它們本質上仍然是黑盒模型,因此缺乏對系統如何得出預測結果的解釋。這給這類系統的使用帶來了不必要的問題,有偏見的預測影響了人類的生活。這就產生了可解釋人工智能(XAI),它被視為黑盒問題的解決方案,人工智能/ML系統能夠向最終用戶解釋其決策過程。開發XAI系統的目標之一是,不僅要減輕來自模型本身的偏見,還要減輕來自用于預測的傳入數據的偏見。算法/模型的偏差可以通過各種技術來識別和緩解,但數據本身的內在偏差則更難緩解。因此,因果關系對于識別和緩解人工智能系統的數據偏差至關重要。根據Judea Pearl博士的說法,因果關系可以讓人工智能/ML系統 "編排其環境的解析和模塊化表征,審問該表征,通過想象力的行為扭曲它,并最終回答'如果'類型的問題"。關于XAI的進一步閱讀,我們建議讀者回顧詳細的調查,如Rawal等人、Gunning等人、Xu等人和Arrieta等人。

盡管有關于因果關系的相關調查和基礎研究,如Judea Pearl、Morgan等人、Yao等人和Gianicolo等人的調查提供了很好的概述,但也需要一個最新的調查,不僅對因果關系,而且對其與AI/ML有關的目標和評價指標進行更全面的考察。本調查報告旨在通過提供一個全面的調查來填補文獻的空白,該調查研究了因果關系從開發到評估的所有方面,并強調了最近在因果關系AI/ML系統方面取得的一些突破和進展。這項調查的主要貢獻包括以下幾點

  • 我們通過關注該領域從設計和開發到評估的所有方面,對因果關系進行了詳細的概述

  • 我們總結了因果關系的設計/開發和評估的綜合分類法(第17頁)

  • 我們提供了因果關系學習方法的比較

  • 我們提供了對網絡安全使用因果關系的見解,并強調了最近在因果安全方面的一些進展

  • 我們對該領域仍然存在的挑戰進行了公開討論,并對解決這些挑戰的建議提出了看法

本報告的結構如下。第2節介紹了分類法和對因果推斷水平的見解。第3節對利用因果推理和因果發現的設計和開發方法進行了簡要調查。第4節描述了用于測量因果AI/ML系統有效性的技術。第5節簡要介紹了網絡安全的因果關系。第6節討論了因果關系研究中的公開挑戰和當前趨勢。第7節為總結性意見。

付費5元查看完整內容

摘要

在計算機視覺和自然語言處理等領域的成功應用推動下,深度學習方法經歷了一場革命。在這篇論文中,我們描述了幾種將深度學習應用于臨床前藥物發現的新型方法。

首先,我們提出了一種設計分子連接物的生成方法,其中包含了基本的三維信息。在大規模的測試中,我們發現我們的方法大大超過了基于數據庫的方法。通過一系列的案例研究,我們證明了我們的方法在支架跳躍、片段連接和針對嵌合體(PROTAC)設計中的應用。然后,我們將這一框架擴展到包括物理意義上的三維結構信息,為生成過程提供更豐富的先驗,并將我們的方法應用于分子闡述任務,如R-group設計。

然后,我們將注意力轉向預測模型,特別是基于結構的虛擬篩選。我們發現用于一般計算機視覺任務的卷積神經網絡(CNN)的進展也適用于基于結構的虛擬篩選。此外,我們提出了兩種技術,將特定領域的知識納入這一框架。首先,我們表明,由于對接的限制,有必要使用多姿多彩的評分,并證明平均評分政策的好處。其次,我們提出了一種轉移學習方法,利用蛋白質家族之間的差異知識,構建蛋白質家族的特定模型。

最后,我們研究了如何使用生成方法來改善基于結構的虛擬篩選中所使用的訓練和基準集。我們提出了一種深度學習方法,根據用戶的偏好規格生成誘餌,以控制誘餌偏差或構建具有確定偏差的集合。我們表明,我們的方法極大地減少了這種集合中包含的偏差。我們驗證了我們生成的分子對于基于對接的方法來說比以前的誘餌更具有挑戰性,可以與生物活性化合物分開。此外,我們表明,基于CNN的結構化虛擬篩選方法可以在這類化合物上進行訓練。

研究動機

藥物是各種醫療狀況的關鍵治療手段,也是一個正常運作的衛生系統的重要組成部分(世界衛生組織,2010)。然而,目前有許多醫療需求,包括現有的和新出現的,現有藥物都無法滿足(Kaplan 等,2013)。最近由當前冠狀病毒大流行(COVID-19,Rosa等人,2020)引起的世界范圍內的緊急情況,進一步強調了在未滿足的醫療需求發生時迅速有效地解決這些需求的能力。

開發新的治療方法是一個極具挑戰性的多階段過程,涉及許多學科,通常需要多年才能完成。平均而言,每個新療法估計要花費15-30億美元,這取決于如何計算,(Avorn,2015;DiMasi等,2016)并需要超過十年的時間(Paul等,2010)。2008-16年,FDA平均每年批準31種新藥(U.S. Food and Drug Administration, 2018a)。這些數字沒有改善,因此,目前的做法被稱為不可持續(Moors等人,2014;安永會計師事務所,2017)。

藥物研發的大部分成本來自于失敗的高幾率,投入足夠的時間和財政資源遠不能保證成功。最近的一項研究發現,所有藥物開發項目中只有13.8%最終獲得批準,而治療罕見疾病的藥物,也被稱為 "孤兒藥",總體成功率低至6.2%(Wong等人,2018)。失敗的原因有很多,我們將在第1.3.1節詳細討論。藥物開發中的高成本和低生產率是一個長期存在的問題,對于這個問題的解決是至關重要的(Myers和Baker,2001)。

計算機輔助藥物設計(CADD)被認為有可能加速這一過程并降低開發新療法的費用(Ou-Yang等,2012)。然而,盡管在整個藥物發現工作流程中廣泛采用了計算方法,但成本仍在持續增加(DiMasi等人,2003;Avorn,2015;DiMasi等人,2016),生產率持續低下(Khanna,2012)。我們仍然非常需要新的技術和方法來徹底改變藥物發現

最近,在深度學習興起的推動下,人們對人工智能在廣泛領域的應用重新產生了興趣。雖然深度學習的許多核心原理在幾十年前就被提出來了(如Rosenblatt,1958;Fukushima,1980;Rumelhart等人,1986),但直到2012年,這些技術的力量和有效性才被證明,這就是現在所稱的 "ImageNet時刻"。在一年一度的ImageNet大規模視覺識別挑戰賽中,Krizhevsky等人(2012年)通過采用深度神經網絡,比下一個最好的競爭者高出41%。人們普遍認為,這一突破是由前所未有的標記數據的可用性和計算能力的結合而實現的。這導致基于學習的系統在圖像識別(He等人,2015)、單人游戲(Mnih等人,2015)和雙人游戲(包括圍棋(Silver等人,2016;Silver等人,2017)、國際象棋(Silver等人,2018)和《星際爭霸II》(Vinyals等人,2019)方面與人類相匹配,甚至經常超過人類。

這些進展迅速引起了化學信息學領域的注意,并報道了幾個早期的有希望的結果。2013年,深度神經網絡是默克公司分子活性挑戰中表現最好的模型(Ma等人,2015年),而在2015年的Tox21毒性數據挑戰中也取得了類似的結果(Mayr等人,2016年)。

基于學習的算法在藥物發現中有著悠久的歷史。早期的定量結構活性關系(QSAR)模型首次描述于20世紀60年代初(Hansch等人,1962),并已成為普遍現象(Salt等人,1992)。然而,傳統的機器學習和經典的統計方法通常要求目標輸入的明確特征化,如分子或蛋白質-配體復合物,以一維向量的形式(Klambauer等,2019)。這一要求導致僅在分子特性預測方面就開發了數百種描述符(例如Deng等人,2004;Zhang等人,2006;Durrant和McCammon,2011)。然而,深度學習方法的一個優勢被認為是其成功的關鍵,它能夠消除抽象的需要,并允許直接學習更多的數據類型(Klambauer等人,2019)。

最后,上面討論的QSAR模型通常是定制的模型,在一個特定的藥物發現項目的背景下,根據少量的數據構建。因此,雖然很有用,但它們并不具有普遍的適用性,而且往往不能超越具體的化學系列。在其他領域(如ImageNet,Deng等人,2009)的成功表明,通用模型的一個關鍵要求是足夠的數據(Halevy等人,2009;Sun等人,2017)。在過去的十年中,公開的分子活性和生化數據(如Kim等人,2015;Papadatos等人,2015)以及結構數據(Berman等人,2000;Burley等人,2019)數量迅速增加,這主要是由于關注度的提高和新實驗技術的出現(如高通量篩選,Inglese等人,2007)。

最近在蛋白質結構預測領域取得的成功就是一個例子,AlphaFold(Senior等人,2020)和AlphaFold 2(Jumper等人,2020)分別在CASP 13和14中的表現達到了頂峰(Kryshtafovych等人,2019),這說明了這些數據的可用性在其他方面是不可能的。雖然在將深度學習應用于藥物發現方面存在許多挑戰,這些挑戰將在第1.5節中進一步討論,但這是一個令人難以置信的發展,進一步突出了深度學習的前景。

本論文的重點是為藥物發現過程開發深度學習方法。在這一章中,我們首先討論了機器學習的幾個關鍵發展,并介紹了兩個可以在化學信息學中使用的一般深度學習方法。然后,我們簡要地總結了藥物發現過程,并討論了計算方法是如何用于藥物發現的。我們重點討論了這些方法如何被用來篩選大型虛擬化合物庫,以尋找最初的熱門分子。然后,我們描述了計算方法,特別是基于機器學習的方法,如何被用來設計新的化合物,并強調了分子設計的幾個常見挑戰。最后,我們概述了本論文的結構和主要貢獻。

機器學習在藥物發現中的挑戰

機器學習在藥物發現中的挑戰很多,橫跨所有領域,包括數據、算法、政治和實踐。在此,我們將簡要地談一談。

首先是依賴昂貴的(在時間和成本方面)實驗數據進行訓練和驗證。這與深度學習在圍棋(Silver等人,2016)或國際象棋(Silver等人,2018)等游戲中的成功形成對比,在這些游戲中,訓練數據可以在模擬中完美生成。這促使人們開發出能夠從少量數據中學習的方法(例如,少數射擊學習,Altae-Tran等人,2017)或有效利用其他可用數據(例如,轉移學習,Pan和Yang,2010;元學習,Maudsley,1979)。進一步的算法挑戰來自于生物和化學數據的性質,包括這些數據的格式(如圖表,第1.2.2節)以及固有的噪聲。

一個關鍵的挑戰是我們如何對成功進行量化。盛行的人類主導的過程遠非無懈可擊(見第1.3.2節),但目前還無法量化藥物化學的成功(Green等人,2018)。有鑒于此,算法成功的標準是什么?一些人告誡說,不要把計算方法的門檻定得太高(Green等人,2018)。

最后,實現機器學習方法的全部影響將需要投入大量的資源。在真實世界的藥物發現項目中進行實驗驗證是評估機器學習在藥物化學中的貢獻和確定需要改進的領域的關鍵下一步。

論文大綱

在本章中,我們強調了藥物發現所面臨的挑戰,并促使機器學習的應用成為一種部分解決方案。我們討論了幾個關鍵的機器學習方法在藥物發現中的應用。在這篇論文中,我們描述了幾種利用深度學習應用于臨床前藥物發現的新型方法學。

在第二章中,我們提出了一種生成方法來設計分子連接物,其中包含了基本的三維信息。在大規模的測試中,我們發現我們的方法大大超過了基于數據庫的方法,也就是以前解決這個問題的事實方法。通過一系列的案例研究,我們展示了我們的方法在支架跳躍、片段連接和PROTAC設計中的應用。

在第三章中,我們擴展了我們的連接物設計框架,以納入物理意義上的三維結構信息,為生成過程提供更豐富的先驗。此外,我們證明了我們的方法可以應用于分子闡述任務,如R組設計,只需改變訓練集,無需對方法進行其他修改。

在第四章中,我們將注意力轉向預測性建模和基于結構的虛擬篩選。我們發現,用于一般計算機視覺任務的CNN方法的進展也適用于SBVS。此外,我們提出了兩種技術來將特定領域的知識納入這個框架。首先,我們表明,由于對接的限制,有必要使用多姿多彩的評分,并證明了平均評分政策的好處。其次,我們提出了一種轉移學習方法,利用蛋白質家族之間的差異知識,構建蛋白質家族的特定模型。

在第五章中,我們研究了如何使用生成方法來改進SBVS中使用的訓練和基準集。我們提出了一種深度學習方法,該方法可以根據用戶的偏好規格生成誘餌,以控制誘餌的偏差或構建具有定義偏差的集合。我們表明,我們的方法大大減少了這種集合中包含的偏見。我們驗證了我們生成的分子對于對接方法來說比以前的誘餌更具有挑戰性,可以與活性物質分離。此外,我們表明,基于CNN的SBVS方法可以在這類化合物上進行訓練。

最后,在第六章,我們總結了這項工作的結果。我們討論了主要的結論,并描述了本論文以后可能開展的工作。

付費5元查看完整內容

態勢感知是作戰人員的必需能力。一種常見的監視方法是利用傳感器。電子光學/紅外(EOIR)傳感器同時使用可見光和紅外傳感器,使其能夠在光照和黑暗(日/夜)情況下使用。這些系統經常被用來探測無人駕駛飛機系統(UAS)。識別天空中的這些物體需要監測該系統的人員開展大量工作。本報告的目的是研究在紅外數據上使用卷積神經網絡來識別天空中的無人機系統圖像的可行性。本項目使用的數據是由作戰能力發展司令部軍備中心的精確瞄準和集成小組提供的

該報告考慮了來自紅外傳感器的圖像數據。這些圖像被送入一個前饋卷積神經網絡,該網絡將圖像分類為有無無人機系統。卷積模型被證明是處理這些數據的第一次嘗試。本報告提供了一個未來的方向,以便在未來進行擴展。建議包括微調這個模型,以及在這個數據集上使用其他機器學習方法,如目標檢測和 YOLO算法。

付費5元查看完整內容

疲勞是導致水域事故的一個已知因素,降低了操作效率,并影響了作戰人員的健康。戰士認知狀態的實時反饋將允許提高對能力/限制的認識,并根據戰士的準備情況作出適應性決策。使用機器學習(ML)和可穿戴技術的疲勞檢測/預測項目旨在開發一種ML算法,能夠檢測出副交感神經系統(PNS)的變化,這些變化通過使用商用現成(COTS)腕戴設備檢測,進一步可分析認知疲勞。收集了30名參與者(包括一些現役軍人)執行可量化的警戒任務的生物識別數據集,并對操作者的表現指標和認知負荷進行了注釋。麥克沃思(Mackworth )時鐘是一項廣泛用于心理測量研究以量化認知參與和疲勞的警覺性任務,它的變體被用來生成定量的操作者績效指標和離散的認知負荷狀態。在有注釋的生物識別數據集上訓練和驗證了ML模型,以:1)回歸操作者任務表現的準確性,以及2)對認知負荷/任務難度進行分類。一個訓練有素的卷積神經網絡(CNN)回歸模型能夠預測麥克沃思鐘任務表現的準確性,平均絕對誤差在2.5%以內。此外,一個單獨的CNN分類器模型達到了86.5%的二元任務類型分類準確率,不同類型的任務對應著較高和較低的認知負荷。該研究與開發(R&D)工作的下一階段將包括與海軍有關的任務(即船舶導航、軌道管理和其他站崗任務)的額外測試活動,參與者僅包括現役人員。這項工作的最終目標是提供一個可穿戴設備和配套的軟件,能夠檢測和預測各種與海軍有關的任務的認知疲勞,目的是優化作戰人員的表現,以減少用戶的錯誤或最大限度地提高性能。

付費5元查看完整內容

2022年4月27日,DeepMind科學工程師Tunyasuvunakool在Nat Rev Mol Cell Bio雜志發表評論文章,討論和分析了AI預測蛋白質結構的前景、機遇和挑戰。

2020年的CASP大賽標志著一項重大進展。機器學習方法AlphaFold預測了大多數目標蛋白的結構,評估人員稱其具有"與實驗相媲美"的準確性。本文討論了蛋白質結構預測方法的影響,強調了令人興奮的研究領域和剩余的挑戰。

背景

機器學習是人工智能的一個領域,它涉及到在不明確編程的情況下使計算機執行復雜任務。這通常涉及收集大量的輸入實例數據集,并在每種情況下指定正確的輸出。在訓練期間,機器學習模型的參數被逐漸調整,以使其在訓練集上的輸出更加正確。在蛋白質結構預測的情況下,輸入將包括目標氨基酸序列,加上任何進化相關的序列和模板結構,而期望的輸出是折疊蛋白質的原子坐標。一個模型的確切細節和它的訓練程序會極大地影響性能,所以直到最近才開發出可以解決這個問題的高精確度的方法。

實驗的伙伴

好的計算方法應該使我們有能力做更好的實驗,這是其重要性的核心。我們在蛋白質結構預測對實驗生物學的影響中看到了這一點。對于X射線晶體學家來說,良好模型的常規可用性使得更多的結構可以通過分子置換來解決,減少了花在實驗階段的時間。同時,在低溫冷凍電鏡中,將一個高精度的模型對接到密度圖中,可以加速模型的建立,并有可能提高其保真度。事實上,到目前為止,一些最令人印象深刻的應用是在綜合建模領域,其中低溫電鏡、X射線晶體學和結構預測被結合起來,以建立大型分子機器的模型。在這種情況下,預測和實驗相互促進,實驗數據也有助于驗證結構模型。

更廣泛地說,蛋白質結構預測可以支持對于表達和功能研究的有效規劃,為構建對象 (construct) 的設計和標簽的最佳位置提供建議。一個特別有用的應用可能是識別要突變以調節蛋白質功能的殘基。與蛋白質復合物預測相結合 (將在后面討論),這為更容易地破壞蛋白質功能和相互作用提供了可能。現在,良好的結構預測的普及,以及對這些方法認識的提高,使得結構指導的實驗計劃成為常規。

豐富的結構

實驗測定和預測之間的一個主要區別是,后者可以大規模地進行,從而使需要大量結構數據的一系列不同的應用成為可能。例如,現在有了涵蓋整個蛋白質組的預測結構,就有可能將其他大規模的生物數據映射到預測上,允許在適當的背景下研究突變和翻譯后修飾。預測數據庫也可以用結構感知算法進行搜索,可能會導致更敏感的蛋白質分類。一般來說,大型數據集的可用性支持生物信息學方法的發展。一個很好的例子是將AlphaFold的置信度量納入蛋白質失調預測的工具中。 可以說,大規模的預測也為我們提供了一個更清晰的蛋白質組結構的知識圖景。在AlphaFold蛋白質結構數據庫中,除了任何結構良好的結構域外,我們還選擇顯示對帶狀低置信區域的預測。雖然這種觀點與實驗提供的觀點有很大不同,但它直接承認了這些區域在重要蛋白質中的普遍存在,其中一些可能對應于內在的無序。

相互作用的預測

生物學主要關注的是具有許多相互作用成分的復雜系統的行為。解決這類系統的一個自然的下一步是預測蛋白質復合物的結構。為此,最近開發的單鏈方法很快就被社會各界用來支持蛋白質復合物的預測,現在已經有了像AlphaFold Multimer這樣專門為這項任務訓練的模型。結構預測已經被大規模地應用于識別新的真核生物復合物和對已知復合物進行結構描述。 鑒于蛋白質相互作用的生物學重要性,這必將是未來研究的一個令人興奮的領域。我們可能很快就能獲得一幅顯示這些相互作用如何發生的分子細節的圖片,而不是把蛋白質-蛋白質相互作用網絡看作是二維圖。已經預測的復合物可以成為一個有用的工具,盡管像任何預測一樣,它們應該被謹慎地解釋。復雜的預測仍然是一個具有挑戰性的問題,而且目前的模型不如單一多肽可靠。特別是要考慮到假陰性的可能性,即對于一對確實有相互作用的蛋白質,沒有預測到可靠的界面。

評估新方法

隨著該領域的快速發展,預測方法被用來解決其他與蛋白質有關的問題,保持對方法性能的基準評估的謹慎態度非常重要。為一個新的計算方法設計一個適當的評估并不簡單。需要小心翼翼地確保任務與生物學家在實踐中使用該方法的方式相一致,并且與他們相關的數量也是衡量標準。為了進行嚴格的評估,測試案例必須與模型在訓練中看到的案例有足夠的區別,否則它可能會通過鸚鵡學舌來欺騙訓練數據。在生物學中,進化關系使得測試/訓練集的分割更加困難,即使一個特定的蛋白質沒有出現在模型的訓練集中,也許一個接近的同源物會出現。考慮負面例子也可能是有幫助的:如果一個模型的目的是預測復合物的結構,那么對于兩個沒有相互作用的蛋白質,它應該輸出什么,以清楚地傳達這一點? 最后,在結構預測領域,事實證明在模型輸出中加入置信度是非常有用的,可以為生物學家提供一些指導,讓他們知道應該相信預測的哪些部分。類似的置信度指標在其他領域可能會有所幫助。

仍然存在的挑戰

看到成功應用蛋白質結構預測模型的方式多種多樣,這是非常了不起的。然而,最新方法所能解決的問題是有限的。特別是,它們并不具備回答從根本上講屬于蛋白質能量學的問題的能力,例如預測一個蛋白質可能采取的所有構象,或者確定一個突變對穩定性或與其相互作用伙伴的結合親和力的影響。 最先進的結構預測還缺少在實驗結構中發現的非蛋白質成分--核苷酸、離子、翻譯后修飾和配體。有時可以根據預測的蛋白質的局部幾何形狀推斷出離子等成分的存在。然而,預測是在不知道其他分子存在的情況下進行的,這使得模型無法根據生物環境進行調整。這些挑戰可能需要大量的進一步創新來解決。 生物學中的機器學習數據是什么使最近在蛋白質結構預測方面的進展成為可能?一個因素是對問題的具體化和對進展的評估,這一點必須歸功于CASP社區。然而,第二個值得注意的因素是蛋白質數據庫 (PDB) 的形式提供了一個優秀的數據集。PDB的幾個特點使其非常適合于機器學習:整個數據集很容易下載,文件具有一致的格式,每個條目都提供了高維數據而不是單一的測量,并且涵蓋了蛋白質空間的廣泛區域。PDB也很全面,基本上所有發表的結構都存放在那里。計算結構生物學極大地受益于PDB創始人的遠見卓識,以及對該項目的持續有力支持。如果其他領域也能實現類似的有利態勢,那么結構預測將成為生物學中機器學習的眾多成功案例之一。 參考資料 Tunyasuvunakool, K. The prospects and opportunities of protein structure prediction with AI. Nat Rev Mol Cell Biol (2022). //doi.org/10.1038/s41580-022-00488-5

付費5元查看完整內容
北京阿比特科技有限公司