亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

編譯 | 任宣百 審稿 | 劉名權 本文介紹由瑞典分子人工智能研究所的Atanas Patronov團隊發表在Nature Machine Intelligence的研究成果。作者將課程學習應用于藥物發現中。在全新的設計平臺中實現課程學習(CL),并將其應用于不同復雜性的分子設計問題中。結果表明,與標準的基于策略的強化學習相比,課程學習能夠加速學習效率和優化模型輸出的質量。

1 簡介 分子設計需要在化學空間中進行多參數優化(MPO)搜索,估計在1023-1060個分子的范圍內。之前的分子設計方法有虛擬篩選(VS)等,但隨著深度學習的興起,深度學習已逐漸替代VS方法。深度學習與依賴于枚舉分子的方法相比,可以在更大的化學空間中進行采樣。

使用基于策略的強化學習(RL)、基于價值的RL、學習分子潛在空間,以及其他方法(樹搜索和遺傳算法)的深度生成模型已經被提出來設計具有期望特性的分子。在基于策略的RL中,agent(生成模型)學習策略(在給定狀態下采取的一系列行動)來產生最大化獎勵的分子,這是根據預定義的獎勵函數計算出來的。通常,基于物理的結合親和力相似方法,例如分子docking,把它作為獎勵函數的一個組成部分,來設計具有更強預測活性的分子。給定足夠長的訓練時間,這些模型可以學習生成滿足所需的MPO目標的分子。然而,由于復雜的獎勵函數難以找到最小值,在這種情況下,agent可能會從化學空間中遠離預期目標的區域進行多次采樣。因此,基于策略的RL對于復雜的MPO目標是不可行的,從而導致計算資源的次優分配,且最終合成結果為次優分子。

在這項工作中,作者在從頭開始的分子設計平臺REINVENT的基礎上,引入了CL方法,用于解決基于策略的RL任務中存在的問題,使用CL擴展了REINVENT對復雜獎勵函數的適用性。作者通過設計3-磷酸肌酸依賴性蛋白激酶-1(PDK1)的案例研究來證明CL在REINVENT中的有效性。作者表明,與基于策略的RL相比,CL可以規避高計算成本。此外,課程提供了一種自然的方法,例如,課程中的微小改變可以引導分子設計,以一種可預測的方式控制結果的質量和多樣性。

2 結果 CL概述 在CL中,將一個復雜的任務分解為更簡單的組成任務,以加速訓練和收斂。其目標是在提供生成目標之前,指導agent去學習越來越復雜的任務。agent學習從課程階段一直進行到生成階段,并由課程進展標準進行控制,檢查agent是否為每個目標達到了足夠的分數閾值(圖1)。在前者中,使用復雜性逐漸增加的順序任務來訓練agent。在后者中,agent在滿足生成目標的有利化學空間區域取樣化合物。在生成階段維護agent策略更新,以確保來自不同最小值的agent樣本。

圖1 CL概述

目標scaffold構建 作者表明CL可以引導agent生成具有相對復雜scaffold的化合物,該化合物不存在于訓練集中(圖2)。CL可以通過將目標scaffold分解為更簡單的子結構,從而加速收斂(圖2)。有五個課程目標,每個目標依次分配到更復雜的子結構,課程進展標準閾值為0.8。該agent的任務是生成具有子結構的化合物,直到平均分數為0.8。當滿足一個課程發展標準時,就會激活一個連續的和更復雜的課程目標。每次課程目標的更新都會伴隨著平均分數的急劇下降,例如,在大約在150 epoch左右(圖2),當前不可能取樣的化合物也會偶然地出現具有連續的子結構。在訓練過程中,agent學會了生成具有越來越復雜的子結構的化合物,直到構建出目標scaffold。

圖2 CL目標scaffold構建

滿足分子docking約束 作者利用單一的課程目標,可以加速agent的生成效率,并生成滿足docking約束的化合物,即預測保留了實驗驗證的交互作用。首先,作者證明了基線RL的生成目標具有挑戰性(圖3b,c)。在前100個epoch,docking分數約為0,這表明基本上沒有化合物滿足docking約束。對于100-200的epoch,一些化合物滿足docking約束,但分數仍然很低。只有從第200個epoch開始,docking分數才開始提高,并指示agent開始進入生成狀態的點。很明顯,基線RL是次優的,因為該agent花費了大量的時間來生成不滿足生成目標的化合物。

為了解決模型受限于基線RL問題,作者設計了課程并引入了兩個課程目標來指導分子生成:Tanimoto(2D)和ROCS(3D)。前者的基本原理是,通過教agent首先生成與參考配體具有二維相似性的化合物,隨后生成的化合物將有更大的可能性滿足docking約束。ROCS的基本原理是相同的,除了使用三維相似性來匹配參考配體的形狀和靜電場。使用Tanimoto和ROCS進行三次基線RL實驗與CL進行比較。這些基線實驗并沒有提高agent的生成率,并且可以觀察到與(圖3b、c)中所示的基線相似的訓練進度對于Tanimoto(2D)和ROCS(3D),該agent能夠立即生成滿足docking約束的化合物(圖3b)。更具體地說,盡管在Tanimoto(2D)實驗中,docking開始于一個相對較低的值(但高于基線RL),但該agent在前50個epoch迅速改善。在ROCS(3D)場景中,在300個epoch時CL超過基線RL方法獲得的最高分數。結果是直觀的,因為強制agent首先學習生成與參考配體具有更高的二維相似性的化合物,生成分子會更可能滿足docking約束。當使用ROCS作為課程目標時,也進行了類似的觀察(圖3c)。為了可視化結果的質量,作者將選定生成的化合物的結合姿態與參考配體進行重疊(圖3d)。

圖3 設計PDK1抑制劑的基線RL與CL對比

通過課程模型增強目標的優化 為了進一步研究基線RL和CL實驗的輸出,作者將三次重復實驗中收集到的化合物的所有docking分數匯總起來,結果分布如圖4所示。首先,與基線RL相比,CL產生了明顯更多的有利化合物,因為CL只存儲了那些通過了基于docking和QED的最低分數的化合物。第二,CL生成的化合物比基線RL生成的擁有更高的平均docking分數。第三,對于這兩個課程目標(Tanimoto和ROCS),high scenario比low scenario具有更大docking分數密度。

圖4 基線RL與CL docking分數分布

課程目標保持探索分子scaffold 通過從三次重復實驗中提取并平均獨特的Bemis-Murcko scaffold的數量來研究scaffold的多樣性,如圖5所示。CL實驗比基線RL產生了更多獨特的scaffold。在課程目標中,Tanimoto比ROCS產生了更多獨特的scaffold。類似地,對于Tanimoto和ROCS,high scenario比low scenario產生更多獨特的scaffold。為了評估生成的scaffold的質量,如果相應的化合物比參考配體具有更有利的docking分數,作者將scaffold表示為“有利的”。從絕對計數和百分比來看,CL比基線RL產生更獨特和有利的scaffold(圖5)。這與圖4中的對接分數分布一致,說明了CL實驗的docking分數更富集。結果表明,使用課程目標增加了生成的有利scaffold的數量,并保持了由多樣性過濾器強制執行的agent探索。

圖5 基線RL與CL生成獨特的Bemis-Murcko scaffold的比較

引導agent策略在生成目標優化和解決方案空間多樣性之間進行權衡 為了進一步闡明課程目標的作用,以及agent在下游生成任務中保留獲得知識的程度,從CL Tanimoto實驗中收集到化合物,并計算每個epoch與參考配體的平均Tanimoto相似度(化合物和scaffold)(圖6a)。左邊的子圖顯示了Tanimoto相似度在low scenario和high scenario下的逐漸優化,代表了課程階段。右邊的子圖顯示了在生成階段收集到的所有化合物的Tanimoto相似性。總的來說,高Tanimoto實驗生成的化合物與低Tanimoto實驗生成的化合物與參考配體具有更大的Tanimoto相似性,與預期一致。此外,在scaffold水平上,Tanimoto相似性的逐漸降低進一步支持了CL進行scaffold跳躍的能力(圖6a)。相對于基線RL實驗,CL實驗中收集的化合物表現出更大的相似性,解釋為從化學空間的“更近”區域取樣化合物(圖6b)。此外,high scenario比low scenario具有更高的交叉Tanimoto相似性密度。采用均勻流形近似和投影(UMAP)作為降維技術,以可視化CL Tanimoto實驗的空間多樣性。從low scenario和high scenario中采樣的化合物之間有顯著的相似性,沒有scaffold重疊(圖6c)。

圖6 agent知識保留與課程目標對解決方案空間多樣性的影響

3 總結與討論 在這項工作中,作者在分子從頭設計平臺REINVENT的基礎上,通過調整CL來加速agent在復雜MPO目標上的收斂。相對于基線RL而言,即使是由一個課程目標組成的課程,也能成功地引導agent高效的完成任務。作者展示了CL在兩個生成目標上的應用:構建一個相對復雜的scaffold和滿足一個分子docking的約束。在前者中,在相同的epoch下,CL成功地從比較簡單的成分中構建出復雜的scaffold,而基線RL則無法做到。在第二個應用例子中,使用Tanimoto(二維)或ROCS(三維)與參考配體的形狀相似性作為課程目標,引導agent到滿足docking約束的化學空間區域進行采樣。相比之下,基線RL花了很多時間產生不利的化合物。CL通過提供教給agent特定知識的能力,促進了agent對生成目標的直接引導。結果表明,相對于基線RL,教agent在更大程度上優化課程目標可以提高滿足復雜生成目標的能力。 參考資料 Jeff Guo?, Vendy Fialková, Juan Diego Arango, Christian Margreitter. et al. Improving de novo molecular design with curriculum learning. Nature Machine Intelligence (2022). //www.nature.com/articles/s42256-022-00494-4
數據

代碼

付費5元查看完整內容

相關內容

醫學領域的人工智能是使用機器學習模型搜索醫療數據,發現洞察,從而幫助改善健康狀況和患者體驗。 得益于近年來計算機科學和信息技術的發展,人工智能 (AI) 正迅速成為現代醫學中不可或缺的一部分。 由人工智能支持的人工智能算法和其他應用程序正在為臨床和研究領域的醫學專業人員提供支持。

蛋白質是生命的通用組成部分,幾乎在每個細胞過程中都發揮至關重要的作用。為特定目的設計新型蛋白質的能力有助于解決許多醫療挑戰。 2022年6月22日,來自西班牙赫羅納大學信息學與應用研究所的Noelia Ferruz等人在Nat Mach Intel雜志發表文章,討論了人工智能領域的最新進展--語言模型在蛋白質設計中的潛力和影響。

蛋白質序列在本質上類似于自然語言:氨基酸以多種組合方式排列,形成承載功能的結構,就像字母組成單詞和句子承載意義一樣。因此自然語言處理(NLP)的許多技術被應用于蛋白質研究問題。

過去幾年里,NLP領域有了革命性的突破。Transformer預訓練模型的實施使文本生成具有類似人類的能力。我們預計專用Transformer將會在不久的將來主導定制的蛋白質序列的生成。 對蛋白質家族的預訓練模型進行微調,將使他們能夠使用可能高度不同但仍具有潛在功能的新序列來擴展它們的庫。細胞區室或功能等控制標簽的組合將進一步實現新蛋白質功能的可控設計。此外,最近的模型可解釋性方法將使我們能夠打開”黑盒子",從而增強我們對折疊原理的理解。 早期的研究顯示了生成性語言模型在設計功能序列方面的巨大潛力。我們認為,使用生成性文本模型來創造新的蛋白質是一個很有前途的、在很大程度上未被開發的領域,本文討論了它對蛋白質設計可預見的影響。

主要內容 蛋白質設計的目的是創造出能發揮所需功能的定制結構。這一巨大的挑戰通常被稱為逆向蛋白質折疊問題:我們的目標不是尋找一個序列折疊的結構,而是獲得一個采用某種折疊的最佳序列。在數學上,這個問題是通過搜索由能量函數定義的序列-結構的全局最小值的優化算法來解決的。 盡管最廣泛使用的能量函數相對簡單,但每個位置的旋轉異構體和可能的組合的數量帶來了組合的爆炸。由于這種復雜性,新蛋白質的設計通常需要相當長的時間和精力,而且絕大多數的功能性蛋白質設計都是通過預先選擇天然存在的骨架、并隨后在迭代中優化其功能而實現的,而不是同時設計序列和結構以執行某種功能。 蛋白質最不尋常的特性之一,是它們在氨基酸序列中完全編碼了其結構和功能,并且它們以極高的效率做到這一點。在沒有生物物理約束的情況下,僅靠序列就能捕捉到蛋白質的特性,這為利用自然語言處理(NLP)方法進行蛋白質研究打開了一扇未被開發的大門。下文總結了自然語言和蛋白質序列之間的異同,并展示了NLP研究已經如何影響了蛋白質科學。**我們將強調該領域中最引人注目的發展,即Transformer架構。**隨后的章節將介紹Transformer的獨特生成能力是如何重塑蛋白質設計領域的。 我們希望本文能觸及人工智能和生物學領域,并鼓勵進一步合作,開發和調整NLP技術用于蛋白質設計。 蛋白質的語言 有幾個特征證明了人類語言和蛋白質序列之間的相似性,其中最明顯的可能是它們的分層組織。與人類語言類似,蛋白質是由字符串的連接表示的:20個標準氨基酸。然后字母組合成單詞,氨基酸組合成二級結構或保守的蛋白質片段。然后,就像單詞組合成帶有意義的句子一樣,片段可以組合成帶有功能的不同蛋白質結構(圖1a)。

圖1:蛋白質和語言之間的相似性 **語言和蛋白質的起源和演變也顯示出相似之處。**今天,有超過8000種語言,分為140多個語系,所有這些語言都起源于5萬至7萬年前在非洲中部使用的一種共同祖先語言。同樣,所有生活在地球上的生物都有一個(最后的普遍)共同祖先--LUCA--一種生活在40億年前的微生物,它已經包含了大多數現代蛋白質結構域,這些結構域通過進化而發展。

然而,必須注意的是,蛋白質和人類語言也存在差異,這對將NLP應用于蛋白質研究構成了挑戰。

首先,許多人類語言在書面文本中提供了清晰可辨的詞匯定義(中文是一個突出的例外),但在蛋白質中,"詞的邊界”卻不那么明顯。 其次,目前對蛋白質語言缺乏了解,類似于我們目前對許多已滅絕的語言缺乏了解。盡管我們有訓練蛋白質語言的語料庫,但對生成的序列的正確解釋仍將是一個挑戰,需要廣泛的實驗測試來破譯其功能。 再者,蛋白質的進化也明顯不同于語言的進化,它受到隨機性和環境壓力的影響,而且其語法不可避免地會包含許多不規則的地方。 總的來說,人類語言和蛋白質序列之間的不相似性給NLP在蛋白質設計中的應用帶來了巨大的挑戰。然而,盡管有這些挑戰,這兩個領域之間的明顯聯系為蛋白質研究領域提供了一個新的視角。

NLP對蛋白質研究的數十年影響 雖然不明顯,但NLP領域一直影響著蛋白質研究。圖2a總結了這兩個領域之間的相似之處。

圖2:最常用于NLP問題的方法概述 CNN的適用性很快就擴展到了蛋白質研究,以預測蛋白質的紊亂、DNA結合位點和折疊分類。然而,CNN未能對長距離信息進行建模,而長距離信息對于全局文本的理解是至關重要的。由于這個原因,NLP研究人員轉向了循環神經網絡(RNN),特別是長短期記憶(LSTM)。

**傳統的LSTM很快被注意力機制****所取代,這影響了最近在蛋白質研究方面的突破,如AlphaFold。**在注意力模型的基礎上,谷歌發布了Transformer,以更低的計算成本改善了大多數NLP任務的結果。第一個Transformer開啟了NLP的新時代,從那時起,無數的改造被實施(圖2a)。 值得一提的是生成式預訓練Transformer(GPT)及其后續的GPT-2和GPT-3。這些預訓練的模型在大多數NLP任務中都表現出了卓越的性能,并且第一次能夠生成類似人類的、長的、連貫的文章。NLP領域的這些最新發展具有很大的潛力,可以適用于蛋白質研究。以下各節將對預訓練的語言模型如何在未來幾年內改變和主導蛋白質設計提供見解。 注意力機制和Transformer Transformer是當前NLP的一場革命。他們的成功來自于一系列建立在彼此之上的概念的演變,其中注意力機制可能是這些進展中最值得注意的。 注意力機制起源于對傳統的序列到序列(seq2seq)模型的解決方案,該模型被廣泛用于處理從一個領域到另一個領域的序列的任務,如機器翻譯或文本總結。在seq2seq模型中,輸入在一個被稱為編碼器的模塊中被逐步處理,以產生一個傳遞給解碼器的上下文向量,解碼器負責生成一個輸出(圖3a)。傳統上,編碼器和解碼器的架構通常是RNNs或LSTMs(圖2b),上下文向量對應于最后一個編碼器步驟的最終輸出(圖2b)。由于這種固有的順序性,RNNs出現了性能下降和訓練時間隨序列長度增加的主要缺點。注意力機制的引入為這一問題提供了一個解決方案,它允許解碼器分析整個輸入并關注其中的特定部分,這一概念類似于人類頭腦中的注意力。

圖3:最常用的Transformer的示意圖 雖然注意力機制在許多類型的神經網絡中已經無處不在,但在2017年變得特別突出,當時谷歌的研究人員發表了他們的開創性工作” Attention is all you need",它引入了一個架構,不僅在模塊之間應用注意力,而且在整個模塊中也應用注意力。這種新的設計允許編碼器專注于輸入序列的特定部分,在許多任務中產生更好的表現。 表1 Transformer模型匯總

在Transformer架構的激勵下,OpenAI發布了GPT(生成式預訓練Transformer),這是一系列高性能預訓練模型中的第一個。最近,OpenAI公布了它的第三代GPT模型,GPT-3,它包含的參數是GPT-2的100倍(表1)。并且能夠以零樣本的方式表現良好,即使是在從未受過訓練的任務上,例如編寫代碼。

NLP領域的另一個突出發展來自谷歌人工智能語言團隊,他們預先訓練了BERT(來自Transformer的雙向編碼器表示法),以創建一個語言模型。BERT也是受Transformer結構的啟發,但是,鑒于在這種情況下,興趣在于創建文本輸入的表示,它只使用編碼器模塊(圖3d)。 除了這兩個有代表性的僅有編碼器和解碼器架構的Transformer的例子外,在過去的三年里,已經有成千上萬的Transformer被發表。許多已經可以在HuggingFace資源庫中找到。 蛋白質序列是Transformer的理想對象 事實上,上一代Transformer的巨大成功,部分原因是它們所訓練的語料庫不斷增加(表1),這反過來又允許創建更大和更強大的模型。圖4a顯示了表1中的Transformer的發布日期和參數數量(以對數為單位)。

圖4:模型大小和數據庫隨時間的增長 生物數據庫的規模也在大幅增長,這一趨勢在蛋白質序列中最為明顯。圖4b說明了過去20年中序列和結構數據庫的數據獲取趨勢,表明蛋白質序列的表征比其對應結構的增長速度要快得多。

盡管最近開發的高性能結構預測方法,如AlphaFold,使科學家們能夠將結構的增長與序列等同起來,但它并沒有解決功能注釋這一耗時的問題。因此,我們面對的是一個未標注數據與標注數據之比廣泛增加的領域(這一現象被稱為序列-結構差距),鑒于半監督方法的成功,我們可以推測Transformer也可以類似地利用龐大的蛋白質空間,并在蛋白質研究領域激發一場類似的革命。 用于蛋白質設計的Transformer 最近NLP的革命性發展已經影響了一些開創性的蛋白質研究,一些研究已經將語言模型的概念應用于蛋白質序列。 第一個基于Transformer的蛋白質語言模型,ESM和TAPE,可以追溯到2019年。ESM-1b是由Facebook AI領導的一項工作,是一個在2.5億個蛋白質序列上訓練的編碼器Transformer,其結構和訓練目標與BERT相同(圖3d),但是,在這種情況下,33個編碼器層在UniParc數據庫(圖3d)上被預先訓練,以產生編碼蛋白質序列的矢量表示。ESM-1b的表示,類似于捕捉語言語法的BERT句子表示,編碼蛋白質的內部組織,從氨基酸的生物化學特性水平到蛋白質之間的進化關系。 最近,來自慕尼黑、Nvidia和Google AI的科學家合作開發了ProtTrans,這是一個令人印象深刻的對以前發布的六個基于Transformer的架構(Transformer-XL、BERT、Albert、XLnet、T5和Electra;表1)的改進,可以完全為社區所接受。這項研究利用了迄今為止最大的訓練數據集,包含了來自UniParc和Big Fantastic數據庫的超過3900億個氨基酸。他們的工作表明,蛋白質嵌入--Transformer輸出的矢量表示--能夠準確地預測每個殘基的二級結構和亞細胞定位。 這些早期的研究證明了學習蛋白質表征在下游應用中的潛力,包括分類或回歸任務。**最近,有幾項工作發表,使用預先訓練好的模型來生成蛋白質序列。**雖然沒有明確采用語言模型,但提到了兩個從傳統的蛋白質設計范式--基于搜索能量函數最小值--轉向神經網絡方法。首先,受DeepDream(谷歌的CNN)的生成能力的啟發,Anishchenko等人在一個逐步的過程中應用trRosetta,以高通量的方式生成理想化的蛋白質結構。其次,Huang等人最近生成了SCUBA,一種新型的自適應核鄰接計數神經網絡(NC-NN)方法,產生了具有新拓撲結構的新結構。 關于語言模型的特殊情況,最近有幾項工作正在利用Transformer進行蛋白質設計。Castro等人實現了ReLSO,這是一個經過訓練的自動編碼器,可以聯合生成序列并預測輸入標記數據集的適用性。Moffat等人實施了DARK,這是一個有1.1億個解碼器的Transformer,能夠設計新的結構,Ferruz等人發布了ProtGPT2,這是一個基于GPT-2結構的7.38億個Transformer模型,能夠在蛋白質空間的未開發區域生成新的序列。

圖5:利用Transformer模型在蛋白質工程領域的可能性概述

定制的蛋白質設計 NLP及其應用于定制蛋白質設計的下一個重要步驟是在訓練中加入功能標簽。最近,Gligorijevi?等人實現了一個去噪自動編碼器Transformer,在這個Transformer中,一定的輸入序列被轉化為質量上乘的輸出序列和一定的功能。然而,在實現可控文本生成方面最重要的工作之一是開發了條件Transformer語言(CTRL),這是一個自回歸模型,包括能夠不依賴輸入序列而可控地生成文本的條件標記(表1)。 這些研究突出了一個有前途的新研究領域:用條件Transformer可控制地生成蛋白質序列。在基于Transformer的蛋白質語言模型中加入條件標簽,不僅可以像以前的這些工作那樣生成新的序列,而且有可能對這些蛋白質的特性進行控制。 通過提示語言模型產生定制序列的能力將是蛋白質研究中的一個變革性里程碑,但其實施并非沒有挑戰。監督序列標記的過程依賴于注釋序列的質量。 **不過,最近在序列注釋方面的工作可能為更快的自動注釋過程打開了一扇新的大門。Bileschi等人最近使用神經網絡來預測功能注釋,將Pfam數據庫擴展了9.5%以上。盡管這可能是一個漫長而具有挑戰性的過程,但在這個方向上的努力可能會推動在可預見的未來對蛋白質空間的很大一部分進行注釋,從而促進條件Transformer的實施。 酶、受體和生物傳感器設計 2018年,IBM研究院發布了IBM RXN for Chemistry,這是一個基于云的應用程序,將有機化學與人類語言聯系起來,可以使用編碼器-解碼器架構預測化學反應最可能結果(圖3a)。 鑒于最近IBM對化學反應的矢量表示進行編碼的方法,我們可以設想另一種模型,將化學反應作為輸入,產生蛋白質序列作為輸出。這種模型將為酶的設計提供一種創新的途徑,**包括能夠催化自然界中沒有的反應的工程酶。 可解釋的蛋白質設計 傳統上,最廣泛使用的NLP技術,如HMMs或SVMs(圖2),本質上是可以解釋的,因此被歸為”白盒”。最近,深度學習方法的爆炸性增長在整個NLP任務中達到了很高的性能,帶來了開發新技術來解釋這些模型的挑戰。針對”黑盒”模型的XAI技術已經取得了實質性的進展,其中五個主要技術是:特征重要性(feature importance)、代理模型(surrogate model)、例子驅動(example-driven)、基于出處(provenance-based)和聲明性歸納(declarative induction)。 將Transformer的內部運作可視化的可能性可以為更好地理解蛋白質的折疊和設計帶來巨大的機會。 蛋白質設計的未來是否掌握在大公司手中 近年來發表的Transformer模型是由大公司主導的(圖4a)。據估計,**用1750億個參數訓練GPT-3--迄今為止第二大的模型--花費了1200萬美元,需要超過10000天的GPU時間。**其他的模型也是通過使用大量的TPU資源來訓練的。訓練這樣的深度學習模型是一種商品,像OpenAI或谷歌這樣的大公司可能可以獲得,但對于初創公司和許多學術研究團體來說,可能是無法達到的。他們在經濟上的可及性是一個問題。 迄今為止發表的9個基于蛋白質的Transformer模型中的7個(表1)是由大公司領導或參加。 根據蛋白質的特定屬性(如由于必須形成三維結構而產生的偏差)來調整模型,可能會在降低計算成本的情況下提高性能。 結論 **本文設想了將目前的NLP方法轉移到蛋白質研究領域的六個直接應用。**按照目前的NLPTransformer對蛋白質序列的適用程度排序,我們可以:(1)在蛋白質空間的未觀察到的區域生成序列;(2)對天然蛋白質家族的序列進行微調,以擴展它們的庫;(3)利用其編碼的矢量表示作為其他下游模型的輸入,用于蛋白質工程任務;(4)生成具有特定功能特性的條件序列;(5)利用編碼器-解碼器Transformer設計完全新穎的、目的明確的受體和酶;(6)更全面地了解序列-結構-功能關系,包括通過解釋這些語言模型來支配蛋白質折疊的規則。 毋庸置疑,**這些進展并非沒有挑戰,模型的大小和功能注釋的困難都是最值得注意的兩個問題。**此外,正如早期研究指出的那樣,基準將是比較模型性能的首要條件,這在序列生成方面尤其具有挑戰性。 對生成的序列進行適當的評估,需要實施高通量的實驗特征分析。最終評估這些序列的相關功能(例如它們的催化活性)是否超越當前的蛋白質工程策略(可能是在實驗反饋改進模型的迭代輪次中)將是至關重要的。 盡管有這些困難,我們相信基于Transformer的蛋白質語言模型將徹底改變蛋白質設計領域,并為許多當前和未來的社會挑戰提供新的解決方案。 參考資料 Ferruz, N., H?cker, B. Controllable protein design with language models. Nat Mach Intell 4, 521–532 (2022). //doi.org/10.1038/s42256-022-00499-z

--------- End ---------

付費5元查看完整內容

本文介紹由蘭州大學黎育權和騰訊量子實驗室謝昌諭博士等人發表在Nature Machine Intelligence期刊上的研究成果,論文通訊作者為姚小軍教授。文章中報道了一種自動圖學習方法,能夠在人工不參與的情況下,在多種不同任務上取得先進的預測性能,超越過去的主流模型。作者還提出一種新的分子魯棒性實驗方法,并發現模型集成能夠大幅提升魯棒性。

1 研究背景

藥物發現是一個耗時、昂貴和復雜的過程,在人類健康和福祉中發揮著至關重要的作用。機器學習方法,尤其是圖學習方法有可能顯著提高藥物發現效率。它們能從現有藥物相關數據集中進行學習,從而來預測分子相互作用和性質。同時,這也是機器學習能夠從廣闊的化學空間中以極快的速度和低成本尋找潛在候選藥物的關鍵所在。

然而,在少部分數據集上追求高預測性能已經固化了它們的架構和超參數,這使得它們在新數據的利用上不在有優勢。這種固化限制了他們在新數據上的學習能力和應用,使得他們的性能變得平庸。此外,大多數圖學習方法嚴重依賴深度學習的專家知識來實現其聲稱的最先進結果。當作者不給出這些具體的神經網絡架構和參數的時候,后來的研究人員甚至無法復現他們的模型性能。

這項工作提出了基于圖學習的自適應機器(Graph learning based adaptive machine, GLAM),它可以適應數據集并在無需人工干預的情況下做出準確的預測。

2主要貢獻

(1)提出一種自動機器學習方法,可以同時應用于分子屬性預測、藥物-蛋白相關關系預測、藥物-藥物相互作用預測。

(2)在相對公平比較的情況下(相同數據集分割),對比目前主流模型并取得最佳性能,包括分子屬性預測任務,藥物-靶標相關關系預測任務。 (3)提出一種合理的圖模型魯棒性測試方法,并發現集成模型比單模型的魯棒性好。

3 方法

本文的方法跟過去的設計一個圖網絡不同,本文利用自動化的流程從數據集中學習并逐步建立一個預測器,如圖 1 和圖2所示。以前的圖學習方法嚴重依賴人類專家來設計架構、調整模型超參數、選擇優化器和選擇損失函數。本文將這四個項目組合成一個配置,并將潛在的配置放入一個配置空間。從這個配置空間開始,GLAM 執行一系列步驟來構建預測器,如圖 2 所示。GLAM首先從配置空間中采樣了很多配置。然后將數據集喂給到這些配置以進行低保真訓練,從而得到驗證集分數以便于選擇性能高的配置。低保真訓練是指少量輪次的快速訓練,從而得到所有配置的驗證分數以快速估計他們的預測性能。高保真訓練是指使用巨量的輪次(帶早停)來精準地估計所選配置的預測性能。最后,將所有選定的預測器集成并建立一個最終預測器。

圖1. GLAM和傳統方法的對比.

圖 2. GLAM 具體流程圖.

本文設計了兩種通用架構,一種用于分子相互作用,另一種用于分子性質,如圖 3 所示。通用架構中的每個模塊都有自己的設計空間,如圖 4 所示。這些神經網絡架構接受的輸入都為圖,包括分子圖和蛋白圖。本文以原子為節點,以鍵為邊建立分子圖。對于蛋白圖,本文首先使用RaptorX計算得到接觸圖(contact map),然后以氨基酸殘基為節點,以接觸圖提供的信息作為邊建立蛋白圖。DTI任務同時考慮分子圖和蛋白圖作為輸入。DDI任務考慮兩個分子圖同時作為輸入。分子性質預測則接受單分子圖作為輸入。

圖 3. 應用于DTI和分子性質預測的神經網絡架構.

3 結果和討論 3.1適應數據集并取得高性能 GLAM是為了適應數據集以獲得高預測性能而設計的。為了考察該方法的適應性和性能,本文在14個數據集上與一系列具有代表性的傳統方法進行了性能比較。測試數據集的類型包括藥物-蛋白質相互作用、藥物-藥物相互作用、物理化學性質、生物活性、藥代動力學和毒性。考慮到不同的數據集分割會導致不同的性能,本文讓所有的方法共享相同的數據集分割,以獲得公平的評價。為了體現GCN,GAT,MPNN在不同架構和參數的差異,本文還盡量使用人工的方式優化架構并調整參數,以達到在某個數據集上達到最佳性能,以便于對比其適應性。最后,本文在這些數據集上運行基準測試。

與所有傳統方法相比,本文提出的方法能夠很好地適應數據集,并取得了良好的預測性能,如表1、表2和表3所示。傳統方法在不同數據集上固化下來的架構和參數表現出乘次不齊的性能,而GLAM可以在沒有人為干預的情況下始終如一地獲得最好的分數。因此,GLAM準備成為一種靈活、可靠和值得信賴的方法,在藥物設計的廣泛應用中都能很好地發揮作用。

表1. DTI任務上的性能對比

注:以上所有方法測試基于相同數據集分割。

表2. 分子性質預測任務上的性能對比

注:以上所有方法測試基于相同數據集分割,分割方式為基于scaffold的隨機分割。

3.2面對分子結構擾動表現出高魯棒性 本文認為魯棒性也是衡量一種方法是否優秀的重要指標。本文假設,當施加對分子性質影響很小的結構擾動時,一個魯棒的預測器不應顯著改變其輸出。機器學習方法可能受到各種自然干擾的影響,如果這樣的干擾發生在一些安全敏感型行業(如醫療),后果可能是災難性的。如圖4所示,本文跟多個主流模型進行了對比。GLAM 的魯棒性很可能是由于在流程末端的模型集成。集成的主要思想是訓練幾個模型,通過平均得到最終的預測。擾動分子結構可能會影響單個預測器,但不太可能會顯著影響混合模型。更多關于魯棒性實驗的細節見論文原文。

表4. 魯棒性實驗

4 總結 本文提出了一種靈活的方法,可以適應任何數據集并做出準確的預測。所提出的方法采用自適應的自動機器學習流程從數據集中學習并得到一個高性能,高魯棒的預測器。在沒有任何人工干預的情況下,該方法在所有測試數據集上實現了比基于手工設計的的傳統方法更好的預測性能。此外,本文發現所提出的方法比傳統方法更魯棒。這是第一個為分子數據設計的自動圖學習方法。它的出現能夠為新出現的全新數據賦能,即使充分利用好這些新數據。

參考資料 Li, Y., Hsieh, CY., Lu, R. et al. An adaptive graph learning method for automated molecular interactions and properties predictions. Nat Mach Intell (2022). //doi.org/10.1038/s42256-022-00501-8

付費5元查看完整內容

作為新藥發現中最具挑戰性和創造性的階段,先導結構的發現和優化往往需要經歷成百上千個潛在活性分子的合成和測試,是藥物研發的關鍵瓶頸之一。藥物分子設計本質上是一個多參數優化問題,其目標是設計和發現具有某些理想屬性的新分子,因此如何生成新的分子結構及優化分子的關鍵屬性(如生物活性、成藥性、安全性、選擇性和可合成性等)是影響藥物設計成敗的兩個關鍵問題。據估計,類藥化學空間內中可探索的分子數高達1023至1060,在如此巨大的化學空間內如何進行分子結構的智能生成并進一步實現結構的快速演化是藥物分子設計面臨的巨大挑戰。

浙江大學智能創新藥物研究院&藥學院侯廷軍教授團隊、武漢大學陳曦團隊、中南大學曹東升團隊和騰訊量子實驗室聯合在《自然·機器智能》(Nature Machine Intelligence)發表論文“Multi-constraint molecular generation based on conditional transformer, knowledge distillation and reinforcement learning”,提出了一種多約束分子生成新方法MCMG,該方法可以高效地遍歷復雜的化學空間以尋找滿足多種性質約束的新型化合物,為先導結構的發現提供了功能強大的計算工具。

近幾年,多類基于人工智能(AI)技術的深度分子生成模型在復雜化學空間探索上展現出巨大的潛力,有望成為從頭藥物設計的關鍵技術,如循環神經網絡(RNN)、變分自動編碼器(VAE)、生成對抗網絡(GAN)和強化學習(RL)等。RL可用于微調生成模型的參數,以將自由參數空間引導至具有最佳目標函數值(例如生物活性)的集合。盡管 RL已被證實能夠找到一組高度多樣的生物活性分子,但它仍然需要大量的優化步驟才能通過獎勵訓練來學習這些模式。在之前的研究中,為了緩解這個問題并提升RL的效率,在RL操作之前首先使用遷移學習(TL)來快速聚焦化學空間中的某些區域。但TL的副作用是可訪問化學空間的顯著收縮,這使得模型容易陷入局部最優,這意味著生成的分子往往與 TL 訓練集中的化合物高度類似。

為了通過預處理生成模型而不影響其在多約束任務中輸出多樣性的同時,并提高分子生成模型輸出所需分子的效率,作者將Transformer、知識蒸餾(knowledge distillation)和RL結合提出了MCMG方法,并在平衡分子生成模型的收斂速度和輸出多樣性的挑戰性問題上取得了實質性的進展。該方法首先使用條件Transformer(c-Transformer)來構建生成模型;然后,采用知識蒸餾模型來降低模型的復雜度,并提升生成分子的多樣性;最后,通過RL對其進行微調。c-Transformer用于通過有效學習并將構效關系合并到有偏差的生成過程中來訓練分子生成模型;知識蒸餾模型可降低模型的復雜性,便于通過RL對其進行微調,并增強生成分子的結構多樣性。

圖1. MCMG方法的工作流程圖

MCMG模型對兩個多目標藥物分子生成任務的實際成功率分別達到89.26%和70.9%,與其他主流模型相比具有較大的領先優勢(REINVENT為72.8%,RationaleRL為51.7%),這表明MCMG對多目標分子生成具有非常優秀的性能,可以產生更多的成功分子結構,提供了一種高效的方法來遍歷大型復雜的化學空間以尋找潛在的候選藥物分子。

浙江大學智能創新藥物研究院&藥學院為本論文的第一署名單位,浙江大學智能創新藥物研究院和武漢大學計算機學院聯培博士生王極可和騰訊量子實驗室謝昌諭博士為共同第一作者,浙江大學侯廷軍教授、武漢大學陳曦教授、中南大學曹東升教授為共同通訊作者。

原文鏈接://www.nature.com/articles/s42256-021-00403-1

參考鏈接:

付費5元查看完整內容
北京阿比特科技有限公司