亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

科學文獻(如期刊文章和專利)一直是藥物化學家尋找特定化學反應或感興趣的合成方法的重要信息來源。目前,基于非結構化文獻中構建結構化數據庫的Reaxys和SciFinder已經成功投入商業化多年。這些數據庫通常是手工提取文獻內容,成本高、耗時長且專業知識密集,已經難以跟上科學文獻的指數增長速度。Regina Barzilay課題組設計了一個統一的結構化語義架構表征化學反應,將兩個深度神經網絡構建的“產物提取模塊”與“反應角色標簽模塊”結合,自動解析期刊文章中的化學反應并提取到與Reaxys和SciFinder數據庫一致的架構中。該數據為藥物化學家提供結構化的反應信息,并可直接用于計算機輔助化學、反應結果預測、反應條件篩選和自動合成設計等方面。該項工作近日發表于美國化學會出版的化學信息學權威期刊Journal of Chemical Information and Modeling【1】。 目前,化學領域的信息提取主要集中在命名實體識別(NER)和相關性質的提取上,如OSCAR和ChemDataExtractor。較少的工作針對化學反應的提取,NER有助于將化合物和文本聯系起來,由此開發了目前兩個代表性工具包ChemicalTagger和OPSIN。OPSIN基于ChemicalTagger的標記和解析輸出一組規則來識別產物。 理想的反應架構應該具有反應原料、結果、反應條件和后處理等足夠的信息來反映該化學反應,且架構簡潔明了。作者引入了一個統一的語義架構表征反應,包含作為中心因素的產物和八個相關的反應角色(反應物、反應類型、催化劑/試劑、加工試劑、溶劑、溫度、時間和產量)。使用ChemDataExtractor工具對從1906年至2016年在多種化學期刊上發表的200,000篇文章中的反應描述段落進行預處理(如句子切割、標記等)。隨后將所有預處理過的段落進行人工注釋工作,最終按照8:1:1的比例將語料庫分為訓練、開發和測試集。產物提取與反應角色標簽標記

基于以上的思路,作者提出的兩階段架構,即產物提取模塊和反應角色標簽模塊來提取反應。產物提取模塊從給定文本中識別所有可能的產物,再對每個產物的上下文中出現的反應角色進行標記,以輸入文本和給定的產物為條件,制定一個序列標簽任務,并最終構成化學反應。 在輸入中添加特殊標記,把目標產物告知Transformer編碼器,計算每個詞塊的隱藏表征,同時將每個單詞的第一個單詞片段作為條件隨機字段(CRF)的輸入用于序列標記的解碼器。使用“BIO”標記方案對所有剩余標記執行序列標記,以識別相關的反應角色。

圖1. 反應角色的提取與反應角色標簽標記

圖2. 反應角色提取的模型架構ChemBERT****和ChemRxnBERT預訓練

作者試圖減少對深度神經模型監督訓練的大量標記數據的依賴,采用pretraining-and-finetuning的范式來訓練產物提取和角色標簽模型。首先使用無監督目標在大規模無標簽文本上預訓練Transformer編碼器,然后在規模有限的特定任務標簽訓練數據上對其進行微調。因此,作者提出一個級聯的自適應預訓練方法,由兩個階段組成:領域自適應預訓練,產生一個針對化學領域的預訓練編碼器(ChemBERT);任務自適應預訓練,產生一個針對任務的預訓練編碼器(ChemRxnBERT)。這兩個產生的編碼器分別用于產物提取和反應角色的標記。 其中ChemRxnBERT的預訓練需要一個更有約束性的化學文本集,與目標任務更加一致。為了解決這個問題,作者使用產物提取模型作為文本檢索器,從整個化學文本空間中自動識別反應相關的數據,即選擇至少包含一個產物的句子。 最終,ChemBERT在F1上比報道過的BERT模型取得了10.27%的絕對改進,而ChemRxnBERT僅收獲2%的改進,原因可能是ChemRxnBERT是通過句子級的屏蔽語言建模來適應ChemBERT,若用更大的語言規模進行預訓練應該能有更優的表現。與Reaxys的比較

最后,將提取后的反應與人工構建的Reaxys數據庫進行了定性比較。例如圖3中的反應,最明顯的是“DMSO”被ChemRxnExtractor系統識別為溶劑,這符合文本描述。但Reaxys將“DMSO”歸為反應物,因為其確實作為硫源參與了這個反應。Reaxys報告的反應產率值是四舍五入的,與此相反,該系統設計為文章中精確數值。 但是,因為該系統提取的內容是基于有限的段落,無法提取前后文中的特定反應角色。如圖3中,Reaxys提供的反應時間、反應過程等信息,均在該系統中缺失。

圖3. ChemRxnExtractor提取與Reaxys中手動抽象的單一反應的簡單反應的比較 該自動化表征系統與額外的光學化學結構識別(OCSR)工具結合起來,進行化學實體的確認。如圖4,Reaxys往往會忽略失敗反應或副反應,該化學文獻系統能夠提取這些數據,給科研工作者提供更多的參考價值。 針對多步驟的反應(第一個反應的產物是第二個反應的原料),傳統的提取方法和該系統均無法處理,因此均未被收錄在Reaxys和該系統中。

圖4. ChemRxnExtractor提取與Reaxys中手動抽取CpFe(CO)2 SiMe3在與不同的反應物偶合時得到不同的結果的比較總結

該工作構建了一個從文獻中提取化學反應的自動化系統,該系統由建立在編碼器-解碼器的架構上的產物提取和反應角色標簽兩個單獨模塊組成,達到與現有人工收集的商業數據庫一樣的效果。該系統通過領域和任務相關的無標簽數據進行自適應訓練,使檢索到的句子與反應數據吻合,并能精確解析文本中復雜的產物-反應角色關系,但受文本內容限制容易出現區分催化劑和試劑的錯誤。未來,隨著反應描述更加公式化和該系統識別性能優化,該方法必將能更高效的提取日益龐大的期刊數據,也能側面啟示現有商業數據庫的功能提升與改進。參考文獻【1】Jiang Guo, A. Santiago Ibanez-Lopez, Hanyu Gao, Victor Quach, Connor W. Coley, Klavs F. Jensen, and Regina Barzilay. Automated Chemical Reaction Extraction from Scientific Literature. J. Chem. Inf. Model. 2022, 62, 9, 2035-2045.

付費5元查看完整內容

相關內容

本文介紹一篇來自浙江大學宋明黎教授課題組和侯廷軍教授課題組聯合發表的一篇文章。該文章提出了一種用于化學反應預測的緊湊的分子字符串表示。該方法基于分子的SMILES字符串表示和Transformer語言翻譯模型,通過在預處理階段對訓練集中的輸入輸出字符串進行對齊操作,來約束輸入與輸出之間的編輯距離并保證兩者的一一對應關系。這使得模型能從學習復雜的SMILES語法中解脫出來,而專注于學習與化學反應相關的化學知識。

1 研究背景 如何高效地設計有效的分子合成路徑是藥物設計與發現的一個重要研究領域。傳統的基于規則的分子合成專家系統往往需要大量的人工編碼規則。這種做法不但會受到規則的限制,而且隨著反應規則的增加,人工編碼規則的成本會越來越高,因此人們開始探索通過計算的方法來預測反應路徑。近年來隨著人工智能技術的興起,利用深度學習模型來進行反應預測成為了一種可行的方案。這些反應預測模型大體上可以劃分成兩類方法:基于選擇的以及基于生成的。基于選擇的方法將合成預測轉化成一個打分或分類問題,其目的是為了盡可能挑出可行的反應模板或目標分子來完成反應預測。這類方法由于在一定程度上引入了編碼后的化學知識,更容易完成反應預測,但都無法預測訓練集以外的模板或目標分子,這使得其難以泛化到復雜的實際應用中。基于生成的方法則可以緩解這一問題,因此如何提升基于生成的方法的效果成為了一個重要問題。

在當前基于生成的方法中,一種流行的計算模式是先將分子用SMILES字符串表示,再使用Transformer等自然語言翻譯模型來將反應預測建模成機器翻譯的問題。SMILES(simplified molecular-input line-entry specification)是一種根據分子圖的深度優先遍歷(depth-first traversal)而生成的分子的字符串表示形式,由于其本身的易讀性和易使用性,在反應預測領域得到了廣泛應用。由于SMILES是由深度優先遍歷而生成的,所以一個分子往往可以通過枚舉的方式,來獲得多個有效的SMILES表示形式,稱之為randomized SMILES。因此,一個化學反應通常也可以用多組不同的輸入輸出來表示,這作為深度模型的數據增強的一種手段而被許多模型所使用。但因為缺乏輸入與輸出之間明確的對應關系,這種數據增強實際上隱含了輸入和輸出之間的一對多關系,這使得計算模型不僅得掌握用于化學反應的相關知識,還得學習復雜的SMILES語法。盡管當前有一些標準化算法(canonicalization algorithm)可以將保證一個分子只能有一個canonical SMILES來表示,但這些標準化算法往往是針對單一分子而設計的,沒有考慮化學反應中反應物和生成物的SMILES之間的關系。因此通過這些算法而獲得的輸入輸出SMILES對,盡管保證了輸入和輸出的一一對應關系,但往往使得輸入和輸出之間較大的編輯距離(edit distance),最終導致了模型的搜索空間過大;同時這些算法也使得模型無法枚舉SMILES來進行數據增強來緩解模型的過擬合問題。

如圖1所示,與前人使用的randomized SMILES和 canonical SMILES不同,本研究提出的Root-aligned SMILES(R-SMILES),通過將輸入和輸出的根原子進行對齊的方式,不僅保證了輸入和輸出之間的一一對應關系,也大大約束了輸入和輸出之間的編輯距離,使得兩者之間高度相似。這些性質使得模型從學習復雜的SMILES語法中解脫出來,并專注于學習化學反應相關的化學知識。作者將R-SMILES應用到Transformer模型上,在正向反應和逆向反應的多個反應預測任務都進行了實驗,都取得了當前最先進的效果。作者還通過可視化Transformer模型中的交叉注意力,來進一步證明模型掌握到了想要的化學反應知識。此外,作者還證明了R-SMILES相比于以往的SMILES表示,在復雜反應(如手性反應)上更加具有優勢。最后作者通過讓模型預測了多條文獻中切實存在的多步反應路徑,來闡述在該方法在復雜的現實場景中的應用潛力。

圖1. 在逆向反應預測中基于不同的分子表示的輸入和輸出的對比。

2 實驗方法 實驗任務 作者在反應物到生成物、生成物到反應物、生成物到合成子、合成子到反應物等多個化學反應預測任務上都進行了實驗。為了簡化,將反應物(Reactant)簡寫為R,生成物(Product)簡寫為P,合成子(Synthon)簡寫為S,對應的反應預測任務也簡寫為P2R,R2P,P2S,S2R等。

數據集 本研究中使用了三個公開的分子反應數據集:USPTO-50K,USPTO-MIT與USPTO-FULL,這三個數據集分別包括大約50,000、400,000、1,000,000條反應數據。作者是用了與前人相同的數據劃分方式來保證對比的公平性。考慮到現實場景中往往無法獲知反應類型,在本研究中進行的所有實驗都不包括反應類型的信息。

R-SMILES 在逆向反應的P2R階段中,獲得R-SMILES的流程如表1所示,其中包含以下主要步驟:(1)隨機挑選一個帶有原子映射的反應SMILES作為原始數據;(2)在生成物SMILES中隨機挑選一個原子作為根原子,在表1中挑選了[Cl:8]作為根原子;(3)根據挑選的根原子,獲得一個新的生成物SMILES(4)移除生成物SMILES中的原子映射信息。(5)從左往右遍歷新的生成物SMILES的原子映射,如果該原子映射在某一個反應物分子的SMILES中出現,那么這個原子映射就作為該反應物SMILES的根原子。在表1中,[C:1]和[Cl:8]被選為兩個反應物分子的根原子;(6)根據新的根原子,獲得新的反應物SMILES;(7)將(4)和(6)中獲得的反應物和生成物的SMILES進行字符劃分,獲得模型最終的輸入和輸出。逆向反應的P2S階段的根對齊操作也與此類似。對于逆向反應的S2R階段,作者將生成物和合成子拼湊在一起作為模型的輸入。為了最小化輸入和輸出之間的編輯距離,作者將具有一一對應關系的合成子和反應物之間進行根對齊操作,而生成物則是向最大的合成子對齊。在正向反應的R2P階段,作者將生成物向最大的反應物進行對齊。 表1. 在逆向合成的P2R階段進行根對齊操作

3 實驗結果 使用R-SMILES后的編輯距離 表2. 有無根對齊下的編輯距離比較。Datasetxm::m為數據增強的倍數。Pro.:生成物SMILES。Rea.:反應物SMILES。

作者首先分析了在有無根對齊操作下,對于逆向預測的P2R階段的輸入輸出之間的編輯距離的變化。編輯距離指的是由一個字符串通過增加、修改、刪除字符來獲得另一個字符串所需要的操作數。可以看到與canonical SMILES對比時(即不進行數據增強的情況),使用R-SMILES后在三個數據集上編輯距離分別下降了21%、21%和16%。而在與randomized SMILES對比時(即進行數據增強的情況),R-SMILES減小編輯距離的效果變得更加顯著。在USPTO-50K數據集上進行5倍數據增強時,在使用R-SMILES后編輯距離保持不變,而不使用R-SMILES時編輯距離從17.9增長到了28.3,甚至達到了使用R-SMILES后的編輯距離的兩倍以上。

表3. 在USPTO-MIT數據集上R2P階段的top-K正確率。

表4. 在USPTO-50K(上)、USPTO-MIT(中)、USPTO-FULL(下)數據集上的P2R階段的top-K正確率。

與其他先進方法的比較 作者在這里主要選擇了top-K正確率來與其他方法進行比較,top-K正確率代表的是預測的前K個結果中出現正確結果的百分比。

**正向反應預測:**作者在兩種不同的實驗設置“separated”和“mixed”下進行了實驗。這兩種實驗設置的區別是是否在輸入的反應物中區分出試劑。如表3所示,可以看到無論是在哪一種實驗設置下,作者所提出的方法在除了top-1之外的所有正確率都取得了最好的效果。

逆向反應預測:作者在三個數據集上都進行了實驗。實驗證明,在數據量較小的USPTO-50K數據集上,作者提出的R-SMILES的方法在同類別的無模板(template-free)和半模板(semi-template)方法中的多個top-K正確率都達到了最先進的效果,其中無模板的方法甚至取得了與基于模板(template-based)的方法相媲美的效果。在數據量更大的USPTO-MIT和USPTO-FULL數據集上,作者的方法不僅在同類方法中取得了最先進的效果,且也大大優于基于模板的方法。在這里作者指出,在較大的數據集上,基于模板的方法的準確率會隨著模板數量增多而下降,同時也無法覆蓋測試集上的模板,最終導致了較低的準確率。

注意力可視化 作者進一步展示了在分別使用canonical SMILES和R-SMILES情況下訓練出來的模型進行逆合成預測時的注意力可視化的對比。作者隨機從測試集中挑選了四個分子的canonical SMILES作為輸入,并將Transformer的交叉注意力進行可視化,結果如圖2所示。在圖2a中,作者指出對于使用canonical SMILES訓練的模型,當輸入和目標輸出是高度相似的情況,模型可能可以捕捉到兩者之間的對齊信息并做出正確的預測,但對于每一個輸出的字符而言,都需要過分地關注于SMILE語法相關的字符,如‘)’,且這一現象存在于所有基于canonical SMILES所獲得的注意力圖中。而基于R-SMILES所獲得的注意力圖則不存在該現象,同時也做出了正確的預測。在圖2c中,盡管輸入和目標輸出是高度相似的,但基于canonical SMILES訓練的模型則給出了一張無序的注意力圖并做出了錯誤的預測。作者認為這表示了其捕捉對齊能力的不足。而對于圖2e, g中的輸入和輸出并不相似的反應,基于canonical SMILES訓練的模型再次給出了無序的注意力圖并且預測失敗。而基于R-SMILES的訓練的模型,對于這三個反應則成功地給出了有序的注意力圖并預測出了想要的R-SMILES。作者認為這些結果都說明了R-SMILES使得模型能夠專注于反應的化學知識,最終達到提高模型的預測準確性的目的。

圖2. 由canonical SMILES(左)和R-SMILES(右)所獲得的注意力可視化。

圖3. 在復雜反應上的top-10逆向反應預測正確率。(a) 根據新增原子數的正確率;(b)在反應有無手性時的正確率。

對復雜反應的正確率提升 新增原子數量:在圖3a中,作者指出,無論新增原子是多少,在使用R-SMILES的情況下總能取得更好的效果,而且這一提升會隨著新增原子數量的增多而增大,尤其是對于數據量較少的情況。這是因為R-SMILES減少了輸入和輸出之間的差異后,模型能夠更多地專注于新增的片段。

手性反應:手性是在立體化學中一項重要的分子屬性。在圖3b中可以看到,在不使用R-SMILES的情況,手性反應的正確率明顯低于沒有手性的反應的正確率(下降13.3%),而在使用R-SMILES后這一差距大大縮小(下降4.3%)。作者指出R-SMILES在兩方面上幫助了手性反應的預測正確率的提升:(1)這是由于手性反應的編輯距離減小的程度更加顯著;(2)對于USPTO數據集,進行R-SMILES對齊后的手性標志在反應前后往往是一致的,這大大降低了模型的學習難度。

多步逆合成反應預測 作者通過迭代使用基于R-SMILES訓練的逆合成預測模型,成功地復現了多種分子在文獻中報告的逆合成路徑,進一步驗證了方法的有效性。其中對于抗痛風藥非布索坦,作者除了復現了文獻中報告的逆合成路徑之外,還通過模型預測,提出了一條潛在的新的合成路徑,如圖4a所示。作者分別從產率和價格上分析了這兩條路徑:(1)作者指出第二條路徑中使用的硼酸酯,相比于第一條路徑的硼酸有更好的熱穩定性,且硼酸頻哪醇的引入可以有效地減少副反應的產生,即可以有效地提高產率;(2)在Reaxys數據庫中可以發現,第二條路徑的原材料相比于第一條路徑要便宜得多,因此作者認為他們的方法可能為非布索坦提出了一條更好的合成路徑。

圖4. 由R-SMILES訓練的模型所提出的多步逆合成預測路徑。

4 總結 本文提出了一種用于反應預測的新的分子表示形式R-SMILES,這一方法可以大大縮小輸入和輸出之間的編輯距離并保證輸入和輸出之間的一一對應關系。基于這一方法的Transformer模型能在當前主流的公開數據集USPTO上取得最先進的反應預測效果。作者還進一步展示了這一方法在復雜反應、多步逆合成預測上的效果來驗證方法的有效性。文章最后作者也指出R-SMILES可以與當前已有的自動化原子映射工具如Indigo、RXNMapper等相結合,應用到沒有原子映射的其他數據集上。這些結果表明對于反應預測而言,R-SMILES是一種更為合理的分子字符串表示形式,有望能幫助到相關領域的研究人員。

參考資料 Root-aligned SMILES: A Tight Representation for Chemical Reaction Prediction. Chem. Sci. 2022. DOI: 10.1039/D2SC02763A

付費5元查看完整內容

編譯 | 王建民 導讀

現代有機化學的大多數實驗都需要事先用文獻中的程序來制備反應物。將最常見的此類程序自動化可以為研究界節省大量的時間,同時也有利于眾包的優化。Rohrbach等人將100多個流行的協議翻譯成可在合成機器上執行的格式,然后他們對其中的一半進行了實驗驗證。作者還建立了一個開放的數據庫,新的可執行協議可以被添加到其中。 ——JSY

盡管潛力巨大,但合成化學的自動化在過去幾十年中才取得了漸進式的進步。研究人員提供了一個包含 100 個分子的自動可執行化學反應數據庫,這些分子代表了當代有機合成中發現的反應范圍。這些反應包括過渡金屬催化的偶聯反應、雜環形成、官能團相互轉化和多組分反應。反應的化學反應代碼或 χDLs 已存儲在數據庫中,用于版本控制、驗證、協作和數據挖掘。這些合成中,已下載數據庫中的 50 多個條目,并在七個模塊化 ChemPU 中自動運行,其產率和純度與專業化學家所達到的相當。

要復現一個已知的化學反應,必須從文獻或數據庫中獲得協議,這樣才能在實驗室中手動運行它。然而,并不是所有的文獻或數據庫條目都能被輕易復現。這不僅是合成新分子的障礙,也是為機器學習積累高質量數據的障礙,而且由于沒有公開的程序編碼標準,也沒有廣泛報告和糾正失敗實驗的方法,這就更加嚴重了。一個能夠明確捕捉和編碼化學合成協議的方法,供一個自動化系統使用,并具有類似于軟件的版本控制能力和記錄失敗的實驗,將改變這個領域。目前,有機合成需要密集的、高度熟練的勞動力,一個典型的合成可能需要多個復雜的單元操作,這些操作很難明確編碼。這是因為所需的隱性知識往往取決于上下文,導致發表的文獻中存在模糊不清的地方,限制了可重復性、自動化或數據挖掘。這些限制在一些特定領域已經被克服,如寡肽、寡糖和寡核苷酸化學,近年來在更廣泛的化學反應自動化方面也取得了很大進展。然而,大多數自動化合成化學平臺仍然是針對特定任務的,或者是代表手工工作流程中的自動化島嶼,但即使這些平臺也有定制的指令集,它們之間或與文獻之間沒有簡單的語義聯系。為了充分挖掘化學合成中自動化的潛力,確保程序的可重復性,需要在兩個方面取得進展。首先,需要一個真正通用的自動化平臺,可以執行所有的單元操作;其次,一個標準化的、精確的語法來描述這些化學過程,對于可靠地捕捉特定化學過程的所有關鍵細節至關重要。這樣的代碼也必須獨立于自動化所采用的硬件類型,從而被編譯成可以在任何兼容的硬件系統上完美地工作。

研究人員開發了一個工作流程的設計、構建和驗證,該流程允許將化學合成文獻從手工操作捕捉到完全描述的通用化學描述語言(χDL),并在化學處理單元或ChemPU中自動運行。在ChemPU上運行χDL的過程稱之為chemputation(類似于計算),是將代碼和試劑可靠地轉換為產品。研究人員不僅展示了χDL可以被編譯到許多不同的ChemPU配置上運行,而且還展示了χDL語言編碼各種合成程序的能力,這些合成程序是有機化學工具箱的代表。總的來說,103個不同的化學反應已經從文獻中轉化為可靠的χDL代碼,其中53個程序已經在硬件上得到驗證,其產率和純度與文獻中的相當。這種合成產量的提高在早期版本的ChemPU中是不可能的,因為它不能使用χDL。這也標志著與χDL的原始論文相比,經過驗證的χDL程序的數量有了很大的提高,也證明了本文所采用的硬件的可靠性提高了。研究人員為目前的103個條目設計并建立了一個名為Chemify的χDL數據庫,預計這個數據庫將迅速擴大;任何人都可以在合適的硬件上運行和驗證該數據庫。這些χDL詞條不僅可以在其他自動合成平臺上實現,而且可以根據需要生成材料,還可以收集統計數據,并在需要時提出新版本。除了直接重復驗證過的程序外,每個χDL的底物范圍可以通過改變底物和調整反應的關鍵參數--如溫度或時間--而保持工藝的其他部分不變來逐步擴大。由于我們是根據流行程度來選擇反應的,因此所產生的一套經過驗證的χDL涵蓋了大量的常見反應,構成了整個有機合成工具箱自動化的一個入口。此外,通過執行53個高度多樣化的化學程序,ChemPU的硬件和軟件被推向了極限,并展示了通向完全通用性的道路。為此,在硬件庫中加入了一個支持χDL的閃蒸柱色譜系統,取得了關鍵的進展。這意味著ChemPU不僅可以進行反應、加工和濃縮,還可以對產物進行色譜分離,直接按要求提供純化的化合物。為了實現這一目標,研究人員表明該平臺可以以動態的方式做出反應,對產品的檢測做出反應,收集適當的餾分。

圖1說明了從文獻程序到研究人員的Chemify數據庫中的驗證條目的工作流程。與早期的χDL工作相比,研究人員的重點不是將原始程序文本準確地翻譯成χDL,而是實現一個提供目標分子的化學過程。遵循這種方法,不僅可以重現文獻,而且還可以在一些情況下改進過程。化學反應可以在χDL中得到體現,它將合成步驟表現為物理過程的序列,如添加、溶解、蒸發等。χDL框架內目前有44個步驟,每個步驟都有一套完全可定制的參數。所有有機合成中常用的任務都有一個模板式的χDL步驟來表示,如EvacuateAndRefill用來建立惰性氣氛,Separate用來進行液-液分離和提取。χDL步驟有助于對過程進行精確的描述,并消除任何含糊不清的地方,如排空和惰性氣體再填充的周期數或過程關鍵的添加速度。為了實現這一目標,研究人員使用了基于網絡的化學開發環境(ChemIDE),通過提供文本到χDL的翻譯工具,幫助快速生成χDL程序。它通過使用一個包含所有可用χDL步驟的模板庫和一個編輯器來工作,其中各個χDL步驟被表示為圖形元素,可以根據需要進行編輯和安排。ChemIDE被用于生成本工作中詳述的所有χDL程序。

用χDL表達一個化學過程并不能立即解決原始文獻說明中存在的信息缺失或含糊不清的問題,但它確實提供了一個明確的途徑來關閉它。要做到這一點,可能仍然需要一些工藝開發和迭代,以使產量和純度最大化。在對來自ChemPU執行χDL代碼的目標化合物進行適當的分析[NMR、LC-MS或GS-MS后,對產品的質量和純度做出評估。如有必要,對χDL進行改進,以提高產率和純度,然后再次執行。χDL的主要優點是,一旦一個成功的工藝被編碼,所有后來的用戶在兼容的硬件上執行該代碼,都可以得到相同的結果,而不需要再進行工藝開發。在合格的硬件上執行流程所需的所有關鍵知識,包括有形的和無形的,現在都在χDL中了。在這個階段,該協議可以作為一個經過驗證的工藝添加到數據庫中,并由目標產品的全部特征和工藝開發歷史作支持。包含工藝發展歷史是Chemify數據庫的一個突出特點;通過顯示不太成功的實驗結果,并與最終的成功運行進行對比,工藝的關鍵方面被突出,并可以被量化。

Chemify數據庫持久地保存了χDL程序、實驗結果和相關分析的信息。它是一個本地托管的PostgreSQL數據庫服務器,包含上述所有經過驗證的χDL腳本,可以通過ChemIDE(基于網絡的χDL開發環境)或使用基于Python 3的API進行自動數據庫查詢來訪問。此外,為了滿足終端用戶的體驗,ChemIDE配備了顯示每個實驗的特征參數,如產品規模、產率、狀態(翻譯、驗證、失敗)和過程持續時間。用戶可以提交、搜索、下載和復制可信的合成。該數據庫包含最終驗證的合成腳本以及以前的開發版本,這些腳本可能在不同程度上起作用,提供的所需產品產量較低,純度不足,或者由于對自動化的必要工藝參數描述不足或不正確而導致工藝失敗。將失敗的或產量較低的實驗與某一特定反應或反應類別的成功嘗試進行比較,可以揭示出工藝的關鍵方面。此外,數據庫還包含已經翻譯過但尚未在合適的自動化平臺上執行的χDL條目。對未驗證的χDL文件感興趣的用戶可以訪問這些文件,并可以選擇驗證它們。這里報告的χDL程序已經在ChemPU上進行了驗證,ChemPU是一個化學自動化平臺,模擬臺式化學家的手工操作。雖然操作上簡單直觀,但嚴格的實施意味著該平臺作為一個有限狀態機運行(圖2)。它可以處于有限數量的狀態之一,并根據明確定義的操作從一個狀態過渡到另一個狀態。這些操作由程序--χDL合成協議--以及傳感器反饋[如溫度、電導率、壓力或紫外線(UV)吸收率]定義。χDL合成指令與狀態轉換或 "單元操作 "的直接映射,突出了χDL合成過程的嚴格抽象性。此外,χDL程序中對狀態轉換的明確定義對于確保χDL合成的可重復性至關重要,包括在ChemPU的不同布局和可能完全不同的合格硬件設置上。

ChemPU狀態機由三個邏輯部分組成:物理輸入或輸出(I/O)、數字I/O和處理單元。處理單元可以根據ChemPU的初始條件或物理和數字I/O的組合,即由傳感器定義的當前條件、過程變量和正在執行的χDL步驟,在幾種狀態中轉換。根據調度器,χDL步驟的執行會產生一個新的狀態,在以后的步驟中采取行動,并導致物理I/O的物理變化,例如,試劑位置的變化、溫度的變化、液-液分離中的相界,或色譜過程中的洗脫峰。調度器求助于硬件的圖形表示來解釋χDL腳本并協調硬件的協同任務。抽象層定義了作為節點的硬件設備的位置和連接,并包含每個節點的具體信息,如有關設備的IP地址和溫度限制。圖文件連同χDL文件可以編譯成一個執行文件,該文件是針對平臺的。將化學過程的描述嚴格分離到χDL文件中,將硬件平臺的描述嚴格分離到圖形文件中,可以確保χDL文件保持與平臺無關。這也使得平臺的設計方式和具體的物理布局具有靈活性。這意味著每個χDL都可以被版本化和編譯以在任何合適的平臺上運行,而且ChemPU系統具有高度的模塊化、靈活性和可擴展性(圖3)。

通過反映批量合成化學的單元操作,ChemPU代表了一個通用的、可編程的硬件平臺,用于執行之前展示的合成化學。由于該平臺的模塊化性質,它可以隨時擴展,各個模塊通過液體處理主干網連接,類似于傳統計算機的總線。與液體處理主干網(由泵和閥門組成)的連接是通過單片柔性管進行的,這使得模塊可以很容易地被拆卸下來進行維護或重新安排以優化操作。液體處理主干由一系列注射器泵和閥門組成。一個典型的主干系統由六臺組成;然而,主干系統可以隨時收縮或擴展,以適應所需化學過程的要求。閥門有六個位置,每個有七個端口。液體處理主干網中的每個閥門都與一個泵、其最近的相鄰閥門和一個廢物容器相連,并且可以與三到四個不同的試劑、溶劑或硬件模塊相連。各個模塊與主干網的連接以抽象的方式用上述圖形來表示。主干網的清潔是通過自動清潔程序進行的,該程序可由用戶定義,以說明不同程序后存在的不同類型的污染。除了液體處理主干,用于執行此處報告的合成的ChemPU系統還包括一個反應模塊,由一個通過以太網-串行轉換器控制的標準熱板、一個用于液-液萃取的分離器,配備了一個用于攪拌的頂置攪拌器,以及一個用于相界檢測的電導率傳感器;它還包括一個用于產品沉淀和重結晶的夾套過濾器、一些試劑瓶、一個旋轉蒸發器,以及一個可選的色譜系統。 ChemPU的文獻程序進行驗證

通過chemputation的抽象,χDL語言和ChemPU平臺,研究人員著手翻譯有機化學工具箱中的典型反應并使之自動化。有機化學包含了種類繁多的轉化過程。盡管種類繁多,但大多數反應都可以用少于10個類別進行簡明的分類。一些研究已經分析了不同領域的反應頻率,如藥物化學、工藝化學和全合成。在合成中使用的反應類別的分布有一些明顯的差異,這取決于主要目標;例如,藥物化學研究人員可能更喜歡過渡金屬催化的C-C鍵形成反應,這可以方便地產生大量的相關化合物用于生物檢測,而現代全合成更依賴于精心設計的成環反應,以盡可能少的步驟組裝復雜的分子骨架。

此外,盡管保護基化學是某些合成領域的基石,如多肽合成或碳水化合物化學,但從事全合成的研究人員往往喜歡更優雅的無保護基方法。盡管有微小的差異,這些類別體現了現代有機化學的各種工具箱。為了用所有類型的反應的例子來表示這些類別,研究人員選擇了翻譯這些程序的χDLs,并用ChemPU進行驗證(圖4)。碳-碳鍵形成反應類別被進一步分為過渡金屬催化反應和無過渡金屬反應。此外,還引入了一個單獨的多組分反應類別,因為這些反應通常在一次合成操作中完成多種化學轉化。最初的反應是從《有機合成》雜志中被引用最多的論文中選出的。這本雜志在有機化學領域很有名,因為它發表了一些實用的方法,用于合成著名的化合物或執行重要的合成方法,而且提交的程序至少被獨立于提交原始合成方法的化學專家重復過一次。盡管該雜志的程序一般都有很高的詳細程度,但仍需要進行一些程序開發,這突出說明了用非結構化的散文格式捕捉所有必要信息的難度,而不是χDL。從《有機合成》中選擇這些高引用率的論文涵蓋了最主要的反應類別,但分布不均。因此,研究人員從著名的文獻來源中手動選擇了更多的例子,以使數據集對有機化學工具箱有更均衡的表述。

ChemPU上各種反應的自動化

該系統對濕氣敏感或高活性的試劑具有耐受性,如銅介導的氨基甲酸酯的炔化反應中使用的雙酰胺鉀(KHMDS),甾體雌酮的Friedel-Crafts烷基化反應中使用的三氟化硼,或Fischer吲哚合成6中使用的Eaton試劑。此外,需要惰性氣氛的反應也在該平臺上成功執行,包括在鈀催化下進行對映選擇性卡羅爾重排。ChemPU平臺上有效地執行了高達90毫摩爾規模的程序。方便的是,一旦產生了χDL腳本,一個特定的反應可以在可用的容器尺寸和化學過程的限制下放大或縮小。該平臺上還成功執行了生成多組分和級聯反應產生的更復雜產品的χDL程序。

擴大基底范圍

通過使用ChemPU生成化合物庫,可以擴大驗證過的χDL程序的底物范圍。一個特別有吸引力的前景是利用經過驗證的χDL程序來構建用于生物篩選的大型化合物庫。這樣的化合物庫可以很方便地通過改變起始材料來獲得,而不需要對合成腳本進行重大修改;也就是說,一旦建立了一個程序,它就可以作為一個一般程序應用于許多不同的底物,只需要改變關鍵參數,如底物、反應溶劑和反應時間。為了做到這一點,研究人員在ChemPU上同時執行多個或 "多線程 "反應,使用來自兩個不同的異氰酸酯和兩個醛的反應物組合,得到四個結構相關的α-氨基酰胺產品。進一步擴大所使用的反應物集將迅速擴大生成的產品數量,并允許迅速生成更大的庫。

ChemPU合成的可重復性

為了檢查執行策劃的χDL程序的一致性和可靠性,研究人員著手在ChemPU平臺上多次重復相同的反應方案。丙二酸酯的烷基化被選為可重復性研究的合適反應,因為準確的溫度控制和添加速率是該過程成功的關鍵。在最初的工藝開發后,獲得了經過驗證的χDL程序腳本,并在12次嘗試運行中成功復制了10次反應協議。兩次失敗是由于在液-液分離過程中相界測定不正確造成的;產品本可以通過手動重啟系統來恢復,但這里沒有這樣做。最重要的是,經過策劃的χDL程序可靠地提供了產品,其產率和純度都很一致。加上生成化合物庫的能力,ChemPU可用于自動生成同一材料的多個批次或在初始協議建立后用不同底物重復同一反應的高度重復性工作。

ChemPU上進行全自動純化

對反應中的產物化合物進行色譜分離是中小型有機合成的首選純化方法。許多市售的色譜系統可以幫助實驗室的化學家進行色譜分離。然而,這些系統仍然需要大量的用戶互動。例如,粗制材料必須手工裝入色譜柱,產品餾分必須手工識別,從餾分瓶中洗出,然后合并。此外,這些商業系統需要用戶在幾個不同的階段進行互動,從而將化學家與實驗室捆綁在一起,即使只是把樣品裝到柱子上這樣的瑣碎任務。為了將Buchi Pure C-815色譜系統與ChemPU整合在一起,研究人員建造了兩個輔助硬件單元:一個允許在系統上預裝不同色譜柱的色譜柱轉盤和一個餾分托盤的擴展。后者允許ChemPU回收產品餾分。第一個具有挑戰性的自動化操作是將樣品加載到柱子上。基于實驗室的化學家通常會在干式裝載和液體注入樣品之間做出選擇。研究人員的目標是實施液體注射法,這與ChemPU的液體處理主干很好地結合在一起;此外,液體注射的樣品裝載方法需要很少的過程開發,只需要確定一個合適的溶劑混合物和體積來溶解粗制材料。正相色譜全自動化的第二個挑戰是如何可靠地選擇產品峰。通常情況下,化學家需要在色譜分離后通過薄層色譜、質譜或核磁共振分析各個餾分。對于ChemPU集成的模塊,我們考慮了幾個備選方案。我們發現,考慮洗脫餾分的紫外/可見光反應或彈性光散射檢測器的信號,并在指定的信號軌跡下選擇具有最大曲線下面積的峰,是可靠性和靈活性的最佳權衡;對于一個給定的性能良好的反應,可以正確識別產物峰,而不考慮確切的保留時間。此外,這種方法不依賴于更復雜的產物鑒定,如質譜或核磁共振。

然后ChemPU控制器進行峰值檢測并觸發色譜機的餾分收集機制。控制器還跟蹤餾分瓶的填充水平和各種運行參數,如背壓積聚、溶劑蒸汽水平、梯度溶劑和溶劑廢液桶的溶劑水平。如果這些參數中的任何一個超過了規定的閾值,就會啟動一個適當的錯誤處理程序,以可控的方式暫停色譜分離。當分離運行完成后,產品峰被識別并轉移到下一個模塊。粗制材料通常從旋轉蒸發儀轉移到色譜模塊,然后將純化的產品從色譜模塊轉移回旋轉蒸發儀,因此旋轉蒸發儀燒瓶需要在兩者之間進行清洗。因此,已經實現了對純化產品的目標容器的可選清洗程序,并且可以在色譜分離過程中進行。綜合色譜分離法被用于三個反應。這些色譜分離的過程已經被χDL記錄下來,以簡明易懂的方式說明了每一個細微的關鍵細節。因此,在另一個ChemPU或同等的系統上,甚至用市面上的色譜機手動復制色譜分離是很容易的。

Outlook

研究人員已經展示了如何將化學合成文獻輕松轉換為通用的化學代碼,可以在任何能夠進行化學合成的機器人上運行;這方面的唯一要求是一個批量反應器、一個分離器、蒸發器和純化系統。這意味著,潛在的許多不同的機器人方法將能夠使用相同的χDL代碼,產生相同的結果。χDL Chemify數據庫的使用不僅有助于復制已發表的程序,而且還為社區提供了豐富的驗證數據,可用于最先進的機器學習,以實現反應優化、合成路線規劃、提高安全性和減少合成的環境影響,同時大大減少化學家重復著名程序的勞動。 參考資料 Authors:Simon Rohrbach; Mindaugas Siauciulis; Greig Chisholm; Petrisor-Alin Pirvan; Michael Saleeb; S. Hessam M. Mehr; Ekaterina Trushina; Artem I. Leonov; Graham Keenan; Aamir Khan; Alexander Hammer; Leroy Cronin DOI:10.1126/science.abo0058

付費5元查看完整內容

在化學中,一般用IUPAC命名法、分子式、結構式、骨架式等形式來表示一個分子,然而這些形式最初是為人類而不是計算機設計的。為了便于計算機理解和利用分子,MRL被提出,MRL將分子映射到低維空間,表示為稠密向量。分子的學習向量(又稱嵌入)可用于廣泛的下游任務,如化學反應預測、分子性質預測、分子結構預測等。

研究人員已經提出了許多MRL方法,其中大部分都將SMILES字符串作為輸入,盡管這些語言模型功能強大,但它們卻很難從SMILES中學習到分子的原始結構信息,因為SMILES是分子結構的一維線性化。而GNN在處理分子表示中局限于設計新穎精致的GNN結構,忽略了MRL的本質——泛化能力。這激勵了作者探索GNN架構之外的方法。

在本文中,作者使用化學反應來協助學習分子表征,提高其泛化能力。化學反應通常由化學反應方程式表示,反應物在左側,生成物在右側,例如乙酸和乙醇的費希爾酯化反應。作者的想法是保持分子在嵌入空間的等價性。更重要的是,當分子編碼器是以總和作為readout函數的GNN時,該模型能夠自動隱式地學習同一類別內一組化學反應的反應模板,學習反應模板是提高分子表征泛化能力的關鍵。

作者將該模型稱為MoLR(chemical-reaction-aware molecule embeddings,化學反應感知的分子嵌入)。并且將可視化分子嵌入,表明它們能夠編碼反應模板和幾個關鍵的分子屬性,如分子大小和最小環的數量。

付費5元查看完整內容
北京阿比特科技有限公司