亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

近日,英國女王大學207頁博士論文介紹了NLP中的transformer、BERT、預訓練模型在蛋白質組學研究中的應用。作者考慮了人工智能和數據驅動分析的情況下,阻礙計算生物學應用中的障礙。在進行這種形式的研究時,有必要考慮所有可能對最終用戶有用的應用和實現(如生物標志物研究領域的專家),并要保證所研究的內容必須是新穎的,并與當前的生物學趨勢相關,以解決該領域的差距。

這個工作流介紹了蛋白質組序列分析的領域研究。重點是開發蛋白質序列處理技術,通過深度學習的其他子領域的最先進的方法進行增強建模。

多組學數據分析主要有兩個目標

  1. 了解疾病的發病機制和病因
  2. 提高我們預測、預防和治療疾病的能力(即轉化醫學)。

主要回答如下問題

  1. 對大量蛋白質組數據的DL模型進行預訓練,一旦它被微調到一組下游任務,它的整體性能會提高嗎?

  2. 當只有有限的標記蛋白質組學數據可用時,度量學習能否用于改進微調過程?

  3. 一旦DL模型被微調到下游任務,它能否用于識別氨基酸序列中與蛋白質功能相關的模式(即基序)?

所有這三個問題在每個章節都會討論。

在第三章中,深度學習已被證明是一種建模蛋白質特性的有用工具。然而,考慮到蛋白質長度的多樣性,很難有效的總結氨基酸序列。在許多情況下,由于使用固定長度表示法,有關長蛋白質的信息可能會因截斷而丟失,或者由于過度填充,模型訓練可能會很慢。

作者通過擴展用于表示蛋白質序列的原始詞匯表來克服這些問題。具體的,研究了子詞算法(Doc2Vec、BPE(Byte-Pair-Encoding))的使用,以生成各種詞匯表,并對每種算法產生的預訓練編碼在多種下游任務上進行了測試:四個蛋白質性質預測任務(質膜定位[plasma membrane localisation]、熱穩定性[thermostability]、峰值吸收波長[peak absorption wavelength]、對映體選擇性[enantioselectivity])以及在兩個數據集上的藥物靶點親和力預測任務。

本章中使用的子詞算法比之前預訓練的Doc2Vec模型提供了更好的整體性能。

第四章中,作者采用計算機視覺領域的方法,從最少的蛋白質組數據創建一個深度學習模型,將CNN和transformer結合起來,建立了一個最先進的磷酸化位點模型。還利用模型中transformer產生的注意圖來識別每個位點中的關鍵模式。

第五章,綜合評估了如何應用預訓練和度量學習來為一系列下游蛋白質任務開發最先進的結。具體的,作者采用triplet BERT對每個數據集的BERT模型進行微調,并評估其在一組下游任務預測上的性能:質膜定位、熱穩定性、峰值吸收波長、對映選擇性。

結果顯著改善了原始的BERT基線和之前針對每個任務的最先進模型,證明了使用triplet BERT在有限的數據集上優化如此大的預訓練模型的好處。

作為一種白盒深度學習,作者還可視化了該模型如何處理蛋白質的特定部分,并檢測改變其整體功能的關鍵修飾。

在最后一章的研究中,作者再次展示了預訓練的價值,通過使用兩個預訓練的BERT模型和一個圖卷積網絡,為一組藥物-靶標相互作用任務生成最先進的結果。

第六章,深度學習已成為檢測蛋白質磷酸化位點的創新工具。然而,負位點和正位點之間的不平衡使得深度學習模型難以準確地對所有位點進行分類。作者通過組合卷積操作和基于transformer的神經網絡(下圖DeepPS),以形成一個健壯的體系結構,以緩解不平衡位點的影響。

與之前的基線相比,不太可能過度擬合任何一類。

第七章,作者試圖利用一組BERT-style的模型,這些模型已經對大量蛋白質和藥物數據進行了預訓練。

然后,每個模型產生的編碼被用作圖卷積神經網絡的節點表示,而圖卷積神經網絡又被用于建模相互作用,而無需同時微調蛋白質和藥物的BERT模型來完成任務,結果顯著改進了基線方法以及每個任務數據集以前的最先進方法。

具體目錄如下

付費5元查看完整內容

相關內容

 機器學習的一個分支,它基于試圖使用包含復雜結構或由多重非線性變換構成的多個處理層對數據進行高層抽象的一系列算法。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

機器學習方法已經廣泛應用于藥物發現領域,使得更強大和高效的模型成為可能。在深度模型出現之前,建模分子在很大程度上是由專家知識驅動的;為了表現分子結構的復雜性,這些手工設計的規則被證明是不夠的。深度學習模型是強大的,因為它們可以學習問題的重要統計特征——但只有正確的歸納偏差。我們在兩個分子問題的背景下解決這個重要的問題:表征和生成。深度學習的典型成功在于它能夠將輸入域映射到有意義的表示空間。這對于分子問題尤其尖銳,分子之間的“正確”關系微妙而復雜。本論文的第一部分將重點討論分子表征,特別是性質和反應預測。在這里,我們探索了一種用于分子表示的Transformer式架構,提供了將這些模型應用于圖形結構對象的新工具。拋開傳統的圖神經網絡范式,我們展示了分子表示原型網絡的有效性,它允許我們對分子的學習性質原型進行推理。最后,我們在改進反應預測的背景下研究分子表示。本論文的第二部分將集中在分子生成,這是至關重要的藥物發現作為一種手段,提出有前途的藥物候選人。我們開發了一種新的多性質分子生成方法,通過首先學習分子片段的分布詞匯。然后,利用這個詞匯,我們調查了化學空間的有效探索方法。

//dspace.mit.edu/handle/1721.1/143362

機器學習已經迅速改變了藥物發現的傳統渠道,為過程的每一步提供了新的工具。許多傳統上需要廣泛、專業領域知識的問題已經通過深度學習工具解決,使它們更高效、更廉價。先前的化學信息學方法使用許多手工設計的規則來建模小分子。這些技術被用于解決諸如性質預測之類的問題,其中的任務是預測分子的性質。然而,試圖解決這些表示問題的傳統方法由于其不靈活的特性而缺乏良好的泛化能力。深度學習模型的變革性方面在于模型直接從數據中學習和提取重要特征的能力。然而,這只有在正確的結構偏差和模型基礎上的建模假設下才可能實現。在分子問題上天真地應用深度方法會限制模型的能力或有用性,阻礙它們的推廣能力和在實踐中的有用性。因此,利用正確的歸納偏差的重要性不能被低估。

在深度學習方法出現之前,分子建模需要繁重的工程和固定的表示,通常被稱為定量構效關系(QSAR)方法。在這些方法中,指紋技術是非常受歡迎的,大致可以分為基于結構的[30]、拓撲[1]、循環[8]和藥效團指紋等幾種類型[91]。其中一些指紋(如基于結構的MACCS[30]指紋)是高度特定的表示,由一組固定的預定義結構的指示函數組成。其他的指紋,拓撲的和圓形的,其中包括摩根指紋更靈活。這些指紋通過枚舉路徑或環形鄰域來捕獲局部拓撲。然而,問題仍然存在于生成方法的確定性本質中:如果這些預定義規則沒有為任務捕獲正確的表示,它們將不能很好地工作。例如,對于許多小分子問題來說,性質懸崖(property cliff)仍然是一個具有挑戰性的問題,這是一種類似分子表現出不同性質的現象。這個問題對于分子指紋尤其尖銳,因為特征是固定的。然而,使用深度模型也不能解決這個問題,因為深度模型很容易與數據過度擬合,并且提供較差的泛化。

因此,我們的深度學習模型納入正確類型的結構偏差是至關重要的。圖神經網絡通過迭代聚合方案進行操作,在每一步,節點從其鄰居聚合信息。依次,一個節點應該包含越來越多的關于更大的鄰域的信息。節點表示最終聚合為表示圖的單個向量。雖然這種簡單的范式有時是有效的,但可能并不總是包含正確的分子任務類型的偏見。例如,當考慮分子的特性時,這種局部鄰域聚集可能無法捕捉到很重要的遠程依賴關系。更重要的是,也許在二維分子圖上的聚集并不適合理想的分子表示,我們應該觀察三維結構。對于分子的深度模型的發展有許多考慮,但它們需要正確的結構才能有效。指紋表示很簡單,但不靈活,經常涉及很多人類設計的規則。另一方面,深度模型很容易過擬合,無法捕捉正確的結構表示。

付費5元查看完整內容

下一代測序技術已經將生物學領域推向了大數據時代,而計算技術的不斷進步現在已經使探索復雜的生物系統變得更加容易。然而,用傳統的機器學習算法來分析這種高度復雜的數據可能會很麻煩,因為這些技術需要相當多的特征工程。幸運的是,機器學習的一個子領域,即深度學習,最近已經顯示出克服這些問題的證據。這種算法最初被應用于基因組和轉錄組環境。然而,測序技術的進步已經使蛋白質組學成熟到深度學習現在是一個可行的選擇。這篇論文將主要考慮深度學習在模擬蛋白質的各種屬性方面的應用。

盡管深度學習解決了在分析Omic數據時遇到的一些初步問題,但在應用深度學習算法時仍然存在著一系列不同的挑戰。即使使用最新的方法,深度學習模型也常常需要大量的標記數據,而這些數據的獲取可能是高成本和耗時的。如果沒有足夠的數據量,那么與傳統機器學習算法相比,標準的深度學習方法往往表現不佳。另外,這些模型是黑盒算法,這給模型所產生的預測的解釋帶來了問題。

鑒于蛋白質內部的差異性,要有效地總結數據是很困難的,因為有關蛋白質的信息可能會因特征工程而丟失。在本論文的每個研究章節中,通過使用深度學習,我們解決了應用傳統機器學習來為蛋白質數據建模的缺點。在第一個技術章節中,我們首先使用了最先進的子詞編碼方案。我們證明,與標準基線相比,這些新的表征對預訓練更有利、更實用。在下一章中,我們更進一步,解決將深度學習模型應用于較小的數據集的問題。在此過程中,我們探討了如何利用度量學習來形成一個強大的模型架構,該架構能夠從少數標記的例子中學習并對蛋白質進行排名。之后,我們考慮了一種同時利用預訓練和公因子學習的方法,通過使用大型無監督網絡達到新的最先進水平。在這一章中,我們利用在大量蛋白質組學數據上預訓練的BERT模型,只用少量的數據對回歸任務的集合進行建模。我們采用三重網絡結構來為每個數據集微調BERT模型,并評估其在一組下游任務上的表現。所提到的前三個策略在各種下游任務上進行了測試:四個蛋白質特性預測任務(質膜定位、熱穩定性、吸收峰值波長、對映選擇性)。

此外,本論文還包括另外兩章,考慮了在對蛋白質數據建模時遇到的其他挑戰。這一章首先介紹了應用預訓練來提高磷酸化位點建模的最先進水平,使用了一個全新的基于卷積變換器的模型。我們在一般的磷酸化位點數據集和各種特定的激酶數據集上評估我們的方法。此外,為了強調這是一個白盒深度學習的例子,我們將模型的特征可視化,以獲得對每個站點預測背后的更好理解。

最后一個研究章節考慮了為蛋白質和藥物之間的相互作用建模的最先進方法。在這一章中,我們利用了一組BERT式的模型,這些模型已經在大量的蛋白質和藥物數據上進行了預訓練。然后,每個模型產生的編碼被用作圖卷積神經網絡的節點表示,該網絡反過來對相互作用進行建模,而不需要同時對蛋白質和藥物BERT模型進行微調來完成任務。我們在兩個藥物-目標相互作用數據集上評估了我們的方法的性能,這兩個數據集在最近的工作中曾被用作基準。

付費5元查看完整內容
北京阿比特科技有限公司