“我們很高興發布一種在PubMed上訓練的新生物醫學模型,這是構建可支持生物醫學研究的基礎模型的第一步。”——CRFM主任Percy Liang
近日,斯坦福基礎模型研究中心(CRFM)和MosaicML聯合開發了PubMed GPT模型,一種經訓練可以解釋生物醫學語言的大型語言模型。
目前的大型語言模型(LLM)通常使用于自然語言合成、圖像合成及語音合成等,而已知在特定行業的應用很少。本文所要介紹的PubMed GPT即展示了特定行業大型語言模型的能力,尤其在生物醫學領域。通過MosaicML云平臺,CRFM的開發者在PubMed的生物醫學數據集上訓練了一個生成式預訓練模型(GPT)。結果表明,特定領域的語言生成模型在實際應用中將會有很好的發展前景,同時,LLM也展現出更加優秀的性能和競爭力。注意:目前此模型僅用于研究開發,不適合生產。
PubMed GPT 模型。PubMed GPT 2.7B基于HuggingFace GPT模型,具有2.7B的參數和1024個標記的最大上下文長度。盡可能簡單的設計展示了現有LLM訓練方法的強大功能。
數據。采用Pile數據集的部分——PubMed Abstracts和PubMed Central。
計算。開發者選擇在50B的令牌上多次訓練PubMed GPT,達到一個較長的計算周期(300B)。結果表明,在數據受限的情況下仍可訓練出優秀的LLM模型。
MosaicML云平臺 MosaicML云。基于MosaicML云軟件棧,開發者在具有128個NVIDIA A100-40GB GPU、節點間1600Gb/s網絡帶寬的集群上訓練PubMed GPT,總訓練時長約6.25天。 Composer庫。由于MosaicML開源Composer庫的高效性和包容性,開發者使用Composer庫以及它的FSDP集成來訓練模型。 流數據集。為快速、靈活且廉價地管理自定義訓練數據集,開發者使用MosaicML的新StreamingDataset庫來管理100GB多文本的訓練數據集。
評估 開發者在幾個問答基準上對PubMed GPT進行了評估。例如下面的一個醫學問題摘要基準:
其對患者的疑問查詢(其中會包含歧義、拼寫錯誤等方面的信息)進行處理,并以清晰正確的格式呈現給醫生。
同時開發者將結果與5個模型進行了比較(如上圖):DRAGON、GPT-Neo 2.7B、Galactica、BioLinkBERT、PubMedBERT。結果證明:
1、LLM非常全能,在特定領域中從頭訓練時其具有與專業設計的系統相當的性能; 2、針對特定領域數據的預訓練勝過通用數據; 3、專注模型可以用較少的資源獲得高質量結果。
總結 PubMed GPT的結果只是生物醫學文本及其他領域研究的第一步,往后仍需要更多研究者來開發更加先進的成果。而且目前只是概念驗證,最終的希望是在未來出現值得信賴的交互式AI系統,在與人類專家進行篩選的同時也促進可靠的交互。 參考資料 //www.mosaicml.com/blog/introducing-pubmed-gpt
近日,英國女王大學207頁博士論文介紹了NLP中的transformer、BERT、預訓練模型在蛋白質組學研究中的應用。作者考慮了人工智能和數據驅動分析的情況下,阻礙計算生物學應用中的障礙。在進行這種形式的研究時,有必要考慮所有可能對最終用戶有用的應用和實現(如生物標志物研究領域的專家),并要保證所研究的內容必須是新穎的,并與當前的生物學趨勢相關,以解決該領域的差距。
這個工作流介紹了蛋白質組序列分析的領域研究。重點是開發蛋白質序列處理技術,通過深度學習的其他子領域的最先進的方法進行增強建模。
多組學數據分析主要有兩個目標
主要回答如下問題
對大量蛋白質組數據的DL模型進行預訓練,一旦它被微調到一組下游任務,它的整體性能會提高嗎?
當只有有限的標記蛋白質組學數據可用時,度量學習能否用于改進微調過程?
一旦DL模型被微調到下游任務,它能否用于識別氨基酸序列中與蛋白質功能相關的模式(即基序)?
所有這三個問題在每個章節都會討論。
在第三章中,深度學習已被證明是一種建模蛋白質特性的有用工具。然而,考慮到蛋白質長度的多樣性,很難有效的總結氨基酸序列。在許多情況下,由于使用固定長度表示法,有關長蛋白質的信息可能會因截斷而丟失,或者由于過度填充,模型訓練可能會很慢。
作者通過擴展用于表示蛋白質序列的原始詞匯表來克服這些問題。具體的,研究了子詞算法(Doc2Vec、BPE(Byte-Pair-Encoding))的使用,以生成各種詞匯表,并對每種算法產生的預訓練編碼在多種下游任務上進行了測試:四個蛋白質性質預測任務(質膜定位[plasma membrane localisation]、熱穩定性[thermostability]、峰值吸收波長[peak absorption wavelength]、對映體選擇性[enantioselectivity])以及在兩個數據集上的藥物靶點親和力預測任務。
本章中使用的子詞算法比之前預訓練的Doc2Vec模型提供了更好的整體性能。
在第四章中,作者采用計算機視覺領域的方法,從最少的蛋白質組數據創建一個深度學習模型,將CNN和transformer結合起來,建立了一個最先進的磷酸化位點模型。還利用模型中transformer產生的注意圖來識別每個位點中的關鍵模式。
第五章,綜合評估了如何應用預訓練和度量學習來為一系列下游蛋白質任務開發最先進的結。具體的,作者采用triplet BERT對每個數據集的BERT模型進行微調,并評估其在一組下游任務預測上的性能:質膜定位、熱穩定性、峰值吸收波長、對映選擇性。
結果顯著改善了原始的BERT基線和之前針對每個任務的最先進模型,證明了使用triplet BERT在有限的數據集上優化如此大的預訓練模型的好處。
作為一種白盒深度學習,作者還可視化了該模型如何處理蛋白質的特定部分,并檢測改變其整體功能的關鍵修飾。
在最后一章的研究中,作者再次展示了預訓練的價值,通過使用兩個預訓練的BERT模型和一個圖卷積網絡,為一組藥物-靶標相互作用任務生成最先進的結果。
在第六章,深度學習已成為檢測蛋白質磷酸化位點的創新工具。然而,負位點和正位點之間的不平衡使得深度學習模型難以準確地對所有位點進行分類。作者通過組合卷積操作和基于transformer的神經網絡(下圖DeepPS),以形成一個健壯的體系結構,以緩解不平衡位點的影響。
與之前的基線相比,不太可能過度擬合任何一類。
第七章,作者試圖利用一組BERT-style的模型,這些模型已經對大量蛋白質和藥物數據進行了預訓練。
然后,每個模型產生的編碼被用作圖卷積神經網絡的節點表示,而圖卷積神經網絡又被用于建模相互作用,而無需同時微調蛋白質和藥物的BERT模型來完成任務,結果顯著改進了基線方法以及每個任務數據集以前的最先進方法。
具體目錄如下:
題目: Data Augmentation using Pre-trained Transformer Models
簡介:
基于語言模型的預訓練模型,如BERT,在不同的NLP任務中提供了顯著的收益。在本文中,我們研究了不同類型的基于自回歸模型(GPT-2)、自編碼器模型(BERT)和seq2seq模型(BART)等用于條件數據增強的預訓練變壓器模型。我們表明,將類標簽前置到文本序列提供了一種簡單而有效的方法來設置預訓練模型的條件,以便進行數據擴充。在三個分類基準上,預先訓練的Seq2Seq模型優于其他模型。此外,我們還探討了不同的基于預訓練模型的數據擴充在數據多樣性方面是如何不同的,以及這些方法如何很好地保存類標簽信息。