亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

編譯 | 曾全晨 審稿 | 王建民 今天為大家介紹的是來自Daniel Shu Wei Ting的一篇綜述論文。大型語言模型(LLMs)可以在沒有特定訓練的情況下回應各種文本查詢,這引發了人們對其在醫療環境中使用的興趣。ChatGPT是通過對LLM進行復雜的微調而生成的生成式人工智能聊天機器人,其他類似的工具也正在通過類似的開發過程中涌現出來。在這里,作者概述了像ChatGPT這樣的LLM應用的開發過程,并討論了它們在臨床環境中的應用。作者考慮了LLMs的優勢和局限性,以及它們在醫學的臨床、教育和研究工作中提高效率和效果的潛力。

大型語言模型(LLMs)是人工智能(AI)系統,它們經過數十億字的訓練,這些字來自于文章、書籍和其他基于互聯網的內容。通常情況下,LLMs使用神經網絡架構來利用深度學習,這種方法已經在醫學領域取得了令人印象深刻的成果,用于表示文本訓練數據集中單詞之間的復雜關聯關系。通過這個訓練過程,可能是多階段的,可能涉及不同程度的人工輸入,LLMs學習了單詞在語言中如何與彼此搭配使用,并可以將這些學習的模式應用于完成自然語言處理任務。自然語言處理描述了一個廣泛的計算研究領域,旨在以模仿人類能力的方式促進對語言的自動分析。生成式人工智能開發者的目標是生產出可以按需創建內容的模型,并在應用程序中與自然語言處理相交。經過多年的發展,LLMs現在正出現“少樣本”或“零樣本”屬性,這意味著它們可以在幾乎沒有特定微調的情況下,識別、解釋和生成文本。這些少樣本和零樣本屬性是在模型規模、數據集規模和計算資源足夠大的情況下出現的。隨著深度學習技術、強大的計算資源以及用于訓練的大型數據集的發展,具有潛在顛覆認知工作的能力的LLM應用已經開始在各個領域中出現,包括醫療領域。

ChatGPT(OpenAI)是一種LLM聊天機器人,現在可以對多模態輸入產生文本回應(之前只能接受文本輸入)。它的后端LLM是GPT-3.5或GPT-4。ChatGPT的影響源于它的對話互動性以及在各個領域中的認知任務中接近人類水平或與人類水平相等的表現,包括醫學。ChatGPT已經在美國醫學執照考試中取得了及格級別的表現,并且有人提出LLM應用可能已經準備好在臨床、教育或研究環境中使用。然而,自主部署的潛在應用和能力是有爭議的:書面考試不能驗證臨床表現,缺乏良好的基準使得評價性能變得相當具有挑戰性。目前的LLM技術很可能最有效地作為一種在密切監督下使用的工具。

LLM聊天機器人的發展

圖 1

盡管LLM GPT-3.5并未展現出最多的參數數量(圖1),但ChatGPT目前在醫療研究中引起了最大的關注。這得益于精細調整,特別是為了恰當地回應人類輸入查詢而進行的調整。首個版本的GPT(GPT-1)于2018年發布。GPT-1的訓練是半監督的,包括初始的無監督預訓練,用于編程單詞之間在語言中的聯想關系,然后是有監督的精細調整,以優化指定的自然語言處理任務的性能。GPT-2(2019年發布)擁有15億個參數,是其前任的10倍大。其訓練數據來自WebText,這是一個40 GB的數據集,來源于800多萬份文檔。GPT-2最初在幾項自然語言處理任務中進行了評估,包括閱讀理解、摘要、翻譯和問題回答。在2020年,GPT-3發布了,擁有1750億個參數,比GPT-2大100多倍。其更廣泛的訓練賦予了它更強的few-shot和zero-shot能力,在各種自然語言處理任務中實現了最先進的性能。訓練數據集包括五個文集,共45 TB。總的來說,GPT-3的發展專門解決了前任模型的弱點,構建了迄今為止最復雜的LLM。GPT-4現已發布,并在自然語言處理以及各種專業能力測試中獲得了比GPT-3更高的性能。此外,GPT-4可以接受多模態輸入,其體系結構、開發和訓練數據仍然保密。

從LLM到生成式聊天機器人

圖 2

為了開發有用的應用程序,LLM需要進一步的精調,正如GPT-3.5的設計工程所示,它可以對自由文本輸入提示做出適當的回應(圖2)。在這里,精調包括將GPT-3暴露于由人類研究人員扮演應用程序用戶和AI助手角色產生的提示和回應中,這有助于模型學習如何正確回答定制查詢。接下來,使用由人類評分員根據一組查詢對GPT-3.5的回應進行排名生成的數據進行“從人類反饋中的強化學習”(RLHF),以此進行強化學習。該獎勵模型使得自主RLHF的規模遠遠超過了通過人工對每個模型回應進行評分所能達到的規模。為了提高安全性和安全性,還使用模型生成的輸入查詢和輸出完成了進一步的自主對抗訓練。ChatGPT的后端現在集成了GPT-4,新的體系結構、數據集和訓練是保密的。即使在單個對話中,ChatGPT也表現出了非常出色的“學習”能力,特別是通過提供任務示例來提高性能。

除了ChatGPT之外,還有其他的LLM聊天機器人可以供臨床醫生和患者使用。必應的AI聊天機器人(Microsoft)可在沒有ChatGPT高級訪問權限的情況下訪問GPT-4。Sparrow(DeepMind)是使用LLM“Chinchilla”構建的,通過利用谷歌搜索結果、人類反饋和一個包含23條明確規則的長達591個字的初始化提示來減少不準確和不適當的使用情況。BlenderBot 3(Meta Platforms)利用互聯網訪問來提高準確性,其在發布后可能會通過使用有機生成的數據來持續改進性能,就像ChatGPT一樣(圖2中的虛線箭頭)。Google Bard最初是使用LaMDA構建的,但現在利用PaLM 2為基礎,其在部分領域能力方面與GPT-4相媲美。

以它們當前的表現,LLMs并不能取代醫生,因為在專業考試中的表現還遠非完美,存在嚴重的不準確和不確定性問題。盡管最近報告的專業基準性能令人印象深刻,但需要具體的評估和驗證來證明在任何特定背景下的有效性和實用性。從根本上講,臨床實踐與正確回答考試問題并不相同,找到適當的基準來衡量LLMs的臨床潛力是一個重大挑戰。然而,鼓舞人心的結果表明,現有的技術已經適用于影響臨床實踐,并且進一步的發展可能會加速和擴大自然語言處理人工智能在醫學領域的應用。

LLM的醫學應用

圖 3

在最近幾個月中,LLM(大型語言模型)技術,特別是ChatGPT,已經被廣泛應用于各種場景(如圖3所示)。盡管有必要進行高質量的研究來了解新技術的優勢和局限性,但目前仍然缺乏經過良好設計和實用性試驗,旨在評估將創新的LLM基礎工具引入臨床、教育或研究環境的實際效用。

ChatGPT在醫學領域引起了特別的關注,因為它在美國醫學許可考試中取得了及格分數,而GPT-4的表現明顯優于其前身GPT-3.5。最近,Google推出的Med-PaLM 2,一種在醫療數據上進行細調的PaLM 2版本,取得了最先進的成果,達到了接近專業人類臨床醫生水平。當將ChatGPT對患者問題的回答與醫生提供的回答進行比較時,根據醫生評判的定性指標,LLM的輸出在質量和共情方面更受歡迎。這導致了有人提出AI已經可以取代醫生,但事實并不如此。即使在醫學生考試中,其性能也遠非完美,沒有任何已知報告的分數接近100%。ChatGPT在醫生專科考試中失敗,并在回答有關心血管疾病預防的真實問題時提供不準確的信息。

ChatGPT在不需要專業知識或在用戶提示中提供專業知識的任務中表現出更強的性能。這為其在實施方面提供了比臨床決策輔助工具更為直接的前景。LLM能夠快速吸收、概括和重新表述信息,從而減輕臨床醫生的行政負擔。出院總結是一個有意義的例子,它涉及到對信息的解釋和壓縮,幾乎不需要問題解決或回憶。新興的多模態模型將擴展模型能力,并與更多的數據源兼容;甚至醫生的手寫字也可以自動準確地解釋。

GPT-4和Med-PaLM 2在醫學測試中的強勁表現表明,LLM可能是學生在這些測試中獲得較低分數時有用的教學工具。GPT-4的元提示功能允許用戶在對話過程中明確描述聊天機器人所扮演的期望角色;有用的示例包括“蘇格拉底導師模式”,通過逐漸降低難度的問題來鼓勵學生自己思考,直到學生能夠解決更全面的問題。對話記錄可以使人類教師監測進展并根據學生的弱點進行教學,以直接解決學生的不足之處。非盈利教育機構卡恩學院(Khan Academy)正在積極研究如何在“卡恩米格”中利用AI工具,來優化在線教學。

生成型AI LLMs的障礙

表 1

有幾個問題和限制阻礙了ChatGPT和其他類似應用在臨床規模上的實施(見表格1)。首先,訓練數據集不足以確保生成的信息準確和有用。其中一個原因是缺乏最新性:GPT-3.5和GPT-4主要使用截至2021年9月的文本進行訓練。由于研究和創新在各個領域,包括醫學,都是持續不斷的,缺乏更新的內容可能會加劇不準確性。在語言突然變化的情況下,問題尤為嚴重,例如研究人員發明新術語或更改用于描述新發現和方法的特定詞匯的用法。問題還會在范式轉變中出現,例如,一些被認為不可能實現的事情實際上被實現了。案例包括以前所未有的速度開發新冠病毒病2019(COVID-19)疫苗以及針對先前被認為“無法藥物靶向”的目標如KRAS的抗腫瘤藥物。如果類似事件超出了訓練數據集的截止日期,模型無疑會對相關查詢提供質量較差的響應。因此,與醫療專業人員的咨詢仍然至關重要。

結論

LLMs已經徹底改變了自然語言處理領域,最先進的模型,如GPT-4和PaLM 2,現在在醫學領域的人工智能創新中占據著核心地位。這項新技術在臨床、教育和研究工作中充滿了機遇,特別是在多模態和插件工具的新興應用中。然而,潛在的風險引發了專家和社會的廣泛關注。目前,自主部署LLM醫學應用是不可行的,醫療專業人員仍將負責為患者提供最佳和人性化的護理。經過驗證的應用程序可能是改善患者和醫療保健的有價值工具,但前提是解決倫理和技術問題。

參考資料 Thirunavukarasu, A.J., Ting, D.S.J., Elangovan, K. et al. Large language models in medicine. Nat Med (2023). //doi.org/10.1038/s41591-023-02448-8

付費5元查看完整內容

相關內容

醫學領域的人工智能是使用機器學習模型搜索醫療數據,發現洞察,從而幫助改善健康狀況和患者體驗。 得益于近年來計算機科學和信息技術的發展,人工智能 (AI) 正迅速成為現代醫學中不可或缺的一部分。 由人工智能支持的人工智能算法和其他應用程序正在為臨床和研究領域的醫學專業人員提供支持。

編譯 | 曾全晨

審稿 | 王建民 今天為大家介紹的是來自Tal Golan團隊的一篇論文。語言模型似乎越來越符合人類處理語言的方式,但通過對抗性示例來識別它們的弱點十分具有挑戰性,因為語言是離散的,并且人類語言感知非常復雜。

神經網絡語言模型不僅是自然語言處理(NLP)中的關鍵工具,還因其潛在成為人類語言處理模型的可能性而引起了越來越多的科學興趣。從循環神經網絡(RNNs)到變換器(transformers)等各種語言模型,每個模型(顯式或隱式地)都定義了一個關于單詞序列的概率分布,預測哪些序列在自然語言中可能出現。從閱讀時間、功能性磁共振成像(fMRI)、頭皮腦電圖、顱內腦電圖(ECoG)等測量結果來看,存在大量證據表明,人類對由語言模型捕獲的單詞和句子的相對概率敏感。模型推導的句子概率還可以預測人類可接受性。然而,這些成功尚未解決兩個關鍵問題:(1)哪個模型與人類語言處理最為一致,以及(2)最佳對齊模型與完全捕捉人類判斷的目標有多接近?評估語言模型的主要方法之一是使用一組標準化基準,例如通用語言理解評估(GLUE)或其繼任者SuperGLUE。盡管這些基準在評估語言模型在下游NLP任務中的實用性方面起到了關鍵作用,但它們在將這些模型作為解釋人類語言處理的候選模型進行比較方面顯然不夠充分。一些基準通過比較語言模型分配給合乎語法和不合乎語法句子的概率(例如BLiMP)來評測語言模型。然而,由于這些基準受到理論語言學考慮的驅動,它們可能無法檢測到語言模型可能從人類語言中學習到的新穎的表達方式。最后,另一個實際的問題是NLP研究的快速發展導致這些類型的靜態基準迅速飽和,使得難以區分不同模型之間的性能。

針對這些問題的一個解決方案是使用動態的人機協同基準測試,其中人們積極地對模型進行一系列不斷演化的測試以進行強化測試。然而,這種方法面臨一個重大障礙,隨著測試案例的增加,人們會發現越來越難找到新穎和有趣的測試案例,以便真正挑戰語言模型的性能。。作者提議將人工策劃的基準測試與模型驅動的評估相結合。在模型的預測指導下,而不是實驗者的直覺,我們希望識別特別信息豐富的測試句子,其中不同的模型會做出不同的預測。我們可以在大量自然語言的語料庫中找到這些關鍵句子,或合成新的測試句子,以揭示不同模型在其訓練分布之外的泛化方式。

在文中,作者提出了一種系統的、以模型為驅動的方法,用于比較語言模型在與人類判斷一致性方面的性能。作者生成了有爭議的句子對,這些句子經過設計,使得兩個語言模型在哪個句子更可能出現方面存在強烈分歧。然后,作者收集人類的判斷,以確定每對句子中哪個更有可能,以解決這兩個模型之間的爭議。

實驗概述

作者從進行在線測試的100名以英語為母語的參與者那里獲得了評判。在每個實驗試驗中,參與者被要求判斷兩個句子中哪一個他們“更有可能在現實世界中遇到,無論是口語還是書面文本”,并在一個三級別的信心評級上提供他們答案的信心值。該實驗旨在比較九種不同的語言模型:基于兩個詞組和三個詞組序列的的詞頻概率模型以及一系列神經網絡模型,包括RNN、長短時記憶網絡(LSTM)和五個transformer模型(BERT、RoBERTa、XLM、ELECTRA和GPT-2)。

使用有爭議的自然數據對,進行高效的模型比較

圖1

表 1

作為基準線,作者從Reddit評論語料庫中隨機抽樣并配對了八個詞的句子。然而,如圖1a所示,這些句子未能揭示模型之間的有意義的差異。對于每一對句子,所有模型都傾向于偏好相同的句子,因此在預測人類偏好評分方面表現相似。相反,可以使用一個優化過程來搜索有爭議的句子對,其中一個語言模型僅為句子1分配高概率,而第二個語言模型僅為句子2分配高概率(示例見表1)。不同的語言模型在預測人類在特定句子對上的選擇時,顯示出在與人類的一致性方面存在許多顯著差異(如圖1b所示),其中GPT-2和RoBERTa顯示出最好的人類一致性。 使用合成句子對,實現更大程度的模型分離

圖 2

表 2

選擇有爭議的自然句子對可能比隨機抽樣自然句子對提供更大的能力,但這個搜索過程只考慮了可能的句子對空間的非常有限的部分。相反,我們可以迭代地替換自然句子中的單詞,以驅使不同的模型產生相反的預測,形成合成的有爭議句子,這些句子可能位于任何自然語言語料庫之外,如圖2所示。作者展示了合成的有爭議句子對,如表2所示。

圖 3

作者評估了每個模型在所有有爭議的合成句子對中對人類句子選擇的預測準確度(圖3a)。這種模型與人類的一致性評估方式,導致了模型的預測準確度之間的差距更大,使較弱的模型(RNN、3-gram和2-gram)遠低于50%的隨機準確度水平。在這些試驗中,GPT-2、RoBERTa和ELECTRA在預測人類的響應方面明顯比其他模型(BERT、XLM、LSTM、RNN、3-gram和2-gram)更準確。

自然句子和合成句子的組合揭示了盲點 最后,作者考慮了那些要求參與者在自然句子和合成句子之間選擇的試驗。如果語言模型與人類判斷完全一致,作者期望人類會同意模型,并至少與自然句子一樣多地選擇合成句子。然而,在現實中,人類參與者明顯更偏好自然句子而不是它們的合成對應物(圖3b),即使合成句子是針對更強大的模型(即GPT-2、RoBERTA或ELECTRA)而生成。針對每個模型對分別評估自然句子的偏好,作者發現即使將一個強模型與一個相對較弱的模型配對(以至于強模型接受合成句子而弱模型拒絕它),也可以揭示這些缺點。

評估整個數據集揭示了模型的層次結構

圖 4

與評估每個模型的預測準確性相比,針對用于比較這個模型與替代模型的特定句子對,作者通過計算每個模型對所有收集到的實驗的平均預測準確性來最大化對于模型的評測能力。此外,作者在這里測量了分級人類選擇(考慮信心)與每個候選模型分配的句子概率的對數比率之間的序數對應關系。使用這個更敏感的基準(圖4),作者發現GPT-2與人類最一致,其次是RoBERTa,然后是ELECTRA、BERT、XLM和LSTM,以及RNN、3-gram和2-gram模型。造成雙向transformer(RoBERTa、ELECTRA、BERT和XLM)性能較差的一個可能原因是,與單向transformer(GPT-2)相比,這些模型中的句子概率計算較為復雜。作者開發的概率估計器也可能不是最優的;事實上,偽對數似然(PLL)方法在隨機抽樣的自然句子對上提供了稍高的準確性。然而,當作者通過生成新的合成的有爭議的句子來直接比較當前采用的估計器與PLL時,發現作者的估計器更好地與人類判斷一致。 參考資料 Golan, T., Siegelman, M., Kriegeskorte, N. et al. Testing the limits of natural language models for predicting human language judgements. Nat Mach Intell (2023). //doi.org/10.1038/s42256-023-00718-1

付費5元查看完整內容

編譯 | 曾全晨 審稿 | 王建民 今天為大家介紹的是來自Euan A. Ashley的一篇綜述論文。

新的方法,如基因組測序和質譜技術,大大增加了科學家和醫療專業人員獲取更精確診斷和增強治療精準度所需的分子數據的數量。雖然在DNA和RNA的基因測序方面取得了最大的進展,但蛋白質和代謝物高維度測量的醫療應用也在增加。為了適應這些分子“大數據”的數量、速度和多樣性,分析工具也得到了改進。機器學習的出現被證明特別有價值。在這些方法中,計算機系統使用大量數據構建預測性統計模型,并通過整合新數據進行迭代改進。深度學習是機器學習的一個強大子集,其中包括使用深度神經網絡,已在圖像對象識別、語音識別、自動駕駛和虛擬助理等領域具有高知名度的應用。現在,這些方法正在醫學領域應用,以提供臨床指導性的醫療信息。在這篇綜述文章中,作者簡要描述了生成高維分子數據的方法,然后重點介紹了機器學習在這些數據的臨床應用中扮演的關鍵角色。

大規模分子數據生成

圖 1

在大規模測量分子的能力方面發生了重大變化,推動了當前個體化醫學的時代(圖1)。幾十年來,基于Sanger技術的基因測序主要集中在長度最多達幾百個堿基的DNA或RNA片段上。在21世紀初,像Illumina的合成測序方法開始流行,允許同時合成和讀取數百甚至數十億個短DNA模板。更近期的方法(來自Pacific Biosciences和Oxford Nanopore)專注于連續測序長的核酸分子,具有額外的優勢。而人類基因組計劃花費了10年時間以數十億美元的成本測序了一個不完整的單倍體基因組,到了2022年,一個更完整的人類基因組只需5小時的時間和幾百美元的成本就能測序完成。這種基因組數據可用性的快速提高引發了對這些數據的快速處理和準確解讀的需求。

基因組測序的過程會生成一個計算機文本文件,其中每一行代表一個單獨“讀取”的DNA或RNA分子。對于基因組測序,通常的目標是生成足夠的重疊數據來覆蓋基因組的每個部分40倍。某些技術可以捕獲基因組的一個子集,并對其進行更多次的覆蓋。這個輸出的文本文件大小為100到200千兆字節(類似于現在入門級筆記本電腦的硬盤容量)。這些讀取數據的長度從幾百個堿基到幾百萬個堿基不等,通過Burrows-Wheeler變換,一種從數據壓縮信息理論導出的方法,將這些讀取數據映射到人類基因組計劃生成的參考基因組上。然后,使用機器學習或算法方法確定正在分析的基因組與參考序列之間的差異。這樣就得到了一個變異調用文件,通常有300萬到400萬行,幾兆字節的大小。為了按照例如在患者中可能導致罕見疾病的概率對文件中的變異進行優先級排序,可以使用過濾或機器學習方法。對于RNA測序,映射后,大多數應用會側重于基因或同工型表達的定量,而不是序列識別,將每個基因或同工型的讀取計數轉換為標準化的定量測量。

基因組學中的機器學習應用

機器學習在基因組學(細胞內一組基因,即基因組的研究)中的應用中,最重要的進展出現在變異檢測領域:即確定分析物序列(例如來自患者的樣本)與參考序列的差異位置。當將個體讀取映射到參考基因組中的相應位置時,它們可以被可視化為"堆積",其中與參考不同的堿基被突出顯示(圖1)。這種可視化表示有助于在基因組的復雜區域進行快速的手動審核,這一發現促使了深度學習方法用于變異識別,借鑒了計算機視覺和圖像識別方面的進展。其他變異檢測方法則在更狹窄的應用領域中使用機器學習,例如用于特定變異或基因組區域的技術校準誤差模型。

深度神經網絡是復雜的非線性函數,適用于大規模數據集。多層次的交替"神經元"權重和非線性變換將數據轉化為對分類有用的抽象和低維表示。層次之間通過激活函數連接,激活函數作為輸出的進一步傳播的門控。在圖像任務中,池化函數用于在特定區域對輸入進行下采樣。然后通過反向傳播過程對神經元權重進行細化,并最終以對幾個輸出選項的置信度估計形式進行分類。卷積神經網絡是一種特定形式的深度神經網絡,通常用于圖像識別,其特點是在圖像輸入上滑動濾波器的過程(圖2和3)。

圖 2

圖 3

憑借神經網絡的強大能力和讀取更長的DNA分子的能力,可能會出現一種新的單倍型分析時代(將DNA鏈映射到原始親本染色體)。單倍型分析方法通過更好地表示起源的DNA分子來提高變異檢測的質量,并可以在臨床管理中發揮作用,例如在復合雜合性的情況下,同一位點上兩個變異體的起源父本的識別可以影響患者的護理。最近,通過將單倍型分析與針對連續數據優化的模型結合起來,然后再采用上述的卷積神經網絡方法,取得了前所未有的準確性。

通過國家標準與技術研究所(National Institute of Standards and Technology)的“基因組在瓶中”聯盟(Genome in a Bottle Consortium)以及美國食品藥品監督管理局(Food and Drug Administration,FDA)的precisionFDA計劃,這些進展使變異檢測的改進成為可能。這兩個組織共同開展了開放的“真實性挑戰”比賽,使用標準化樣本進行競爭。結果顯示,在全基因組范圍內以及染色體上編碼主要組織相容性復合體等基因組中具有挑戰性的區域,變異檢測的準確性不斷提高。機器學習(圖2)在罕見疾病變異的優先級排序中也被證明非常有用。例如,一種方法使用基于邏輯回歸的機器學習在一個大型的基于文獻的數據集中,將表型與候選基因匹配,以幫助確定可能是門德爾遺傳疾病的潛在致病基因。

轉錄組學的機器學習

讀取轉錄組(生物體中所有RNA轉錄本的總和)被用作識別罕見疾病中的致病基因的一種額外工具。最初的努力揭示了通過將每個基因的表達譜與參考范圍進行比較,識別表達異常可以指向未被懷疑的致病基因。為了獲得額外的益處,這種方法后來與預測罕見變異的調節效應的貝葉斯模型相結合。在一大批患有未診斷罕見疾病的患者中,血液轉錄組測序識別出8%的患者的致病變異。隨后,使用包括基因表達、等位基因特異表達和可選擇剪接數據的分層貝葉斯模型來識別遺傳驅動的轉錄組異常。

盡管取得了一些進展,但預測剪切位點仍然是一個具有挑戰性的問題。使用一個32層深度神經網絡的深度學習模型在改善罕見疾病的診斷方面顯示出了希望。使用自編碼器,它可以有效地學習如何將輸入數據編碼為壓縮表示,然后解碼回原始輸入的表示,已經被證明可以改善從RNA測序數據中的異常剪接預測(圖2)。

這些方法被應用于一個12歲女孩的案例中,該女孩出現了發育退化、震顫和癲癇。通過短讀長度的基因組測序,鑒定了96個候選基因變異,但沒有一個看起來與患者的病情有關。通過對患者血液進行RNA測序并應用剪切異常算法,發現了KCTD7中的一個剪切增益變異,該變異并不在最初的候選基因列表中,從而確立了進行性肌陣攣癲癇的診斷。

表觀基因組學應用

表觀基因組學被定義為影響基因表達的一系列修飾。雖然已知表觀遺傳機制在某些罕見病和常見疾病的表現中起作用,但在臨床醫學中,對DNA化學修飾的大規模表征才剛剛開始產生影響。長讀測序方法提供了令人興奮的機會,因為它們在核苷酸通過蛋白質納米孔時產生信號,或者在DNA聚合酶嵌入堿基時產生信號。這些信號可以通過機器學習方法解讀,不僅可以確定該位點的核苷酸,還可以確定該核苷酸的一系列化學修飾。這些方法不需要之前的標準中的亞硫酸鹽轉化,該轉化已被證明會引起DNA斷裂。由于在組織特異性轉錄中扮演關鍵角色,大部分關注集中在將甲基基團加到順序CG二核苷酸序列中稱為CpG位點的C5位點。采用各種神經網絡方法,包括卷積神經網絡、雙向循環神經網絡(圖3),以及兩種類型的組合,已經在甲基化檢測方面達到了超過0.95的C統計量,優于以前的基準模型。

深度學習在蛋白質組學的幾乎所有環節中取得了重大進展。通過對已知化學實體的光譜圖模式進行訓練,深度學習方法改善了候選肽段的光譜預測能力,這是基于串聯質譜的蛋白質組學的關鍵步驟之一。利用基于卷積神經網絡的工具,還能準確預測肽段的保留時間,即肽段從液相色譜柱中洗脫的時間點。除了質譜法外,深度學習應用還集中在新生肽序列和蛋白質鑒定上,采用了卷積神經網絡和長短時記憶方法。此外,最近還將大型語言模型應用于蛋白質功能預測,以加速藥物發現。

蛋白質的翻譯后修飾,如磷酸化等過程對于蛋白質的功能、調節和降解至關重要,但其定量仍然是一個尚未解決的挑戰。通過僅從蛋白質序列預測翻譯后修飾位點的深度學習已經取得了成功,其中的例子包括乙酰化和泛素化等修飾。近期,通過隱藏馬爾可夫模型和卷積神經網絡的組合,預測蛋白質功能的能力也得到了改進。這種綜合方法為360個以前未注釋的人類參考蛋白質提供了功能預測,使標準蛋白質家族數據庫的覆蓋率提高了9%以上。

在蛋白質組學領域,基于神經網絡的AlphaFold(圖3)是一項備受關注的深度學習應用。它在第13屆和第14屆關鍵蛋白質結構預測評估競賽中獲得了勝利。這些是每兩年舉辦一次的盲測競賽,旨在評估蛋白質結構預測的進展。在第13屆競賽中,AlphaFold1為43個自由建模結構中的24個結構提供了高準確性的預測結果,大大超過了以往的方法和排名第二的方法,后者只在43個結構中的14個結構上達到了類似的準確性。在CASP14競賽中,AlphaFold2在這一基礎上取得了進一步的進展,優于許多競爭模型。

近年來,蛋白質組學在生物標志物的預測上成為臨床研究的主要焦點。研究主要集中在單一標志物和多標志物的發現上。在一項研究中,利用一組配體(與蛋白質結合的寡核苷酸)實現了蛋白質定量,利用一系列機器學習模型,包括基于邏輯回歸和隨機森林的模型(圖2和圖3),對約17,000名無重大疾病的個體進行訓練,預測了11個常用于預防醫學的健康指標,這些個體來自五個獨立的隊列研究。

多組學應用

隨著來自多種技術的高維數據更易獲取,結合數據的計算方法變得更加重要。多組學研究的最早例子之一是對單個人進行的縱向分析,結合了基因組、轉錄組、蛋白質組、代謝組和自身抗體譜的數據。其他研究也采用多組學方法構建了反映健康和疾病狀態的相關網絡,并提出了心腦血管疾病的新生物標志物。還有一些利用深度學習的整合方法也被報道。這些方法要么在早期融合數據,將多組學數據串聯起來進行單一分析,要么在后期融合數據,創建一個聯合模型,將幾個單一組學分析的輸出結合起來。一些多組學方法在臨床領域取得了成功,比如利用先前發表的神經網絡等機器學習模型,將類似亮氨酸拉鏈轉錄因子1 (LZTFL1) 鑒定為Covid-19風險位點的候選效應基因。通過指出LZTFL1的表達增加可能與不良預后相關,這一發現揭示了Covid-19預防和治療的新候選靶點。

結論

在過去的十年里,技術的進步極大地增強了我們在規模上測量基本生物過程的能力。由此產生的數據量需要越來越多針對多維生物數據集分析的機器學習方法。結果是對疾病分子軌跡的逐步詳細理解,這些理解現在正在臨床醫學中得到應用,尤其在罕見遺傳疾病的診斷和治療方面取得了最大的進展。仍然存在挑戰,包括數據質量、數據一致性和臨床醫生的認知。然而,隨著單組學發現向多組學應用的轉變,流程標準化、基準指標的擴展以及數據處理速度和準確性的提高將確保對精準醫療產生廣泛影響的潛力得以實現。 參考資料 Gomes, B., & Ashley, E. A. (2023). Artificial Intelligence in Molecular Medicine. New England Journal of Medicine, 388(26), 2456-2465.

付費5元查看完整內容

編譯 | 程昭龍

審稿 | 林榮鑫,王靜 本文介紹由同濟大學控制科學與工程系的洪奕光和中國科學院數學與系統科學研究院的萬林共同通訊發表在 Nature Communications 的研究成果:單細胞數據集成可以提供細胞的全面分子視圖。然而,如何整合異質性單細胞多組學以及空間分辨的轉錄組學數據仍然是一個重大挑戰。為此,作者提出了uniPort,這是一種結合耦合變分自動編碼器(coupled-VAE)和小批量不平衡最優傳輸(Minibatch-UOT)的統一單細胞數據集成框架。它利用高度可變的通用基因和數據集特異性基因進行集成,以處理數據集之間的異質性,并可擴展到大規模數據集。uniPort 將異質性單細胞多組學數據集嵌入到共享的潛在空間。它還可以進一步構建一個用于跨數據集基因插補的參考圖譜。同時,uniPort提供了一個靈活的標簽傳輸框架,以使用最優傳輸計劃去卷積異構的空間轉錄組數據,而不是嵌入潛在空間。作者通過應用uniPort集成多種數據集,包括單細胞轉錄組學、染色質可及性和空間分辨轉錄組學數據,從而證明了uniPort的能力。

簡介

單細胞RNA測序(scRNA)和單細胞染色質轉座酶可及性測序(scATAC)等高通量單細胞多組學測序技術的發展,能夠對構成組織的異質性細胞群、發育過程的動力學以及控制細胞功能的潛在調節機制進行全面研究。單細胞數據集的計算集成是機器學習和數據科學領域的重要研究方向。

現有的單細胞集成方法中,大量工作致力于同時集成來自同一細胞的多個數據集。然而,這些配對數據集在技術上具有挑戰性,且獲取成本高昂。因此,針對來自相同或相似群體的不同細胞的數據,開發了大量的集成方法。例如,Seurat平臺使用典型相關分析(CCA)將特征空間投影到公共子空間中,從而最大化數據集間的相關性。LIGER和DC3采用非負矩陣分解尋找共同特征的共享低維因子來匹配單細胞組學數據集。Harmony在最大多樣性聚類和基于混合模型的線性批次校正之間進行協調迭代,提供了一個潛在空間來去除批次效應。然而,這些方法依賴于線性操作,因此缺乏處理跨細胞模態的非線性變形的能力。此外,它們只利用過濾后的常見基因,而忽略了數據集特異性基因對于識別細胞群的重要性,而這些細胞群通常能捕獲不存在于常見基因中的細胞類型異質性。為了解決這些缺點,多種對比方法在集成單細胞多組學數據集方面取得了很有前景的結果。然而,流形對齊方法受到相對較高的計算復雜度限制,并且不能擴展到大規模數據集。

隨著深度學習的發展,現已提出了許多基于自動編碼器的方法,并證明了它們在跨模態數據集成中的能力。然而,其中大多數方法需要來自相同細胞的配對數據集以利用細胞配對信息,如DCCA和Cobolt。當細胞配對信息不可用時,替代方法是同時訓練不同的自動編碼器,并在潛在空間中跨不同的模態對齊細胞。最近,出現了大量的方法來解釋非配對數據。例如,scDART和跨模態自動編碼器通過自動編碼器學習潛在空間,并通過基于核或基于判別器的差異來對齊潛在表示。然而,這些方法需要進行全局比對,這對于整合異質細胞群往往具有限制性。此外,已開發的基于遷移學習的方法,通過學習模態不變的潛在空間,將知識(如細胞標簽)從一個模態遷移到另一個模態,從而建立源圖譜。這雖然取得了較好的結果,但僅限于使用帶有標注細胞標簽的源模態。

最近發表的單細胞基因組學集成方法,如scMC和SCALEX,在一種模式的批次效應校正方面表現出了最佳性能,但它們尚未成為單細胞多組學數據集成的基準。GLUE是另一種最先進的單細胞多組學集成和集成調控推理方法,其開發了基于高級圖的自動編碼器。同時,許多其他方法被提出用于空間轉錄組學(ST)和scRNA數據的集成分析。其中,gimVI和Tangram取得了最優性能。然而,目前尚未開發出統一集成單細胞多組學以及空間分辨轉錄組學數據的方法。

為此,作者提出了uniPort,這是一個精確、穩健和高效的計算平臺,用于將異構單細胞數據集與最佳傳輸(OT)集成。為了克服傳統VAE在單細胞異質性或非配對數據集成方面的局限性,作者提出了一個通過結合耦合變分自動編碼器(coupled-VAE)和小批量不平衡最優傳輸 (Minibatch-UOT) 的統一計算框架(圖1)。該框架允許利用高度可變的常見基因和數據集特異性基因進行集成,以處理不同數據集的異質性。實驗結果表明,uniPort可以準確、穩健地集成來自外周血單核細胞(PBMC)和小鼠脾臟的scATAC和scRNA數據集。它還可以通過scRNA數據精確填補未測量的空間分辨多重誤差穩健的熒光原位雜交(MERFISH)基因。此外,通過輸出OT計劃,作者證明了uniPort可以準確地破譯小鼠大腦的典型結構,幫助定位乳腺癌區域的三級淋巴結構(TLS),并在基于微陣列的空間數據中揭示癌癥異質性。

圖1 uniPort算法概述

結果

uniPort通過coupled-VAE和Minibatch-UOT嵌入和集成數據集 uniPort在不同模式或技術中采用不同異構單細胞數據集作為輸入。uniPort通過耦合變分自編碼器(coupled-VAE),利用無數據集編碼器將不同數據集的高度可變公共基因集投射到廣義細胞嵌入的潛在空間中。然后uniPort重構兩個輸入項,一個由具有數據集特定批量規范化(DSBN)層的無數據集解碼器輸入;另一個是通過與每個數據集對應的數據集特定解碼器形成的高度可變基因集(圖1)。由于一些常見基因在每個數據集中也高度可變,因此在兩個輸入項之間經常會發現一些重疊的基因。在集成期間,uniPort最大限度地減少了來自不同數據集的潛在空間中細胞嵌入之間的Minibatch-UOT損失。為了獲得更好的校準結果,有必要引入損失,特別是當特定數據集的解碼器被認為增加了潛在空間中不同數據集的異質性時。同時,小批量策略大大提高了OT的計算效率,使其可擴展到大數據集,而不平衡OT更適合異構數據集成。

作者使用了不同的評估指標來評估uniPort集成單細胞數據的能力。為了量化數據集混合和細胞類型分離,作者使用SCALEX計算了兩種評分:批次熵分數用來評估跨數據集混合細胞的程度,輪廓系數用來評估生物學特征的分離。為了對標注聚類的準確性進行基準測試,作者采用了調整蘭德指數(ARI)、歸一化互信息(NMI)和使用細胞類型標注的F1分數。然后,對于配對數據集,作者使用比真實匹配更接近的樣本的平均分數(FOSCTTM)來衡量跨數據集細胞間對應關系的保持情況。

uniPort集成scATAC和scRNA數據 在一個配對的scATAC和scRNA數據集(配對的PBMC數據集)和兩個不配對的scATAC和scRNA數據集(基于微流體的PBMC數據集和小鼠脾臟數據集)上,作者將uniPort與目前最先進的單細胞基因組學集成方法進行了基準測試,同時采用一致的流形近似和投影(UMAP)將積分結果進行可視化。

作者首先應用uniPort來集成配對的PBMC數據集(圖2),配對信息僅用于性能評估。實驗結果表明,uniPort和GLUE的性能最佳,且結果相當(圖2c-e)。在所有比較的方法中,uniPort,、Seurat、 Harmony、 SCOT和GLUE在兩種模式中準確集成了大多數細胞類型(圖2b)。

圖2 uniPort集成了配對的PBMC數據集

除了集成配對的PBMC數據集,作者還在基于非配對微流體的PBMC數據集上進一步評估了uniPort。結果顯示,uniPort準確地集成了scATAC和scRNA數據,并且具有與GLUE、MultiMAP和Harmony相當的競爭性能。此外,作者還在另一個來自小鼠脾臟數據集的未配對的scATAC和scRNA上測試了uniPort (圖3)。uniPort、scMC、Harmony和Seurat都取得了較好的性能。總之,在所有方法中,uniPort與最近發表的最先進方法相比表現良好,且在配對和非配對數據集中均顯示出準確和穩健的結果。

圖3 uniPort集成了非配對的小鼠脾臟數據集

uniPort執行異構數據集的非平衡匹配任務 uniPort最大限度地減少了Minibatch-UOT的損失,適用于不平衡匹配,為異構數據集成提供了強有力的保障。為了評估uniPort在異構數據集成方面的性能,作者分別從小鼠脾臟的scATAC或scRNA中去除一些細胞類型,進行了兩項不平衡匹配任務。去除scATAC數據部分類型的集成任務命名為ATAC不平衡匹配(“UBM-ATAC”),將在scRNA數據中刪除相同細胞類型的集成任務表示為RNA不平衡匹配(“UBM-RNA”)。同時,為了進行比較,將完整小鼠脾臟數據的集成定義為平衡匹配(“BM”)。

在兩種不平衡匹配的情況中,uniPort準確地識別并分離了“DC”、“Granulocyte”、“Macrophage”和“NK”細胞與其他細胞類型,同時很好地對齊了模態共享細胞類型(圖4a, b)。將uniPort與GLUE、Harmony、Seurat、MultiMAP和scMC進行比較,可以發現這些方法都在“BM”任務中取得了較高的準確性。但在所有方法中,只有uniPort和Seurat在三種情況下都取得了穩定的性能(圖4c, d)。因此,與“BM”的情況相比,當數據集中呈現異質性時,uniPort比其他方法更穩健。

圖4 uniPort集成了細胞類型不平衡的小鼠脾臟數據

uniPort集成了MERFISH和scRNA數據 作者進一步考慮了ST和scRNA數據的集成。ST測序技術主要有兩種類型:基于高復雜度RNA成像的ST測序技術和基于條形碼的ST測序技術。基于高復雜度RNA成像的空間測序具有單細胞精度更高、深度更大的優勢,但局限于覆蓋率較低的部分測量。為了測試uniPort在基于高復雜度RNA成像數據上的性能,作者應用uniPort集成了MERFISH和scRNA數據。

在MERFISH數據的155個基因中,使用scRNA和MERFISH中的153個共同基因進行集成。應用UMAP將uniPort、Harmony、Seurat、SCALEX、scVI、gimVI和MultiMAP的細胞嵌入結果可視化(圖5a,b)。從圖中可以看出,uniPort和scVI在鑒別和分離OD 未成熟細胞和其他細胞類型方面的表現優于其他方法。通過再次使用輪廓系數和總分對uniPort與其他方法的集成性能進行基準測試(圖5c, d),可發現uniPort優于其他方法。

uniPort為MERFISH數據插補基因 uniPort訓練了一個編碼器網絡,以將跨數據集中具有共同基因的細胞投射到共同細胞嵌入的潛在空間,同時訓練了一個解碼器網絡,以重建具有共同基因和特定基因的細胞。因此,一旦coupled-VAE訓練良好,就可以將其視為參考圖譜,從而允許uniPort通過圖譜根據另一個數據集的共同基因來對一個數據集中的共同基因和特定基因進行插補。插補基因可用于增強空間轉錄組學的分辨率。

為了探索uniPort的基因插補能力,作者采用gimVI方案從MERFISH的scRNA中插補缺失基因。首先隨機選擇MERFISH中80%的基因作為訓練基因,并保留剩余20%的基因作為測試基因。重復上述步驟12次,得到12個訓練和測試基因集。然后用每個訓練基因集訓練uniPort網絡,同時對相應的測試基因集進行插補,并將實驗結果與兩種最先進的基因插補方法進行比較:gimVI和Tangram。通過應用uniPort、gimVI和Tangram對測試基因進行插補,并使用UMAP對訓練和測試基因進行可視化(圖5e)。在MERFISH數據集上,與兩種比較方法相比,uniPort具有較優的性能 (圖5e,f)。

圖5 uniPort為MERFISH數據插補

uniPort去卷積合成的STARmap數據 基于條形碼的ST更容易獲得轉錄本,覆蓋率更高,但僅限于分辨率較低的混合點。接下來,通過將scRNA數據中的標簽轉移到混合點來實現基于條形碼的ST數據的去卷積。uniPort可以提供一個OT計劃,該計劃代表scRNA和ST數據之間的細胞到混合點的概率對應關系,從而能夠根據scRNA數據中的細胞注釋來對ST數據的單細胞簇比例進行去卷積。為了評估性能,將uniPort與兩種最先進的細胞類型去卷積方法Tangram和SpaOTsc進行了基準測試。實驗結果表明,uniPort對比兩種方法表現較好。

uniPort破譯小鼠大腦的典型結構 作者應用uniPort來去卷積現實世界中基于條形碼的ST示例。為了估計每個捕獲點的細胞類型組成和破譯典型的組織結構,作者首先整合了成年小鼠腦ST數據的前切片(10× Visium)。

正如清晰的邊界所示,uniPort準確地重建了結構良好的層并去卷積了28種細胞類型(圖6a)。多皮質層和區域特異性細胞類型等代表性簇的比例和位置與過往研究高度一致。盡管其解剖結構復雜,但uniPort仍精確地重塑和排列了從邊界延伸到中心區域的L2/3L6亞簇 (圖6b)。此外,L6層的亞群也被清晰地分離,揭示了該方法對幾乎無法察覺的信號的敏感性。因此,無論是標記基因的表達還是大腦的解剖結構,都證明了所提出圖譜的穩健性,且可以在基于基因表達的聚類和解剖注釋之間建立一致性,并提供比通過視覺檢查更徹底和全面的理解。

uniPort幫助定位乳腺癌區域的TLS 癌癥的發生和發展通常受到其與異質性腫瘤微環境(TME)的關聯影響,而ST可以為其提供生物學見解。為了進一步證明其靈活的效用,作者使用uniPort對 HER2陽性乳腺癌的空間數據進行去卷積,其中包含彌漫性浸潤細胞,這使得去卷積位點變得更加困難。如圖6c所示,在空間圖像上分配了9個主要簇,主要涉及T細胞和癌上皮細胞。此外,實驗發現分散在集中富集區域的代表性簇與標記基因表達所顯示的區域相一致(圖6d,e)。

大量研究表明,免疫細胞浸潤的增加與乳腺癌的良好預后高度相關。TLS是近年來在腫瘤或炎癥部位發現的一種異位淋巴樣器官,被認為是腫瘤患者的預后和預測因素。雖然TLS中存在多種細胞類型,但主要是T細胞和B細胞,它們的聯合共定位影響了TME。作者通過對每個點的細胞類型比例進行分析,并通過T細胞和B細胞共定位來識別TLS信號,以使T細胞和B細胞的表達強度相同(圖6f)。總體而言,uniPort可以協調不同模態,并滿足對組織和疾病代表性結構的高分辨率映射和識別。

圖6 uniPort識別空間轉錄組學數據中的標志性結構

uniPort揭示了基于微陣列的空間數據中的癌癥異質性 基于Visium的ST數據區域被限制在每個捕獲點直徑為55 μm的范圍內,這達到了相當于3-30個細胞的中等分辨率。隨著位點分辨率的降低,可能會對集成造成潛在的影響,因為成分的混合增長會帶來更多的噪聲。為了檢驗uniPort在這種情況下的性能,作者使用基于微陣列的胰腺導管腺癌(PDAC)組織的ST數據進行集成,其直徑延伸至100 μm。對1926個單細胞配對的428個位點進行細胞類型去卷積,并分別測量了19736個基因。

通過分解15個主要的簇,可以發現它們表現出正常和腫瘤組成的離散富集和復雜性(圖7a)。正常胰腺細胞類型分為導管細胞和腺泡細胞,與以往研究結果一致,保留了與癌細胞明顯不同的分布和遺傳特征。對于惡性胰腺細胞,根據遺傳差異將其分組為癌癥克隆A簇和B簇。其次,正常和癌變區域的組織學注釋總體上符合其數據驅動的標簽(圖7b), TME的基本成分由其標記基因表示(圖7c, d)。

為了進一步了解癌癥亞型的異質性,進一步分析確認它們的身份,以及每個位點所占最大比例(圖7e)。KEGG通路將它們分離成不同的功能組件(圖7f)。此外,在腫瘤克隆A中,包括紅細胞(RBC)、T細胞和自然殺傷(NK)細胞在內的血源性細胞比例顯著增加(圖7g),這與功能分析的結果一致。綜上所述,該方法可以操作不同分辨率的應用光譜,揭示細微的異質性TME。

圖7 uniPort在基于微陣列的空間數據中識別不同的癌癥亞型

總結

本文介紹了一種用于單細胞數據集成的統一深度學習方法uniPort,并將其應用于集成基于轉錄組學、表觀基因組學、空間分辨的高復雜度RNA成像以及條形碼的單細胞基因組學。uniPort結合了coupled-VAE和Minibatch-UOT,并利用高度可變的常見基因和數據集特異性基因進行集成。它是一種非線性方法,可將所有數據集投射到一個公共潛在空間,并在數據集之間輸出其潛在表示,從而實現可視化和下游分析。

uniPort解決了幾個計算方面的挑戰,首先是通過使用Minibatch-UOT消除其他基于自編碼器模型所需配對細胞的約束。與僅考慮跨數據集常見基因的現有方法不同,作者還利用了每個數據集特有的基因,從而捕獲常見基因中不存在的細胞類型異質性。此外,由于coupled-VAE的泛化能力,uniPort通過構建參考圖譜顯示了其在基因插補方面的能力和潛力。需要指出的是,uniPort甚至可以通過一個數據集中的公共基因來插補另一個數據集中的獨特基因,而無需從頭開始訓練。此外,uniPort還可以輸出用于下游分析的OT計劃,如靈活的標簽遷移學習,用于空間異構數據的去卷積。

在集成大規模異構數據集方面,uniPort具有計算效率和可擴展性,而這對于其他基于OT的方法來說可能是計算上的障礙。目前流行的基于OT的單細胞分析方法是基于全局最優傳輸,但全局最優傳輸使得計算非常昂貴。為了解決這一問題,uniPort在基于VAE的單細胞基因組學分析框架中引入了Minibatch-UOT,在每次迭代中只需要求解一個mini-batch傳輸計劃,從而大大降低了計算成本。因此,它可擴展到大數據集。

由于研究中對scATAC的集成是基于基因活性評分,為此作者還測試了uniPort在以不同方法計算基因活性評分時的性能。集成結果顯示,uniPort在MAESTRO的基因活性評分上取得了更好的表現,所有的評分都高于Signac,這說明了對基因活性評分建模的重要性。

與最近發表的最先進的方法相比,uniPort始終表現良好,并成功地使用OT計劃去卷積空間異構數據。隨著配對數據集和各種異質模態的快速發展,本文還通過使用CITE-seq數據和SNARE-seq數據集或沒有對齊公共基因的數據集,證明了uniPort對其他類型單細胞數據的普遍適用性。

參考資料

Cao, K., Gong, Q., Hong, Y. et al. A unified computational framework for single-cell data integration with optimal transport. Nat Commun 13, 7419 (2022). //doi.org/10.1038/s41467-022-35094-8

數據
代碼

付費5元查看完整內容

“我們很高興發布一種在PubMed上訓練的新生物醫學模型,這是構建可支持生物醫學研究的基礎模型的第一步。”——CRFM主任Percy Liang

近日,斯坦福基礎模型研究中心(CRFM)和MosaicML聯合開發了PubMed GPT模型,一種經訓練可以解釋生物醫學語言的大型語言模型。

目前的大型語言模型(LLM)通常使用于自然語言合成、圖像合成及語音合成等,而已知在特定行業的應用很少。本文所要介紹的PubMed GPT即展示了特定行業大型語言模型的能力,尤其在生物醫學領域。通過MosaicML云平臺,CRFM的開發者在PubMed的生物醫學數據集上訓練了一個生成式預訓練模型(GPT)。結果表明,特定領域的語言生成模型在實際應用中將會有很好的發展前景,同時,LLM也展現出更加優秀的性能和競爭力。注意:目前此模型僅用于研究開發,不適合生產。

PubMed GPT 模型。PubMed GPT 2.7B基于HuggingFace GPT模型,具有2.7B的參數和1024個標記的最大上下文長度。盡可能簡單的設計展示了現有LLM訓練方法的強大功能。

數據。采用Pile數據集的部分——PubMed Abstracts和PubMed Central。

計算。開發者選擇在50B的令牌上多次訓練PubMed GPT,達到一個較長的計算周期(300B)。結果表明,在數據受限的情況下仍可訓練出優秀的LLM模型。

MosaicML云平臺 MosaicML云。基于MosaicML云軟件棧,開發者在具有128個NVIDIA A100-40GB GPU、節點間1600Gb/s網絡帶寬的集群上訓練PubMed GPT,總訓練時長約6.25天。 Composer庫。由于MosaicML開源Composer庫的高效性和包容性,開發者使用Composer庫以及它的FSDP集成來訓練模型。 流數據集。為快速、靈活且廉價地管理自定義訓練數據集,開發者使用MosaicML的新StreamingDataset庫來管理100GB多文本的訓練數據集。

評估 開發者在幾個問答基準上對PubMed GPT進行了評估。例如下面的一個醫學問題摘要基準:

其對患者的疑問查詢(其中會包含歧義、拼寫錯誤等方面的信息)進行處理,并以清晰正確的格式呈現給醫生。

同時開發者將結果與5個模型進行了比較(如上圖):DRAGON、GPT-Neo 2.7B、Galactica、BioLinkBERT、PubMedBERT。結果證明:

1、LLM非常全能,在特定領域中從頭訓練時其具有與專業設計的系統相當的性能; 2、針對特定領域數據的預訓練勝過通用數據; 3、專注模型可以用較少的資源獲得高質量結果。

總結 PubMed GPT的結果只是生物醫學文本及其他領域研究的第一步,往后仍需要更多研究者來開發更加先進的成果。而且目前只是概念驗證,最終的希望是在未來出現值得信賴的交互式AI系統,在與人類專家進行篩選的同時也促進可靠的交互。 參考資料 //www.mosaicml.com/blog/introducing-pubmed-gpt

付費5元查看完整內容

編譯 | 沈祥振 審稿 | 夏忻焱 今天為大家介紹的是來自Maxwell W. Libbrecht,Wyeth W. Wasserman和Sara Mostafavi的一篇關于人工智能對于基因組學的可解釋性的研究的綜述。基于深度學習的人工智能(AI)模型現在代表了基因組學研究中進行功能預測的最先進水平。然而,模型預測的基礎往往是未知的。對于基因組學研究人員來說,這種缺失的解釋性信息往往比預測本身更有價值,因為它可以使人們對遺傳過程有新的認識。作者回顧了可解釋人工智能(xAI)新興領域的進展,以啟發生命科學研究人員對復雜深度學習模型的洞察力。之后,作者分類討論了模型解釋的方法,包括直觀地理解每種方法的工作原理及其在典型高通量生物數據集中的基本假設和局限性。

在接下來的章節中,作者首先介紹了關于深度學習方法在調節基因組學中如何使用的基礎知識,然后對四種解釋方法進行了分類:基于模型的解釋、影響的數學傳播、特征之間相互作用的識別以及透明模型的先驗知識的使用(圖1)。在整個綜述中,作者使用了調控基因組學領域的例子,其所提出的概念可以廣泛推廣。

圖1:可解釋人工智能的概念方法

深度學習之于調控基因組學

神經網絡和序列-活性模型

深度神經網絡(DNN)模型已成為調控基因組學預測模型的主要類型。本綜述重點介紹基于神經網絡的序列-活性模型。這些模型以假定的調控DNA序列(通常為100–10000 bp)為輸入,旨在預測序列活性的某些動態特性(即細胞或環境特異性)。目前對于如何為給定任務設計最佳神經網絡結構沒有共識,因此研究人員通常使用多種結構進行實驗。

DNN模型為何解釋困難?

作者總結了DNN模型的三大挑戰。首先,DNN對潛在特征表示進行編碼的高容量導致了最先進的預測精度,但它也面臨著識別模型所學習的特征和特征組合的挑戰。第二個挑戰是從局部解釋(一次估計給定輸入示例上的特征重要性)到對整個數據集上的重要特征組合的全局理解。另一個關鍵困難是無法系統地評估解釋策略,首先是因為缺乏基準數據集,其中真正的重要特征集是提前知道的,其次是因為各種算法所做假設的有效性取決于輸入數據集的屬性和所涉及的生物過程。

基于模型的解釋

模型解釋的直觀方法是檢查網絡的各個組件,以了解它們代表的(隱藏的)模式及其對預測性能的貢獻。可以考慮基于模型的解釋的兩種主要方法類別:最簡單的方法是直接檢查隱藏神經元的活動,以提取一組相關特征;第二種方法是使用注意機制訓練模型,通過一組學習的注意權重直接產生每個輸入特征的相關性度量。在本節中,作者描述了如何將這些方法應用于序列-活性模型,以了解網絡第一層學習到的單個特征。

解釋第一層卷積節點

在卷積序列-活性模型中,第一層神經元(濾波器)捕獲短序列模體,編碼在卷積權重矩陣中。從數學上講,將卷積權重矩陣應用于序列所執行的操作相當于使用位置權重矩陣(PWM)掃描序列(圖2a)。在實踐中,常見的策略是搜索在選定閾值以上激活給定濾波器的子序列,并根據激活子序列集的對齊情況直接構建PWM(圖2b)。由于神經網絡在設計上過于參數化,僅僅存在PWM并不意味著它是一個預測性、有趣或有用的特征。因此,我們需要測量PWM對模型預測的貢獻。在基于節點的策略中,這是通過依次對每個濾波器進行置零,并測量這種置零對模型預測結果的影響來實現的(圖2c)。

圖2:基于模型的解釋方法

用于可視化特征重要性的注意權重機制

先前的實證研究表明,將注意力權重按順序直接解釋為活動設置方面有一定的前景。注意力可以被視為一種權重正則化形式,其為輸入序列引入了權重,以對輸入中的位置進行優先級排序,盡可能保留相關信息以進行處理。注意力機制可以提高神經網絡模型的性能和可解釋性。顧名思義,當與模型訓練相結合時,注意力權重迫使模型在學習隱藏特征的同時關注輸入的有限部分。在序列-活性模型的情況下,可以直接檢查注意力向量,以幫助識別在模型內部表示中起關鍵作用的輸入部分(圖2d)。

影響的數學傳播

該算法通過在模型中傳播擾動數據并觀察對預測的影響,直接對輸入示例進行操作。基于傳播的歸因方法可以分為兩大類:向前和向后。在本節中,作者討論了最流行的歸因方法背后的概念基礎、它們的缺點以及遺傳數據背景下的緩解策略。

影響的正向傳播

本節主要介紹了硅誘變(ISM)策略。ISM與圖像像素翻轉類似,考慮翻轉與生物序列核苷酸相對應的元素,以確定訓練模型的特征重要性(圖3a)。與單核苷酸ISM不同,輸入序列的較大延伸可以改變,以識別依賴于重要堿基對組合的重要基序(類似于實驗室掃描誘變)(圖3b)。

影響的反向傳播

由于生成準確統計數據需要大量的前向傳遞,因此前向傳播方法的計算成本很高。反向傳播方法是為了解決這個問題而開發的。這些方法通過評估給定輸入序列下模型F的導數來近似ISM,以計算序列的微小變化對模型預測的影響(圖3c)。

從局部傳播結果到全局解釋

為了從基于傳播的方法生成的逐序列屬性圖中進行概括,以揭示對重要模體的全局理解,需要聚合許多輸入示例的結果。可以使用TFMoDisco作為針對DNA輸入序列的方法。

圖3:基于傳播的解釋方法

特征之間相互作用的識別

在基因調控的背景下,人們普遍認識到,轉錄因子(TF)之間的相互作用可以解釋除單獨附著于每個TF之外的活動。本節描述了前面提到的生成局部解釋的方法如何解釋特征之間的相互作用。

基于模型的交互識別

檢查較深層的神經元是一個明顯策略。神經網絡的較深層往往會聚合在較低層中學習到的特征。搜索那些最大限度地激活給定隱藏神經元的輸入,效果最好。可以應用自注意機制模型來實現對神經元重要程度的量化。

通過數學傳播解釋相互作用

基于ISM的傳播方法(向前和向后)可以用于解釋模型內的交互。但該領域應用ISM的計算成本非常高。可以以受限的方式應用來降低其計算成本,這些方式包括:將兩個基序插入隨機序列,對包含特定基序對的序列進行有針對性的分析(圖4a);正向和反向傳播方法的折衷結合,即深層特征交互圖(DFIM)(圖4b)。

圖4:揭示模型特征之間相互作用的方法

透明模型中先驗知識的應用

透明神經網絡模型是這樣一種模型,其中隱藏的節點被構造成在物理上對應于粒度級別上的生物單元,這有助于解釋更深層的隱藏節點(圖5)。圖5a展示了根據已知的TF綁定基序初始化過濾器,以演示如何使用先驗知識來設計網絡架構,構建具有固有可解釋單元的模型。圖5b展示了如何檢查訓練的模型,以深入了解給定上下文中存在的此類先驗交互作用。

圖5:利用先驗知識構造透明神經網絡

結論和未來展望

在本綜述中,作者重點介紹了序列-活性模型,其所述的xAI方法可廣泛應用于基因組學的深度學習應用。模型解釋的目的和效用在很大程度上取決于目標應用,因此應該根據目標指導解釋方法的選擇。解釋模型有其實際意義,但也不可盲目相信。解釋模型可用于識別訓練數據中存在的虛假相關性,防止預測模型通過學習非生物“捷徑”實現高精度。然而,解釋模型的“不可識別性”阻礙了解釋的可靠性。因此,必須謹慎使用解釋模型,并理解某些特性以及由此產生的特征可能是偶然的結果。對于哪種xAI方法最有效還沒有達成共識,作者預計,隨著這一領域的成熟,最佳實踐將得到確立,并集成到可訪問的分析工具中。隨著生物數據集的規模和可用性的增長,使用模型研究特征之間的復雜關系變得越來越重要。從這些模型中提取洞察力需要有效的xAI方法。因此,xAI將在基因組學中發揮越來越重要的作用。 參考資料 Novakovsky, G., Dexter, N., Libbrecht, M.W. et al. Obtaining genetics insights from deep learning via explainable artificial intelligence. Nat Rev Genet (2022). //doi.org/10.1038/s41576-022-00532-2

付費5元查看完整內容

編譯 | 侯琳琳 審稿 | 程志祥 今天為大家介紹的是來自Julián N.Acosta和Guido J.Falcone的一篇關于多模態生物醫藥AI的綜述。目前大多數人工智能在醫學上的應用都是使用單模態數據來處理特定的任務,例如計算機斷層掃描顯像(CT)和視網膜圖像。相比之下,臨床醫生在診斷、進行預后評估和決定治療計劃時,會處理來自多個源的多模態的數據。在這篇綜述中,作者探索了多模態數據在個性化醫療、數字臨床試驗、遠程監測和護理、流行病監測、數字孿生技術和虛擬健康助手方面可能的應用,并介紹了相關的數據、建模和隱私挑戰以及克服這些挑戰有前途的策略。

利用多模態數據的機會

圖一:多模態生物醫學AI的數據模態和機會

針對精準健康的個性化“組學” 隨著測序在過去二十年中的顯著進步,使用新的技術獲得的細粒度生物數據的數量越來越多。這些統稱為“組學”數據,包括基因組、蛋白質組、轉錄組、免疫組、表觀基因組、代謝組和微生物組。

整合這些截然不同的組學數據仍然具有挑戰性。然而,克服這一問題至關重要,因為它有望進一步加深我們對人類健康的了解,并允許制定精確和個性化的預防、診斷和治療戰略。研究人員已經提出了幾種在精確健康背景下整合多組學數據的方法。圖神經網絡是一個例子,它是處理計算圖的深度學習模型,允許科學家考慮多種類型的組學數據的已知相互關聯的結構。另一種方法是降維,包括PHATE和多尺度PHATE等新方法,它們可以學習不同粒度級別的生物和臨床數據的抽象表示,并已被證明可預測臨床結果。

數字化臨床試驗 隨機臨床試驗是在臨床醫學中使用新的診斷、預后和治療干預措施的金標準研究設計。但是,計劃和執行高質量的臨床試驗耗時且非常昂貴。此外,參與者的地理、社會文化和經濟差異,導致在這些研究中有幾個群體的代表性明顯不足,這限制了結果的普遍性。臨床試驗數字化可以通過減少參與者登記和保留的障礙、促進參與度和優化試驗測量和干預措施,為克服這些限制提供前所未有的機會。

來自可穿戴技術(包括心率、睡眠、體力活動、心電圖、血氧飽和度和血糖監測)和智能手機支持的自我報告問卷的數據可用于監測臨床試驗患者、識別不良事件或確定試驗結果。數字臨床試驗可以利用參與者的多個來源的數據實現自動表型和分組。

遠程監控:“家中醫院” 生物傳感器、持續監測和分析的最新進展增加了在一個人家里模擬醫院環境的可能性。這將降低成本,減少對醫療人員的要求,避免醫院感染和醫療差錯。

來自可穿戴傳感器和環境傳感器的多模態數據的集成有望改善遠程患者監測,一些研究已經證明了多模態數據在這些場景中的潛力。例如,環境傳感器(如深度相機和麥克風)與可穿戴設備 (例如測量身體活動的加速計) 數據相結合,有可能提高跌倒檢測系統的可靠性。

傳染病監測和爆發檢測 當前的COVID-19大流行突出了進行有效傳染病監測的必要性,一些國家成功地整合了來自移民地圖、移動電話使用率和衛生服務數據的多模態數據,以預測疫情的傳播并確定潛在病例。多模態人工智能模型在大流行病防備和應對方面的能力已得到測試,結果令人滿意,但還需要進一步驗證和復制這些結果。

數字雙胞胎 目前,我們依靠臨床試驗確定成功干預措施。100人中或許只有10人的干預措施被認為是成功的。一種被稱為“數字雙胞胎”的補充方法可以通過利用大量數據來建模并高精度預測特定的治療干預對特定患者有益或有害。

在精準腫瘤學和心血管健康領域,集成來自多個來源的數據,使用人工智能工具開發數字雙胞胎模型已經被提出。考慮到人類有機體的復雜性,醫學上精確和有用的數字雙胞胎技術的發展將取決于收集大量和多樣化的多模態數據的能力,從組學數據和生理傳感器到臨床和社會人口數據。這可能需要跨衛生系統、研究小組和行業的大規模合作。

虛擬健康助手 虛擬健康助手可以就人們的健康需求提供建議,但迄今尚未得到廣泛開發。目前市場上的虛擬健康助手往往針對特定的條件或用例,如用于糖尿病護理的虛擬健康助手。展望未來,人工智能模型中多個數據源的成功集成將促進個性化虛擬健康助手的發展。這些虛擬健康助手可以利用基因組測序、其他組學、血液生物標記物、代謝物、生物傳感器和其他相關生物醫學數據,促進行為改變、回答與健康相關的問題、對癥狀進行分類或在適當時與醫療保健提供者進行溝通。

多模態數據的收集

表一:可用多模態數據的研究實例

成功開發多模態數據支持的應用程序的第一個要求是收集、管理和協調大型注釋數據集,因為再復雜的技術也無法派生出數據中不存在的信息。相關的研究,例如UK Biobank于2006年開始注冊,最終參與者人數超過50萬,并計劃在注冊后跟蹤參與者至少30年。這個大型生物庫從參與者那里收集了多層數據,包括社會人口統計和生活方式信息、身體測量、生物樣本、12導聯心電圖和EHR(電子健康記錄)數據。其他國家也開展了類似的活動,如China Kadoorie Biobank和Biobank Japan等等。

這些數據集中的多模態數據的可用性可能有助于在一系列不同的任務中實現更好的診斷性能。例如,最近的工作表明,在識別肺栓塞和區分急性呼吸衰竭的常見原因(如心衰、肺炎或慢性阻塞性肺疾病)方面,影像學和電子病歷數據的結合優于單獨的每種模式。

技術挑戰

圖二:多模態人工智能中的新技術概念的簡要說明

實現和建模的挑戰 多模態學習框架能夠從不同模態的數據中學習,而不需要不同的模型架構。理想地,統一的多模態模型將結合不同類型的數據(圖像、生理傳感器數據以及結構化和非結構化文本數據等),為跨模態的類似概念產生對齊的表示(例如,狗的圖片,并且單詞‘狗’應該產生類似的內部表示),并提供任務所要求的任意類型的輸出。

在過去的幾年里,已經從應用于特定模態的架構--例如用于圖像的卷積神經網絡,或用于文本的循環神經網絡--過渡到Transformer這一相對新穎的架構,該架構已經在各種輸入和輸出模態和任務上顯示出良好的性能。Transformer的一個很有希望的方面是能夠用未標記的數據學習有意義的表示,這在生物醫學人工智能中是至關重要的,因為獲得高質量標記所需的資源有限且昂貴。

在生物醫學人工智能的設置中,數據可能并不容易獲得。這一問題的一個可能的解決方案是利用一種模態的可用數據來幫助使用另一種模態進行學習,這是一種稱為“共同學習”的多模態學習任務。例如,一些研究表明,對未標記的語言數據進行預訓練的Transformer可能能夠很好地推廣到其他任務。在醫學方面,一種名為“CycleGans”的模型架構,它用非配對的非對比或對比CT掃描圖像進行訓練,被用于生成非對比或對比CT掃描圖像。

另一個重要的建模挑戰與多模態健康數據中包含的極高數量的維度有關,統稱為“維度詛咒”。隨著維度數量的增加,攜帶這些特征的某些特定組合的人的數量減少,從而導致數據集盲點,即特征空間的一部分沒有任何觀測。這些數據集盲點可能會損害模型在現實生活預測方面的性能。可以使用幾種策略來緩解這一問題。第一種,使用最高性能的任務收集數據(例如,用于運動控制的快速手指敲擊,而不是日常運動中被動收集的數據)。第二,確保大而多樣的樣本量(即條件與模型臨床部署時預期的條件相匹配)。第三,使用領域知識指導特征工程和選擇,適當的模型訓練和正則化,嚴格的模型驗證和全面的模型監測(包括監測訓練數據和部署后發現的數據之間的差異)。展望未來,開發能夠整合先前知識的模型(例如,已知的基因調控途徑和蛋白質相互作用) 可能是克服維度詛咒的另一種有希望的方法。

在多模態學習中,組合來自不同模態的數據的過程被稱為“多模態融合”,這不是簡單地將幾個模態分別輸入到模型中。不同數據模態的融合可以在該過程的不同階段進行。最簡單的方法包括在任何處理之前串聯輸入模態或特征(早期融合)。雖然簡單,但這種方法并不適用于許多復雜的數據模態。一種更復雜的方法是在訓練過程中組合并共同學習這些不同模態的表示(聯合融合),允許特定于模態的預處理,同時仍然捕獲數據模態之間的相互作用。最后一種方法是為每種模態訓練單獨的模型,并結合輸出概率(后期融合),這是一種簡單而穩健的方法,但錯過了從模態之間的相互作用中提取信息的機會。

與多模態模型相關的許多其他重要挑戰仍然存在。對于一些模態(例如,三維成像),即使只使用單個時間點的模型也需要很大的計算能力,而同時處理大規模組學或文本數據的模型是一個重要的基礎挑戰。

數據的挑戰 支撐健康的多維數據在收集、鏈接和注釋這些數據方面帶來了廣泛的挑戰。醫學數據集可以沿著多個軸進行描述,包括樣本大小、表型分析的深度、隨訪的時間和間隔、參與者之間的互動程度、參與者的異質性和多樣性、數據的標準化和協調程度以及數據來源之間的關聯度。

數據的挑戰有以下幾個方面。第一,生物醫學數據集的多樣性至關重要,因為它是確保推廣到更廣泛人群的第一步。第二,多模態人工智能的一個必要步驟是將數據集中可用的所有數據類型適當地聯系起來,這是另一項挑戰。第三,是丟失數據的比例通常很高。雖然在某些情況下,在訓練前簡單地排除有缺失數據的患者是一種選擇,但當其他因素影響缺失數據時,可能會出現選擇偏差,而且通常使用統計工具來彌補這些缺失更合適,例如多重插補。第四,在進行收集健康數據的研究時,會有引起幾種偏見的風險,需要采取多種方法來監測和減輕這些偏見。

隱私的挑戰 多模態人工智能在健康領域的成功發展需要數據的廣度和深度,這包含了比單一模態人工智能模型更高的隱私挑戰。研究人員提出和探索了多種技術解決方案,以確保在訓練多模態人工智能模型的同時確保安全和隱私,包括差異隱私、聯邦學習、同態加密和群學習。

此外,邊緣計算也可以用于保護隱私。與云計算相反,邊緣計算指的是讓計算更接近數據來源的想法(例如,接近環境傳感器或可穿戴設備)。與聯邦學習等其他方法相結合,邊緣計算通過避免將敏感數據傳輸到中央服務器來提供更高的安全性。

結論

多模態醫療AI開啟了醫療保健領域的關鍵應用,除了這里描述的機會之外,還有許多其他機會,例如藥物發現領域。雖然我們解決了使用多模態人工智能的許多重要挑戰,但本綜述范圍外的其他挑戰也同樣重要,包括假陽性的可能性以及臨床醫生應該如何向患者解釋風險。

目前我們數據分析方面做的不如整理和存儲這些數據方面好。為了有意義地處理這樣的高維數據并實現許多令人興奮的用例,將需要醫學界和人工智能研究人員的共同努力來構建和驗證新的模型,并最終展示它們對改善健康結果的效用。 參考資料

Acosta, J.N., Falcone, G.J., Rajpurkar, P. et al. Multimodal biomedical AI. Nat Med (2022). //doi.org/10.1038/s41591-022-01981-2

付費5元查看完整內容

編譯 | 陳睿哲 本文介紹一篇拜羅伊特大學2022年7月發表在nature communications的《ProtGPT2 is a deep unsupervised language model for protein design》。蛋白質設計在自然環境和生物醫學中發揮著重要作用,旨在為特定用途設計全新的蛋白質。受到近期Transformer架構在文本生成領域成功的啟發,作者提出ProtGPT2,一種在蛋白質空間上訓練的語言模型,用于生成遵循自然序列原則的全新蛋白質序列。ProtGPT2生成的蛋白質顯示出天然氨基酸傾向,而無序預測表明,88%的ProtGPT2生成的蛋白質是球狀的,與自然序列一致。蛋白質數據庫中的敏感序列搜索表明,ProtGPT2序列與自然序列有著遠親關系,相似網絡進一步證明,ProtGPT2是對蛋白質空間中未探索區域的采樣。ProtGPT2生成的序列在探索蛋白質空間的未知區域時,保留了天然蛋白質的關鍵特征。

1 簡介 近年來,預訓練大模型極大地推動了自然語言處理領域的發展。作者等人注意到,蛋白質序列與人類語言有著某種相似性。蛋白質序列可以描述為化學定義的字母、天然氨基酸的串聯,與人類語言一樣,這些字母排列形成二級結構元素(“單詞”),單詞的集合形成承擔功能的“句子”。蛋白質序列與自然語言一樣,是信息完整的:它們以極其高效的方式完全按照氨基酸順序存儲結構和功能。隨著自然語言處理領域在理解和生成具有接近人類能力的語言方面的非凡進步,作者假設這些方法為從序列的角度處理蛋白質相關問題打開了一扇新的大門,例如蛋白質設計。

受到自回歸語言模型(如GPT系列)和先前采用自回歸語言模型建模蛋白質序列的成功,作者想知道能否通過自回歸語言模型來建模蛋白質序列,以達到:1)高效地學習蛋白質序列語言;2)生成合適且穩定的蛋白質;3)理解所生成的序列與自然語言處理的關系,模型能否對未知蛋白質空間進行采樣。

因此,作者提出了ProtGPT2,一種具有7.38億參數的GPT架構的自回歸模型,能夠以高通量方式生成從頭蛋白質序列。ProtGPT2在整個蛋白質空間的百萬序列上進行訓練后,有效地學習了蛋白質語言。ProtGPT2生成的蛋白質序列具有與自然序列相同的氨基酸和無序傾向,同時在進化上遠離當前的蛋白質空間。二級結構預測計算出88%的序列是球狀的,與天然蛋白質一致。使用相似網絡表示蛋白質空間表明,ProtGPT2序列通過擴展自然超家族來探索蛋白質空間的未知區域。生成的序列顯示出與自然序列類似的預測穩定性和動態特性。由于蛋白質設計在解決從生物醫學到環境科學等領域的問題方面具有巨大潛力,作者認為ProtGPT2是高效高通量蛋白質工程和設計的重大進步。

2 方法 分詞與詞表 作者通過BPE分詞器在數據集上訓練,最終的詞表大小為50256個tokens,每個token平均包含了4個氨基酸。

數據集 作者以Uniref50作為訓練數據集,包含49874565個序列。隨機選擇10%的序列生成驗證數據集。最終的訓練和驗證數據集分別包含4488萬和499萬個序列。作者生成了兩個數據集,一個使用512的序列大小,另一個使用1024。本文中展示的結果對應于使用512大小訓練的模型(后文主模型)。

模型 作者使用堆疊Transformer decoder作為模型架構,ProtGPT2模型由36層Transformer decoder組成,模型維度為1280。在自回歸語言模型的條件下,每個句子的概率分布被定義為如下:

更具體的,作者通過優化句子中每個單詞與其前綴的負對數似然作為目標函數來進行優化:

模型訓練 輸入序列為BPE分詞器所分詞后得到的token序列。模型權重在訓練之前重新初始化。使用Adam(β1)優化模型?=?0.9, β2?=?0.999),學習率為1e-03。對于主模型,每個batch為512 tokens × 128 GPUs。每個GPU處理8個batch,總計1024個。模型在128個NVIDIA A100上訓練4天。使用DeepSpeed69進行并行訓練。

模型推理 作者使用主模型,使用不同的推理參數,對序列進行采樣。在采樣策略與采樣超參數上,重復懲罰在1.1到3.0之間以0.1進行微調,選擇token的范圍top-k從250到1000不等,每50采樣一次,并且top-p從0.7到1.0,窗口為0.05個單位(top-k采樣,模型會從概率前 k 大的單詞中抽樣選取下一個單詞;top-p采樣,設定概率閾值,取滿足閾值條件的樣本進行采樣)。基于以上的參數設定,為每種采樣參數生成100個序列,并將其氨基酸的頻率與自然序列進行比較。作者觀察了哪些參數在自然序列中七種最常見的氨基酸組中產生的差異較小。作者還探索了50到100范圍的beam search采樣,但在所有情況下都會產生較差的結果。為了確定自然序列中的氨基酸頻率以與ProtGPT2樣本進行比較,作者從Uniref50數據集中隨機選取了100萬個序列。作者通過微調超參數找到了最佳匹配參數,某個采樣過程如圖1所示。

3 結果 統計采樣 自回歸語言生成基于以下假設:序列的概率分布可以分解為條件下一個詞分布的乘積。然而,一個訓練好的語言模型生成不連貫的亂碼或重復文本并不罕見。作者簡要總結了本研究中應用的最常用的語言生成采樣策略與超參數。

貪婪搜索策略是在每次采樣時選擇概率最高的token。雖然算法簡單,但生成的序列是確定性的,很快也會變得重復(圖1a)。Beam search試圖通過保留最可能的候選詞來緩解這一問題,盡管生成的文本仍然存在重復性,人類文本往往會交替使用低概率和高概率token(圖1b)。最后,通過從前k個最可能的詞中隨機選取一個詞,隨機采樣遠離確定性采樣(圖1c,d)。

根據先前關于語言模型采樣策略的研究,受這項工作的啟發,作者按照不同的采樣策略和采樣超參數生成序列(圖1)。為了評估什么樣的采樣過程產生了最自然的相似序列,作者將生成的序列集的氨基酸傾向性與在自然蛋白質序列中發現的進行了比較。作者還觀察到貪婪搜索和Beam search會產生重復的確定性序列,而隨機采樣顯著改善了生成的傾向性(圖1)。此外,作者還觀察到,生成類似于自然序列的序列需要較高的k值,即最佳結果出現在k ?>?800的范圍內,作者特別選擇了k?=?950(圖1h)。作者還發現,當選擇1.2的重復懲罰時,采樣結果得到了改善。因此,本研究的其余部分使用了這些采樣參數。

ProtGPT2序列編碼球狀蛋白 為了在序列和結構屬性的背景下評估ProtGPT2生成的序列,作者創建了兩個數據集,一個是使用前面描述的推理參數從ProtGPT2生成的序列;另一個是從UR50隨機選擇的序列。每個數據集由10000個序列組成。由于ProtGPT2是以無監督的方式訓練的,作者的分析重點是驗證ProtGPT2序列的結構和生化特性。

作者首先研究了數據集中的無序和二級結構內容。之前已經表明,在細菌和古細菌中發現的蛋白質中約有14%是無序的。為此,作者運行IUPred335來分析ProtGPT2生成的序列是否比一組自然序列更容易無序。作者的分析顯示,在ProtGPT2生成的序列(87.59%)和自然序列(88.40%)中,球狀結構域的數量相似。已經報道了幾種檢測短內在無序區域的方法。由于作者的目標是提供跨數據集的球狀度和普遍無序的高水平比較,作者進一步使用IUPred3在氨基酸水平上分析了蛋白質序列。值得注意的是,作者的結果顯示兩個數據集的有序/無序區域分布相似,ProtGPT2和自然數據集中分別有79.71%和82.59%的有序氨基酸(表1)。

接下來,作者研究了無序中的相似性是否是等效二級結構元素含量的結果。為此,作者計算了ProtGPT2和自然序列數據集的PSIPRED預測。自然序列顯示α螺旋、β片和線圈含量分別為45.19%、41.87%和12.93%。ProtGPT2數據集的百分比分別為48.64%、39.70%和11.66%。這些結果表明,ProtGPT2生成的序列類似于球狀結構,其二級結構與在自然界中發現的類似。

ProtGPT2序列與自然序列 蛋白質在進化過程中通過點突變以及復制和重組發生了巨大變化。然而,通過序列比較,即使兩種蛋白質的序列有顯著差異,也可以檢測出它們之間的相似性。作者想知道ProtGPT2序列與自然序列的關系如何。為此,作者使用了HHblits,這是一種敏感的遠程同源性檢測工具,使用配置文件隱馬爾可夫模型根據數據庫搜索查詢序列。作者根據Uniclust30數據庫搜索ProtGPT2數據集中10000個序列的同源性。為了進行比較,作者還使用相同的設置對自然數據集執行了相同的搜索。此外,為了分析完全隨機序列與ProtGPT2序列的比較情況,作者還通過隨機選取詞表中的25個字母進行連接,構建了第三個數據集。

因為作者想對數據集與現代蛋白質空間的相關性進行定量比較,所以作者繪制了個體與序列長度圖(圖2)。具體來說,對于Uniclust30中發現的每一條路線,作者描述了具有最高個體和序列長度的路線。作為序列同一長度空間中的參考點,作者使用HSSP曲線,一個邊界集來定義蛋白質序列相關性的置信度。其特性低于該曲線的蛋白質,不一定具有類似的3D結構,也不可能具有同源性。由于ProtGPT2和隨機數據集中的序列不是蛋白質進化的結果,作者使用曲線作為已知閾值來比較數據集。

當查看曲線上方和下方的點擊分布時,作者觀察到HHblits在Uniclust30數據庫中發現了許多與自然序列數據集相關的點擊(圖2a)。具體來說,在10000個數據集序列中,9621個(96.2%)在HSSP曲線以上顯示出一致性。類似地,9295個ProtGPT2生成的序列(93%)在Uniclust30數據庫中也有對應的序列,它們在HSSP曲線上方對齊(圖2b)。相反,93%的隨機生成序列低于該閾值(圖2c)。盡管natural和ProtGPT2數據集的模式相似,但這兩個數據集在點擊分布上存在差異。一個標準差范圍為31.5–69.7%,自然數據集的平均同一性高于ProtGPT2集,范圍為32.9–64.1%(圖2a,b)。自然和ProtGPT2序列分布之間的差異無統計學意義(p值90%)。盡管ProtGPT2數據集中的365個序列在Uniclust30中具有高同一性序列,但它們在所有情況下都對應于低于15個氨基酸的比對,而自然數據集顯示760個序列超過90%,比對長度在14.8–77.3個氨基酸的一個標準差范圍內。這些結果表明,ProtGPT2有效地生成了與自然序列有遠親關系的序列,但不是記憶和重復的結果。

ProtGPT2生成有序結構 設計全新蛋白質序列時最重要的特點就是能否夠折疊成穩定的有序結構。作者在AlphaFold預測、Rosetta松弛分數和分子動力學(MD)模擬下,評估了ProtGPT2序列與自然和隨機序列的潛在適合度。

AlphaFold在0-100(pLDDT)范圍內生成其置信度的每殘留估計值。該分數已被證明與順序相關:低分數(pLDDT>50)往往出現在無序區域,而優秀分數(PLDD>90)出現在有序區域。在這里,作者對每個序列進行了五個結構預測。當采用每個序列的最佳評分結構時,數據集的平均pLDDT為63.2,當對每個序列的所有五個預測進行平均時,為59.6。此外,37%的序列顯示pLDDT值超過70。由于pLDDT分數是結構順序的代理,作者轉向自然和隨機數據集,看看它們與ProtGPT2序列相比如何。與之前的工作一致,自然數據集中66%的序列預測pLDDT值大于7043,整個數據集的平均值為75.3(補充圖2b)。相反,隨機數據集中的預測顯示pLDDT的平均值為44,pLDDT值超過70的序列中只有7.4%(補充圖2c)。

為了進一步驗證模型的質量,作者在三個數據集上執行了Rosetta RelaxBB。Rosetta Relax對Rosetta能量函數執行蒙特卡洛優化,從而產生不同的骨架和轉子分子構象。較低的羅塞塔能量構象與較松弛的結構相關。最新的羅塞塔能量力場與熱容、密度和焓等實驗變量密切相關。該評分函數反映了一種靜態蛋白質構象的熱力學穩定性。在這里,作者對三個數據集的30000個序列進行了Rosetta松弛實驗(圖3a)。一個廣泛的經驗法則是,總分(羅塞塔能量單位,REU)應介于?1和?3/殘基。作者在天然和ProtGPT2數據集中觀察到這種分布,平均值分別為1.90和1.73 REU/殘基。正如預期的那樣,隨機序列的數據集顯示平均值為0.13 REU/殘基。

作者進一步測試了ProtGPT2序列是否顯示出與自然序列類似的動態特性。蛋白質是動態實體,如果沒有其固有的靈活性,它們將無法與其他生物分子相互作用并在細胞中發揮其功能。為了評估ProtGPT2生成的序列是否在與天然蛋白質相同的范圍內顯示靈活性,作者隨機選擇每個數據集的12個序列,并運行了100個分子動力學(MD)的三個副本,共108條軌跡,總時間為10.8微秒。為了確保在模擬過程中觀察到的動力學不是不同pLDDT值的偽影,因此可能是不同的無序預測,作者確保數據集pLDDT平均值之間的差異在統計上沒有差異。自然和ProtGPT2數據集中每條軌跡的均方根偏差平均值分別為2.93和3.12?分別為(圖3b)。正如預期的那樣,隨機序列在軌跡期間顯示出顯著的偏差,平均值為9.41??. 雖然ProtGPT2序列的值高于自然序列,但分布沒有顯著差異。結果表明,ProtGPT2序列可能與自然界中發現的蛋白質具有類似的動力學特性。

ProtGPT2超越了當前蛋白質空間邊界 有幾項研究試圖將蛋白質序列的維度降低為幾個可識別的維度,以便進行分析。大多數表示方法包括(i)蛋白質結構的層次分類,如ECOD和CATH數據庫,(ii)笛卡爾表示和相似網絡。作者最近在一個網絡中表示結構空間,該網絡將蛋白質顯示為節點,當它們在common中具有同源和結構相似的片段時連接,并在Fuzzle數據庫中提供結果。該網絡代表來自七個主要SCOP類的25000個域,并表明現代已知的蛋白質空間既有連接的區域,也有“島狀”區域。

進化已經探索了所有可能的蛋白質序列,但并不可信。因此,作者想設計出探索蛋白質空間未探索區域的蛋白質,以及是否可以設計出新的拓撲結構和功能,提出了挑戰。作者將ProtGPT2序列整合到作者的蛋白質空間網絡表示中。為此,作者為每個SCOPe2.07和ProtGPT2序列生成了HMM配置文件,使用HHsearch以all對all的方式對它們進行比較,并用Protlego表示網絡。為了避免具有多個對齊的特定序列最終由網絡中的同一節點表示,作者用兩個不重疊的對齊復制條目。

該網絡包含59612個頂點和427378條邊,包括1847個組件或“島狀”簇(圖4)。主要成分聚集了一半以上的節點(30690),這一數字明顯高于在相同設置下生成的網絡中觀察到的數量,但不包括ProtGPT2序列,強烈表明ProtGPT2生成的序列橋接了蛋白質空間中的獨立島。作者從拓撲不同的作用域類中選擇了跨越網絡不同區域的六個示例,以在結構級別展示ProtGPT2序列(圖4)。特別是,作者報告了一個全β(751),兩個α/β(42661068),一個膜蛋白(4307),一個α?+?β(486)和全α(785)結構。這些結構說明了ProtGPT2在生成從頭結構方面的多功能性。對于每種情況,作者使用FoldSeek58搜索PDB數據庫中發現的最相似的蛋白質結構。ProtGPT2生成折疊良好的全β結構(751,4307),盡管最近取得了令人印象深刻的進展,但長期以來一直非常具有挑戰性。ProtGPT2還生成膜蛋白(4307),由于在指定膜內結構方面的挑戰和繁重的實驗表征,這對蛋白質設計提出了一個困難的目標。除了生成自然折疊代表外,ProtGPT2還產生了以前未收錄的拓撲結構。例如,作者報告了蛋白質4266,其拓撲結構與目前PDB收錄中的任何結構都不匹配,DALI Z分數低為5.4,RMSD為3.0??到PDB 5B48超過67個殘基(9%)。

然而,ProtGPT2序列最顯著的特性可能是其與所有先前設計的從頭結構的顯著偏差,這些結構通常具有環路和最小結構元素的理想拓撲。從頭蛋白質設計的優點是不攜帶任何進化歷史,但在實踐中,缺乏實例和更長的環阻礙了與其他分子相互作用和功能實現所需的裂縫、表面和空腔的設計。ProtGPT2序列類似于天然蛋白質的復雜性,具有多方面的表面,能夠分配相互作用的分子和底物,從而為功能化鋪平了道路。在圖4中,作者展示了結構486和1060,這是此類復雜結構的兩個示例。特別是,1068顯示了TIM-barrel褶皺,該拓撲迄今為止在從頭蛋白質設計中取得了成功,但其理想化結構已被證明具有挑戰性,無法通過額外的secondary elements和更長的環進行擴展。

保留的功能熱點 對FoldSeek發現的最佳點擊結構疊加進行檢查,發現了幾個配體相互作用殘基的側鏈保守的例子。圖5中顯示了兩個示例。最類似于序列357(圖5a)的自然結構對應于PDB代碼1X0P(鏈A),一個結合FAD的藍光傳感器域。當重疊結構時,作者觀察到357保留了側鏈結合熱點,三個殘基相同(D169、Q150和N131),兩個不同但能夠形成相同相互作用的殘基,即R165位的賴氨酸和K127位的組氨酸。序列475(圖5b)最類似于PDB代碼5M1T(鏈A),折疊成TIM-barrel并與細菌第二信使環二-3′,5′-鳥苷單磷酸(PDB三字母代碼C2E)結合的磷酸二酯酶。在五個側鏈相互作用的殘基中,ProtGPT2序列保留了三個殘基(Q455、R473和E469),并包括一個取代另一個能夠氫鍵的殘基(用于Q513的天冬氨酸)。值得注意的是,ProtGPT2以zero-shot生成了這些序列,即在這兩個特定折疊中沒有進一步微調。這些結果對蛋白質工程產生了重大影響,因為盡管同源性較低(357和45分別為31.1%和29.2%),但ProtGPT2似乎保留了生成序列中的結合位置,并可用于增加特定折疊和家族的序列。

4 總結 過去的2年里,利用人工智能方法的從頭蛋白質設計取得了驚人的成功。作者構建了一個自回歸語言模型ProtGPT2,ProtGPT2有效地學習了蛋白質語言。ProtGPT2可以生成與自然序列有遠近關系的序列,其結構類似于已知的結構空間,具有非理想化的復雜結構。由于ProtGPT2已在整個序列空間上訓練,因此該模型產生的序列可以對任何區域進行采樣,包括深色蛋白質組和傳統上認為在蛋白質設計領域非常具有挑戰性的區域,例如全β結構和膜蛋白。ProtGPT2蛋白質與遠親天然蛋白質結構的視覺疊加顯示,PROTGPT1還捕獲了功能決定簇,保留了配體結合的相互作用。由于人工蛋白質的設計可以解決許多生物醫學和環境問題,作者在蛋白質語言模型中看到了巨大的潛力。ProtGPT2設計在幾秒鐘內即可適應球狀蛋白質,無需進行進一步訓練。通過根據用戶序列微調模型,ProtGPT2可以適應特定的家族、功能或折疊。在這種情況下,ProtGPT2將能夠篩選與天然蛋白質相似的蛋白質,以改善、微調或改變天然蛋白質的特定生化功能。大規模篩選ProtGPT2設計的蛋白質庫可能會識別數據庫中未捕獲的蛋白質折疊以及在自然界中沒有相關對應功能的蛋白質。ProtGPT2是面向高效蛋白質設計和生成邁出的一大步,為探索設計蛋白質結構和功能的參數及其后續實際應用的實驗研究奠定了基礎。 參考資料 Ferruz, N., Schmidt, S. & H?cker, B. ProtGPT2 is a deep unsupervised language model for protein design. Nat Commun 13, 4348 (2022). //doi.org/10.1038/s41467-022-32007-7
項目主頁

代碼

付費5元查看完整內容
北京阿比特科技有限公司