編譯 | 沈祥振 審稿 | 夏忻焱 今天為大家介紹的是來自Maxwell W. Libbrecht,Wyeth W. Wasserman和Sara Mostafavi的一篇關于人工智能對于基因組學的可解釋性的研究的綜述。基于深度學習的人工智能(AI)模型現在代表了基因組學研究中進行功能預測的最先進水平。然而,模型預測的基礎往往是未知的。對于基因組學研究人員來說,這種缺失的解釋性信息往往比預測本身更有價值,因為它可以使人們對遺傳過程有新的認識。作者回顧了可解釋人工智能(xAI)新興領域的進展,以啟發生命科學研究人員對復雜深度學習模型的洞察力。之后,作者分類討論了模型解釋的方法,包括直觀地理解每種方法的工作原理及其在典型高通量生物數據集中的基本假設和局限性。
在接下來的章節中,作者首先介紹了關于深度學習方法在調節基因組學中如何使用的基礎知識,然后對四種解釋方法進行了分類:基于模型的解釋、影響的數學傳播、特征之間相互作用的識別以及透明模型的先驗知識的使用(圖1)。在整個綜述中,作者使用了調控基因組學領域的例子,其所提出的概念可以廣泛推廣。
圖1:可解釋人工智能的概念方法
深度學習之于調控基因組學
神經網絡和序列-活性模型
深度神經網絡(DNN)模型已成為調控基因組學預測模型的主要類型。本綜述重點介紹基于神經網絡的序列-活性模型。這些模型以假定的調控DNA序列(通常為100–10000 bp)為輸入,旨在預測序列活性的某些動態特性(即細胞或環境特異性)。目前對于如何為給定任務設計最佳神經網絡結構沒有共識,因此研究人員通常使用多種結構進行實驗。
DNN模型為何解釋困難?
作者總結了DNN模型的三大挑戰。首先,DNN對潛在特征表示進行編碼的高容量導致了最先進的預測精度,但它也面臨著識別模型所學習的特征和特征組合的挑戰。第二個挑戰是從局部解釋(一次估計給定輸入示例上的特征重要性)到對整個數據集上的重要特征組合的全局理解。另一個關鍵困難是無法系統地評估解釋策略,首先是因為缺乏基準數據集,其中真正的重要特征集是提前知道的,其次是因為各種算法所做假設的有效性取決于輸入數據集的屬性和所涉及的生物過程。
基于模型的解釋
模型解釋的直觀方法是檢查網絡的各個組件,以了解它們代表的(隱藏的)模式及其對預測性能的貢獻。可以考慮基于模型的解釋的兩種主要方法類別:最簡單的方法是直接檢查隱藏神經元的活動,以提取一組相關特征;第二種方法是使用注意機制訓練模型,通過一組學習的注意權重直接產生每個輸入特征的相關性度量。在本節中,作者描述了如何將這些方法應用于序列-活性模型,以了解網絡第一層學習到的單個特征。
解釋第一層卷積節點
在卷積序列-活性模型中,第一層神經元(濾波器)捕獲短序列模體,編碼在卷積權重矩陣中。從數學上講,將卷積權重矩陣應用于序列所執行的操作相當于使用位置權重矩陣(PWM)掃描序列(圖2a)。在實踐中,常見的策略是搜索在選定閾值以上激活給定濾波器的子序列,并根據激活子序列集的對齊情況直接構建PWM(圖2b)。由于神經網絡在設計上過于參數化,僅僅存在PWM并不意味著它是一個預測性、有趣或有用的特征。因此,我們需要測量PWM對模型預測的貢獻。在基于節點的策略中,這是通過依次對每個濾波器進行置零,并測量這種置零對模型預測結果的影響來實現的(圖2c)。
圖2:基于模型的解釋方法
用于可視化特征重要性的注意權重機制
先前的實證研究表明,將注意力權重按順序直接解釋為活動設置方面有一定的前景。注意力可以被視為一種權重正則化形式,其為輸入序列引入了權重,以對輸入中的位置進行優先級排序,盡可能保留相關信息以進行處理。注意力機制可以提高神經網絡模型的性能和可解釋性。顧名思義,當與模型訓練相結合時,注意力權重迫使模型在學習隱藏特征的同時關注輸入的有限部分。在序列-活性模型的情況下,可以直接檢查注意力向量,以幫助識別在模型內部表示中起關鍵作用的輸入部分(圖2d)。
影響的數學傳播
該算法通過在模型中傳播擾動數據并觀察對預測的影響,直接對輸入示例進行操作。基于傳播的歸因方法可以分為兩大類:向前和向后。在本節中,作者討論了最流行的歸因方法背后的概念基礎、它們的缺點以及遺傳數據背景下的緩解策略。
影響的正向傳播
本節主要介紹了硅誘變(ISM)策略。ISM與圖像像素翻轉類似,考慮翻轉與生物序列核苷酸相對應的元素,以確定訓練模型的特征重要性(圖3a)。與單核苷酸ISM不同,輸入序列的較大延伸可以改變,以識別依賴于重要堿基對組合的重要基序(類似于實驗室掃描誘變)(圖3b)。
影響的反向傳播
由于生成準確統計數據需要大量的前向傳遞,因此前向傳播方法的計算成本很高。反向傳播方法是為了解決這個問題而開發的。這些方法通過評估給定輸入序列下模型F的導數來近似ISM,以計算序列的微小變化對模型預測的影響(圖3c)。
從局部傳播結果到全局解釋
為了從基于傳播的方法生成的逐序列屬性圖中進行概括,以揭示對重要模體的全局理解,需要聚合許多輸入示例的結果。可以使用TFMoDisco作為針對DNA輸入序列的方法。
圖3:基于傳播的解釋方法
特征之間相互作用的識別
在基因調控的背景下,人們普遍認識到,轉錄因子(TF)之間的相互作用可以解釋除單獨附著于每個TF之外的活動。本節描述了前面提到的生成局部解釋的方法如何解釋特征之間的相互作用。
基于模型的交互識別
檢查較深層的神經元是一個明顯策略。神經網絡的較深層往往會聚合在較低層中學習到的特征。搜索那些最大限度地激活給定隱藏神經元的輸入,效果最好。可以應用自注意機制模型來實現對神經元重要程度的量化。
通過數學傳播解釋相互作用
基于ISM的傳播方法(向前和向后)可以用于解釋模型內的交互。但該領域應用ISM的計算成本非常高。可以以受限的方式應用來降低其計算成本,這些方式包括:將兩個基序插入隨機序列,對包含特定基序對的序列進行有針對性的分析(圖4a);正向和反向傳播方法的折衷結合,即深層特征交互圖(DFIM)(圖4b)。
圖4:揭示模型特征之間相互作用的方法
透明模型中先驗知識的應用
透明神經網絡模型是這樣一種模型,其中隱藏的節點被構造成在物理上對應于粒度級別上的生物單元,這有助于解釋更深層的隱藏節點(圖5)。圖5a展示了根據已知的TF綁定基序初始化過濾器,以演示如何使用先驗知識來設計網絡架構,構建具有固有可解釋單元的模型。圖5b展示了如何檢查訓練的模型,以深入了解給定上下文中存在的此類先驗交互作用。
圖5:利用先驗知識構造透明神經網絡
結論和未來展望
在本綜述中,作者重點介紹了序列-活性模型,其所述的xAI方法可廣泛應用于基因組學的深度學習應用。模型解釋的目的和效用在很大程度上取決于目標應用,因此應該根據目標指導解釋方法的選擇。解釋模型有其實際意義,但也不可盲目相信。解釋模型可用于識別訓練數據中存在的虛假相關性,防止預測模型通過學習非生物“捷徑”實現高精度。然而,解釋模型的“不可識別性”阻礙了解釋的可靠性。因此,必須謹慎使用解釋模型,并理解某些特性以及由此產生的特征可能是偶然的結果。對于哪種xAI方法最有效還沒有達成共識,作者預計,隨著這一領域的成熟,最佳實踐將得到確立,并集成到可訪問的分析工具中。隨著生物數據集的規模和可用性的增長,使用模型研究特征之間的復雜關系變得越來越重要。從這些模型中提取洞察力需要有效的xAI方法。因此,xAI將在基因組學中發揮越來越重要的作用。 參考資料 Novakovsky, G., Dexter, N., Libbrecht, M.W. et al. Obtaining genetics insights from deep learning via explainable artificial intelligence. Nat Rev Genet (2022). //doi.org/10.1038/s41576-022-00532-2
2022年10月28日,來自巴基斯坦的研究團隊在期刊Journal of Biomolecular Structure and Dynamics上發表綜述論文Deep learning in drug discovery: a futuristic modality to materialize the large datasets for cheminformatics。論文全面總結了人工智能方法在藥物發現中的應用,并針對Covid-19的藥物發現過程進行了詳細的分析。
1 摘要
人工智能的發展模仿了人腦的工作原理來理解現代問題。傳統的方法,如高通量篩選(high-throughput screening, HTS)和組合化學,由于只能處理較小的數據集,這對制藥業來說是漫長而昂貴的。深度學習是一種精巧的人工智能方法,它可以對特定系統進行全面的理解。
目前,制藥業正在采用深度學習技術來加強研究和開發過程。多向算法在QSAR分析、藥物從頭設計、ADME評估、物理化學分析、臨床前開發,以及臨床試驗數據精確性方面發揮著至關重要的作用。在這項研究中,作者調查了多種算法的性能,包括深度神經網絡(deep neural networks, DNN)、卷積神經網絡(convolutional neural networks, CNN)和多任務學習(multi-task learning, MTL)。研究表明,卷積神經網絡、循環神經網絡和深度信念網絡(deep belief network)對于藥效學屬性的分子描述是兼容的、準確的和有效的。在Covid-19中,現有的藥理化合物也已經使用深度學習模型進行了重新設計。在沒有Covid-19疫苗的情況下,藥物瑞德西韋(remdesivir)和藥物奧司他韋(oseltamivir)已被廣泛用于治療嚴重的SARS-CoV-2感染。總之,這些結果表明了在藥物發現過程中采用深度學習策略的潛在好處。
2 介紹
20世紀末,化學信息學被引入藥物研發過程。濕實驗方法開發藥物成功率低、耗時長、花費高,藥物研發過程轉向了新的范式。通常,生成精確的先導化合物,且具有良好的吸收、分布、代謝、排泄、毒性(ADMET)性質和物理化學性質是該行業面臨的最大挑戰。計算工具有提高藥物開發過程的分析準確性的潛力。計算機輔助基于結構的藥物設計(structure-based drug design, SBDD)和基于配體的藥物設計(ligand-based drug design, LBDD)方法在計算藥物設計過程中占有一席之地。
多年以來,機器學習方法被用于不同的領域,但存在冗余和過擬合等問題。這些問題阻礙了機器學習模型的應用。2006年,Hinton等人設計了一個深度信念網絡(deep belief network, DBN)。DBN由一組非線性隱藏層組成。它有助于克服冗余和過擬合問題。在深度學習中,Frank Rosenblatt于1957年首次創建了神經網絡模式,并將其稱為深度神經網絡(deep neural network, DNN)。神經網絡如今可以處理以前不可能的圖像識別問題。監督學習、無監督學習和半監督學習是使用基于梯度下降的反向傳播策略來克服冗余和過擬合問題的常用工具。
2.1 醫療中的深度學習
人工智能技術可以應用于醫療領域的很多方面(如圖1所示),并被認為有助于醫生的臨床診斷。在心臟病學、糖尿病、視網膜病變、抗生素耐藥基因和阿爾茨海默病研究中,各種深度學習模型被開發用于預測疾病狀況和藥物的療效。已有研究模型可以精確地將心肌病分為限制性和收縮性病理。除了心血管、代謝和其他疾病,人工智能還可以改善腫瘤診斷。深度學習模型有效地指示了新冠肺炎模式,并對疾病進行了分類。
圖1 深度學習在藥物發現和生物標志物開發中的潛力。每個藥物發現時期的深度學習算法應用,包括臨床評估、生物過程結合、化學修飾和開發、化合物的新合成。
2.2 藥物設計中的深度學習
深度學習是機器學習的一個子類,更廣泛地說是人工智能的一個子類。在機器學習中,新特征的處理和生成通常基于小數據集,通過支持向量機(SVM)、隨機森林(RF)、k最近鄰(KNN)、線性回歸、邏輯回歸、樸素貝葉斯、決策樹等算法進行處理,這些算法僅在二分類中進行。人工神經網絡(artificial neural network, ANN)是人工智能的最簡單形式,如圖2所示。ANN由2-3層組成,包括單個輸入層和隱藏層,然后是作為神經元的單個輸出層。深度學習將大腦功能模擬為ANN。它包含一組多個隱藏層以提取所需信息。深度學習是一個自動化過程,使用圖形處理單元(GPU)和張量處理單元(TPU)加速來確保計算任務的自動化。為了執行專門的任務,深度學習中的開源編程語言包括torch、Deeplearning4j、CNTK、python和R。深度學習可分為監督學習、無監督學習和強化學習。卷積神經網絡(CNN)已經應用于自然語言處理(NLP)、圖文摘要、圖像分類和語音識別。CNN由三個基本層組成,稱為卷積層、池化層和全連接層。CNN通過稀疏連接和共享權重融入卷積層提取特征。池化層完善了魯棒性特征,并通過全連接層生成輸出數據。另一方面,DNN架構是一種前饋算法,可以從輸入數據中提取復雜特征,并將其映射到輸出模式中。DNN有多個隱藏層網絡,可以自動處理輸入數據。深度生成算法(deep generative algorithm, DGA)模型是一種基于無監督學習結構的模型,可以從高維輸入數據源中提取未標記的數據。深度信念網絡(DBN)和受限玻爾茲曼機器(RBM)是類似模型的例子。循環神經網絡(RNN)不僅基于輸入數據,還基于先前事件的輸入序列。RNN通過將單個元素保存在在隱藏層單元中并連接相鄰的隱藏節點來為序列數據處理提供預測。RNN使用反向傳播訓練以最小化模型中的誤差。長短期記憶神經網絡(LSTM)是RNN另一種變體。這都是藥物設計和開發過程中最常見的算法。
圖2 (A)淺層人工神經網絡(淺路徑)和(B)深層神經網絡之間的區別。
3 QSAR預測
Neves等人2018年開發一種經濟、快速且高效的工具建模定量結構-活性關系(quantitative structure–activity relationship, QSAR)。該方法廣泛應用于預測定量結構-活性關系,其基于化學結構的描述性統計。高通量篩選通過為精確篩選提供豐富的數據,提高了QSAR的有效性。由于提取新的苗頭化合物的高成本,HTS的使用受到限制。QSAR存在活性懸崖問題。雖然對特定蛋白質靶標具有活性,但結構相似的化合物在抑制潛力方面表現出差異,并改變了QSAR反應。出現這個問題的原因可能是工具選擇了效率低的描述符,也有可能是學習只是在淺層中進行。深度學習模型在QSAR評估過程中緩解了此類問題。深度神經網絡模型中高效開發的算法有可能克服活性懸崖、不準確和其他與QSAR方法有關的問題。因此,深度學習模型廣泛應用于QSAR預測,如AtomNet。它是一種基于深度卷積神經網絡的方法,可以從一個獨特的層面預測具有更好結合模式的新化合物。它針對在57%以上的靶標,對于AUC指標顯示出0.9(滿分1)的精度,這高于已知的對接模型。其優于先前使用的RF和SVM模型,證明了深度學習模型在確定化學結構生物活性特征方面的能力。
4 藥物從頭設計
藥物從頭設計是一種基于特定靶標所需特征構建新化學實體的計算技術。深度學習模型,改進了從頭開始的過程。一些算法提高這些模型的效率,如強化學習在碳和氮原子位置交換、優化分子性質和手性化合物形成方面具有優勢,可以提高發現苗頭化合物的效率。2019年,Niclas Stahl等人使用強化學習生成了2,048,000個化學結構,其中387個化合物含有所需的理想性質和分子特征。該模型基于365,521個化學結構進行訓練。較大的數據集增強了強化學習在選擇最佳分子特征方面的學習能力。該模型表明,大數據集提高了模型設計發現具有良好特征的新化合物的效率。
除了基于RL的模型,基于RNN的模型也被用于藥物從頭設計。有研究者將ChEMBL數據庫中的50,000,000個SMILES格式的化合物輸入RNN模型中開發新分子。該技術生成的864,880個化合物與輸入數據和重復數據沒有任何相似性。基于RNN的深度生成方法也可利用SMILES進行藥物從頭合成,如基于生成對抗網絡(generative adversarial networks, GANs)和變分自動編碼器(variational autoencoders, VAEs)。另外,多任務學習可以同時篩選合成化合物的多個化學性質,已有研究者將其應用于藥物從頭設計中。
5 ADME屬性
吸收(Absorption)、分布(Distribution)、代謝(metabolism)和排泄(excretion),是被認為是藥物開發過程的重要評估參數的藥代動力學屬性(見圖3)。英國GlaxoSmithKline公司開創了成功的計算ADME建模。多任務學習被認為是藥物開發過程中的一種有優勢的模式。有研究者開發了多任務的圖神經網絡模型、多種機器學習工具結合方法用于預測化合物的ADME屬性。
圖3 深度學習算法在藥物發現中的應用,包括從頭藥物設計、理化性質預測、藥物親和力預測、QSAR、ADME性質預測、毒性分析,以及最新應用于SARS-CoV-2的藥物發現。
6 毒性預測
化合物在表現出治療效果的同時,也可能對細胞體具有毒性作用。2014年,美國國家衛生研究院針對12,000種化合物的計算模型發起了Tox21挑戰。其選擇了650種化合物進行驗證,主要針對與毒性問題高度相關的核受體信號通路(nuclear receptor signaling pathway, NR)和應激反應(stress response pathway, SR)通路。深度學習在機器學習和高通量篩選技術中表現最佳。隨后,一場使用深度學習的比賽被舉辦。化合物中的毒物基團識別是篩選性質的主要任務,如電子供體/受體、芳香環或疏水區。在比賽中,有研究者使用擴展連接性指紋-4(extended connectivity fingerprint-4, ECFP4)進行化合物特征的二進制表示。多任務學習方法學習到了Tox21挑戰數據中的獨特特征,并從模型學習到細小特征(如磺酰基和毒性基團簇),接著提取了層次化的抽象特征。該模型在Tox21數據挑戰的所有工具中處于領先地位,成功完成了15項任務中的8項。在Tox-21挑戰之后,研究者開始了更廣泛的探索,以發現更小的毒性結構。另外,也有研究者結合隨機森林模型和DNN模型來提取毒性基團的特征。也有研究將遺傳算法融入KNN分類模型中以選擇相關描述符,來計算分子描述符的毒性分布。
7 物理化學性質
藥物動力學參數的準確評估和預測對藥物發現和開發過程有積極作用。深度學習模型在預測化合物的物理化學參數有著諸多應用。如,Moonshik Shin等人使用FDA推薦的人類結直腸癌細胞系(Caco-2)的深度神經網絡模型來確定化合物的滲透性和藥物轉運性質。他們使用了兩名獨立研究人員提供的SMILES字符串。663種化合物用于訓練和驗證深度學習模型,剩余的用于測試模型的準確性;其還與目前使用的計算模型進行了比較,主要有:基于隱含狄利克雷分配(latent dirichlet allocation, LDA)的分類器和基于梯度增強(gradient boost, GBT)的分類器。深度神經網絡模型取得了不錯的表現。 在水溶性、親脂性、電離常數pKa等性質的預測中,研究者也提出了諸多深度學習模型,例如深度學習模型在pka值的預測中產生了顯著的結果。由于分子中存在多個離解/電離位點,這種預測對于其他模型都不方便。一項研究引入了人工神經網絡模型,其基于大量數據集訓練,并用少量數據集進行測試模型的準確性,發現該模型優于pka分析的傳統計算方法。
藥物-靶標結合是篩選化合物的基本過程。藥物-靶標結合基于結構起作用,藥物需要與靶蛋白的3D結構進行相互作用,而基于配體的結合通過已知抑制化合物的實驗數據處理相互作用模式。原子卷積神經網絡(Atomic Convolutional Neural Network, ACNN)是最新開發的基于原子CNN的工具,它分層提取空間特征。對于深度學習在物理化學性質預測方面的應用可以詳見圖4。
圖4 示例一個包含人工智能和深度學習方法的探索藥物設計過程。1. 化合物數據庫:PubChem包含247百萬化合物,ZINC包含230百萬化合物,TargetMol包含約5000自然分子。2. 從頭化合物設計,通過計算方法設計特定靶標的化合物實體。3. QSAR:根據化合物分子的結構分析其生物屬性。4. 物理化學屬性:確定藥物分子屬性水溶性(aqueous)、親脂性(lipophilicity)、pKa和親和力(drug affinity)的相容性。5. ADMET:藥物的藥代動力學參數,如吸收、分布、代謝、排泄和毒性。6. 濕實驗合成。7. 體外細胞實驗。8. 體內分析和臨床前實驗。9. 臨床試驗:評估安全性,確定劑量,鑒別副作用,評估效用,與已市場化藥物比較。
8 深度學習對防治傳染病的意義
傳染病是由細菌、病毒和真菌等微生物引起的。隨著數學工具的引入,研究人員現在能夠更好地預測流行病,理解每種傳染病的特征,并確定可能的治療靶標。本文回顧了一些算法,以證明深度學習在推動傳染病抑制劑研究的應用。作者重點介紹了新冠肺炎抑制劑的相關研究,其中自然語言中的注意力機制也被引入其中,建立了基于卷積神經網絡模型以研究藥物-靶標相互作用(見圖5),模型基于大量的化合物庫進行訓練,部分數據庫如表1所示。
圖5 一個典型的CNN模型由文本層(text layer)、卷積層(convolutional layer)和池化層(pooling layer)組成,其可以從給定數據中提取特定的特征。通過多層相互作用的密集網絡,整合FASTA格式的靶標蛋白和SMILES格式的潛在化合物。
表1 可用于現代計算技術和深度學習方法化學/藥物分子的化合物數據庫
9 結論
人工智能正成為人類發展的基本組成部分,深度學習正通過逐步和穩定的潛力發展到科學領域,以推進開發可用的計算工具。新興的深度學習工具對當前技術領域中可用于制藥的方法提出了挑戰。這些工具的目標是從現有的化學空間從頭設計和開發化合物。論文介紹的數據庫是基礎化學數據的豐富來源。對于QSAR方法中的問題,如活性懸崖形成鹽橋(activity cliffs forms salt bridge),AtomNet為靶標預測了更好的結合親和力的藥物。除了AtomNet,遺傳算法和其他一些工具也有助于預測配體和受體的對接分數。循環神經網絡、強化學習、深度信念網絡和生成對抗網絡等技術已被用于從頭化合物生成,并報告了更好的H-供體(H-donors)、H-受體(H-acceptors)、可旋轉鍵(rotatable bonds)、logP和總極性表面積(total polar surface area),這對于化學物作為候選藥物的適用性至關重要。深度學習預測和開發具有這些性質的化合物的性能似乎與現有工具相當。藥物研發的另一個最重要的性質是其化合物的ADME性質。多任務學習和圖神經網絡已被應用于預測這些性質。這些模型在識別實質性候選化合物及其改善作用方面發揮了潛在作用,這些化合物有成為成功的藥物分子的潛力。這些方法顯示的另一個重要方面是預測物理化學性質的可靠性。圖神經網絡、基于隱含狄利克雷分配的模型、深度神經網絡等一些算法已經成功地用于預測水溶性、親脂性和pka的活性。深度學習方法最可靠的服務是其應用在SARS-CoV-2大流行中的最新方法,該方法影響了世界各地的重要人群。這些方法優于傳統方法,并發現了幾種針對新冠肺炎靶標的新型藥物化合物。盡管與傳統技術相比,計算方法的結果稍好一些,但其局限性迫使研究者試圖尋找潛在候選方案。因為它在某些方面被認為是一個黑盒子,但呈現的結果正在變得可靠。人工智能技術的成果正在浮出水面。參考資料Raza A, Chohan T A, Buabeid M, et al. Deep learning in drug discovery: a futuristic modality to materialize the large datasets for cheminformatics[J]. Journal of Biomolecular Structure and Dynamics, 2022: 1-16.
編譯|程昭龍
審稿|林榮鑫,王靜 本文介紹由美國斯坦福大學醫學院干細胞生物學與再生醫學研究所的Sean M. Wu通訊發表在 Nature Communications 的研究成果:在單細胞RNA測序分析中,由于細胞表現出復雜的多層身份或過渡狀態,導致對數據集的精確注釋成為主要挑戰。因此,作者提出了一個高度精確的機器學習工具devCellPy,它能自動預測跨復雜注釋層次結構的細胞類型。為了證明devCellPy的強大功能,作者從已發布細胞的數據集中構建了小鼠心臟發育圖譜,并訓練devCellPy生成心臟預測算法。該算法可以在多層注釋和小鼠發育數據中達到高預測精度。最終研究表明,devCellPy是一個可跨復雜細胞層次結構、物種和實驗系統進行自動細胞預測的工具。
1 簡介 在過去的十年中,單細胞RNA測序(scRNA-seq)技術為調控胚胎發育、細胞特性和疾病狀態的轉錄環境提供了前所未有的見解。但隨著實驗中獲得的細胞數量持續增長,生物信息學家通常需通過無監督聚類和手動細胞類型分配的費力過程來識別數千個細胞。此外,人工細胞類型指定可能導致研究組間細胞注釋的高可變性,以及實驗間細胞識別的低再現性。
為了應對這些挑戰,研究人員利用參考數據集將注釋映射到新收集的數據上,開發了用于識別細胞類型的信息學工具。雖然這些工具提供了強大的注釋算法,但依然缺乏全自動化的過程對跨復雜注釋層次的細胞進行分類,其中這些細胞表現出多個身份子類或時間限制的細胞類型。例如,在從發育中的胚胎收集的scRNA-seq數據中,細胞表現出動態和短暫的細胞狀態以及更精細的細胞特征。在訓練預測模型時,使用不考慮時間變量的算法自動分配細胞標識時,某些細胞標識可能只在已定義的發展時間點出現,這就造成了額外的挑戰。此外,如果沒有對數據進行大量的子聚類和重新計算新的降維特征空間,這些更精細的特征通常是無法檢測到的。自動細胞預測算法通常要求用戶構建單獨的參考模型,以實現對高粒度細胞亞型的注釋。這一挑戰在發育數據集中尤為突出,其中細胞類型存在于發育的有限時期內,因此,使生成統一預測模型復雜化。
為了解決這些挑戰,作者提出了基于Python的發育細胞預測(devCellPy)工具,用于從任何組織或物種獲得的高度復雜的注釋層次結構中自動預測細胞身份。devCellPy預測模型的基礎是極端梯度提升(XGBoost),這是一種有監督的機器學習方法,通過使用一系列梯度增強的決策樹集成來學習創建精確預測所需的輸入特征集。DevCellPy通過學習特定參考數據集的注釋層次結構和創建預測模型以全自動化的方式跨所有注釋層對細胞進行分類,其在細胞標識的自動化分配方面取得了重大進展。重要的是,該算法允許將時間點變量合并到注釋層次結構中,因此,可以對限定時間段內出現的細胞標識進行分類。
為了證明devCellPy在多層細胞預測方面的能力,作者從多個公開的scRNA-seq數據集中構建了一個單一的大規模心臟發育細胞圖譜。因為在心臟發育過程中存在非常復雜的不同細胞類型注釋,并且心臟內的細胞類型表現出隨時間變化的基因表達模式,所以作者在心臟發育數據集上測試了devCellPy的預測能力。實驗結果表明,該算法在多個層面(包括時間受限的細胞群)都具有高度準確性的預測能力,這進一步證明了devCellPy算法在跨物種預測心肌細胞類型方面的廣泛適用性。
2 結果 devCellPy 能夠生成用于細胞類型和亞型分類的多層預測算法
為了解決以分層方式自動分類細胞類型和亞型的挑戰,作者構建了一種基于Python的軟件包devCellPy,它可用于生成包含時間元素的細胞身份預測算法。devCellPy由訓練和預測步驟組成。在訓練期間,一個包含多層注釋的參考數據集被用于訓練算法(圖1a)。用戶為devCellPy提供一個注釋層次結構,其指定了數據集中的多個層和細胞類別,包括用于構造細胞類型和時間相關的注釋層次結構的時間點變量。此外,用戶為參考數據中的所有細胞提供一個對數規范化表達式矩陣,以及包含跨層次結構所有層的單細胞注釋的元數據表(圖1b)。作者在devCellPy中引入LayerObject類來創建一個有組織的數據結構,其中算法學習數據集的注釋層次結構,并包含層次結構中每個層的位置信息(圖1c)。該系統允許跨層次結構的正確分支自動分類細胞亞型,并為層次結構的每一層訓練一個XGBoost預測模型,并將其存儲在該層各自的LayerObject中。
除了LayerObjects,作者還在devCellPy中實現了最近開發的Shapley Additive explained (SHAP)算法。SHAP有助于devCellPy輸出在進行細胞類型分類的訓練過程中自動識別的基因標記,從而突出顯示用于對感興趣數據集中的細胞類型進行分類的主要陽性和陰性基因標記(圖1c)。在使用參考數據集訓練devCellPy之后,用戶可以使用devCellPy生成的預測算法,通過導出一個直接加載到算法中的對數歸一化計數矩陣來對查詢數據集進行分類(圖1d)。devCellPy將自動讀取矩陣文件,并使用存儲在LayerObjects中的預測模型來輸出查詢細胞的多層細胞類型和子類型預測。除了提供輸出注釋之外,devCellPy還將為每個分類的細胞輸出概率度量,以向用戶提供有關算法在進行細胞預測時的可信度信息。總體而言,該算法的結構允許用戶從任何模型生物的任何組織獲得的任何參考scRNA-seq數據集來創建訓練模型,并可以輕松導出這些模型,以對類似細胞類型和亞型的新數據集進行預測。
圖1 devCellPy結構圖
大規模心臟發育圖譜的構建
為了測試devCellPy在生成用于進行多層細胞注釋的高精度預測算法方面的性能,作者首先從四個公開的數據集中集成了一個中胚層來源的心臟發育細胞類型的大規模scRNA-seq圖譜,經過整合的數據集可觀察到從早期原腸胚形成到主要心臟細胞類型的清晰發育軌跡(圖2a)。
通過關注中胚層衍生的細胞類型,作者觀察到從多能外胚層細胞開始的分化樹,通過原始條紋過渡到早期新生的中胚層祖細胞,并進展為心臟祖細胞(圖2b)。盡管這些數據集來自四個不同的來源,但經過成功地整合所有數據集,可以觀察到12種主要細胞類型在整個發育時期的聚類(圖2b, c)。UMAP圖顯示了發育一致的結構,心臟祖細胞組成樹干,隨后分裂成不同的細胞類型。作者還通過對所有主要標注的細胞類型進行差異基因表達分析,進一步驗證了構建圖譜中分配的注釋,并證實了已報道的12個主要細胞群的主要細胞標記的獨特表達(圖2d,e)。
圖2 中胚層來源心臟發育細胞圖譜的構建
devcellPy生成的算法可以精確預測注釋層復雜層次結構中的細胞類型
在建立了包含多層注釋的大型心臟發育圖譜后,作者繼續測試了devCellPy在該數據集上生成高度精確的細胞識別預測算法的能力。通過對心肌細胞圖譜進行多層分析,其中頂層代表廣義細胞注釋,其次是心肌細胞亞型,以及在發育過程中按時間點劃分的心室心肌細胞亞型(圖3a)。為了測試算法的分類性能,作者將數據隨機劃分為90%和10%的分區,分別用于交叉驗證和保留數據集測試(圖3b)。實驗結果顯示,對于第一層注釋,該模型在 10 輪獨立訓練中顯示出高整體準確度(圖 3c)。同時,devCellPy 對10% 保留數據進行了分類(這些分類在訓練后的模型中未發現),這證實了devCellPy高度準確的預測(圖 3d)。
對心室心肌細胞亞群的心肌細胞預測算法性能的進一步分析表明(圖 3c),實驗觀察到的性能指標在第一層注釋上得分最高,而在注釋層次結構較低級別中發現的密切相關的細胞類型中略有下降。為了進一步評估devCellPy的性能精度,作者還將該算法的性能與先前發布的單細胞預測算法(CaSTLE、SeuratV3、scmap、SingleCellNet)進行了比較,結果表明,devCellPy在所有評估的細胞類型中顯示了最高的整體精度。
圖3 devCellPy在各層之間的性能評估
devCellPy識別生物相關的細胞標記
為驗證devCellPy生成的心臟預測算法是否可以識別與發育相關的基因,以便跨細胞層進行預測。作者通過使用devCellPy中的SHAP算法,確定了測試的每一層注釋中細胞類型的主要陽性和陰性預測基因。對于第一層,算法自動識別出先前驗證過的細胞類型預測因子。在實驗中,一般的細胞類型預測因子可以揭示已知細胞類型的主要陽性預測因子,而除了識別一般細胞類型的典型標記外,SHAP還可以識別其他細胞類型的標記。
除了在第一層中識別一般細胞類型的主要標記外,作者還確定了用于在多個分化時間點識別心肌細胞和心室心肌細胞亞型的主要基因。并且,devCellPy還跨時間點識別了多個先前發表的心肌細胞亞型標記,同時也以特定的時間點方式識別了獨特的標記。
devcellPy生成的算法從de novo數據集中準確預測細胞類型
為了進一步評估devCellPy的性能,驗證devCellPy生成的預測算法是否能夠成功預測以前數據集中沒有遇到過的細胞類型。作者分析了來自三個新來源的scRNA-seq數據,并從E10.5小鼠心臟中生成了新的數據,并測試了devCellPy對心臟圖譜中存在的所有細胞類型進行全自動預測的能力。同時,作者進一步評估了其他細胞預測算法對心臟圖譜中所有細胞類型進行完整分類的能力(圖4a、b)。作者將機器學習分類與查詢數據集的無監督聚類注釋期間分配的手動注釋進行了比較(圖4b),手動注釋和devCellPy預測的比較顯示,兩種注釋方法在17個細胞類別中的11個中具有高度的一致性,準確率達80%(圖4c)。
與之前發表的其他機器學習方法相比,devCellPy在心臟圖譜中所有細胞類型的分類方面優于SingleCellNet、Seurat和scPred。所有其他方法對外胚層、原始條紋和新生中胚層的人工方法顯示出高度的一致性,但在其他細胞類型中觀察到的預測準確性較低。并且,在密切相關的細胞類型中,如心臟祖細胞、心外膜和間充質細胞以及心肌細胞亞型,其他方法在人工方法和機器學習預測之間顯示出低一致性(圖4c)。總體而言,實驗結果證明了devCellPy生成的預測算法可以準確預測de novo數據集中的細胞類型,并在對高粒度細胞類型進行預測時優于其他方法。
圖4 devCellPy預測新的scRNA-seq數據
devCellPy生成的心臟預測算法揭示了hiPSC衍生心肌細胞的發育不成熟和心室特異性心肌細胞分化
在驗證了devCellPy對胚胎小鼠心肌細胞分類的準確性后,作者研究驗證了是否可以使用小鼠心臟預測算法來準確預測人誘導多能干細胞(hiPSC)衍生的心肌細胞的類別(圖5a, b)。鑒于已知的體外衍生心肌細胞不成熟,作者驗證了早期胚胎小鼠模型是否能更好地預測 hiPSC 系統中的心肌細胞亞型。通過對六個時間點的心肌細胞進行分析,并繪制了前兩個主成分的單細胞圖。正如預期的那樣,細胞以時間依賴性方式沿著第一個主成分前進(圖5c)。此前有報道稱,小分子雙相WNT協議在缺乏后向視黃酸信號的情況下主要產生心室特異性心肌細胞。為了證實這一點,作者繪制了在hiPSC、人類胎兒和小鼠胚胎發育過程中經過驗證的心室標志物Myl2、Myl3、Myh7的表達圖,并證實了所有這些確定的心室標志物的表達逐漸增加(圖5d)。為繼續驗證基于小鼠數據訓練的devCellPy模型是否能夠準確識別hiPSC-CMs心室特性,作者基于E7.75和E13.5之間的早期小鼠胚胎時間點訓練了多個devCellPy預測模型,用于識別心肌細胞亞型。然后使用基于時間點的模型計算devCellPy的預測置信度,以確定hiPSC-CMs心室特性。實驗結果表明,hiPSC-CMs表現出發育不成熟,并且hiPSC-CMs的胚胎表型和小鼠心肌細胞成熟基因表達程序具有密切保守性。
圖5 devCellPy小鼠預測模型確定了心室優勢HiPSC-CMs的發育不成熟
3 總結 在這項研究中,作者開發了一個基于Python的生物信息學管道devCellPy,它可以使用精確的高分辨率參考數據集,自動預測多個發育時間點和級聯注釋層的細胞類型。分層注釋結構存在于多個器官、物種和模型系統之間。正如此處介紹的心臟發育圖譜所示,細胞表現出多個身份子類。此外,對數據集進行精確的手動標注通常需要有對陽性和陰性表達標記的專業知識,這可能導致經驗不足的用戶,在數據集標注過程中的可再現性較差。以前的研究也表明,包含多個子類的高度相關細胞類型的深度注釋數據集,可能會對自動細胞分類器的性能產生負面影響。作者通過創建分層組織的預測模型來解決這一問題,該模型在 “LayerObject”對象類的注釋層次結構中編碼它們的位置。通過將密切相關的細胞類型的預測分解為不同的注釋層,從而在注釋層次結構中的高粒度細胞子類之間實現更高分辨率的預測結果。重要的是,用戶可以在層次結構中指定時間點,從而允許在跨注釋的多個子層中構建時間點相關預測。隨著細胞在預測層次結構中移動,devCellPy將只對用戶設置的概率閾值的細胞進行下一層分類,從而允許對跨每個分類層的細胞類型進行高置信度注釋。此外,devCellPy中的LayerObjects具有高度可移植性,允許用戶共享訓練過的預測模型,或導出單個LayerObjects進行單層預測。devCellPy的可移植性允許科學界廣泛使用專家策劃的參考圖譜,以在復雜場景中進行細胞預測。
除了可移植性之外,devCellPy還需要對數據集進行處理以進行訓練和預測,devCellPy可以識別超過35000個輸入基因中的生物學相關標記基因。該算法的高預測性能表明,除了歸一化計數表達式矩陣外,不需要額外的預處理或特征選擇來從精確的高分辨率參考數據集中訓練算法和參考標簽。當將devCellPy的性能與其他之前發表的細胞分類算法進行比較時,devCellPy的自動化分層方法在分類心臟圖譜中存在的所有細胞類型方面優于其他分類訓練方法。同時,devCellPy完全自動化了跨多層細胞標識的訓練,從而自動化了跨復雜注釋層次結構預測細胞的過程。此外,雖然其他方法允許為一組獨特的標簽生成細胞預測模型,但devCellPy允許跨時間點相關注釋自動分類,從而為跨發育數據集的細胞分類提供了顯著的改進。
devCellPy為scRNA-seq分析提供了一個重要工具,它為生成細胞類型/亞型預測算法提供了一個全自動化的管道,且該算法非常適用于分層注釋的數據集。作者的工作表明,devCellPy生成的算法具有高度通用性,可推廣到任何scRNA-seq數據集,并提供了一個完全開源的Python包。隨著大規模發育細胞圖譜的發展,devCellPy將提供資源來幫助識別跨平臺和物種的細胞類型,特別是在注釋良好的參考數據集中顯示復雜的多層注釋方案。
參考資料 Galdos, F.X., Xu, S., Goodyer, W.R. et al. devCellPy is a machine learning-enabled pipeline for automated annotation of complex multilayered single-cell transcriptomic data. Nat Commun 13, 5271 (2022). //doi.org/10.1038/s41467-022-33045-x
數據鏈接:
代碼鏈接:
可解釋性是構建可信人工智能系統的必要元素。來自普渡大學等幾位學者在SIGMOD2022《可解釋的人工智能》教程,130+PPT闡述XAI的基礎、應用、機會,非常值得關注!
算法決策系統被成功地應用于各種領域的不同任務。雖然算法決策的潛在好處很多,但信任這些系統的重要性直到最近才引起關注。人們越來越擔心這些系統復雜、不透明、不直觀,因此難以信任。最近,人們對可解釋人工智能(XAI)的興趣重新升溫。XAI旨在通過解釋模型的行為、預測或兩者兼有來減少模型的不透明性,從而使人類能夠仔細檢查并信任模型。近年來,針對模型的可解釋性和透明性問題,出現了一系列的技術進步和解釋方法。在本教程中,我們將介紹這些新穎的解釋方法,描述它們的優勢和局限性,將現有工作與數據庫(DB)社區聯系起來,并列舉在XAI環境下進行數據管理研究的機會。
引言
人工智能(AI)系統越來越多地用于關鍵領域的決策,如醫療保健、刑事司法和金融。然而,這些系統的不透明性和復雜性構成了新的威脅。越來越多的人擔心,這些系統的不透明可能會造成培訓數據[37]中反映的系統性偏見和歧視,從而損害分布在不同社會階層的利益攸關方。這些對透明度的呼吁重新激起了人們對可解釋人工智能(XAI -參見[50]最近的一項調查)的興趣,它旨在為算法決策系統的結果或過程提供人類可以理解的解釋。
XAI方法的發展受到技術、社會和倫理目標的推動[9,14,36,38,44]: (1)通過建立對決策結果的信任,提高社會對基于機器學習(ML)的決策算法的接受程度;(2)為用戶提供可操作的見解,以在未來改變算法的結果;(3)促進識別偏見和歧視等危害來源;(4)通過識別導致不利和意外行為的訓練數據中的錯誤或偏差,提供調試ML算法和模型的能力。政府法規要求企業使用自動化決策系統向最終用戶解釋其決策,進一步加劇了這一問題的緊迫性[1,16]。最近,人們提出了幾種方法來解釋ML模型的行為或預測。這些方法可以大致分為以下幾類:(a)可解釋性是通過設計(內在)還是通過事后系統分析(外在)實現的,(b)方法是否假設訪問系統內部(模型相關)或可以應用于任何黑箱算法系統(模型無關),以及(c)方法生成的解釋是否迎合對單個實例的預測(局部),解釋模型的整體行為(全局)或介于這兩個極端之間。
在本教程中,我們將詳細介紹當代XAI技術,并強調它們的優點和局限性。與現有的XAI教程相比,我們將在數據庫社區的背景下討論XAI的范圍,并概述一組利用XAI進展的數據管理研究的挑戰和機會,并為XAI研究的挑戰做出貢獻。本教程的學習結果如下。
涵蓋范圍
根據現有XAI技術[50]生成的結果,可以根據多個維度來解釋模型及其預測。目前有各種各樣的技術可以解決這些可解釋性的不同維度。例如,一些方法提供了代表用于訓練模型的數據的特征的全面總結,一些返回數據點以使模型可解釋,一些用固有的可解釋模型來近似模型,等等。本教程分為五個主題,涵蓋了這些不同維度的代表性技術。每個專題的內容總結如下。
2.1基于特征的解釋
解釋黑盒模型的一種常見方法是將模型輸出的責任歸因于它的輸入。這種方法類似于提供輸入特征的重要性。例如,在線性回歸的情況下,學習線性方程中的特征的系數可以作為特征重要性的指標。為訓練數據中的所有特征分配一個實數的最終目標可以通過多種方式實現。此外,該數字還可以表示該特征影響的程度和方向。我們將在本教程中介紹以下特征屬性方法。
2.2 基于規則的解釋
基于特征屬性的方法為每個特征值分配一個實值重要性分數。相反,基于規則的解釋生成一組規則作為對模型行為的解釋。輸出規則集滿足一個共同屬性,即只要遵守這些規則,模型就會提供一個特定的結果。理想情況下,這些規則應該簡明扼要,并適用于大量數據點。較長的規則(超過5個從句)是不可理解的,而非常具體的規則是不可概括的。錨[54]是一種試圖生成簡短且廣泛適用的規則的方法。它使用一種基于多武裝匪徒的算法來搜索這些規則。Lakkaraju等人使用可解釋的決策集來獲得一組if-then規則,這些規則可以用來解釋黑盒模型[43]。它們的目標函數旨在平衡和優化這些決策集的準確性和可解釋性。
2.3 基于訓練數據的解釋
與特征歸因方法相比,基于訓練數據的方法將ML算法的輸出歸為訓練數據集[10]的特定實例。基于數據的解釋的核心思想是,訓練數據影響模型,從而間接影響模型預測的結果。為了理解模型的預測,基于數據的解釋可以將模型參數和預測追溯到用于訓練模型的訓練數據。這些方法不是根據數據的特征(例如,年齡,性別等),而是根據特定的數據點(例如,列舉20個數據點負責特定的模型輸出)來解釋模型的行為。基于數據的解釋有助于調試ML模型,理解和解釋模型行為和模型預測。在本教程中,我們將介紹以下基于訓練數據的方法。
2.4 對非結構化數據的解釋
深度學習已經非常成功,特別是在圖像分類和涉及圖像和文本的語言翻譯等任務中。盡管現有的XAI方法主要關注結構化數據,但在解釋ML模型預測優于非結構化數據方面已經取得了重大進展。例如,對圖像分類模型的解釋可以在各種名稱下找到,如敏感性地圖、顯著性地圖、像素屬性地圖、基于梯度的屬性方法、特征相關性、特征屬性和特征貢獻[50]。這些解釋通常會根據輸入像素對分類結果的重要性突出并排序。然而,單個像素可能對分類器的結果沒有很大的直接影響,但可以通過貢獻神經網絡從原始像素學習到的抽象特征和概念,間接影響其結果。已有研究表明,這些方法的計算成本很高,而且極易引起誤解、脆弱和不可靠[2,22,52]。類似地,可以將LIME[53]應用于文本數據,以識別解釋文本分類模型結果的特定單詞。計算機視覺中另一種流行的解釋類型是反事實解釋,這種解釋是通過改變圖像的最小區域產生的,從而導致分類結果的改變[72]。在本教程中,我們將關注結構化數據,因為它與DB社區更相關。
[1] 2016. Regulation (EU) 2016/679 of the European Parliament and of the Council of 27 April 2016 on the protection of natural persons with regard to the processing of personal data and on the free movement of such data, and repealing Directive 95/46/EC (General Data Protection Regulation). (2016). [2] Julius Adebayo, Justin Gilmer, Michael Muelly, Ian J. Goodfellow, Moritz Hardt, and Been Kim. 2018. Sanity Checks for Saliency Maps. In Advances in NeuralInformation Processing Systems 31: Annual Conference on Neural Information Processing Systems 2018, NeurIPS 2018, December 3-8, 2018, Montréal, Canada, Samy Bengio, Hanna M. Wallach, Hugo Larochelle, Kristen Grauman, Nicolò Cesa-Bianchi, and Roman Garnett (Eds.). 9525–9536. [3] Rakesh Agrawal, Tomasz Imieliński, and Arun Swami. 1993. Mining association rules between sets of items in large databases. In Proceedings of the 1993 ACM SIGMOD international conference on Management of data. 207–216. [4] Rakesh Agrawal, Ramakrishnan Srikant, et al. 1994. Fast algorithms for mining association rules. PVLDB.
【導讀】現在深度學習正在廣泛應用到科學研究中,最近來自哈佛33家單位20位學者發表了《深度學習生物醫學應用10個技巧》,深入細致地講述了正確用好深度學習的準則,非常值得關注!
機器學習是解決問題和任務自動化的一種現代方法。特別是,機器學習關注的是能夠識別數據中的模式并將其用于預測建模的算法的開發和應用,而不是讓領域專家手工開發預測任務的規則。人工神經網絡是一類特殊的機器學習算法和模型,演變成了現在所說的“深度學習”。深度學習包括多層的神經網絡和使它們表現良好的算法。這些神經網絡由人工神經元組成,按層次排列,以人腦為模型,盡管構建模塊和學習算法可能有所不同。每一層接收來自前一層的輸入(第一層代表輸入數據),然后將其自身加權輸出的轉換表示作為輸入傳送到隨后的網絡層。因此,“訓練”神經網絡的過程是調整各層的權重,以最小化作為預測誤差替代的成本或損失函數。損失函數是可微的,因此權重可以自動更新,以試圖減少損失。深度學習使用多層人工神經網絡(因此有了“深度”這個詞)。考慮到過去十年在計算方面的進步,它現在可以應用到大量的數據集和無數的環境中。在很多情況下,與其他方法相比,深度學習可以學習更復雜的關系,并做出更準確的預測。因此,深度學習已經成為機器學習的一個分支領域。在生物學研究的背景下,它已越來越多地用于從高維生物學數據中獲得新的見解[2]。例如,深度學習已被用于預測蛋白質-藥物結合動力學[3],識別合成DNA[4]的起源實驗室,以及揭示遺傳疾病[5]的面部表型。
為了讓有一些機器學習經驗的科學家更容易獲得深度學習的生物應用,我們征求了一群對生物和深度學習有不同興趣的研究人員的意見。這些個人使用GitHub版本控制平臺[6]和Manubot手稿生成工具集[7]共同完成了本文的寫作。我們的目標是在使用深度學習時,清晰地表達出一套實用、易于理解和簡明的指導方針和建議(圖1)。對于剛接觸機器學習的讀者,我們建議在開始深度學習之前,先回顧一下機器學習的一般原則[8]。
在生物研究中使用深度學習的10個技巧的概述。
在我們討論的過程中,有幾個主題變得明確起來:理解和應用機器學習基礎知識作為利用深度學習的基線的重要性,進行廣泛的模型比較和仔細評估的必要性,以及在解釋深度學習產生的結果時需要批判性思維,等等。深度學習和傳統計算方法之間的主要相似之處也變得顯而易見。盡管深度學習是機器學習的一個獨特的子領域,但它仍然是一個子領域。它受制于機器學習固有的許多局限性,機器學習的大多數最佳實踐[9-11]也適用于深度學習。與所有的計算方法一樣,深度學習應該以一種可復制和嚴格測試的系統方式應用。最后,我們整理的技巧范圍從高層指導到最佳實踐。我們希望他們能夠為新的和有經驗的深度學習實踐者提供可操作的、具體的深度學習指導。通過使深度學習更易于在生物研究中使用,我們的目標是提高文獻中深度學習的整體使用和報告質量,并使越來越多的研究人員能夠有效和準確地利用這些先進的技術。
近年來,在生物學中實施深度學習的項目和出版物數量大幅增加[12-14]。這一趨勢可能是由深度學習在一系列科學問題和數據模式中的有用性所驅動的,并可能有助于深度學習作為幾乎所有建模問題的靈丹妙藥的出現。事實上,神經網絡是通用函數逼近器,并從這種學習任何函數的理論能力中獲得了巨大的力量[15,16]。然而,在現實中,深度學習并不是適用于所有的建模情況,它對數據、計算能力、編程技能和建模專業知識的需求很大,極大地限制了深度學習的應用。 深度學習應該在充分考慮其優勢和劣勢后,才可以用于手頭的問題。在選擇深度學習作為一種潛在的解決方案后,從業者仍然應該考慮傳統方法作為性能基線。
與傳統的機器學習方法相比,深度學習要求從業者考慮更多數量和種類的調整參數(即算法設置)。這些設置通常稱為超參數。它們的廣泛性使其很容易陷入執行不必要的復雜分析的陷阱。因此,在將深度學習應用于一個給定的問題之前,理想的方法是在每個研究[11]開始時實現具有較少超參數的更簡單的模型。這些模型包括邏輯回歸、隨機森林、k近鄰、樸素貝葉斯和支持向量機。它們可以幫助建立基線績效預期,以及特定預測問題的難度。雖然從現有文獻中獲得的性能基線也可以作為有用的指南,但使用與深度學習計劃相同的軟件框架的更簡單模型的實現,可以極大地幫助評估數據處理步驟的正確性、性能評估管道、資源需求估計,以及計算性能估計。此外,在某些情況下,甚至可以將更簡單的基線模型與深度神經網絡相結合,因為這種混合模型可以提高泛化性能、模型可解釋性和置信度估計[55,56]。 總之,在實現深度學習模型之前,鼓勵從業者創建和完全調優幾個傳統模型和標準管道。
正確地訓練深度神經網絡并非易事。每個階段都有許多不同的選擇和潛在的陷阱。為了得到好的結果,必須經常在各種不同的超參數設置中訓練網絡。由于這些深度網絡的高要求特性,這種訓練可能變得更加困難,這通常需要大量的時間投資到調優和計算基礎設施,以實現最先進的性能[25]。此外,這種實驗通常是嘈雜的,這就需要增加重復,并加劇了深度學習固有的挑戰。總的來說,所有的代碼、隨機種子、參數和結果都必須使用通用的編碼標準和最佳實踐(例如,版本控制[58]和持續集成[59])來謹慎地打包,以保證可復現性和可解釋性[60-62]。對于基于應用的研究,這種組織對于有效地共享研究工作和在新數據可用時保持模型最新的能力也是至關重要的。簡而言之,研究人員應該使用更小更簡單的網絡來實現更快的原型設計,遵循一般的軟件開發最佳實踐來最大化再現性,并檢查軟件文檔來理解默認的選擇。
有一個定義明確的科學問題和一個清晰的分析計劃是實施一個成功的深度學習項目的關鍵。就像沒有明確的終點就不應該進入實驗室開始實驗一樣,深度學習項目也不應該沒有明確的目標就進行。首先,重要的是要評估是否存在能夠使用基于深度學習的方法回答感興趣的生物學問題的數據集。如果是這樣,應在項目中盡早獲取這些數據(和相關的元數據)并審查研究方案。這可以幫助確保數據符合預期,并可以防止稍后在分析過程中發現問題時所浪費的時間和精力。例如,一個發布或資源可能聲稱提供了一個適當的數據集,但在獲取時發現該數據集是不充分的。當數據應該是結構化的時候,它可能是非結構化的,例如樣本分層這樣的關鍵元數據可能會丟失,或者可用的樣本大小可能與預期不同。任何這些數據問題都可能限制研究人員使用深度學習來解決眼前的生物學問題的能力,或者在使用之前可能需要進行調整。數據收集也應該被仔細地記錄下來,或者應該在項目文檔中創建和指定數據收集協議。總的來說,在進行深度學習之前,從業者應該徹底研究他們的數據,并理解其上下文和特性。
神經網絡體系結構是指網絡中的層數、類型以及它們之間的連接方式。雖然研究團體已經建立了一些最佳實踐[72],但架構設計選擇在很大程度上仍然是問題特定的,需要大量的實驗。此外,由于深度學習是一個快速發展的領域,許多建議往往是短暫的,經常被最近的實證結果支持的新見解所取代。許多建議在不同的問題和數據集之間不能很好地泛化,這使問題更加復雜。因此,選擇如何表示數據和設計架構更像是一門藝術,而不是一門科學。也就是說,在實驗時要遵循一些一般原則。從業者應該將神經網絡的架構建立在問題知識的基礎上,并利用類似的現有數據或預訓練的模型。
在給定至少一個隱層、一個非線性激活函數和大量隱單元的情況下,多層神經網絡可以逼近與輸入輸出變量相關的任意連續函數[16,87]。具有額外隱藏層和不斷增加的整體隱藏單元和可學習的權重參數(所謂的不斷增加的神經網絡“能力”)的更深層架構,允許解決日益復雜的問題。然而,這種容量的增加導致更多的參數需要擬合和超參數需要調優,這在模型訓練過程中會帶來額外的挑戰。一般來說,在將深度神經網絡應用于新的數據或挑戰時,應該期望系統地評估眾多超參數的影響。超參數通常表現為優化算法的選擇、損失函數、學習率、激活函數、隱藏層和隱藏單元的數量、訓練批的大小和權值初始化方案。此外,通過常用技術引入了額外的超參數,以促進對更深層架構的訓練。其中包括正則化懲罰、dropout[88]和批處理歸一化[89],這些方法可以減少在處理深度神經網絡時所謂的消失或爆炸梯度問題的影響**。為了從模型中獲得最佳性能,研究人員應該確保系統地優化訓練數據集上的超參數**,并報告所選的超參數和超參數優化策略。
一般來說,過擬合是機器學習固有的挑戰,也是您在具體應用深度學習時將面臨的最重要的挑戰之一。當一個模型與訓練數據中的模式擬合得如此接近,以至于在它學習的關系中包含了不可泛化的噪聲或非科學相關的擾動時,就會發生過擬合。換句話說,該模型適用的模式過于特定于它所訓練的數據,而不是學習類似數據集之間的一般關系。當一個模型在訓練過程中沒有接觸到的數據上進行測試時,會發生什么情況,這一微妙的區別就更清楚了:就像一個死記硬背考試材料的學生很難正確地回答他們沒有學習過的問題一樣,一個與訓練數據過度契合的機器學習模型在看不見的測試數據上也會表現得很差。深度學習模型特別容易受到過擬合的影響,因為它們具有相對較多的參數和相關的表征能力。就像一些學生可能有更大的記憶潛力一樣,深度學習模型似乎比參數更少的機器學習模型更容易過度擬合。然而,具有大量的參數并不總是意味著神經網絡會過擬合[90]。本質上,從業者應該將數據分成訓練、調優和一次性使用的測試集,以評估模型在數據上的性能,這些數據可以提供對其泛化性能的可靠估計。
雖然模型可解釋性是一個寬泛的概念,但在許多機器學習文獻中,它指的是識別影響或影響預測的判別特征的能力。在某些情況下,解釋背后的目標是理解潛在的數據生成過程和生物機制[101]。在其他情況下,目標是理解為什么一個模型會做出它對一個或一組例子所做的預測。機器學習模型在可解釋性方面差異很大: 一些是完全透明的,而另一些則被認為是“黑匣子”,只能進行預測,幾乎沒有能力研究原因。邏輯回歸和決策樹模型通常被認為是可解釋的[102]。相比之下,深度神經網絡通常被認為是最難以簡單解釋的,因為它們可以有許多參數和非線性關系。
在訓練出一個精確的深度學習模型后,很自然地想要用它來推斷關系并為科學發現提供信息。然而,要小心正確地解釋模型的預測。考慮到深度學習模型可能難以直觀地解釋,人們往往傾向于以放縱或不準確的方式過度解釋預測。根據經典的統計學說法“相關性并不意味著因果關系”,深度學習模型的預測很少提供因果關系。準確預測結果并不意味著因果機制已經學會,即使預測非常準確。在一個令人印象深刻的例子中,作者評估了幾種模型預測重癥監護室肺炎患者死亡概率的能力[107,108]。神經網絡模型具有最佳的預測精度。然而,在對基于規則的模型進行擬合以更好地理解其數據的內在關系之后,作者發現醫院數據隱含了“有哮喘(x)=>低風險(x)”的規則。這一規則與醫學理解相矛盾,因為患有哮喘并不會使肺炎好轉!盡管如此,數據支持這一規則,因為有哮喘史的肺炎患者往往接受更積極的治療。因此,神經網絡也學會了根據這一規則進行預測,盡管它與因果或機制無關。因此,根據神經網絡的預測來指導治療決策將是災難性的,即使神經網絡具有很高的預測精度。
盡管深度學習在生命科學研究(從基礎生物學和臨床前科學到各種轉化方法和臨床研究)中仍然是一個強大的、變革性的工具,但重要的是對倫理考慮進行評論。例如,盡管深度學習方法通過提高診斷能力和風險評估有助于提高醫療效率,但在與患者年齡、種族和性別相關的模型中可能會無意中引入某些偏見[110]。深度學習從業者可能會使用不能代表不同人群和患者特征的數據集[111],從而導致這些問題。
我們有針對性地提出了一些實用的技巧,強調前沿的見解和描述不斷發展的專業標準。此外,我們的一些觀點側重于防范數據科學和深度學習所固有的風險。這些風險包括對模型的過度解釋和誤讀,較差的泛化性,以及可能傷害他人。然而,我們想要強烈強調的是,當使用道德和負責任的方法時,深度學習技術有潛力在各種不同的環境中增加巨大的價值。畢竟,這些技術已經顯示出了滿足或超過人類和傳統算法性能的非凡能力,并有潛力揭示推動發現和創新的生物醫學見解。通過對研究問題進行批判性思考,計劃保持嚴謹,并識別工作如何在倫理維度上產生深遠的影響,對深度學習采取全面和謹慎的方法,生命科學社區可以推進可再生的、可解釋的、以及豐富和有益于科學家和社會的高質量科學。
為藥物開發人員而不是計算機科學家寫的,這一專論采用了一種系統的方法來挖掘科學數據源,涵蓋了從化合物篩選到先導化合物選擇和個性化藥物的合理藥物發現的所有關鍵步驟。第一部分明確地分為四個部分,討論了不同的可用的數據來源,包括商業和非商業的,而下一節著眼于數據挖掘在藥物發現中的作用和價值。第三部分比較了多藥理學最常見的應用和策略,其中數據挖掘可以大大提高研究工作。書的最后一部分是致力于復合測試的系統生物學方法。
在整本書中,工業和學術藥物發現策略被處理,貢獻者來自兩個領域,使一個知情的決定,何時和哪些數據挖掘工具使用自己的藥物發現項目。
一般來說,從數據庫中提取信息稱為數據挖掘。數據庫是一種數據集合,其組織方式允許方便地訪問、管理和更新其內容。數據挖掘包括數字和統計技術,可以應用于許多領域的數據,包括藥物發現。數據挖掘的功能定義是使用數值分析、可視化或統計技術來識別數據集中重要的數值關系,從而更好地理解數據并預測未來的結果。通過數據挖掘,我們可以得到一個模型,該模型將一組分子描述符與諸如功效或ADMET特性等生物關鍵屬性聯系起來。所得模型可用于預測新化合物的關鍵屬性值,為后續篩選確定優先級,并深入了解化合物的構效關系。數據挖掘模型范圍從簡單的、由線性技術導出的參數方程到復雜的、由非線性技術導出的非線性模型。文獻[1-7]提供了更詳細的信息。
這本書分為四個部分。第一部分涉及藥物發現中使用的不同數據來源,例如,蛋白質結構數據庫和主要的小分子生物活性數據庫。第二部分重點介紹數據分析和數據豐富的不同方法。在這里,我們提出了對HTS數據挖掘和識別不同目標命中的工業見解。另一章展示了強大的數據可視化工具在簡化這些數據方面的優勢,從而促進了它們的解釋。第三部分包括多種藥理學的一些應用。例如,在化學基因組學時代,數據挖掘可以為配體分析和目標捕捉帶來積極的結果。最后,在第四部分,系統生物學方法被考慮。例如,讀者被介紹到綜合和模塊化分析方法,以挖掘大分子和表型數據。結果表明,該方法能夠降低高維數據的復雜性,并為整合不同類型的組學數據提供了一種方法。在另一章中,建立了一套新的方法,定量地衡量化學品對生物系統的生物影響。
2021年,CHI將首次來到日本,在東京西南方的橫濱市舉行。ACM (Association for Computing Machinery)CHI(計算系統人類因素會議)是人機交互領域最重要的國際會議。CHI(讀作“kai”)是世界各地研究者和實踐者齊聚一堂,探討交互技術最新進展的地方。CHI被普遍推崇為人機交互領域最具聲望的殿堂,每年吸引數千名國際參會者。
人工智能(AI)技術越來越多地用于在醫療保健、金融和就業等關鍵領域做出決策和執行自主任務。為了改進、競爭、建立適當的信任和更好地與人工智能系統交互,需要了解人工智能,這激發了學術界和公眾對可解釋人工智能(XAI)的極大興趣。一方面,快速增長的XAI技術集合允許在AI系統中合并不同的解釋風格。另一方面,通過人工智能解釋來提供令人滿意的用戶體驗需要以用戶為中心的方法和跨學科研究來連接用戶需求和技術支持。簡而言之,XAI是一個對HCI研究有著日益增長的需求和令人興奮的機會的領域。
本教程面向有志于開發和設計人工智能系統解釋功能的研究人員和實踐者,以及那些希望了解XAI文獻中的趨勢和核心主題的人。該課程將介紹一些可用的工具包,這些工具包有助于輕松地創建ML模型的解釋,包括AIX 360[1],這是一個全面的工具包,提供有關該主題的技術和教育資源,如XAI概念介紹、python代碼庫和教程。
我們也將借鑒我們自己的設計和研究XAI系統的經驗[3-8],以及從工業設計從業者[2]學習,討論機會和挑戰,把最先進的XAI技術融入AI系統,創造好的XAI用戶體驗,包括我們通過研究開發的“問題驅動的XAI設計流程”[9]。
參考文獻:
[1] Arya, V., Bellamy, R. K., Chen, P. Y., Dhurandhar, A., Hind, M., Hoffman, S. C., … & Mourad, S. (2019). One explanation does not fit all: A toolkit and taxonomy of ai explainability techniques.
[2] Liao, Q. V., Gruen, D., & Miller, S. (2020). Questioning the AI: Informing Design Practices for Explainable AI User Experiences. CHI 2020
[3] Dodge, J., Liao, Q. V., Zhang, Y., Bellamy, R. K., & Dugan, C (2019). Explaining models: an empirical study of how explanations impact fairness judgmen. IUI 2019
[4] Zhang, Y., Liao, Q. V., & Bellamy, R. K. (2019). ffect of confidence and explanation on accuracy and trust calibration in ai-assisted decision making. . FAT* 2020
[5] Ghai, B., Liao, Q. V., Zhang, Y., Bellamy, R., & Mueller, K. (2021). Explainable Active Learning (XAL) Toward AI Explanations as Interfaces for Machine Teachers. CSCW 2021
[7] Narkar, S., Zhang, Y., Liao, Q. V., Wang, D., & Weisz, J. D. Model LineUpper: Supporting Interactive Model Comparison at Multiple Levels for AutoML. IUI 2021
[8] Ehsan, U., Liao, Q. V., Muller, M., Riedl, M. O., & Weisz, J. D. (2021). Expanding Explainability: Towards Social Transparency in AI systems. CHI 2021
[9] Liao, Q. V., Pribi?, M., Han, J., Miller, S., & Sow, D. (2021). Question-Driven Design Process for Explainable AI User Experiences. Working Paper
深度學習在藥物發現方面很有前景,包括高級圖像分析、分子結構和功能的預測,以及具有定制屬性的創新化學實體的自動生成。盡管有越來越多的成功的應用前景,但基本的數學模型仍然很難被人類的思維所解釋。有一種“可解釋的”深度學習方法的需求,以解決對分子科學機器語言新敘述的需求。這篇綜述總結了可解釋人工智能的最突出的算法概念,并預測了未來的機會,潛在的應用以及一些仍然存在的挑戰。我們還希望它鼓勵進一步努力發展和接受可解釋的人工智能技術。
//www.nature.com/articles/s42256-020-00236-4