亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要

在計算機視覺和自然語言處理等領域的成功應用推動下,深度學習方法經歷了一場革命。在這篇論文中,我們描述了幾種將深度學習應用于臨床前藥物發現的新型方法。

首先,我們提出了一種設計分子連接物的生成方法,其中包含了基本的三維信息。在大規模的測試中,我們發現我們的方法大大超過了基于數據庫的方法。通過一系列的案例研究,我們證明了我們的方法在支架跳躍、片段連接和針對嵌合體(PROTAC)設計中的應用。然后,我們將這一框架擴展到包括物理意義上的三維結構信息,為生成過程提供更豐富的先驗,并將我們的方法應用于分子闡述任務,如R-group設計。

然后,我們將注意力轉向預測模型,特別是基于結構的虛擬篩選。我們發現用于一般計算機視覺任務的卷積神經網絡(CNN)的進展也適用于基于結構的虛擬篩選。此外,我們提出了兩種技術,將特定領域的知識納入這一框架。首先,我們表明,由于對接的限制,有必要使用多姿多彩的評分,并證明平均評分政策的好處。其次,我們提出了一種轉移學習方法,利用蛋白質家族之間的差異知識,構建蛋白質家族的特定模型。

最后,我們研究了如何使用生成方法來改善基于結構的虛擬篩選中所使用的訓練和基準集。我們提出了一種深度學習方法,根據用戶的偏好規格生成誘餌,以控制誘餌偏差或構建具有確定偏差的集合。我們表明,我們的方法極大地減少了這種集合中包含的偏差。我們驗證了我們生成的分子對于基于對接的方法來說比以前的誘餌更具有挑戰性,可以與生物活性化合物分開。此外,我們表明,基于CNN的結構化虛擬篩選方法可以在這類化合物上進行訓練。

研究動機

藥物是各種醫療狀況的關鍵治療手段,也是一個正常運作的衛生系統的重要組成部分(世界衛生組織,2010)。然而,目前有許多醫療需求,包括現有的和新出現的,現有藥物都無法滿足(Kaplan 等,2013)。最近由當前冠狀病毒大流行(COVID-19,Rosa等人,2020)引起的世界范圍內的緊急情況,進一步強調了在未滿足的醫療需求發生時迅速有效地解決這些需求的能力。

開發新的治療方法是一個極具挑戰性的多階段過程,涉及許多學科,通常需要多年才能完成。平均而言,每個新療法估計要花費15-30億美元,這取決于如何計算,(Avorn,2015;DiMasi等,2016)并需要超過十年的時間(Paul等,2010)。2008-16年,FDA平均每年批準31種新藥(U.S. Food and Drug Administration, 2018a)。這些數字沒有改善,因此,目前的做法被稱為不可持續(Moors等人,2014;安永會計師事務所,2017)。

藥物研發的大部分成本來自于失敗的高幾率,投入足夠的時間和財政資源遠不能保證成功。最近的一項研究發現,所有藥物開發項目中只有13.8%最終獲得批準,而治療罕見疾病的藥物,也被稱為 "孤兒藥",總體成功率低至6.2%(Wong等人,2018)。失敗的原因有很多,我們將在第1.3.1節詳細討論。藥物開發中的高成本和低生產率是一個長期存在的問題,對于這個問題的解決是至關重要的(Myers和Baker,2001)。

計算機輔助藥物設計(CADD)被認為有可能加速這一過程并降低開發新療法的費用(Ou-Yang等,2012)。然而,盡管在整個藥物發現工作流程中廣泛采用了計算方法,但成本仍在持續增加(DiMasi等人,2003;Avorn,2015;DiMasi等人,2016),生產率持續低下(Khanna,2012)。我們仍然非常需要新的技術和方法來徹底改變藥物發現

最近,在深度學習興起的推動下,人們對人工智能在廣泛領域的應用重新產生了興趣。雖然深度學習的許多核心原理在幾十年前就被提出來了(如Rosenblatt,1958;Fukushima,1980;Rumelhart等人,1986),但直到2012年,這些技術的力量和有效性才被證明,這就是現在所稱的 "ImageNet時刻"。在一年一度的ImageNet大規模視覺識別挑戰賽中,Krizhevsky等人(2012年)通過采用深度神經網絡,比下一個最好的競爭者高出41%。人們普遍認為,這一突破是由前所未有的標記數據的可用性和計算能力的結合而實現的。這導致基于學習的系統在圖像識別(He等人,2015)、單人游戲(Mnih等人,2015)和雙人游戲(包括圍棋(Silver等人,2016;Silver等人,2017)、國際象棋(Silver等人,2018)和《星際爭霸II》(Vinyals等人,2019)方面與人類相匹配,甚至經常超過人類。

這些進展迅速引起了化學信息學領域的注意,并報道了幾個早期的有希望的結果。2013年,深度神經網絡是默克公司分子活性挑戰中表現最好的模型(Ma等人,2015年),而在2015年的Tox21毒性數據挑戰中也取得了類似的結果(Mayr等人,2016年)。

基于學習的算法在藥物發現中有著悠久的歷史。早期的定量結構活性關系(QSAR)模型首次描述于20世紀60年代初(Hansch等人,1962),并已成為普遍現象(Salt等人,1992)。然而,傳統的機器學習和經典的統計方法通常要求目標輸入的明確特征化,如分子或蛋白質-配體復合物,以一維向量的形式(Klambauer等,2019)。這一要求導致僅在分子特性預測方面就開發了數百種描述符(例如Deng等人,2004;Zhang等人,2006;Durrant和McCammon,2011)。然而,深度學習方法的一個優勢被認為是其成功的關鍵,它能夠消除抽象的需要,并允許直接學習更多的數據類型(Klambauer等人,2019)。

最后,上面討論的QSAR模型通常是定制的模型,在一個特定的藥物發現項目的背景下,根據少量的數據構建。因此,雖然很有用,但它們并不具有普遍的適用性,而且往往不能超越具體的化學系列。在其他領域(如ImageNet,Deng等人,2009)的成功表明,通用模型的一個關鍵要求是足夠的數據(Halevy等人,2009;Sun等人,2017)。在過去的十年中,公開的分子活性和生化數據(如Kim等人,2015;Papadatos等人,2015)以及結構數據(Berman等人,2000;Burley等人,2019)數量迅速增加,這主要是由于關注度的提高和新實驗技術的出現(如高通量篩選,Inglese等人,2007)。

最近在蛋白質結構預測領域取得的成功就是一個例子,AlphaFold(Senior等人,2020)和AlphaFold 2(Jumper等人,2020)分別在CASP 13和14中的表現達到了頂峰(Kryshtafovych等人,2019),這說明了這些數據的可用性在其他方面是不可能的。雖然在將深度學習應用于藥物發現方面存在許多挑戰,這些挑戰將在第1.5節中進一步討論,但這是一個令人難以置信的發展,進一步突出了深度學習的前景。

本論文的重點是為藥物發現過程開發深度學習方法。在這一章中,我們首先討論了機器學習的幾個關鍵發展,并介紹了兩個可以在化學信息學中使用的一般深度學習方法。然后,我們簡要地總結了藥物發現過程,并討論了計算方法是如何用于藥物發現的。我們重點討論了這些方法如何被用來篩選大型虛擬化合物庫,以尋找最初的熱門分子。然后,我們描述了計算方法,特別是基于機器學習的方法,如何被用來設計新的化合物,并強調了分子設計的幾個常見挑戰。最后,我們概述了本論文的結構和主要貢獻。

機器學習在藥物發現中的挑戰

機器學習在藥物發現中的挑戰很多,橫跨所有領域,包括數據、算法、政治和實踐。在此,我們將簡要地談一談。

首先是依賴昂貴的(在時間和成本方面)實驗數據進行訓練和驗證。這與深度學習在圍棋(Silver等人,2016)或國際象棋(Silver等人,2018)等游戲中的成功形成對比,在這些游戲中,訓練數據可以在模擬中完美生成。這促使人們開發出能夠從少量數據中學習的方法(例如,少數射擊學習,Altae-Tran等人,2017)或有效利用其他可用數據(例如,轉移學習,Pan和Yang,2010;元學習,Maudsley,1979)。進一步的算法挑戰來自于生物和化學數據的性質,包括這些數據的格式(如圖表,第1.2.2節)以及固有的噪聲。

一個關鍵的挑戰是我們如何對成功進行量化。盛行的人類主導的過程遠非無懈可擊(見第1.3.2節),但目前還無法量化藥物化學的成功(Green等人,2018)。有鑒于此,算法成功的標準是什么?一些人告誡說,不要把計算方法的門檻定得太高(Green等人,2018)。

最后,實現機器學習方法的全部影響將需要投入大量的資源。在真實世界的藥物發現項目中進行實驗驗證是評估機器學習在藥物化學中的貢獻和確定需要改進的領域的關鍵下一步。

論文大綱

在本章中,我們強調了藥物發現所面臨的挑戰,并促使機器學習的應用成為一種部分解決方案。我們討論了幾個關鍵的機器學習方法在藥物發現中的應用。在這篇論文中,我們描述了幾種利用深度學習應用于臨床前藥物發現的新型方法學。

在第二章中,我們提出了一種生成方法來設計分子連接物,其中包含了基本的三維信息。在大規模的測試中,我們發現我們的方法大大超過了基于數據庫的方法,也就是以前解決這個問題的事實方法。通過一系列的案例研究,我們展示了我們的方法在支架跳躍、片段連接和PROTAC設計中的應用。

在第三章中,我們擴展了我們的連接物設計框架,以納入物理意義上的三維結構信息,為生成過程提供更豐富的先驗。此外,我們證明了我們的方法可以應用于分子闡述任務,如R組設計,只需改變訓練集,無需對方法進行其他修改。

在第四章中,我們將注意力轉向預測性建模和基于結構的虛擬篩選。我們發現,用于一般計算機視覺任務的CNN方法的進展也適用于SBVS。此外,我們提出了兩種技術來將特定領域的知識納入這個框架。首先,我們表明,由于對接的限制,有必要使用多姿多彩的評分,并證明了平均評分政策的好處。其次,我們提出了一種轉移學習方法,利用蛋白質家族之間的差異知識,構建蛋白質家族的特定模型。

在第五章中,我們研究了如何使用生成方法來改進SBVS中使用的訓練和基準集。我們提出了一種深度學習方法,該方法可以根據用戶的偏好規格生成誘餌,以控制誘餌的偏差或構建具有定義偏差的集合。我們表明,我們的方法大大減少了這種集合中包含的偏見。我們驗證了我們生成的分子對于對接方法來說比以前的誘餌更具有挑戰性,可以與活性物質分離。此外,我們表明,基于CNN的SBVS方法可以在這類化合物上進行訓練。

最后,在第六章,我們總結了這項工作的結果。我們討論了主要的結論,并描述了本論文以后可能開展的工作。

付費5元查看完整內容

相關內容

AI技術中的機器學習、深度學習、自然語言處理等技術能夠提高制藥數據、信息的處理效率,對于藥物研發過程中的新藥發現,可以代替研究人員有限的知識儲備和想象力,發現原來很難、甚至不可能發現的靶點,這也是AI在制藥領域最大的價值點,AI還可以預測候選藥物的性能如藥物的吸收、代謝、毒性、不良反應等,縮小后期實驗范圍,降低臨床失敗概率,大幅降低新藥研發的時間、資金成本。機器學習和深度學習算法已在多個藥物發現過程中實施,例如肽合成、基于結構的虛擬篩選、基于配體的虛擬篩選、毒性預測、藥物監測和釋放、藥效團建模、定量構效關系、藥物重新定位、多藥理學和理化活性。過去的證據加強了人工智能和深度學習在該領域的實施。此外,新穎的數據挖掘、管理和管理技術為最近開發的建模算法提供了關鍵支持。總之,人工智能和深度學習的進步為合理的藥物設計和發現過程提供了絕佳的機會,最終將影響人類。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

由于在計算機視覺和自然語言處理等領域的成功應用,深度學習方法經歷了一場革命。在這篇論文中,我們描述了幾種利用深度學習應用于臨床前藥物發現的新方法。

首先,我們提出了一種包含基本3D信息的生成式分子連接器設計方法。在大規模測試中,我們發現我們的方法在性能上大大優于基于數據庫的方法,即之前解決這個問題的事實上的方法。通過一系列案例研究,我們展示了我們的方法在支架跳躍、片段連接和PROTAC設計中的應用。然后,我們擴展了這個框架,以包含物理上有意義的3D結構信息,為生成過程提供了更豐富的先驗,并將我們的方法應用于分子細化任務,如R-group設計。

然后我們將注意力轉向預測建模,特別是基于結構的虛擬篩選。我們發現,用于一般計算機視覺任務的卷積神經網絡(CNNs)的進展適用于基于結構的虛擬篩選。此外,我們提出了兩種技術來將領域特定的知識合并到這個框架中。首先,我們展示了對接的局限性,需要使用多姿勢評分,并演示了平均評分策略的好處。其次,利用蛋白質家族之間的差異知識,提出了一種遷移學習方法來構建蛋白質家族特定模型。

最后,我們研究了生成方法如何用于改進基于結構的虛擬篩選中使用的訓練和基準集。我們提出了一種深度學習方法,該方法根據用戶偏好的規格生成誘餌,以控制誘餌偏差或構造具有定義偏差的集合。我們表明,我們的方法顯著減少了這些集合中包含的偏差。我們驗證了我們生成的分子在基于對接的方法中分離生物活性化合物時比之前的誘餌更具挑戰性。此外,我們表明,基于CNN的基于結構的虛擬篩選方法可以訓練這些化合物。

付費5元查看完整內容

第1章 概述

1.1 引言

本論文提出的問題是:"我們能否設計出既有效又高效的審計策略來防御現代信息系統中的數據濫用?"。

幾十年來,計算和存儲技術的不斷進步一直激勵著人類和我們日常生活的數字化。這種現象深刻地改變了信息交流、決策、以及人們思考和創新的方式。由于對提高信息交流效率和保證信息準確性和完整性的卓越能力的共同信念,許多現代信息系統已經出現,通過收集、存儲和處理人類產生的數據為人類社會提供關鍵服務。電子病歷(EHR)系統是這些重大創新之一(見圖1.1a的例子),它能帶來許多好處,包括臨床人員和病人之間的有效溝通[1, 2],通過隨時訪問提高護理效率[3],以及減少醫療錯誤[4, 5]。金融管理信息系統(見圖1.1b為例)是另一個顯著的模式,它能實現可靠的交易服務、高效的財富管理和持續的服務提供[6]。這些系統不僅加快了人類活動的步伐,而且還重塑了日常生活的性質。

(a) Epic EHR系統的一個示例界面,顯示一個假的病人。

(b) Mifos銀行系統的一個示例界面,顯示一個假的客戶。

圖1.1: 激發本論文研究的具體領域,也是直接影響本論文研究的具體領域。

同時,不幸的是,由于這些關鍵任務的信息系統在促進人類社會方面發揮的重要作用,以及它們所擁有的數據的巨大價值,攻擊從未缺席[7, 8, 9]。雖然攻擊會導致一系列的后果,從中斷信息系統的持續運行到破壞數據的完整性,但它們的最終目標往往匯聚到對個人隱私的侵犯。2015年,美國最大的醫療保險供應商之一Anthem的醫療數據泄露事件創造了美國歷史上數據泄露的新紀錄[10],通過對其數據服務器的犯罪黑客攻擊,影響了超過7880萬人。2017年,在針對頂級信用報告機構Equifax的攻擊中,約1.45億美國人的個人身份數據被泄露[11]。盡管大量守護安全和隱私的人工和自動篩查策略(或組合)被不斷開發和部署,但針對信息系統及其所持有的敏感數據的成功攻擊不斷登上頭條。因此,人們普遍認識到,沒有一個系統是不受攻擊的,也沒有一個系統是不受損害的,尤其是面對那些不斷適應、不斷發展、不斷改進其方式以破壞保護措施和掩蓋其真實目的的攻擊。

一個廣泛使用的防御信息系統中數據濫用的解決方案是創建并分析系統審計日志[12, 13, 14, 15]。這個簡單的想法已經被實踐了很久,并被用來支持信息系統管理的多個目標[16, 17, 18, 19],包括在系統安全和數據隱私方面的合規性和問責制[20, 21, 22, 23]。審計日志的結構可以是異質的,但是它們通常按照 "誰在什么時間點進行了什么活動,導致了什么系統狀態 "的思路來記錄系統的事件細節[20, 21, 24]。這種機制很有價值,因為它使管理員能夠對可疑事件進行回顧性調查,這樣,在被審計時,真正的攻擊可以在造成更大損失之前被識別和阻止。更進一步的是,為了審計方便,可疑事件通常根據其特征被映射到預定義的語義類型中,每個類型都對應著不同的惡意情況[25, 26]。這些語義類型可以有多種形式,并擅長于篩選不同的威脅。例如,基于規則的機制可以很容易地挑出存儲在系統中的非常重要的人(VIP)的記錄的訪問活動,而機器學習檢測模型可以準確地找出顯示出異常系統訪問模式的惡意賬戶。然后,檢測到的可疑事件及其相應的類型會作為警報提交給系統管理員(或審計師)進行審計,這為提前制定有效的審計策略增加了復雜性。

然而,由于審計師在現實世界領域中可能面臨的幾個明顯的挑戰,審計在實踐中是非同小可的。首先,通常的情況是,審計工作量大大超出了審計的可用資源(例如,安全管理員或隱私官員的時間)[27, 28, 29]。第二,由于缺乏精確定義惡意行為的能力,導致假陽性率很高,使得審計效率低下[30, 31, 32]。第三,人類攻擊者通常根據他們的知識和對系統運行的觀察采取戰略性的行動,以減少被審計師發現的概率,這使得固定的審計模式變得脆弱[33, 34, 35]。例如,攻擊者可以通過操縱他們的攻擊行為,輕易地繞過基于警報類型重要性的審計策略或訓練有素的機器學習異常點檢測工具。第四,與需要保護的目標固定為防御者和攻擊者的先驗知識的情況相比(如機場航站樓巡邏),數據濫用審計中需要調查的對象(即警報)在一個審計周期(如一天)開始之前是未知的。

從本質上講,數據濫用審計是一項尋求將有限的調查資源分配給對抗性環境中的大量警報的任務。不幸的是,幾乎所有以前的作品在推導其策略時都未能基于審計的這一基本特征進行開發。然而,本論文將審計師和攻擊者之間的互動建模為領導者-追隨者博弈,即審計師(防御者)首先承諾采取隨機審計策略,然后攻擊者根據其觀察結果以某種目標或類型的攻擊作為回應,同時試圖將被發現的可能性降到最低。事實上,這種建模架構下的審計方案通過戰略隨機化將不確定性納入空間,并沿著現實的激勵機制擴大參與者的利益最大化,與其他方案相比,表現出固有的優勢。沿著這個建模方向,在本論文中,我們探討了各種智能審計機制設計可以實現的潛力,以提高防御的效率,甚至對數據泄露的威懾。

1.2 貢獻總結

圖1.2總結了本論文的高層次目標和相關的具體博弈建模策略。基本上,本論文從兩個不同的角度考慮設計審計機制:離線優先和在線信號(或在線警告)。在這里,我們用離線和在線這兩個詞來表示在實時數據訪問過程中,審計人員和數據用戶之間是否通過任何審計機制進行互動。特別是,我們通過回答審計師和攻擊者之間的對抗性環境的兩個問題來展開調查。1)是否有可能以一種智能的方式對警報進行優先排序,從而使審計師能夠從這種隨機的順序中獲得最大的利益,以及2)審計機制能否以一種實時的方式運作,從而使正在發起攻擊的攻擊者在成功之前被阻止。第一個觀點源于這樣的觀察:在實踐中,系統管理員或隱私官員傾向于關注極少數符合他們最大利益的警報類型的調查(或者等同于,在他們的重要性排名中最重要的警報類型)。因此,由于預算的限制,其余的很少被觸及,這為攻擊者提供了免費的午餐。除了完全脫機進行審計外,第二個觀點是探索將參與者之間的信息交流實時化(例如,當用戶請求敏感數據時),以影響攻擊者的策略選擇,甚至阻止攻擊者。雖然我們的貢獻可以應用于一般的信息服務,但在這篇論文中,我們依靠一個有代表性的用例--EHR的濫用審計來使我們的調查有一個背景,即醫療機構(HCO)的雇員(或EHR用戶)可以通過非法訪問濫用病人的數據并侵犯病人的隱私。

更具體地說,為了回答第一個問題(對應于圖1.2中的目標1),我們通過同時考慮兩個維度,建立了一個新穎的博弈論審計框架原型。1)如何確定被觸發的警報的優先順序;2)為每個警報類型分配多少預算(例如,人力資本或貨幣預算)的上限是什么。在這個博弈中,審計師就警報類型的順序和確定的預算分配策略選擇一個隨機的審計政策,而潛在的攻擊者選擇他們的記錄(如EHR)來實施攻擊作為他們的回應。我們表明,即使是該問題的高度限制版本也是NP-Hard。盡管如此,我們提出了一系列解決這些問題的算法方法,這些方法利用線性編程和列生成的組合,計算出一個近乎最優的隨機策略,以確定警報類別的優先次序。使用一個合成的數據集,在這個數據集上得出精確的解決方案是可行的,我們首先證明了我們的方法在接近最優解決方案方面的有效性,并在效率上有了極大的提高。然后,我們用1)范德比爾特大學醫療中心(VUMC)超過1.5個月的審計日志來測試整個框架的有效性,這是美國一個主要的學術醫療中心,我們分配了一個可信的回報結構,明確表示攻擊者被抓或不被抓時玩家的收益和損失;2)一個公開的信用卡應用數據集。一組廣泛的實驗結果表明,我們的方法總是優于最先進的審計策略(忽略了博弈論),無論組織的預算如何。這項調查提供了強有力的證據,證明博弈論輔助的審計可以通過在對抗性環境中優化策略選擇而有利于審計師。這已經作為同行評議的會議論文[36]和期刊論文[37]發表。

圖1.2:本論文的三個主要部分的圖形總結。

第二個研究問題旨在將對抗性建模的好處擴展到實時。具體來說,我們開發了一個概念--在線信號,并將其納入審計博弈。在高層次上,在線信號的功能如下:每當一個可疑的事件開始時(例如,請求訪問病人的記錄,系統配置文件等),系統可以實時警告提出請求的用戶(例如,通過一個有一定概率優化的彈出窗口)"這個事件可能被審計"。然后,用戶可以選擇停止(如果他們是內部人員,從而被阻止)或繼續進行當前的行動。然后,在一段時間后,這些收到信號的事件的一個子集被審計。因此,通過信號傳遞實現威懾力的最大化將我們引向一個在線優化問題,我們必須確定:1)是否應該發出警告;2)該事件被審計的可能性。

作為本論文的第二個研究目標(如圖1.2所示),我們將這個審計問題原型化和形式化為信號審計博弈(SAG),作為初始步驟,我們對審計者和攻擊者之間的互動,以及被部署時的可用性成本(即阻止正常系統用戶的現象)進行建模。我們將審計師的最優方案稱為在線斯塔克伯格信號政策(OSSP),并在理論上證明,OSSP永遠不會比在沒有信號的博弈中取得的最優方案差。我們用來自VUMC的1000萬份EHR訪問事件--包含26000多份警報--進行了一系列實驗,以說明SAG的潛力和其與現有方法相比的優勢的一致性。這已作為同行評議的會議論文發表[38]。

雖然基于信號的在線審計利用了審計師的信息優勢,有可能勝過非信號策略,但由于幾個關鍵的缺陷,SAG在實踐中表現不佳。首先,SAG假設所有攻擊者都有相同的目標,因此他們對攻擊目標的偏好是相同的。他們的偏好由攻擊被抓住或沒有被抓住時雙方的獎勵和懲罰來表示。然而,在現實中,攻擊者破壞系統或敏感數據的動機有很大不同。例如,一個HCO的員工出于好奇偷看了一個VIP的EHR,可能比一個在黑市上出售相同記錄(然后實施身份盜竊)的員工更不需要擔心。第二,按照安全博弈建模的標準假設,SAG假設攻擊者總是以無誤的效用最大化的理性行事。然而,這是一個不合理的強勢假設,因為現實世界的攻擊者可能沒有時間、精力或知識來進行準確的效用計算來選擇策略。而且經驗表明,面對現實世界的攻擊者,博弈建模中的這種假設會給審計師帶來過大的損失[39],因為審計師可以對那些他們認為攻擊者不可能攻擊的目標保護不足。

本論文的第三個目的(如圖1.2所示)是通過解決它們的上述缺陷使在線信令審計機制變得穩健。我們引入了一個新的審計框架,我們稱之為魯棒貝葉斯SAG。首先,我們通過對SAG進行貝葉斯式的擴展,在審計環境中對多個攻擊者類型進行建模,其中審計者在選擇其審計策略時考慮了參與者的回報和偏好的不確定性。然后,由此產生的問題可以通過一個緊湊的表述來解決。第二,為了模擬現實世界中攻擊者的不完全理性,我們探索了穩健優化中的兩種不同類型的方法。1)約束攻擊者的策略選擇與他們的最優策略的最壞情況下的偏差,以及2)約束攻擊者的偏差對審計師損失的影響。我們將每種類型的約束納入實時解決穩健貝葉斯SAG的算法中,并為每種約束建立了相應的解決概念。我們研究了這些解決方案的理論屬性以及它們之間的關系。令人驚訝的是,這兩種算法,雖然視角完全不同,但在某些情況下可以導致等價,并表現出魯棒性的一致性。為了評估穩健貝葉斯SAG的性能,我們構建了兩個環境。1)與VUMC超過1000萬次真實EHR訪問的審計日志相關的真實環境(與目標2中的評估數據集相同);2)從真實數據中得到的模擬控制環境,這使我們能夠模擬攻擊者關于其理性程度的行為。我們特別評估了我們的解決方案和最先進的審計方法在不同條件下的預期效用,以證明新的審計解決方案的價值和其可擴展性。這已經提交給一個會議進行審查。

1.3 學位論文結構

本論文的其余部分組織如下。第二章調查了相關工作。之后,我們通過將相應的問題形式化為特定的博弈論模型,推導出它們的解決方案,然后使用真實和模擬的數據集進行評估,對上述每個目標進行擴展。具體來說,在第三章中,我們將預警優先級的博弈形式化,并推導出其解決算法,以改善離線數據濫用審計。在第四章中,我們介紹了在線信號的概念,以及由此產生的模型-SAG,然后是解決方案的理論屬性和性能評估。第五章提出了考慮到多種攻擊者類型和他們在選擇策略時的不完全理性的SAG的強大框架。在第六章中,我們總結了我們的貢獻并討論了未來的工作,從而結束了論文。

付費5元查看完整內容

機器學習(ML)已廣泛應用于生物醫學和醫療健康領域。醫學數據的日益豐富和生物技術(如新一代測序)的發展為ML在計算生物學和健康領域的應用提供了巨大的機會。在這篇論文中,我展示了我在這一新興領域的三個方面的貢獻——使用大規模數據集來推進醫學研究,開發算法來解決生物挑戰,以及為新技術構建分析工具。

在第一部分中,我介紹了兩件將ML應用于大規模現實數據的作品:一件用于臨床試驗設計,一件用于精準醫療。過于嚴格的入選標準一直是臨床試驗的一個關鍵障礙。在論文中,我介紹了一個強大的計算框架,Trial Pathfinder,它支持臨床試驗的包容性標準和數據評估。精準醫療的一個關鍵目標是描述具有特定基因突變的患者對治療的反應。在本文中,我利用大型真實世界臨床基因組學數據對突變-治療交互作用進行了系統性泛癌癥分析。

在第二部分中,我將介紹我在開發解決生物挑戰的算法方面的工作——將多個數據集與子集對應信息對齊。在許多生物和醫學應用中,我們有來自不同來源或領域的多個相關數據集,學習這些數據集之間的高效計算映射是一個重要的問題。在論文中,我提出了一個端到端的最佳傳輸框架,它有效地利用端信息來對齊數據集。

最后,我介紹了我為新技術開發分析工具的工作——空間轉錄組學和RNA速度。近年來,基于高通量圖像的轉錄組學方法的發展,首次使研究人員能夠在分子水平上對基因表達變異進行空間解析。在論文中,我描述了一個通用的分析工具來定量研究基因表達在固定組織切片中的空間相關性。從單細胞RNA-seq推斷RNA速度的最新進展為發育譜系和細胞動力學打開了令人興奮的新視野。在論文中,我介紹了一個有原則的計算框架,擴展RNA速度,以量化系統水平的動力學和改進單細胞數據分析。

//searchworks.stanford.edu/view/14237913

付費5元查看完整內容

機器學習方法已經廣泛應用于藥物發現領域,使得更強大和高效的模型成為可能。在深度模型出現之前,建模分子在很大程度上是由專家知識驅動的;為了表現分子結構的復雜性,這些手工設計的規則被證明是不夠的。深度學習模型是強大的,因為它們可以學習問題的重要統計特征——但只有正確的歸納偏差。我們在兩個分子問題的背景下解決這個重要的問題:表征和生成。深度學習的典型成功在于它能夠將輸入域映射到有意義的表示空間。這對于分子問題尤其尖銳,分子之間的“正確”關系微妙而復雜。本論文的第一部分將重點討論分子表征,特別是性質和反應預測。在這里,我們探索了一種用于分子表示的Transformer式架構,提供了將這些模型應用于圖形結構對象的新工具。拋開傳統的圖神經網絡范式,我們展示了分子表示原型網絡的有效性,它允許我們對分子的學習性質原型進行推理。最后,我們在改進反應預測的背景下研究分子表示。本論文的第二部分將集中在分子生成,這是至關重要的藥物發現作為一種手段,提出有前途的藥物候選人。我們開發了一種新的多性質分子生成方法,通過首先學習分子片段的分布詞匯。然后,利用這個詞匯,我們調查了化學空間的有效探索方法。

//dspace.mit.edu/handle/1721.1/143362

機器學習已經迅速改變了藥物發現的傳統渠道,為過程的每一步提供了新的工具。許多傳統上需要廣泛、專業領域知識的問題已經通過深度學習工具解決,使它們更高效、更廉價。先前的化學信息學方法使用許多手工設計的規則來建模小分子。這些技術被用于解決諸如性質預測之類的問題,其中的任務是預測分子的性質。然而,試圖解決這些表示問題的傳統方法由于其不靈活的特性而缺乏良好的泛化能力。深度學習模型的變革性方面在于模型直接從數據中學習和提取重要特征的能力。然而,這只有在正確的結構偏差和模型基礎上的建模假設下才可能實現。在分子問題上天真地應用深度方法會限制模型的能力或有用性,阻礙它們的推廣能力和在實踐中的有用性。因此,利用正確的歸納偏差的重要性不能被低估。

在深度學習方法出現之前,分子建模需要繁重的工程和固定的表示,通常被稱為定量構效關系(QSAR)方法。在這些方法中,指紋技術是非常受歡迎的,大致可以分為基于結構的[30]、拓撲[1]、循環[8]和藥效團指紋等幾種類型[91]。其中一些指紋(如基于結構的MACCS[30]指紋)是高度特定的表示,由一組固定的預定義結構的指示函數組成。其他的指紋,拓撲的和圓形的,其中包括摩根指紋更靈活。這些指紋通過枚舉路徑或環形鄰域來捕獲局部拓撲。然而,問題仍然存在于生成方法的確定性本質中:如果這些預定義規則沒有為任務捕獲正確的表示,它們將不能很好地工作。例如,對于許多小分子問題來說,性質懸崖(property cliff)仍然是一個具有挑戰性的問題,這是一種類似分子表現出不同性質的現象。這個問題對于分子指紋尤其尖銳,因為特征是固定的。然而,使用深度模型也不能解決這個問題,因為深度模型很容易與數據過度擬合,并且提供較差的泛化。

因此,我們的深度學習模型納入正確類型的結構偏差是至關重要的。圖神經網絡通過迭代聚合方案進行操作,在每一步,節點從其鄰居聚合信息。依次,一個節點應該包含越來越多的關于更大的鄰域的信息。節點表示最終聚合為表示圖的單個向量。雖然這種簡單的范式有時是有效的,但可能并不總是包含正確的分子任務類型的偏見。例如,當考慮分子的特性時,這種局部鄰域聚集可能無法捕捉到很重要的遠程依賴關系。更重要的是,也許在二維分子圖上的聚集并不適合理想的分子表示,我們應該觀察三維結構。對于分子的深度模型的發展有許多考慮,但它們需要正確的結構才能有效。指紋表示很簡單,但不靈活,經常涉及很多人類設計的規則。另一方面,深度模型很容易過擬合,無法捕捉正確的結構表示。

付費5元查看完整內容

基于藥物相關數據進行分子的生成與評估是新藥設計的關鍵任務。在藥物設計早期,藥物研發通常依靠藥物化學家的經驗進行藥物分子的設計與驗證。藥物化學家會合成一組化合物并對其進行生物活性測試,查看測試產生的數據,并利用對基礎學科的理解來決定下一步要合成哪些分子。他們將以上步驟進行迭代,最終得到所需的目標分子。

20世紀30年代,定量結構-活性關系(Quantitative Structure-Activity Relationship,QSAR)的發展,為化學結構與各種理化性質之間建立了一個數學模型。這些用于性質預測的QSAR模型奠定了許多虛擬篩選策略的基礎。虛擬篩選使用大量候選分子數據集得到更小的數據集用于后續的合成或者購買。

之后許多研究團隊產生了新的想法。他們編寫了計算機程序來進行從頭分子設計進而生成新分子。這些程序通常在蛋白質結合位點上添加原子或官能團來“生長”現有的分子,然后使用各種打分函數來評估這些分子,并將更優分子用于合成。雖然這些全新的設計方法取得了一些成功,但它們并沒有被廣泛采用。

在近幾年深度學習發展的推動下,分子生成和分子性質預測領域開始復蘇。深度學習應用于分子性質預測,包括預測生物活性、ADME(Absorption, Distribution, Metabolism, and Excretion)和與毒性靶標(eg: hERG——thehumanEther-à-go-go-RelatedGene)的相互作用等。其不依賴于專家定義的分子特征集,而是使用可調整到特定任務的學習特征。相關性質預測模型的性能優于更傳統的QSAR方法。當應用于分子生成領域時,深度學習并不是隨機擴展現有的分子,也不是使用一套規則來連接現有的分子片段,而是從現有的分子訓練集中學習規則生成分子。通過將這些生成方法與預測模型相結合,研究人員能夠設計出滿足特定生物活性的分子。

付費5元查看完整內容

摘要

在過去的幾年里,深度學習和醫學的交叉點取得了快速的進展,特別是在醫學圖像的理解方面。在這篇論文中,我描述了三個關鍵方向,它們為醫學圖像理解的深度學習技術的發展帶來了挑戰和機遇首先,討論了專家級醫學圖像理解算法的開發,重點是遷移學習和自我監督學習算法,旨在在低標記醫學數據設置中工作。其次,討論了高質量數據集的設計和管理及其在推進算法開發中的作用,重點是使用有限手動注釋的高質量標簽。第三,討論了醫學圖像算法的真實世界評估,以及系統分析臨床相關分布變化下的性能的研究。總之,本論文總結了每個方向的關鍵貢獻和見解,以及跨醫學專業的關鍵應用

圖:CheXpert 任務是預測來自多視圖胸片的不同觀察結果的概率。

圖:對比學習最大化同一胸部 X 射線圖像的不同增強所生成嵌入的一致性。

引言

未來幾年,人工智能 (AI) 有望重塑醫學。人工智能系統將常規用于早期檢測疾病、改善預后并提供更成功的個性化治療計劃,同時節省時間和降低成本。在不久的將來,可以讀取胸部 X 光片或組織病理學切片的算法將為醫生管理工作清單,為無需亞專業培訓的臨床醫生提供決策支持,并為人工智能驅動的遠程醫療服務提供支持。在醫院之外,人工智能技術將用于持續監測數百萬患者的健康狀況,并以前所未有的規模將患者安排就診和跟進。

近年來,深度學習是一種人工智能形式,其中神經網絡直接從原始數據中學習模式,在圖像分類方面取得了顯著成功[128]。因此,醫學 AI 研究在嚴重依賴圖像理解的專業領域蓬勃發展,例如放射學、病理學和眼科 [137]。過去幾年,算法的進步和數據集的創建推動了這一進步。在算法方面,卷積神經網絡架構和訓練程序的改進使醫學成像應用取得了進展。此外,這些算法的成功得益于對用于醫學成像的大型標簽數據集的管理。一些 AI 工具已經從測試轉向部署,清除了監管障礙并贏得了行政支持 [20]。批準公共保險報銷費用的醫療保險和醫療補助服務中心通過允許一些用于醫學圖像診斷的人工智能工具的首批報銷,促進了人工智能在臨床環境中的采用 [69]。然而,在回顧性數據集上成功理解醫學圖像的深度學習算法的數量與轉化為臨床實踐的數量之間仍然存在很大差距 [116]。

本論文提出,廣泛部署用于醫學圖像理解的深度學習算法存在三個關鍵技術挑戰。該領域面臨的第一個挑戰是,當前算法的開發側重于解決需要大量干凈數據的狹窄任務,而不是解決醫學中常見的具有噪聲或有限標簽數據的更廣泛任務。該領域面臨的第二個挑戰是用于訓練和驗證模型的數據集是小型、嘈雜和同質的,而不是大型、高質量和異構的。該領域面臨的第三個挑戰是,當前的研究在訓練算法的數據集分布的背景下驗證算法,而臨床部署需要在臨床相關的分布變化下評估算法性能。

論文結構

本論文涵蓋了算法、數據集和研究方向的進步、挑戰和機遇

算法

在過去的幾年里,深度學習算法的一些初步成果可以達到醫學專家水平,做出臨床上重要的診斷,包括放射學、心臟病學、皮膚病學、眼科和病理學[139]。在第 2 章中,我描述了一種用于檢測胸部 X 射線疾病的算法開發,我們證明該算法的性能可以與專業放射科醫生相媲美。在第 3 章中,我描述了一種算法開發,該算法在專業心臟病專家的水平上通過心電圖檢測異常心律。在這兩種情況下,我還描述了使訓練端到端深度學習算法成為可能的大型數據集的集合。這些章節一起描述了胸部 X 射線判讀和心律失常檢測任務的專家級表現的首次展示。

算法開發的主要實際挑戰之一是它們依賴于手動、耗時的數據注釋。特別是對于需要大量注釋專業知識的生物醫學任務,開發監督深度學習算法所需的大規模數據標記尤其具有挑戰性。對于醫學成像,使用預訓練 ImageNet [55] 模型的遷移學習一直是在有限的標記數據設置中開發算法的標準方法 [180]。在第 4 章中,我描述了對 ImageNet 架構的性能和效率以及胸部 X 光解讀權重的首次系統研究。在第 5 章和第 6 章中,我還描述了自我監督對比學習如何實現醫學訓練模型的范式轉變,其中相對少量的注釋可以訓練高度準確的模型。這些章節描述了遷移學習和自我監督學習如何解決醫療環境中有限標記數據的算法挑戰。

數據集

大型、高質量的數據集在推動深度學習算法的應用和進步方面發揮著關鍵作用。在醫學領域,數據集管理需要與醫院管理員建立合作伙伴關系,建立安全處理和去識別數據的框架,以及數據組織和注釋的策略。在第 7 章中,我描述了胸部 X 射線照片數據集的管理和合成轉換,旨在評估 X 射線照片的算法性能,以在真實臨床環境中進行基準穩健性測試。在第 8 章中,我描述了包含組織微陣列載玻片的數據集的管理和注釋,以及來自癌癥病例的臨床和細胞遺傳學數據,以發現預后生物標志物。

對于醫學影像數據集,標注通常需要人工標注,成本高且難以獲得,而通過自動化方法獲取的標簽可能會產生噪音。在監督計算機視覺模型解讀醫學圖像的背景下,從自由文本放射學報告中高質量地自動提取醫學狀況至關重要。在第 9 章和第 10 章中,我描述了構建高質量放射學報告標記器的過程,這些標記器可以解決噪音和專家注釋的有限可用性。

研究

雖然醫學圖像解讀中的大多數基礎工作已經在訓練它們的相同數據集分布上評估算法,但這些算法的部署需要了解它們在臨床相關分布變化下的性能。在第 11 章中,我以胸部 X 光解讀為例,描述了在存在未標記或訓練期間存在的疾病的情況下,對深度學習模型性能的系統評估。在第 12 章中,我描述了對不同胸部 X 光模型的系統研究,該模型應用于未經任何微調的智能手機胸部 X 光照片和外部數據集。

總體而言,本論文展示了深度學習醫學圖像解讀的進展,結合了以下方面的進步:(1)在大小標記數據集背景下的算法,(2)通過臨床知情管理和標記的數據集,(3)和研究系統地評估算法在臨床相關分布變化下的性能。

圖:實驗裝置概述

圖:測試了 8 種不同的胸部 X 光模型,應用于 (1) 胸部 X 光的智能手機照片和 (2) 沒有任何微調的外部數據集時的診斷性能。所有模型都由不同的團隊開發并提交給 CheXpert 挑戰賽,并在沒有進一步調整的情況下重新應用于測試數據集。

付費5元查看完整內容

圖機器學習(GML)因其建模生物分子結構、它們之間的功能關系以及整合多組數據集的能力而受到制藥和生物技術行業越來越多的關注。在此,我們提出了一個關于藥物發現和研發多學科的學術-工業綜述的主題。在介紹了關鍵術語和建模方法之后,我們按時間順序介紹了藥物開發流程,以確定和總結工作包括: 靶標識別、小分子和生物制劑的設計,以及藥物的重新利用。盡管該領域仍處于新興階段,但關鍵的里程碑,包括重新用途的藥物進入體內研究,表明GML將成為生物醫學機器學習的建模框架選擇。

引言

從藥物發現到上市,平均超過10億美元,可能持續12年或更長時間[1 - 3]; 由于高流失率,很少有人能在10年內進入市場[4,5]。整個過程的高損耗不僅使投資不確定,而且需要市場批準的藥物為早期的失敗買單。盡管在過去十多年里,整個行業都在關注效率問題,同時也受到了一些出版物和年度報告的推動,這些報告強調了終結排他性和生產率下降會導致收入下降,但事實證明,在科學、技術和監管變革的背景下,明顯的改善是難以實現的。由于上述原因,現在人們對運用計算方法來加快藥物發現和研發管道[6]的各個部分更感興趣,見圖1。

數字技術已經改變了產生大量數據的藥物研發過程。變化范圍從電子實驗室筆記本[7],電子法規提交,通過增加實驗室、實驗和臨床試驗數據收集[8],包括設備的使用[9,10],到精準醫療和“大數據”[11]的使用。收集到的關于治療的數據遠遠超出了研發范圍,包括醫院、專家和初級保健醫療專業人員的患者記錄——包括從社交媒體上獲取的觀察數據,例如藥物警戒數據[12,13]。通過可重復使用藥物的數據庫,有無數的在線數據庫和其他信息來源,包括科學文獻、臨床試驗信息[14,15]。技術的進步現在允許更大的組學分析,而不僅僅是基因分型和全基因組測序(WGS);微流體技術和抗體標記的標準化使得單細胞技術廣泛應用于轉錄組的研究,例如使用RNA-seq[16],蛋白質組(靶向),例如通過大量細胞檢測[17],甚至多種方式結合[18]。

在藥物發現過程中產生和使用的生物醫學數據的關鍵特征之一是其相互關聯的性質。這種數據結構可以用圖表示,這是一種數學抽象,在生物學的各個學科和領域中廣泛使用,以模擬在不同尺度上進行干預的生物實體之間的各種相互作用。在分子尺度上,蛋白質和其他生物分子的氨基酸殘基[19,20]和小分子藥物的組成原子和化學鍵結構[21,22]可以用圖表示。在中間尺度上,相互作用組是捕獲生物分子物種(如代謝物、mRNA、蛋白質)[23]之間特定類型相互作用的圖,其中蛋白質-蛋白質相互作用(PPI)圖可能是最常見的。最后,在更高的抽象層次上,知識圖譜可以表示電子病歷(EMR)中藥物、副作用、診斷、相關治療和檢測結果之間的復雜關系[24,25]。

在過去的十年里,兩個新興趨勢重塑了數據建模社區: 網絡分析和深度學習。“網絡醫學”范式早已在生物醫學領域[26]得到認可,借用了圖論和復雜網絡科學的多種方法,運用于生物圖,如PPIs和基因調控網絡(GRNs)。這一領域的大多數方法都局限于手工繪制的圖特征,如中心性度量和聚類。相比之下,深度神經網絡是一種特殊的機器學習算法,用于學習最優的特定任務特征。深度學習的影響在計算機視覺[27]和自然語言處理[28]方面具有開創性,但受限于對數據結構規律性的要求,局限于特定領域。在這兩個領域的收斂處是圖機器學習(GML),這是一類利用圖和其他不規則數據集(點云、網格、流形等)的結構的新ML方法。

GML方法的基本思想是學習節點29,30、邊(如預測推薦系統中的未來交互)或整個圖31的有效特征表示。特別是,圖神經網絡(GNN)[32-34],它是專為圖結構數據設計的深度神經網絡體系結構,正引起越來越多的興趣。GNN通過傳播鄰近節點的信息來迭代更新圖中節點的特征。這些方法已經成功地應用于各種任務和領域,如社交媒體和電子商務中的推薦[35-38],谷歌地圖[39]中的流量估計,社交媒體[40]中的錯誤信息檢測,以及自然科學的各個領域,包括建模流體,硬質固體,以及可變形材料相互作用[41]和粒子物理學中的事件分類[44,43]。

在生物醫學領域,GML在挖掘圖結構數據(包括藥物-靶標相互作用和通過知識圖譜嵌入進行關系預測)方面已經達到了最新水平[30,44,45];分子特性預測[21,22],包括預測吸收、分布、代謝和排泄(ADME)譜[46];靶標識別[47]到重新設計分子的早期工作[48,49]。最值得注意的是,Stokes等人利用定向信息傳遞的GNN作用于分子結構,為抗生素研發提出了可重用的候選抗生素,驗證了他們在體內的預測,從而提出了結構明顯不同于已知抗生素的合適的可重用候選抗生素。因此,GML方法在藥物開發過程中具有極大的應用前景。

結論:

  • 歷史上,生物分子相互作用和基因調控網絡的分析一直具有巨大的學術興趣,但在藥物發現和開發中可翻譯的結果有限。

  • 網絡醫學使用手工繪制的圖特征提供了很有前景的結果,但在整合不同的生物數據源的問題上缺乏任何有原則的解決方案: 結構數據(藥物和生物分子)、功能關系(抑制、激活等)和表達(RNA-seq、蛋白質組學等)。

  • 深度學習目前已應用于生物醫學研究的多個領域,特別是在生物醫學圖像(如組織病理標本)的解釋方面,實現由上級到醫生的結果。

  • 圖機器學習將網絡拓撲分析技術與深度學習技術相結合,學習有效的節點特征表示。

  • 圖機器學習已被應用于藥物發現和開發中的問題,并取得了巨大的成功,出現了一些實驗結果: 小分子設計、藥物與靶標相互作用的預測、藥物與藥物相互作用的預測和藥物的重新利用都是比簡單的非圖ML方法取得了相當大的成功和改進的任務。

付費5元查看完整內容
北京阿比特科技有限公司