生物醫學數據收集的最新進展允許收集大量數據集,測量數千到數百萬個單細胞中的數千個特征。這些數據有可能以以前不可能的分辨率推進我們對生物機制的理解。然而,了解這種規模和類型數據的方法很少。盡管神經網絡在監督學習問題上取得了巨大進步,但要使它們對更難表示監督的數據中的發現成為有用,還有很多工作要做。神經網絡的靈活性和表現力有時會成為這些監督較少的領域障礙,從生物醫學數據中提取知識就是這種情況。在生物數據中更常見的一種先驗知識以幾何約束的形式出現。
在本論文中,我們旨在利用這些幾何知識來創建可擴展和可解釋的模型來理解這些數據。將幾何先驗編碼到神經網絡和圖模型中,使我們能夠描述模型的解決方案,因為它們與圖信號處理和最優傳輸領域相關。這些鏈接使我們能夠理解和解釋這種數據類型。我們將這項工作分為三個部分。第一個借用圖信號處理的概念,通過約束和結構化架構來構建更具可解釋性和性能的神經網絡。第二個借鑒了最優傳輸理論,有效地進行異常檢測和軌跡推斷,并有理論保證。第三個研究如何比較基礎流形上的分布,這可用于了解不同的擾動或條件之間的關系。為此,我們設計了一種基于聯合細胞圖上擴散的最佳傳輸的有效近似。總之,這些工作利用我們對數據幾何的先前理解來創建更有用的數據模型。我們將這些方法應用于分子圖、圖像、單細胞測序和健康記錄數據。
數據分析領域在不斷變化。有人問是否會有一天我們不再需要新算法,數據分析領域就像從現成的工具中挑選合適的工具并將其應用于一些新數據一樣簡單。答案當然是否定的,只要數據、計算機或問題不斷變化,我們將始終需要新的算法和方法。
數據生成、處理和存儲方面的進步為我們提供了前所未有的從這些數據中學習的能力。在某些領域,幾何數據分析領域試圖利用點之間的局部關系來理解數據。
隨著廉價測序技術的出現,單細胞數據分析領域直到最近才成為可能,使我們能夠同時測量單個細胞的許多特征。這導致來自底層連續流形的非常高維和嘈雜的數據集。這種對數據生成過程的假設是整個工作中的一個共同主題,我們將看到其他先驗知識開始發揮作用,這些先驗最好使用一種或另一種文獻進行描述。
本論文從第 2 章中對圖信號處理、深度學習和最優傳輸的概述開始。雖然這些領域是從不同的文獻中發展而來的,但每個領域都試圖理解從一些基礎度量空間中采樣的點或點的分布如何相互關聯。在本論文中,我們融合了來自這些領域的想法,以深入了解生物醫學數據,重點關注單細胞轉錄組數據以及其他圖形和圖像數據集。這些數據類型的共同點是它們要么在圖數據集中具有點之間的一些內在關系,要么假設是從一些可以在本地表示的底層低維流形中采樣的。
本論文分為三個部分,第一部分側重于融合深度學習和圖信號處理,通過借鑒圖信號處理的思想來制作更具可解釋性的深度學習組件,并借鑒深度學習的思想來制作從圖信號開發性能更高的固有可解釋模型加工。第二部分融合了深度學習和最優傳輸,以創建具有可解釋屬性的深度學習模型。最后,在第三部分中,我們將其完整循環,將最優傳輸和圖形信號處理相結合,以一種基于嵌入的快速方法來優化從底層流形采樣的點的傳輸。這種基于嵌入的方法使我們能夠快速逼近許多分布之間的 Wasserstein 距離,而無需解決成對優化問題。
在第 3 章中,我們首先使用來自圖信號處理的思想提出了一種更具可解釋性的深度學習架構。一層中的神經元在排列下是無序的和等效的,因此從Run-to-Run可能很難找到負責特定功能的神經元。我們通過在給定神經網絡層中的神經元之間施加圖結構來向層添加結構。這導致更多可重復和可解釋的層,其中神經元將通過打破標準架構中權重對稱性而不降低表達性,基于圖結構從Run-to-Run執行相同的功能。
在第 4 章中,我們將深度學習的思想引入幾何散射。先前的工作表明,幾何散射在性能方面與從深度學習文獻中開發的當前圖神經網絡架構具有競爭力 [73],但對新數據不那么靈活,依賴于許多固定參數。在本章中,我們研究了更靈活的幾何散射網絡的好處,我們稱之為可學習幾何散射(LEGS),它允許我們學習固定的散射參數。我們表明這在生物醫學圖中特別有用,其中有各種各樣的圖,從小型密集連接圖到大型稀疏連接圖。事實證明,LEGS 的額外靈活性有助于適應這些不同的數據類型。
在第 5 章中,我們將來自最優傳輸的想法應用于無監督異常檢測問題。這里的目標是給定一個正常點的訓練樣本,建立一個可以檢測異常點的模型。例如,在給定一組狗圖像的圖像中,檢測測試集中的貓。一般來說,這個問題是使用基于重建的方法來解決的,訓練一個容量有限的模型來重建訓練集,然后根據這個模型重建它們的好壞對測試圖像進??行評分,這個想法是模型將無法重建遠離訓練集的點.我們指出了這種方法的三個問題,并提出了一種基于容量受限編碼器的不同方法,該編碼器直接對輸入點進行評分。我們將其與解決 Wasserstein 距離的對偶相關聯,并將其應用于理論以提供模型輸出的保證。
在第 6 章中,我們將稱為連續歸一化流 (CNF) [38] 的特定深度學習模型與動態最優傳輸聯系起來。然后,我們使用它來模擬單個細胞隨時間的軌跡。當前單細胞轉錄組測量的一個問題是它們具有破壞性——測量細胞的狀態會破壞細胞。這使得隨著時間的推移測量單個細胞變得困難。在這里,我們在多個時間點收集人口水平數據,并使用正則化 CNF 推斷單個細胞軌跡。我們表明,我們可以根據單細胞時間序列數據更準確地模擬細胞狀態隨時間的變化。
在第 7 章中,我們將流形上的最優傳輸與該圖上的一系列多尺度擴散聯系起來。通過比較圖上分布的擴散行為,我們可以快速估計推土機的距離,特別是當我們在 Wasserstein 度量中尋找具有多種測地線地面距離的最近鄰分布時。我們展示了如何將現有的多尺度方法推廣到推土機的距離計算中,并在將其擴展到圖形域的同時提高速度和準確性。
在第 8 章中,我們將第 7 章的工作擴展到不平衡最優傳輸,它融合了推土機距離(Earth-Mover distance)和無度量的總變化距離。直觀地說,這允許創建和銷毀(成本)而不是傳輸質量。我們將這種新的不平衡傳輸應用于醫學概念知識圖譜,以理解從患者筆記中提取的概念。
本論文的以下章節基于以下出版物和預印本。完整出版物的鏈接://alextong.net/publications
圖 8.6:使用 TV 距離(頂部)和 UDEMD 距離(底部)在 Snomed-CT 圖上建模為信號的患者嵌入,由患者診斷著色。 UDEMD 更好地組織空間,如 (b-c) 中的選定項、(d) 中的混淆矩陣的差異以及 (e) 中診斷的 k-最近鄰分類精度所指出的那樣。在 (b) 中,請注意 TV 嵌入(頂部)在顯示無法通過診斷區分的顱內出血的患者子集之間產生虛假分離(由于信號中的噪聲)。另一方面,UDEMD 嵌入(底部)顯示了具有此診斷的患者的連續體。對于以綠色顯示的腦腫塊或腫瘤患者也是如此。 (c) UDEMD 嵌入將患有急性冠狀動脈綜合征的患者組織成一個連續的軌跡,出院的患者(較輕的病例)朝向底部,更嚴重的病例朝向頂部。TV嵌入再次分裂了這個軌跡。
在過去的幾年里,深度學習和醫學的交叉點取得了快速的進展,特別是在醫學圖像的理解方面。在這篇論文中,我描述了三個關鍵方向,它們為醫學圖像理解的深度學習技術的發展帶來了挑戰和機遇。首先,討論了專家級醫學圖像理解算法的開發,重點是遷移學習和自我監督學習算法,旨在在低標記醫學數據設置中工作。其次,討論了高質量數據集的設計和管理及其在推進算法開發中的作用,重點是使用有限手動注釋的高質量標簽。第三,討論了醫學圖像算法的真實世界評估,以及系統分析臨床相關分布變化下的性能的研究。總之,本論文總結了每個方向的關鍵貢獻和見解,以及跨醫學專業的關鍵應用。
圖:CheXpert 任務是預測來自多視圖胸片的不同觀察結果的概率。
圖:對比學習最大化同一胸部 X 射線圖像的不同增強所生成嵌入的一致性。
未來幾年,人工智能 (AI) 有望重塑醫學。人工智能系統將常規用于早期檢測疾病、改善預后并提供更成功的個性化治療計劃,同時節省時間和降低成本。在不久的將來,可以讀取胸部 X 光片或組織病理學切片的算法將為醫生管理工作清單,為無需亞專業培訓的臨床醫生提供決策支持,并為人工智能驅動的遠程醫療服務提供支持。在醫院之外,人工智能技術將用于持續監測數百萬患者的健康狀況,并以前所未有的規模將患者安排就診和跟進。
近年來,深度學習是一種人工智能形式,其中神經網絡直接從原始數據中學習模式,在圖像分類方面取得了顯著成功[128]。因此,醫學 AI 研究在嚴重依賴圖像理解的專業領域蓬勃發展,例如放射學、病理學和眼科 [137]。過去幾年,算法的進步和數據集的創建推動了這一進步。在算法方面,卷積神經網絡架構和訓練程序的改進使醫學成像應用取得了進展。此外,這些算法的成功得益于對用于醫學成像的大型標簽數據集的管理。一些 AI 工具已經從測試轉向部署,清除了監管障礙并贏得了行政支持 [20]。批準公共保險報銷費用的醫療保險和醫療補助服務中心通過允許一些用于醫學圖像診斷的人工智能工具的首批報銷,促進了人工智能在臨床環境中的采用 [69]。然而,在回顧性數據集上成功理解醫學圖像的深度學習算法的數量與轉化為臨床實踐的數量之間仍然存在很大差距 [116]。
本論文提出,廣泛部署用于醫學圖像理解的深度學習算法存在三個關鍵技術挑戰。該領域面臨的第一個挑戰是,當前算法的開發側重于解決需要大量干凈數據的狹窄任務,而不是解決醫學中常見的具有噪聲或有限標簽數據的更廣泛任務。該領域面臨的第二個挑戰是用于訓練和驗證模型的數據集是小型、嘈雜和同質的,而不是大型、高質量和異構的。該領域面臨的第三個挑戰是,當前的研究在訓練算法的數據集分布的背景下驗證算法,而臨床部署需要在臨床相關的分布變化下評估算法性能。
本論文涵蓋了算法、數據集和研究方向的進步、挑戰和機遇。
在過去的幾年里,深度學習算法的一些初步成果可以達到醫學專家水平,做出臨床上重要的診斷,包括放射學、心臟病學、皮膚病學、眼科和病理學[139]。在第 2 章中,我描述了一種用于檢測胸部 X 射線疾病的算法開發,我們證明該算法的性能可以與專業放射科醫生相媲美。在第 3 章中,我描述了一種算法開發,該算法在專業心臟病專家的水平上通過心電圖檢測異常心律。在這兩種情況下,我還描述了使訓練端到端深度學習算法成為可能的大型數據集的集合。這些章節一起描述了胸部 X 射線判讀和心律失常檢測任務的專家級表現的首次展示。
算法開發的主要實際挑戰之一是它們依賴于手動、耗時的數據注釋。特別是對于需要大量注釋專業知識的生物醫學任務,開發監督深度學習算法所需的大規模數據標記尤其具有挑戰性。對于醫學成像,使用預訓練 ImageNet [55] 模型的遷移學習一直是在有限的標記數據設置中開發算法的標準方法 [180]。在第 4 章中,我描述了對 ImageNet 架構的性能和效率以及胸部 X 光解讀權重的首次系統研究。在第 5 章和第 6 章中,我還描述了自我監督對比學習如何實現醫學訓練模型的范式轉變,其中相對少量的注釋可以訓練高度準確的模型。這些章節描述了遷移學習和自我監督學習如何解決醫療環境中有限標記數據的算法挑戰。
大型、高質量的數據集在推動深度學習算法的應用和進步方面發揮著關鍵作用。在醫學領域,數據集管理需要與醫院管理員建立合作伙伴關系,建立安全處理和去識別數據的框架,以及數據組織和注釋的策略。在第 7 章中,我描述了胸部 X 射線照片數據集的管理和合成轉換,旨在評估 X 射線照片的算法性能,以在真實臨床環境中進行基準穩健性測試。在第 8 章中,我描述了包含組織微陣列載玻片的數據集的管理和注釋,以及來自癌癥病例的臨床和細胞遺傳學數據,以發現預后生物標志物。
對于醫學影像數據集,標注通常需要人工標注,成本高且難以獲得,而通過自動化方法獲取的標簽可能會產生噪音。在監督計算機視覺模型解讀醫學圖像的背景下,從自由文本放射學報告中高質量地自動提取醫學狀況至關重要。在第 9 章和第 10 章中,我描述了構建高質量放射學報告標記器的過程,這些標記器可以解決噪音和專家注釋的有限可用性。
雖然醫學圖像解讀中的大多數基礎工作已經在訓練它們的相同數據集分布上評估算法,但這些算法的部署需要了解它們在臨床相關分布變化下的性能。在第 11 章中,我以胸部 X 光解讀為例,描述了在存在未標記或訓練期間存在的疾病的情況下,對深度學習模型性能的系統評估。在第 12 章中,我描述了對不同胸部 X 光模型的系統研究,該模型應用于未經任何微調的智能手機胸部 X 光照片和外部數據集。
總體而言,本論文展示了深度學習醫學圖像解讀的進展,結合了以下方面的進步:(1)在大小標記數據集背景下的算法,(2)通過臨床知情管理和標記的數據集,(3)和研究系統地評估算法在臨床相關分布變化下的性能。
圖:實驗裝置概述
圖:測試了 8 種不同的胸部 X 光模型,應用于 (1) 胸部 X 光的智能手機照片和 (2) 沒有任何微調的外部數據集時的診斷性能。所有模型都由不同的團隊開發并提交給 CheXpert 挑戰賽,并在沒有進一步調整的情況下重新應用于測試數據集。
這本書的目的是用最簡單的方法來教機器學習。來自在線社區的例子,如Stack Overflow、Beyond Data Science和開源ML網站,往往難以理解。我們為經理、技術總監、程序員、產品經理以及其他想要學習更多機器學習知識的人寫了這本書。也許你讀過一些關于神經網絡、回歸、TensorFlow或分類的東西,現在你想知道如何使用這些工具在你自己的組織中解決問題。或者,也許你想進入這個領域作為一個新的職業或掙更高的薪水。我們從最基礎的開始——基本的統計和代數——然后再以此為基礎。這是因為機器學習是應用數學。如果你不懂基本的代數,那么你永遠也理解不了ML。幸運的是,你不需要任何比這更復雜的概念。
基本描述性統計。 我們回顧正態曲線、標準差、均值和方差。這些統計概念衡量機器學習模型的準確性。另外,在編寫代碼之前,在選擇ML算法之前,它們通常是查看數據集的第一步。
基礎代數和相關。 這是對數據之間關系的研究。只有當數據呈正相關時,才能構建預測模型,因此我們將介紹如何確定輸出是否與輸入相關。否則你只是在浪費時間。
回歸。 一旦確定了輸入和輸出數據集之間存在某種相關性,就可以尋找描述這種關系的函數。最簡單的情況是y = mx + b,這是簡單的線性回歸。有一個扎實的理解是很重要的,因為大多數機器學習,甚至神經網絡,都是對基本回歸思想的擴展。
分類。 這是一個預測模型,其結果是離散的,而不是實數。換句話說,y = mx + b產生一個浮點數(實數)。但你的結果可能是一組數字中的一個,比如1 2 3 4或5。舉個例子,看看手寫的數字,看看它們是0,1,2,…,還是9。
決策。 將數據點分組。例如,您可能希望根據一些共同特征對人們進行分組,例如根據血壓、血糖等對他們的醫療狀況進行分組。或者你想根據不同的生活質量問題來劃分城市。
決策樹。 一種正式的決策方式,比如是否根據決定某人償還貸款的能力和可能性的因素來決定是否給某人貸款。
神經網絡。 神經網絡可以進行分類或回歸。不同之處在于它的設計是為了在非常大的范圍內工作。例如,當Facebook給某人的照片加上一個名字時,這是因為你已經給了他們足夠的例子,他們可以這樣做。類似地,一款可以識別植物的應用程使用神經網絡。它通過拍攝一張照片并將其壓縮成像素,然后根據這些像素的排列做出預測來實現這一點。語音識別也是如此。
目錄內容:
3 Introduction 5 Requisite Skills & Software 6 What is Machine Learning? 8 The Basics: Descriptive Statistics 12 The Basics: Algebra & Correlation 13 Linear Regression 23 Logistic Regression 38 Classification: K-means Clustering 43 Classification: Decision Trees 46 Neural Networks 56 Additional Resources 57 Author Bio
在過去的幾年中,深度學習和醫學的交叉領域取得了快速的發展,特別是在醫學圖像的解譯方面。在本文中,我描述了三個關鍵方向,為醫學圖像解釋的深度學習技術的發展提出了挑戰和機遇。首先,我討論了專家級醫學圖像解譯算法的發展,重點是用于低標記醫學數據設置的遷移學習和自監督學習算法。其次,我討論了高質量數據集的設計和管理以及它們在推進算法發展中的作用,重點是使用有限的手動注釋的高質量標記。第三,我討論了真實世界的評估醫學圖像算法的研究,系統地分析了在臨床相關分布變化下的性能。總之,這篇論文總結了關鍵貢獻和見解,在這些方向與關鍵應用跨醫學專業。
從社交網絡到Web和大腦結構,圖是各種系統的一種自然表示。即使當數據沒有顯式地相互連接時,將其轉換成圖表以便進一步分析通常也是很方便的。許多涉及圖的任務,如鏈接預測、社區檢測和分類,依賴于圖中節點或圖整體之間的各種相似度定義。然而,這種相似性大多是隱式的,這意味著物體在某些空間中不被特征向量表示。相比之下,現代機器學習方法要求明確表示歐幾里得空間中的對象。為了在圖數據上利用機器學習的能力,我們必須具有適當的圖的顯式表示。
本論文研究針對圖結構數據表示的有效的算法。我們關注的是算法的可擴展性,因為它們必須有能力處理Web大小的圖,以能夠應對實踐。局部圖算法具有這種能力; 我們引入可擴展的局部算法來表示節點,邊,和整個圖作為向量在歐氏空間。通過潛在相似性來研究表征,使我們能夠闡明以前的工作,并將非常理想的特性引入我們提出的模型。值得注意的是,我們介紹了第一個隨時表示圖節點的算法。對于整個圖的情況,我們提出了表示,它使圖的多尺度比較和其局部逼近的方法。我們通過實驗驗證了我們的方法并沒有為了算法的可擴展性而犧牲表示的表達性。我們介紹了圖分析的新應用,并在具有數十億節點的大規模圖上使用我們的方法。
隨著表示學習在提供強大的預測和數據洞察方面取得的顯著成功,我們見證了表示學習技術在建模、分析和網絡學習方面的快速擴展。生物醫學網絡是相互作用系統的通用描述,從蛋白質相互作用到疾病網絡,一直到醫療保健系統和科學知識。
在本綜述論文中,我們提出了一項觀察,即長期存在的網絡生物學和醫學原理(在機器學習研究中經常未被提及)可以為表示學習提供概念基礎,解釋其目前的成功和局限,并為未來的發展提供信息。我們整合了一系列算法方法,其核心是利用拓撲特征將網絡嵌入緊湊的向量空間。我們還提供了可能從算法創新中獲益最多的生物醫學領域的分類。
表示學習技術在識別復雜特征背后的因果變異、解開單細胞行為及其對健康的影響、用安全有效的藥物診斷和治療疾病等方面正變得至關重要。
引言
網絡,或稱圖表,在生物學和醫學中非常普遍,從分子相互作用圖到一個人疾病之間的依賴關系,一直到包括社會和健康相互作用的人群。根據網絡中編碼的信息類型,兩個實體之間“交互”的含義可能不同。例如,蛋白質-蛋白質相互作用(PPI)網絡中的邊緣可以表明實驗中測量到的物理相互作用,如酵母雙雜交篩選和質譜分析(例如,[148,197]);調節網絡中的邊緣可以指示通過動態單細胞表達測量的基因之間的因果相互作用(例如,[174]);電子健康記錄(EHR)網絡中的邊緣可以表明在醫療本體中發現的層次關系(例如,[182,190])。從分子到醫療保健系統,網絡已經成為代表、學習和推理生物醫學系統的主要范式。
生物醫學網絡上表示學習的案例。捕捉生物醫學系統中的交互作用會帶來令人困惑的復雜程度,只有通過整體和集成系統的觀點才能完全理解[17,28,164]。為此,網絡生物學和醫學在過去二十年中已經確定了一系列管理生物醫學網絡的組織原則(例如,[16,86,106,262])。這些原則將網絡結構與分子表型、生物學作用、疾病和健康聯系起來。我們認為,長期存在的原則——雖然在機器學習研究中經常未被提及——提供了概念基礎,可以解釋表示學習在生物醫學網絡建模中的成功(和局限性),并為該領域的未來發展提供信息。特別是,當對網絡中邊緣的解釋取決于上下文時,相互作用的實體往往比非相互作用的實體更相似。例如,疾病本體的結構是這樣的:通過邊緣連接的疾病術語往往比不連接的疾病術語更相似。在PPI網絡中,相互作用的蛋白質突變常常導致類似的疾病。相反,與同一疾病有關的蛋白質之間相互作用的傾向增加。在細胞網絡中,與特定表型相關的成分往往聚集在同一網絡鄰居。
表示學習實現網絡生物學和醫學的關鍵原理。我們假設表示學習可以實現網絡生物學和醫學的關鍵原則。這個假設的一個推論是表示學習可以很好地適用于生物醫學網絡的分析、學習和推理。表示學習的核心是向量空間嵌入的概念。其思想是學習如何將網絡中的節點(或更大的圖結構)表示為低維空間中的點,該空間的幾何結構經過優化,以反映節點之間的交互結構。表示學習通過指定(深度的、非線性的)轉換函數,將節點映射到緊湊的向量空間(稱為嵌入)中的點,從而形式化了這一思想。這些函數被優化以嵌入輸入圖,以便在學習空間中執行代數運算反映圖的拓撲結構。節點被映射到嵌入點,這樣具有相似網絡鄰域的節點被緊密地嵌入到嵌入空間中。值得注意的是,嵌入空間對于理解生物醫學網絡(例如,PPI網絡)的意義在于空間中點的鄰近性(例如,蛋白質嵌入之間的距離)自然地反映了這些點所代表的實體的相似性(例如,蛋白質表型的相似性),提示嵌入可被認為是網絡生物醫學關鍵原理的可微表現。
算法范式(圖1)。網絡科學和圖論技術促進了生物醫學的發現,從揭示疾病之間的關系[91,135,159,200]到藥物再利用[41,42,96]。進一步的算法創新,如隨機游走[40,229,242]、核函數[83]和網絡傳播[214],也在從網絡中捕獲結構和鄰域信息以生成下游預測的嵌入信息方面發揮了關鍵作用。特征工程是生物醫學網絡上機器學習的另一個常用范例,包括但不限于硬編碼網絡特征(例如,高階結構、網絡主題、度計數和共同鄰居統計),并將工程特征向量輸入預測模型。這種策略雖然強大,但并不能充分利用網絡信息,也不能推廣到新的網絡類型和數據集[255]。
近年來,圖表示學習方法已成為生物醫學網絡深度學習的主要范式。然而,對圖的深度學習具有挑戰性,因為圖包含復雜的拓撲結構,沒有固定的節點排序和參考點,它們由許多不同類型的實體(節點)和各種類型的相互關系(邊)組成。傳統的深度學習方法無法考慮生物醫學網絡的本質——多樣性的結構特性和豐富的交互作用。這是因為經典的深度模型主要是為固定大小的網格(例如,圖像和表格數據集)設計的,或者是為文本和序列優化的。因此,它們在計算機視覺、自然語言處理、語音和機器人技術方面取得了非凡的成就。就像對圖像和序列的深度學習徹底改變了圖像分析和自然語言處理領域一樣,圖表示學習也將改變生物學和醫學中復雜系統的研究。
我們的重點是表示學習,特別是流形學習[27]、圖變壓器網絡[250]、微分幾何深度學習[25]、拓撲數據分析(TDA)[34,224]和圖神經網絡(GNN)[125]。圖2描述了這次評審的結構和組織。我們首先提供流行的圖學習范式的技術說明,并描述其在加速生物醫學研究的關鍵影響。在圖表示學習的每個當前應用領域(圖4),我們展示了圖表示學習的潛在方向,可以通過四個獨特的前瞻性研究,每個研究至少解決以下圖機器學習的關鍵預測任務之一:節點、邊緣、子圖和圖級預測、連續嵌入和生成。
第一節課的重點是分析今天能夠進行并行計算的典型個人計算機中的算法行為,第二節課的重點是今天能夠進行分布式計算的典型公共云中的此類個人計算機集群中的算法行為。我們將從第1節中簡要介紹的基本原理開始,并努力理解過去幾十年來算法的重大突破。并行計算是指在一臺機器上使用多個處理器和共享內存進行計算。并行計算和分布式計算雖然密切相關,但它們都提出了獨特的挑戰——主要是并行計算情況下的共享內存管理和分布式計算情況下的網絡通信開銷最小化。理解并行計算的模型和挑戰是理解分布式計算的基礎。課程內容反映了這一點,首先在并行環境中涵蓋各種經典的、數值的和圖形的算法,然后在分布式環境中涵蓋相同的主題。目的是強調每個設置帶來的獨特挑戰。
//github.com/lamastex/scalable-data-science/blob/master/read/daosu.pdf
數據科學是設計從大量數據中提取知識的算法和管道。時間序列分析是數據科學的一個領域,它感興趣的是分析按時間順序排列的數值序列。時間序列特別有趣,因為它讓我們能夠可視化和理解一個過程在一段時間內的演變。他們的分析可以揭示數據之間的趨勢、關系和相似性。存在大量以時間序列形式包含數據的領域:醫療保健(心電圖、血糖等)、活動識別、遙感、金融(股票市場價格)、工業(傳感器)等。
在數據挖掘中,分類是一項受監督的任務,它涉及從組織到類中的帶標簽的數據中學習模型,以便預測新實例的正確標簽。時間序列分類包括構造用于自動標注時間序列數據的算法。例如,使用健康患者或心臟病患者的一組標記的心電圖,目標是訓練一個模型,能夠預測新的心電圖是否包含病理。時間序列數據的時序方面需要算法的發展,這些算法能夠利用這種時間特性,從而使傳統表格數據現有的現成機器學習模型在解決底層任務時處于次優狀態。
在這種背景下,近年來,深度學習已經成為解決監督分類任務的最有效方法之一,特別是在計算機視覺領域。本論文的主要目的是研究和發展專門為分類時間序列數據而構建的深度神經網絡。因此,我們進行了第一次大規模的實驗研究,這使我們能夠比較現有的深度學習方法,并將它們與其他基于非深度學習的先進方法進行比較。隨后,我們在這一領域做出了大量的貢獻,特別是在遷移學習、數據增強、集成和對抗性攻擊的背景下。最后,我們還提出了一種新的架構,基于著名的Inception 網絡(谷歌),它是目前最有效的架構之一。
我們在包含超過100個數據集的基準測試上進行的實驗使我們能夠驗證我們的貢獻的性能。最后,我們還展示了深度學習方法在外科數據科學領域的相關性,我們提出了一種可解釋的方法,以便從運動學多變量時間序列數據評估外科技能。
深度學習序列分類概述
在過去的二十年中,TSC被認為是數據挖掘中最具挑戰性的問題之一(Yang and Wu, 2006; Esling and Agon, 2012)。隨著時間數據可用性的增加(Silva et al.,2018),自2015年以來已有數百種TSC算法被提出(Bagnall et al.,2017)。由于時間序列數據具有自然的時間順序,幾乎在每一個需要某種人類認知過程的任務中都存在時間序列數據(Langkvist, Karlsson, and Loutfi, 2014)。事實上,任何使用考慮到排序概念的已注冊數據的分類問題都可以被視為TSC問題(Cristian Borges Gamboa, 2017)。時間序列在許多實際應用中都遇到過,包括醫療保健(Gogolou等,2018)和人類活動識別(Wang et al.,2018;到聲學場景分類(Nwe, Dat, and Ma, 2017)和網絡安全(Susto, Cenedese, and Terzi, 2018)。此外,UCR/UEA檔案中數據集類型的多樣性(Dau等,2019;Bagnall et al,2017)(最大的時間序列數據集儲存庫)展示了TSC問題的不同應用。
異步分布式計算系統的模型。基本概念的并發和同步,通信,可靠性,拓撲和電子約束,時間和空間的復雜性,和分布式算法。