對氣象數據進行聚類在多個方面都是一項有價值的工作。結果可以在更大的氣象預報框架內以各種方式使用,或者可以簡單地用作表征特定感興趣區域的氣候差異分析工具。這項研究提出了一種基于在大約 11 個月的長時間范圍內,溫度時間序列相似性對地理位置進行聚類的方法。為此,使用了一種利用深度學習的新興且強大的聚類技術,稱為深度表示聚類 (DRC)。此外,提出了一種時間序列特定的 DRC 算法,以解決該領域的當前差距。最后,與傳統的數值氣象預報(NWP)相比,基于深度學習的氣象預報作為一種獲得更快速預測的手段,是一個越來越普遍的研究課題。由于它們是控制大氣行為的已知物理方程,即 Navier-Stokes 方程,因此探索了將這些定律重新表述為基于物理的損失函數的概念,特別感興趣的是用這種損失函數訓練的模型是否可以勝過它的基線對應物。
圖 15:時間序列聚類方法流程圖
氣象預報有著悠久的歷史,它植根于基本的物理原理。 20 世紀初的科學家們注意到,大氣可以被視為一種流體,因此可以使用偏微分方程 (PDE) 進行建模,并建立了描述流體特性隨時間和空間變化的物理原理 [21]。這些在氣象預報領域被稱為數值氣象預報 (NWP) 的方法隨著時間的推移有了很大的改進,目前代表了標準的氣象建模方法。然而,深度學習和機器學習方法的進步引起了人們對將數據驅動的方法應用于氣象建模和預測問題的極大興趣。此外,正在進行研究以專門解決在物理過程建模中使用深度學習方法的問題,其中與氣象一樣,通常有關于可以利用的過程的現有信息。
機器和深度學習技術(如聚類)也可用于分析氣象數據。這通常是為了將在廣泛區域內經歷相似氣象模式的時間段組合在一起,但也可以將在很長一段時間內經歷相似氣象模式的地理區域組合在一起。這兩種方法都可以幫助建立更廣泛的氣象預報框架,而后者也可以用來提供一個地區氣候差異的一般特征。
這項研究以幾種方式增加了深度學習和大氣/氣候建模領域。首先,使用一種強大的新型聚類算法,在此稱為深度表示聚類 (DRC),將美國聚類到在時間序列形狀和氣象動態方面具有相似性的地理區域。其次,將解決當前對 DRC 研究的空白。具體來說,據我們所知,還沒有發布任何時間序列特定的 DRC 算法。相反,在處理時間序列數據時,大多數人在其聚類算法的核心使用基于歐幾里德的距離度量,這可能會產生不良結果。最后,探討了在深度學習模型中利用已知物理定律進行 24 小時氣象預報的前景。
聚類
獲得準確氣象預報的復雜性和難度怎么強調都不為過。基本過程是高度非線性、混沌和非平穩的。雖然這些類型的現象可以通過神經網絡建模,但以任何方式暗示正在經歷的氣象模式類型的信息可以在更廣泛的預測框架中使用。這使一些研究人員轉向了對氣象數據進行聚類并使用聚類的性質和成員資格來通知神經網絡 [22] 的想法。此外,為了對區域氣候進行分類,對地理位置進行分組的歷史由來已久[17]。一種尚未探索的方法是直接使用時間序列數據和適當的時間序列距離度量來解釋時間序列的形狀。這樣做會產生與大氣測量結果相似的位置集群。同樣,這些結果可用于各種目的。在氣象預報框架中,這可用于構建特定于集群的模型,以了解每個集群中氣象的典型復雜行為。通過為每個集群擬合獨特的模型,他們有更好的機會通過關注這些位置的典型行為來學習在其集群中觀察到的復雜關系。聚類結果也可以更普遍地用作對一個地區的氣候進行廣泛分類的一種方式。
動力學
在某些研究領域中,時間序列分析的研究與動力系統的研究存在脫鉤。在處理氣象數據時,始終認識到每個時間序列只是較大動力系統的一維投影這一事實很重要,特別是因為我們希望部分基于每個時間序列的潛在動力學相似性來驅動集群形成地點。出于這個原因,提出的 DRC 算法特別注意驅動動態感知集群的形成。
時間序列聚類
聚類時間序列數據存在一些獨特的挑戰。這源于這樣一個事實,即聚類需要使用距離度量或度量來確定點的相似性或相異性。在靜態數據的情況下,數據點或向量 x ∈ R n 表示觀察的 n 個特征,而時間序列向量 y ∈ R n 表示系統某些特征的時間測量值。測量靜態數據向量之間的相似性通常與歐幾里德距離相關聯,并且適當地如此。但是,要理解為什么這在時間數據的情況下可能會出現問題,請考慮圖 1 中的時間序列。
圖 1. 除了相位之外,兩個正弦波完全相同。如果使用歐幾里德距離進行比較,它們將被認為遠不如預期的相似。此外,時間序列質心計算通常最好使用 dtw 重心平均或其變體來完成。
雖然很明顯,這是兩個相位稍有偏移的相同正弦波,并且在聚類的情況下應該被認為是高度相似的,但歐幾里德距離會產生一種錯誤的不相似感。為了通過氣象模式的相似性對地理位置進行分組,我們的距離測量必須考慮時間變化和變化。
質心計算是許多聚類算法的另一個基本組成部分。就像歐幾里得距離會錯誤地表示兩個時間序列的真實相似性一樣,用于質心計算的算術平均值也會產生不自然的時間序列平均值。具體來說,算術平均值通常會產生一個在形狀方面嚴重扭曲的平均值,因此不能恰當地代表其組成部分。回到圖 1,可以看出算術平均曲線(綠色)是兩個正弦波形的錯誤表示,而紅色曲線是基于動態時間規整 (DTW) 的平均值,稍后將更詳細地介紹,對于這些時間序列來說是一個更好的“平均值”。
為什么選擇深度表示聚類 (DRC)?
深度表示聚類描述了一類使用神經網絡來輔助聚類任務的模型。主要方法結合了表示學習(通常通過自動編碼器)和聚類損失,以驅動形成集群友好的表示。由于該過程通常涉及表示學習,因此 DRC 非常適合高維、復雜的數據,因為它可以映射到低維表示。這在計算上和避免維度災難方面都很有用。由于這項研究的聚類任務涉及長而復雜的時間序列,DRC 是一種自然的方法。最后,M. Cuturi 和 M. Blondel 最近的研究工作產生了動態時間扭曲 (DTW) 損失的可微版本,稱為 soft-DTW [23],這很重要,主要有兩個原因。首先,時間序列不能與標準歐幾里得距離函數在相似性方面進行適當比較。取而代之的是像 DTW 這樣的東西,或者像 soft-DTW 這樣的松弛,對于解釋形狀的相似性是必要的。其次,由于 DRC 是一種基于神經網絡的方法,因此訓練中使用的所有損失函數必須是可微的,以便通過反向傳播促進參數優化,這是標準 DTW 所缺乏的特性。由于這些原因,softDTW 的開發非常適合創建可以適當處理時間序列數據的 DRC 算法。
有很多理由考慮使用深度學習方法來模擬物理過程,尤其是大氣動力學。首先,傳統的 NWP 方法在計算上非常昂貴,因為相關的 PDE 必須在每個預測周期用新的初始條件和邊界條件求解。此外,增強預測能力和預測分辨率需要增加計算資源。具體來說,研究人員已經表明,將預測分辨率翻倍需要計算能力提高一個數量級 [24]。另一方面,一旦訓練了深度學習模型,獲得預測的速度相對較快。
其次,數據驅動的方法很靈活,可用于幫助從業者快速開始在沒有出現區域高分辨率 NWP 的位置進行本地化預測。這對軍隊來說是一個顯著的好處。例如,當部隊被派往建立新的前哨時,首要任務之一是建造一個機場,以便可以進行進出基地的運輸和行動。了解和預測機場內外氣象的能力對于前哨基地的成功至關重要。然而,這不僅適用于機場運營。各種任務規劃都需要準確的氣象評估,在許多此類海外環境中,沒有提供高分辨率預測的區域/本地 NWP 模型。由參謀長聯席會議發布的題為“氣象和海洋行動”的聯合出版物 3-59 [25] 明確闡述了這一點,指出其聯合氣象和海洋 (METOC) 行動的基石是準確性、一致性、相關性和及時性。為了實現準確度目標,他們指出,“METOC 數據和信息在代表當前和未來環境狀態時必須是可衡量的正確”[25]。關于及時性,他們說,“及時性原則取決于產品源自最新的可用數據,快速處理和傳播,并在適當的時間整合到規劃和執行過程中”[25]。深度學習、數據驅動的模型通過提供一種快速獲得任何給定區域的預測的方法,專門解決了準確性和及時性目標。
最后,盡管最近才成為主流研究領域,但數據驅動的方法并不排除結合已知的物理原理。原始方程提供了大氣量如何在空間和時間上相互變化的數學描述,對于手頭的問題而言是有價值的信息,而與特定的建模方法無關。這些方程可以在神經網絡訓練框架中使用,以激勵符合已知物理定律的預測。這種方法利用了這些變量之間已知的物理關系,同時也受益于深度神經網絡(DNN)提供的通用函數逼近能力[26]。
本研究提出了一種新穎的基于形狀、動態感知的 DRC 算法,用于在地理上而非時間上對氣象數據進行聚類。此外,我們的目標是通過利用深度學習來提高氣象預報的速度和定位,同時允許深度神經網絡利用已知的物理原理。
第二章將首先探討有關氣象預報的歷史、深度氣象預報的當前研究、Navier-Stokes 方程和基于物理的深度學習方法的文獻。在此之后,將討論氣象聚類、動力系統和 DRC。
第三章將介紹兩種基于軟 DTW 的 DRC 算法,這些算法在氣象數據中的應用,以及 Navier-Stokes 啟發的基于物理學的損失函數概念證明,用于氣象預報。最后,第四章和第五章將分別提供結果、結論和未來工作。
圖27:k=9 的聚類圖。僅來自自動編碼器的初始聚類結果在 (27a) 中重新顯示,兩個 epoch 訓練后的 SDTW-KM-DRC 和 SDTW-KLD-DRC 結果分別在 (27b) 和 (27c) 中顯示。
工業廠房設計面臨的重大挑戰之一是確保項目執行期間產生的大量設計數據集的完整性。這項工作的動機是分享一些個人經驗,在項目期間由于自動化程度不夠,影響了交付物的質量,造成了數據完整性問題。因此,該項目尋求自動化解決方案,以檢測工業設計數據中異常值的形式。本項目提出了幾種新的方法,基于隱馬爾可夫模型(HMM)和被稱為基于邊際GRNN(MB-GRNN)改進的通用回歸神經網絡,以及將計算時間降到最低的優化技術。HMM被用于驗證使用自學方法的加工廠標簽號。實驗數據的結果表明,HMM的性能與一個定制的設計規則檢查算法相當。工業設計中部件的選擇涉及設置特定的設計參數,這些參數通常必須位于被稱為 "設計余量 "的允許范圍內。MBGRNN有能力直接從設計數據中估計這些允許的余量,并通過將估計余量之外的數據點識別為離群值來指出因設計參數的無效選擇而導致的潛在設計錯誤。極端允許邊際的邊界是通過使用拉伸因子(第二個內核加權因子)的迭代應用來 "拉伸 "GRNN的上、下表面來確定的。該方法在數據云周圍創建了一個對變量不敏感的帶子,與正態回歸函數相互聯系,提供了上、下限的邊緣邊界。然后,這些邊界可以用來確定異常值,并在設計期間預測設計參數的允許值范圍。這種方法與Parzen-Windows和另一種基于接近的方法進行了比較。MB-GRNN還得益于一種修改過的算法,該算法使用聚類、K-近鄰的組合來估計平滑參數,并打算作為決策支持系統來實施,以檢查工業設計數據的質量,幫助最小化設計和實施成本。預計這項研究工作中提出的無監督技術將受益于工業設計過程中不斷增加的自動化。
在過去的幾十年里,分析為徹底改變醫療保健提供了希望,提供更有效、以患者為中心和個性化的護理。隨著越來越多的數據被收集、計算性能得到提高以及新算法的開發,機器學習已被視為推進醫療保健服務的關鍵分析工具。然而,直到最近,盡管人們對大數據的潛力充滿熱情,但只有少數例子影響了當前的臨床實踐。本論文提出了預測性和規范性方法的組合,這些方法將有助于向個性化醫療的過渡。
我們提出了新的機器學習算法來解決主要的數據缺陷,如缺失值、審查觀察和未觀察到的反事實。利用各種數據源,包括健康和索賠記錄、縱向研究和非結構化醫療報告,我們展示了分析在心血管和腦血管疾病背景下的潛在好處。為了推動這些方法的采用,我們在算法保險領域奠定了基礎,提出了一個量化框架來估計機器學習模型的訴訟風險。這項工作強調可解釋性和促進臨床醫生參與融入醫療保健系統的模型設計。
第一部分介紹了機器學習和優化交叉點的缺失數據插補、聚類和生存分析的數據驅動算法。第二部分強調了醫學領域的規范性和預測性分析的潛力。我們為個性化處方開發了一個新框架,并將其應用于冠狀動脈疾病的治療。第二部分還介紹了可以支持早期診斷和改善中風患者管理的預測模型。最后,第三部分提出了一種新的風險評估方法,使醫療機構能夠管理因實施分析決策工具而產生的風險。
ML 模型已開始在現代組織中發揮重要作用。在當今瞬息萬變的經濟和社會中,它們正迅速成為轉型、顛覆和競爭優勢的關鍵來源。等待這種影響的科學領域前沿是醫療保健和保險。這些領域的特點是不確定性和可變性,這對臨床醫生、政策制定者和商業領袖的決策過程構成重大挑戰。需要考慮的參數太多,潛在的并發癥眾多,而少數群體的專業信息匱乏。
醫療實踐仍然主要由傳統的統計技術驅動,這些技術從有限的樣本量和風險因素中得出結論。數據驅動的流程尚未整合到醫院決策中,而廣泛建立的醫療指南主要針對普通人群,在絕大多數情況下缺乏個性化。分析和機器學習為該領域創造了前所未有的機會,提供了可以利用大數據力量的新技術,在個人層面發現新見解。本論文的目的是展示我們如何利用這些寶貴的資源來個性化決策,并最終為患者、醫療機構和保險組織帶來更好的結果。
從電子健康和索賠記錄到縱向研究和非結構化醫療報告,醫療保健行業使用各種需要專門算法的數據源。該領域遇到的問題的復雜性以及數據的不完整性,對充分發揮其潛力構成了重大挑戰。第一部分介紹了利用優化技術解決醫療保健應用中遇到的一些最常見數據問題的新 ML 算法:缺失值、聚類和刪失。在第 2 章中,我們設計了一種新方法 MedImpute,用于在多變量面板數據中估算缺失的臨床協變量。在第 3 章中,我們提出了通過最優樹 (ICOT) 進行可解釋聚類,這是一種恢復可解釋數據集群的新型無監督學習方法。在第 4 章中,我們解決了使用最優生存樹 (OST) 算法進行刪失的挑戰,生成全局優化的生存樹模型。與各種數據集和環境上的現有成熟方法相比,我們展示了這些算法的卓越計算性能。第一部分提供了可解釋性不必以犧牲準確性為代價的證據,提供了一套新的工具,可以在醫療保健中采用數據驅動模型方面發揮關鍵作用。
第二部分說明了分析對醫療保健行業的變革力量,強調了我們與醫學研究人員在創建促進臨床決策的規范模型和預測分數方面的聯合研究工作。首先,我們展示了如何利用可用的 ML 算法在患者層面提供治療建議,從而實現向個性化醫療的過渡。我們的工作通過綜合大量患者對不同方案觀察到的異質反應,揭示了個性化、高效的治療方法。我們的規范算法利用了基于投票方案的通用監督學習模型的組合。它的性能是通過一系列新的評估指標來衡量的,這些指標考慮了在各種基本事實下多種治療的反事實結果。因此,我們評估了規范方法的準確性、有效性和魯棒性。我們將這項技術應用于冠狀動脈疾病 (CAD) 的管理,這是對人類健康影響最大的臨床疾病之一(第 5 章)。
接下來,我們專注于以中風患者為中心的預測模型。我們強調模型推導和外部驗證過程,并提出潛在的技術來從非線性模型中識別可操作的見解。使用來自廣為人知的弗雷明漢心臟研究的結構化數據,我們在第 6 章中提出了一個健康個體估計 10 年中風風險的新模型。該模型已在波士頓醫療中心 (BMC) 進行了前瞻性驗證,并且正在 Hartford HealthCare 的初級保健機構進行回顧性評估。第 7 章轉向非結構化信息,介紹從非結構化放射影像文本中提取患者信息的綜合框架。我們結合使用自然語言處理和監督學習方法,自動檢測缺血性中風的潛在存在、位置和嚴重程度。該模型現已在布萊根婦女醫院和 BMC 成功用于患者表征。
在這些調查中,我們的目標是這些模型的采用和臨床整合。為了提供影響醫療實踐的有用且可解釋的工具,我們開發了在線 Web 應用程序來傳達建議的推薦系統結果。事實證明,這些接口對于確保醫生使用模型并在部署它們的醫療保健組織中產生真正的影響至關重要。
現代醫療保健組織中數據驅動工具的實施同時擾亂了保險業。通過提供強大的預測模型來估計可能導致索賠的不良事件(即心臟病發作、癌癥等)的概率,分析已經開始超越健康保險中的傳統精算方法。未來,機器學習算法有望發揮更核心的作用,因為在預測性和規范性性能產生更好結果的情況下,它們將被要求取代人類決策。這種轉變引發了具有挑戰性的問題:“如果算法的推薦錯誤,誰來承擔責任?”和“我們如何保護決策者免受錯誤的算法預測?”隨著人工智能開始融入組織的決策過程,必須開發新型保險產品來保護其所有者免受風險。潛在的例子包括應用于放射學的圖像識別系統,這些系統可能承擔醫療責任,并從醫療保健擴展到自動駕駛汽車或用于制造的預測性維護算法,以及許多其他應用。第三部分為稱為算法保險的新研究領域奠定了基礎。我們提出了一個全面的量化過程來估計算法責任保險合同的風險敞口,同時考慮到二元分類模型的預測性能、可解釋性和可概括性。我們在醫療事故的背景下展示了我們的方法實施。
本文的貢獻可以總結如下,按章節列出。
數據缺失是醫療保健研究中的一個主要問題,因為不完整的信息經常出現在患者記錄中。在本章中,我們提出了一個新框架 MedImpute,用于在多變量面板數據中估算缺失的臨床協變量。這種方法提出了一種靈活的優化公式,可以對其進行修改以適應不同的插補算法。它可以使用廣泛的臨床數據集作為輸入,包括來自臨床試驗和電子健康記錄 (EHR) 的信息,這些信息對個性化醫療具有特別的研究興趣。我們將我們的貢獻總結如下:
? 我們在 MedImpute 框架下用時間序列信息制定了缺失數據插補的問題,擴展了 Bertsimas 等人 (2018) [32]提出的 OptImpute 框架。我們專注于 ??-最近鄰 (??-NN) 公式來解決優化問題并推導出相應的快速一階算法 med.knn。
? 我們進行了一系列計算實驗,測試該方法在三個真實世界數據集上的性能,改變缺失數據的百分比、每個個體的觀察次數以及缺失數據的機制。
? 我們證明,相對于其他最先進的缺失數據插補方法,med.knn 在所有實驗中始終能帶來最佳的預測性能和最低的插補誤差。
? 我們提出了一種新的自定義調整程序,以有效地學習優化問題中的超參數,與標準交叉驗證相比,該程序具有卓越的縮放性能和更好的插補精度。
本章中的工作成果發表在“機器學習”期刊 [41]。
圖 2.1:在 FHS、DFCI 和 PPMI 數據集上使用 MAE 度量的每種方法的插補誤差,缺失數據的百分比從 10% 變化到 50%。缺失數據機制固定為 MCAR。
廣泛建立的聚類技術不能提供數據分離背后的直觀推理,從而限制了它們的可解釋性。在現實世界的應用中,特別是在醫療保健環境中,后者對決策者采用和集成 ML 工具構成了主要障礙。在本章中,我們提出了一種基于樹的無監督學習方法,該方法可以獲得可解釋的集群,其性能與其他現有算法相當或更好。我們的貢獻如下:
? 我們提供了無監督學習問題的 MIO 公式,導致創建全局最優聚類樹,激發了我們的新算法 ICOT。
? 我們建議使用迭代坐標下降 (CD) 方法來實現我們的方法,該方法可擴展到更大的問題,很好地逼近全局最優解。
? 我們引入了其他技術,利用采樣和集群創建的幾何原理來提高算法的效率。
? 我們證明,ICOT 與使用跨多個內部驗證標準的合成數據集的各種聚類方法相比具有競爭力。
? 我們提供了該算法如何在實際環境中使用的示例,并測試了 ICOT 對大型問題實例的擴展能力。
本章的工作成果發表于“機器學習” 期刊[31]。
圖 3.1:基于 Ruspini 數據集構建的聚類樹示例。
生存分析解決了數據集中出現的挑戰,在這些數據集中出現了審查觀察結果,其中感興趣的結果通常是事件發生前的時間,但對于某些人來說,事件的確切時間是未知的。審查結果在醫療保健研究中無處不在,因此,用于生存分析的 ML 方法越來越受歡迎。我們提出了利用 MIO 和局部搜索技術生成全局優化生存樹模型的 OST 算法。我們證明 OST 提高了現有生存樹方法的準確性,特別是在大型數據集中。本章的主要貢獻是:
? 我們提出了一種生存樹算法,該算法利用 Optimal Trees 框架為審查數據生成可解釋的樹。
? 我們提出了一種新的準確度指標,用于評估 Kaplan-Meier 曲線估計相對于模擬數據集中已知生存分布的擬合度。
? 我們評估了我們的方法在模擬和真實世界數據集中的性能,并展示了相對于兩種現有算法的改進準確性。
? 我們提供了該算法如何用于預測不良事件風險并在現實世界數據集中產生臨床見解的示例。
本章中的工作已提交出版[28]。
圖 4.1:在 60 個真實世界數據集中平均分類方法的性能。 OCT 和 OCT-H 分別指的是沒有和有超平面分割的最優分類樹。
圖 4.6:生存樹算法的樹恢復指標摘要。
在本章中,我們的目標是為 CAD 患者找到最佳的主要治療方法,以最大限度地提高 TAE(心肌梗塞或中風)。我們提出了一種數據驅動的方法,利用多種回歸算法為每位患者分配具有最佳預測結果的方案。我們開發預測性和規范性模型,提供個性化的治療建議和評估它們的定量框架。本章的主要貢獻是:
? 我們提出了一種治療右刪失患者的新方法,該方法利用 ??-NN 方法來估計真實世界數據的真實生存時間。
? 我們開發了可解釋且準確的二元分類和回歸模型,用于預測 CAD 患者潛在不良事件的風險和時間。
? 我們提出了第一個利用 EHR 為 CAD 提供治療建議的規范性方法,將多個最先進的回歸模型與臨床專業知識相結合。
? 我們引入了一種新的評估框架來衡量規范算法的樣本外性能。
? 我們創建了一個在線應用程序,醫生可以在其中實時測試算法的性能,從而縮小與臨床實踐的差距。
本章中的工作成果發表于“醫療管理科學”期刊 [42]。
圖 5.3:OCT 模型第一部分的可視化。路徑 1 和 2 用藍色虛線矩形框表示。陰影節點包括樹模型的折疊子集。
絕大多數中風發生在沒有梗塞病史的人群中,這突出了健康個體需要準確的中風風險評估工具。標準中風風險評分基于風險因素與疾病患病率之間存在線性關系的假設。然而,數學和醫學現實表明,這些因素的相互作用遠非線性,并且由于其他變量的缺失或存在,某些變量會獲得或失去意義。本章介紹 N-SRS;一種預測 10 年中風風險的新模型。利用 ML 算法,我們的風險計算器提高了事件預測的準確性,并以可解釋的方式揭示了患者特征之間的新關系。本章的主要貢獻如下:
? 我們提出了一種利用縱向研究數據用于監督學習模型的新方法,允許在訓練和測試隊列中出現同一患者的多個實例。
? 我們使用來自著名的弗雷明漢心臟研究的數據開發并驗證了第一個非線性、可解釋的預測評分,用于 10 年中風風險。
? 我們展示了 N-SRS 樹結構如何導致識別 23 個中風風險概況,突出新變量在疾病進展中的作用,例如心電圖結果中顯示的血細胞比容水平或異常。
? 我們構建了一個動態在線應用程序,作為算法的用戶友好界面,供臨床提供者使用。
本章中的工作發表于 PLOS one [257]。
圖 6.1:基于 N-SRS 樹的模型的可視化。
快速、準確的數據提取可以顯著改善在大型數據集中識別中風、分類關鍵臨床報告和質量改進工作。然而,廣泛使用的 ICD-9/10 代碼經常錯誤地對缺血性卒中事件進行分類,并且不區分嚴重程度或位置。在本章中,我們的目標是開發一種工具,能夠以準確和自動化的方式從非結構化文本中提取臨床卒中信息。我們開發并報告了一個綜合框架,該框架研究了簡單和復雜的中風特異性自然語言處理 (NLP) 和監督學習技術的性能,以從射線照相文本中確定缺血性中風的存在、位置和嚴重度。我們將我們的貢獻總結如下:
? 我們收集了來自兩個大型學術醫療中心的 17,864 名患者的 60,564 份放射學報告。神經病學專家標記了 1,359 份報告,以確定中風的存在、位置和敏銳度。
? 我們應用標準文本特征化技術并開發神經血管特定詞 GloVe 嵌入。
? 我們訓練和驗證各種二進制分類算法,以從放射學報告中識別感興趣的結果。
? 我們證明了與深度學習配對的 GloVe 詞嵌入在推導和驗證隊列中的三項任務的所有方法中具有最佳的識別性能。
本章的工作成果發表于 PLOS one [256] 中。
圖 7.1:NLP 分類的接收器操作曲線。 A、中風存在; B、MCA位置; C、嚴重度。我們展示了數據的五次隨機拆分的平均靈敏度和特異性。
ML 建模者和決策者免受算法錯誤的訴訟風險。在本章中,我們針對二元分類模型提出了一類新的訴訟索賠保險產品以及評估它們的定量工具。這項工作提供了一個全面的分析過程來評估此類模型的財務風險,為算法保險的新領域奠定了基礎。本章的主要貢獻是:
? 我們提出了一個定量框架,該框架根據模型的辨別性能、可解釋性和可概括性來估計模型的風險敞口。
? 我們采用優化公式來同時估計給定分類模型的保費和訴訟風險。我們使用穩健的優化和圍繞潛在損失場景的不同類型的不確定性來擴展公式。
? 我們為醫療責任提供了乳腺癌檢測的案例研究,并研究了模型參數在計算實驗中的影響。本
章的工作已提交出版 [30]。
圖 8.1:對于 ??、?? 分布的兩種不同組合,CVaR 作為 ?? 參數的函數。
深度學習(Deep Learning,DL)是機器學習(Machine Learning,ML)領域中的一個研 究方向,作用是幫助機器學習項目更接近于人工智能(Artificial Intelligence)。深度學習主要是學習樣本數據的內在規律和表示層次,學習過程中獲得的信息對諸如文 字、圖像和聲音等數據的解釋很有幫助。深度學習的最終目標是讓機器能夠像人一樣具備分 析能力,可以自動識別文字、圖像和聲音等數據。深度學習是一個復雜的機器學習算法,目前在搜索技術、數據挖掘、機器學習、機器翻 譯、自然語言處理、多媒體學習、語音、推薦和個性化技術,以及其他相關領域都取得了令 人矚目的成果。深度學習解決了很多復雜的模式識別難題,使得人工智能相關技術取得了很 大進步。
數據科學是設計從大量數據中提取知識的算法和管道。時間序列分析是數據科學的一個領域,它感興趣的是分析按時間順序排列的數值序列。時間序列特別有趣,因為它讓我們能夠可視化和理解一個過程在一段時間內的演變。他們的分析可以揭示數據之間的趨勢、關系和相似性。存在大量以時間序列形式包含數據的領域:醫療保健(心電圖、血糖等)、活動識別、遙感、金融(股票市場價格)、工業(傳感器)等。
在數據挖掘中,分類是一項受監督的任務,它涉及從組織到類中的帶標簽的數據中學習模型,以便預測新實例的正確標簽。時間序列分類包括構造用于自動標注時間序列數據的算法。例如,使用健康患者或心臟病患者的一組標記的心電圖,目標是訓練一個模型,能夠預測新的心電圖是否包含病理。時間序列數據的時序方面需要算法的發展,這些算法能夠利用這種時間特性,從而使傳統表格數據現有的現成機器學習模型在解決底層任務時處于次優狀態。
在這種背景下,近年來,深度學習已經成為解決監督分類任務的最有效方法之一,特別是在計算機視覺領域。本論文的主要目的是研究和發展專門為分類時間序列數據而構建的深度神經網絡。因此,我們進行了第一次大規模的實驗研究,這使我們能夠比較現有的深度學習方法,并將它們與其他基于非深度學習的先進方法進行比較。隨后,我們在這一領域做出了大量的貢獻,特別是在遷移學習、數據增強、集成和對抗性攻擊的背景下。最后,我們還提出了一種新的架構,基于著名的Inception 網絡(谷歌),它是目前最有效的架構之一。
我們在包含超過100個數據集的基準測試上進行的實驗使我們能夠驗證我們的貢獻的性能。最后,我們還展示了深度學習方法在外科數據科學領域的相關性,我們提出了一種可解釋的方法,以便從運動學多變量時間序列數據評估外科技能。
深度學習序列分類概述
在過去的二十年中,TSC被認為是數據挖掘中最具挑戰性的問題之一(Yang and Wu, 2006; Esling and Agon, 2012)。隨著時間數據可用性的增加(Silva et al.,2018),自2015年以來已有數百種TSC算法被提出(Bagnall et al.,2017)。由于時間序列數據具有自然的時間順序,幾乎在每一個需要某種人類認知過程的任務中都存在時間序列數據(Langkvist, Karlsson, and Loutfi, 2014)。事實上,任何使用考慮到排序概念的已注冊數據的分類問題都可以被視為TSC問題(Cristian Borges Gamboa, 2017)。時間序列在許多實際應用中都遇到過,包括醫療保健(Gogolou等,2018)和人類活動識別(Wang et al.,2018;到聲學場景分類(Nwe, Dat, and Ma, 2017)和網絡安全(Susto, Cenedese, and Terzi, 2018)。此外,UCR/UEA檔案中數據集類型的多樣性(Dau等,2019;Bagnall et al,2017)(最大的時間序列數據集儲存庫)展示了TSC問題的不同應用。