醫院信息系統中電子病歷(EHR)的廣泛采用推動了定義大型數據庫,這些數據庫將各種類型的數據分組,如文本臨床記錄、縱向醫療事件和表格式的病人信息。然而,這些數據記錄只在醫療咨詢或住院期間填寫,這取決于病人的健康、狀態和當地的習慣。一個能夠利用在不同時間尺度上收集的不同類型的數據系統,對于重建病人的健康軌跡、分析他的歷史,并因此提供更好的臨床護理至關重要。這篇論文的工作解決了醫療數據處理的兩個主要挑戰:a)學習表示連續就診之間不規則時間的醫療觀察序列;b)優化從臨床記錄中提取醫療事件。我們的主要目標是設計一個病人健康軌跡的多模態表示,以解決臨床預測問題。我們的第一項工作是建立一個不規則醫療時間序列建模的通用框架,以評估在表示病人的健康軌跡時考慮醫療事件之間的時間間隔的重要性。為此,我們對順序神經網絡和不規則時間表示技術進行了比較研究。臨床目標是利用法國數據庫CaR′eDIAB(Champagne Ardenne R′eseau Diabetes)中1型糖尿病患者的HbA1c測量歷史來預測視網膜病變并發癥。研究結果顯示,基于注意力的模型與時間間隙的軟一熱表示相結合,導致AUROC得分88.65%(特異性85.56%,敏感性83.33%),與基于LSTM的模型相比,提高了4.3%。在這些結果的激勵下,我們將我們的框架擴展到較短的多變量時間序列,并預測了公開的MIMIC-III數據集中危重病人的院內死亡率。所提出的架構,即分層時間感知轉化器(HiTT),將AUROC得分比普通轉化器的基線提高了5%。在第二步,我們對從臨床記錄中提取相關的醫療信息以豐富病人的健康軌跡感興趣。特別是,基于Transformer的架構在醫療信息提取任務中顯示出令人鼓舞的結果。然而,這些大型模型往往需要一個大型的注釋語料庫。這一要求在醫學領域很難實現,因為它需要獲得私人的病人數據和高度的專家注釋者。為了降低注釋成本,我們探索了主動學習策略,這些策略在許多任務中都被證明是有效的,包括文本分類、信息提取和語音識別。除了現有的方法,我們定義了一個混合加權不確定采樣(HWUS)的主動學習策略,該策略利用了基于轉化器的方法學到的上下文嵌入來衡量樣本的代表性。一個使用公開的i2b22010挑戰數據集的模擬研究表明,我們提出的指標將注釋成本降低了70%,以達到與被動監督學習相同的性能分數。最后,我們將多變量醫療時間序列和從MIMIC-III數據庫的臨床筆記中提取的醫療概念結合起來,訓練一個基于多模態的變壓器架構。院內死亡率任務的測試結果顯示,在考慮額外的文本信息時,改進了5.3%。這篇論文通過減輕偶發醫療記錄的負擔和對自由文本筆記的人工注釋,對病人的健康軌跡表示做出了貢獻。簡而言之,本研究有三個實際貢獻:(1)支持電子健康系統,如報告、推理和有效決策,以利于整個病人管理。(2) 通過促進最先進的深度學習時間模型的發展和從臨床自由文本資源中收集豐富的注釋語料,使醫學信息學的研究受益。(3) 旨在通過開發一個有效的基于多模態的Transformer架構,以實現準確的健康軌跡表示,以及一個創新的獨立于領域的AL查詢策略,推進醫學領域的機器學習研究。
近年來,由于電子醫療記錄(EHR)在醫院信息系統中的廣泛采用,醫療數據的可用性得到了提高。這些記錄儲存了病人在醫院就診或住院期間與醫療機構之間的所有交易信息。EHRs結合了三種類型的功能。第一類是結構化數據(如病人的年齡、入院日期、住院時間、測量值和離散的醫療代碼),第二類是半非結構化數據,由儲存特定信息的簡短自由文本欄組成(如醫生意見。第三類是非結構化數據,是指由醫生寫的敘述性臨床筆記,報告病人的狀態和他住院或就診期間發生的醫療事件(包括家族史、診斷、疾病、手術和藥物)。電子記錄的第一個作用是在更短的時間內提供有關病人的最新信息,并通過促進醫療工作者之間的信息交流,協助醫療工作者提供更高質量的護理。此外,這些集中式系統通常長期部署在一個或一組醫療中心,從而形成一個具有數年病史的廣泛的病人記錄數據庫。這些數據集是大規模統計分析的豐富信息來源,代表了彌合醫學分析和機器學習技術之間差距的機會,而機器學習技術往往需要大量的觀察數據來訓練并達到最佳性能。因此,一些研究發現,這些數據的次要用途是進行預測性分析,以更好地了解疾病的演變,并建立健康監測系統,幫助醫生為病人提供更好的護理[1]。特別是,深度學習方法已經成為在自然語言處理(NLP)[2, 3, 4]、圖像分析[5, 6]和時間序列建模[7, 8, 9]等不同領域開展預測任務的相關選擇。此外,大型私人數據倉庫的建設[10, 11, 12]和MIMIC III或i2b2等開源醫學數據庫的發布[13, 14],使研究人員能夠采用和調整這些方法來解決臨床預測問題,如風險預測[15, 16, 17]、干預建議[11, 18]、疾病進展[19, 20]或病人分型[10, 21]。這些方法大多集中在對一種類型的輸入數據進行建模,可以是表格、文本、縱向或圖像,而其他方法[22, 23, 24]則結合了幾種類型,并表明全面的病人表述有助于獲得更高的分數。
醫學預測任務的有效建模必須考慮處理現實世界臨床數據庫中包含的高度可變的觀察數據的挑戰。我們將這些挑戰總結為六類:保護病人隱私、小而不完整的數據集、經濟有效的注釋過程、非標準化的數據結構、不規則的健康軌跡和多模式數據。事實上,電子病歷包含了關于病人及其病情的高度敏感的個人信息。利用這些數據進行研究需要一個去識別的步驟,以保護病人的敏感屬性,同時分享與深度學習研究相關的信息數據。此外,對敏感數據的保護和不存在一個從多個醫療中心收集數據的集中系統,導致了每個醫院特有的小數據集的定義。這些小數據集限制了定義高性能和可推廣的基于深度學習的預測模型的研究能力[25]。深度學習方法的一個特殊要求是收集有注釋的數據,指導這種復雜模型的監督學習過程。當考慮到臨床數據時,這個過程是具有成本效益的,因為它需要有足夠的醫學知識的高級專家,導致訓練集更小。另一方面,醫院使用不同的標準來組織其信息系統中的醫療數據,并使用不同的生物醫學本體論[26, 27]來對疾病、程序和治療等概念進行分類。這些系統的差異對于設計可在不同醫療系統中部署的通用模型是一個額外的障礙。即使考慮到統一的數據源,時間的不規則性也是這種現實世界臨床數據的另一個常見現象。事實上,醫療觀察的記錄是偶發的,取決于病人對醫院的訪問,產生的護理歷史因人而異,取決于每個病人的健康狀態和當地的習慣。因此,產生的數據包括不規則的健康軌跡,其長度不一,連續觀察之間的時間也不同。最后,健康軌跡中的每一個時間點都代表著一個護理事件,其中有各種類型的數據(如文本報告、治療處方、實驗室測試單、實驗室結果,以及醫療參數、診斷和行政代碼的記錄),這些數據是由幾個護理提供者在病人管理期間產生的。在一個通用模型中利用所有這些不同的類型是具有挑戰性的,因為它需要設計一個多模式系統,能夠從每個條目中學習重要的信息,并避免數據冗余。
在對單一或多種類型的數據進行建模時,無論是圖像、文本還是縱向數據,都有一些研究工作發表,以解決醫療數據的挑戰。為了保護病人的個人信息,Andrew等人[28]分析了應用于結構化EHRs數據的多種隱私保護技術(如同態加密和差分隱私),用于計算深度學習的預測分數。此外,保護臨床筆記文本中的敏感信息也是一個活躍的研究領域,yang等人[29]設計了一個系統的回顧,總結了為自動去識別而提出的深度學習方法。為了解決小數據集的限制,一些工作提出了基于轉移學習的技術[30, 31, 32],以利用預先訓練的模型所學到的知識,并將其擴展到新的數據集。另一個常見的解決方案是多任務學習[31, 33, 34],通過利用相關任務的訓練信號中包含的特定領域的信息來提高泛化能力。
對EHRs數據中包含的信息進行重新排序,對于評估病人的護理路徑和了解疾病的演變至關重要。數據的異質性和不規則的健康軌跡是定義病人時間線的準確時間表述的兩個主要挑戰。大多數現有的工作依賴于行政代碼形式的縱向數據,以及在每個護理事件中產生的數值[10, 35, 36, 33]。因此,他們將時間線定義為一個多變量的時間序列。同時,其他工作[22, 11, 23]考慮了每次入院時產生的臨床記錄,以豐富病人的護理路徑。第一組[23, 22]學習了整個筆記的嵌入表示,并將得到的向量作為額外的特征添加到時間序列中,以利用文本信息。另一方面,第二組[11]定義了一個混合模型,其中第一階段是一個提取醫療概念的NLP模型。然后,這些概念被添加到時間序列中,用于第二階段的學習,代表病人的健康軌跡。最近NLP領域的進步導致了強大的架構的定義,使其能夠學習單詞的上下文嵌入,并在下游任務(如概念提取)中獲得高性能的分數。特別是,ClinicalBERT[37]和BioBERT[38]已經改編了著名的NLP模型BERT[39],它是基于Transformer架構[40]。首先,他們在大型醫療文本語料庫上對模型進行了預訓練,以獲得單詞的上下文表示,然后在各種有監督的下游任務上對這個預訓練的架構進行了微調。特別是,這些模型在醫學概念提取任務中表現出更好的性能分數(范圍在78%到94%之間)。
然而,定義這樣的高性能模型依賴于廣泛的注釋過的臨床筆記的可用性,以及隨之而來的每個感興趣的類別的例子的數量。在過去的十年中,建立這種注釋語料庫的研究工作[41, 42, 43, 44]一直在增加,一些作品發表了注釋指南,使他們能夠產生高質量的標記數據。這個過程很耗時,而且成本很高,因為它經常需要醫學專家的手工注釋,而這些專家的可用性有限。主動學習[45]是一個很有前途的研究方向,它在圖像注釋中顯示了其有效性,并被擴展到一些應用中,如醫學文本注釋。其目的是通過選擇加速深度學習模型的學習迭代的例子來減少需要手動注釋的訓練數據量。它將醫學專家置于迭代過程的中心,允許他糾正模型的預測,然后考慮到他的反饋,重新訓練模型。主動學習策略的核心部分是定義一個指標,通常被稱為效用函數,它對模型的預測進行排序,并為下一次的再訓練迭代選擇信息量最大的例子。兩個突出的采樣策略是基于不確定性的,和基于密度的[46, 47, 48]。
重建的時間線是偶發的,連續觀察之間的時間間隔因病人而異,甚至在同一病人的健康軌跡中也是如此。目前大多數文獻[49, 50, 51, 52]是基于對具有固定時間間隔的縱向醫療事件的定期快照的統計分析,每月或每半年一次。這些模型需要有時間上等距的醫療事件。因此,對這些數據進行統計后分析時,需要采用歸因方法來填補缺失的數值。這些方法的性能在很大程度上取決于患者時間序列的完整性和推斷方法的準確性。與其用數據歸因方法來填補實際觀察值之間的空白,不規則性也是我們應該考慮的有價值的信息,以了解病人健康狀況的演變。按照這一思路,最近的研究[12, 53, 54, 50]利用在序列建模方面取得的進展,利用循環神經網絡(RNN)加上兩個連續事件點之間的時間間隙的表示,進行下游的醫療任務,如風險預測、程序推薦和病人表型。
本論文的主要目標是建立一個多模態深度學習架構,利用EHR數據中包含的各種類型的信息,學習表示病人的時間線。隨后的目標是通過考慮這種環境的挑戰,在現實世界的臨床應用中驗證這個架構。主要來說,從第1.1節提出的挑戰中,我們重點設計了一個框架來表示病人健康軌跡中的時間不規則性,并提出了一個主動學習策略來降低基于深度學習的醫療概念提取模型的注釋成本。
為了實現所提出的目標,這項工作涉及以下研究問題。
RQ1:如何對患者健康軌跡中觀察到的不規則時間進行建模?
RQ2:是否有可能設計一個不規則醫療時間序列建模的通用框架?
RQ3:如何表示臨床筆記中的信息以豐富患者的健康軌跡?
RQ4:什么是能夠降低基于Transformer的醫療信息提取方法的注釋成本的最佳主動學習策略?
RQ5:多模態架構如何影響臨床預測任務的性能?
這些研究問題探討了使用神經網絡表示病人時間線的不同方法,并測量了它們對現實世界醫療數據的影響,考慮到事件的不規則記錄和醫療文本注釋的成本。
本論文工作的第一部分涉及臨床事件時間序列中不規則時間戳的建模。由此產生的主要貢獻是實現了一個不規則時間序列的端到端分類的通用框架。該框架處理數字和分類的醫療事件,并支持病人的元數據。此外,它收集了最先進的序列深度學習模型和時間表示技術。利用這個框架,我們對1型糖尿病患者的糖尿病視網膜病變預測進行了實證研究,基于12種基于時間神經的方法的比較研究。數據收集自法國數據庫CaR′eDIAB[52],包括1,207個1型糖尿病患者的HbA1c記錄的高變量單變量醫療時間序列。
在第二部分,我們表示了臨床記錄中包含的信息,并評估了它們在預測模型中的重要性。為此,我們對深度學習和傳統的機器學習方法進行了醫學文本分類的比較研究[15]。結果顯示,當應用基于DL的方法從病人的臨床筆記中預測健康獲得性感染(HAI)時,其有效性很高。然而,錯誤分析顯示,丟失的陽性病例是由于我們的模型中缺少時間管理。這些發現促使我們探索信息提取架構,從每個臨床筆記中選擇相關的醫療事件來豐富病人的時間線。這些技術通常需要大量的標記數據,這在處理醫療報告時是非常經濟的。因此,我們的第二項工作旨在定義一種深度主動學習策略,以減少用于醫療事件提取的臨床筆記的標注成本。具體來說,我們評估了基于轉化器的醫療事件提取模型的主動學習策略。
最后,第三項工作包括設計一個多模態架構,即Multi-HiTT:基于多模態的層次化時間感知轉化器。這個架構通過結合多變量事件時間序列、病人靜態信息和從臨床筆記中提取的醫學概念,利用病人醫療記錄中包含的所有信息,為臨床預測任務建立一個準確的病人代表。這項工作的主要貢獻是設計了一個結合結構化特征和自由文本醫學概念的分層時間性和多模式的病人代表。利用已實現的時間框架,我們通過研究重癥監護室收治的病人的院內死亡率預測,驗證了所提出的Multi-HiTT架構。我們特別考慮了由開源數據集MIMIC-III[13]提供的5120個不規則多變量時間序列。
本論文分為三個部分。第一部分提供了促使我們做出貢獻的相關工作,并分兩章組織。在第一章中,我們建立了一個關于代表不規則臨床時間序列的時間感知深度學習模型的調查。第二章詳細介紹了用于命名實體識別的基于神經的架構和主動學習策略。另一方面,第二部分揭露了我們的三個主要貢獻。第一章描述了已實現的時間框架,允許醫學研究團隊進行比較研究,并根據他們的數據集和預測任務選擇最佳的DL模型來對IMTS進行分類。第二章定義了一種新的主動學習策略--動態混合加權不確定性采樣(Dynamic-HWUS),旨在減少用于訓練基于Transformer的命名實體識別模型的臨床筆記的注釋成本。第三章介紹了Multi-HiTT架構,該架構旨在結合不同層次的時間性和輸入數據的類型,以建立一個準確的病人的代表。最后,第三部分包括三項驗證我們提出的方法并使用真實世界的臨床數據庫的研究,討論其結果,總結論文工作,并介紹對未來工作的建議。
我們注意到p∈P是醫學研究中考慮的病人集合。我們對病人p的多變量醫療時間序列定義如下:
多變量時間序列(Xp,t)1≤t≤N由狀態序列Xp,t組成,其中xp,t∈Rq是一個密集的嵌入向量,代表在離散時間步長t觀察到的不同類型的事件,q是向量空間維度,N是步長數,一般等于病人的就診次數。
離散時間步驟t的狀態向量可以表示為三個向量的組合。,其中np,t是文本筆記的表示向量,up,t表示數值向量,zp,t與醫療事件的編碼ID有關,dp對應于靜態的病人信息,如人口統計學。為了簡化符號,我們把時間戳t的病人向量稱為
。
多變量醫療時間序列表示學習的目的是定義一個密集的嵌入,包括時間動態和
的相關醫療信息。然后, 通過尋找
的最佳f?,在預測性監督任務上驗證該表示,yp∈Y是預測病人p的真實標簽。
本論文提出的問題是:"我們能否設計出既有效又高效的審計策略來防御現代信息系統中的數據濫用?"。
幾十年來,計算和存儲技術的不斷進步一直激勵著人類和我們日常生活的數字化。這種現象深刻地改變了信息交流、決策、以及人們思考和創新的方式。由于對提高信息交流效率和保證信息準確性和完整性的卓越能力的共同信念,許多現代信息系統已經出現,通過收集、存儲和處理人類產生的數據為人類社會提供關鍵服務。電子病歷(EHR)系統是這些重大創新之一(見圖1.1a的例子),它能帶來許多好處,包括臨床人員和病人之間的有效溝通[1, 2],通過隨時訪問提高護理效率[3],以及減少醫療錯誤[4, 5]。金融管理信息系統(見圖1.1b為例)是另一個顯著的模式,它能實現可靠的交易服務、高效的財富管理和持續的服務提供[6]。這些系統不僅加快了人類活動的步伐,而且還重塑了日常生活的性質。
(a) Epic EHR系統的一個示例界面,顯示一個假的病人。
(b) Mifos銀行系統的一個示例界面,顯示一個假的客戶。
圖1.1: 激發本論文研究的具體領域,也是直接影響本論文研究的具體領域。
同時,不幸的是,由于這些關鍵任務的信息系統在促進人類社會方面發揮的重要作用,以及它們所擁有的數據的巨大價值,攻擊從未缺席[7, 8, 9]。雖然攻擊會導致一系列的后果,從中斷信息系統的持續運行到破壞數據的完整性,但它們的最終目標往往匯聚到對個人隱私的侵犯。2015年,美國最大的醫療保險供應商之一Anthem的醫療數據泄露事件創造了美國歷史上數據泄露的新紀錄[10],通過對其數據服務器的犯罪黑客攻擊,影響了超過7880萬人。2017年,在針對頂級信用報告機構Equifax的攻擊中,約1.45億美國人的個人身份數據被泄露[11]。盡管大量守護安全和隱私的人工和自動篩查策略(或組合)被不斷開發和部署,但針對信息系統及其所持有的敏感數據的成功攻擊不斷登上頭條。因此,人們普遍認識到,沒有一個系統是不受攻擊的,也沒有一個系統是不受損害的,尤其是面對那些不斷適應、不斷發展、不斷改進其方式以破壞保護措施和掩蓋其真實目的的攻擊。
一個廣泛使用的防御信息系統中數據濫用的解決方案是創建并分析系統審計日志[12, 13, 14, 15]。這個簡單的想法已經被實踐了很久,并被用來支持信息系統管理的多個目標[16, 17, 18, 19],包括在系統安全和數據隱私方面的合規性和問責制[20, 21, 22, 23]。審計日志的結構可以是異質的,但是它們通常按照 "誰在什么時間點進行了什么活動,導致了什么系統狀態 "的思路來記錄系統的事件細節[20, 21, 24]。這種機制很有價值,因為它使管理員能夠對可疑事件進行回顧性調查,這樣,在被審計時,真正的攻擊可以在造成更大損失之前被識別和阻止。更進一步的是,為了審計方便,可疑事件通常根據其特征被映射到預定義的語義類型中,每個類型都對應著不同的惡意情況[25, 26]。這些語義類型可以有多種形式,并擅長于篩選不同的威脅。例如,基于規則的機制可以很容易地挑出存儲在系統中的非常重要的人(VIP)的記錄的訪問活動,而機器學習檢測模型可以準確地找出顯示出異常系統訪問模式的惡意賬戶。然后,檢測到的可疑事件及其相應的類型會作為警報提交給系統管理員(或審計師)進行審計,這為提前制定有效的審計策略增加了復雜性。
然而,由于審計師在現實世界領域中可能面臨的幾個明顯的挑戰,審計在實踐中是非同小可的。首先,通常的情況是,審計工作量大大超出了審計的可用資源(例如,安全管理員或隱私官員的時間)[27, 28, 29]。第二,由于缺乏精確定義惡意行為的能力,導致假陽性率很高,使得審計效率低下[30, 31, 32]。第三,人類攻擊者通常根據他們的知識和對系統運行的觀察采取戰略性的行動,以減少被審計師發現的概率,這使得固定的審計模式變得脆弱[33, 34, 35]。例如,攻擊者可以通過操縱他們的攻擊行為,輕易地繞過基于警報類型重要性的審計策略或訓練有素的機器學習異常點檢測工具。第四,與需要保護的目標固定為防御者和攻擊者的先驗知識的情況相比(如機場航站樓巡邏),數據濫用審計中需要調查的對象(即警報)在一個審計周期(如一天)開始之前是未知的。
從本質上講,數據濫用審計是一項尋求將有限的調查資源分配給對抗性環境中的大量警報的任務。不幸的是,幾乎所有以前的作品在推導其策略時都未能基于審計的這一基本特征進行開發。然而,本論文將審計師和攻擊者之間的互動建模為領導者-追隨者博弈,即審計師(防御者)首先承諾采取隨機審計策略,然后攻擊者根據其觀察結果以某種目標或類型的攻擊作為回應,同時試圖將被發現的可能性降到最低。事實上,這種建模架構下的審計方案通過戰略隨機化將不確定性納入空間,并沿著現實的激勵機制擴大參與者的利益最大化,與其他方案相比,表現出固有的優勢。沿著這個建模方向,在本論文中,我們探討了各種智能審計機制設計可以實現的潛力,以提高防御的效率,甚至對數據泄露的威懾。
圖1.2總結了本論文的高層次目標和相關的具體博弈建模策略。基本上,本論文從兩個不同的角度考慮設計審計機制:離線優先和在線信號(或在線警告)。在這里,我們用離線和在線這兩個詞來表示在實時數據訪問過程中,審計人員和數據用戶之間是否通過任何審計機制進行互動。特別是,我們通過回答審計師和攻擊者之間的對抗性環境的兩個問題來展開調查。1)是否有可能以一種智能的方式對警報進行優先排序,從而使審計師能夠從這種隨機的順序中獲得最大的利益,以及2)審計機制能否以一種實時的方式運作,從而使正在發起攻擊的攻擊者在成功之前被阻止。第一個觀點源于這樣的觀察:在實踐中,系統管理員或隱私官員傾向于關注極少數符合他們最大利益的警報類型的調查(或者等同于,在他們的重要性排名中最重要的警報類型)。因此,由于預算的限制,其余的很少被觸及,這為攻擊者提供了免費的午餐。除了完全脫機進行審計外,第二個觀點是探索將參與者之間的信息交流實時化(例如,當用戶請求敏感數據時),以影響攻擊者的策略選擇,甚至阻止攻擊者。雖然我們的貢獻可以應用于一般的信息服務,但在這篇論文中,我們依靠一個有代表性的用例--EHR的濫用審計來使我們的調查有一個背景,即醫療機構(HCO)的雇員(或EHR用戶)可以通過非法訪問濫用病人的數據并侵犯病人的隱私。
更具體地說,為了回答第一個問題(對應于圖1.2中的目標1),我們通過同時考慮兩個維度,建立了一個新穎的博弈論審計框架原型。1)如何確定被觸發的警報的優先順序;2)為每個警報類型分配多少預算(例如,人力資本或貨幣預算)的上限是什么。在這個博弈中,審計師就警報類型的順序和確定的預算分配策略選擇一個隨機的審計政策,而潛在的攻擊者選擇他們的記錄(如EHR)來實施攻擊作為他們的回應。我們表明,即使是該問題的高度限制版本也是NP-Hard。盡管如此,我們提出了一系列解決這些問題的算法方法,這些方法利用線性編程和列生成的組合,計算出一個近乎最優的隨機策略,以確定警報類別的優先次序。使用一個合成的數據集,在這個數據集上得出精確的解決方案是可行的,我們首先證明了我們的方法在接近最優解決方案方面的有效性,并在效率上有了極大的提高。然后,我們用1)范德比爾特大學醫療中心(VUMC)超過1.5個月的審計日志來測試整個框架的有效性,這是美國一個主要的學術醫療中心,我們分配了一個可信的回報結構,明確表示攻擊者被抓或不被抓時玩家的收益和損失;2)一個公開的信用卡應用數據集。一組廣泛的實驗結果表明,我們的方法總是優于最先進的審計策略(忽略了博弈論),無論組織的預算如何。這項調查提供了強有力的證據,證明博弈論輔助的審計可以通過在對抗性環境中優化策略選擇而有利于審計師。這已經作為同行評議的會議論文[36]和期刊論文[37]發表。
圖1.2:本論文的三個主要部分的圖形總結。
第二個研究問題旨在將對抗性建模的好處擴展到實時。具體來說,我們開發了一個概念--在線信號,并將其納入審計博弈。在高層次上,在線信號的功能如下:每當一個可疑的事件開始時(例如,請求訪問病人的記錄,系統配置文件等),系統可以實時警告提出請求的用戶(例如,通過一個有一定概率優化的彈出窗口)"這個事件可能被審計"。然后,用戶可以選擇停止(如果他們是內部人員,從而被阻止)或繼續進行當前的行動。然后,在一段時間后,這些收到信號的事件的一個子集被審計。因此,通過信號傳遞實現威懾力的最大化將我們引向一個在線優化問題,我們必須確定:1)是否應該發出警告;2)該事件被審計的可能性。
作為本論文的第二個研究目標(如圖1.2所示),我們將這個審計問題原型化和形式化為信號審計博弈(SAG),作為初始步驟,我們對審計者和攻擊者之間的互動,以及被部署時的可用性成本(即阻止正常系統用戶的現象)進行建模。我們將審計師的最優方案稱為在線斯塔克伯格信號政策(OSSP),并在理論上證明,OSSP永遠不會比在沒有信號的博弈中取得的最優方案差。我們用來自VUMC的1000萬份EHR訪問事件--包含26000多份警報--進行了一系列實驗,以說明SAG的潛力和其與現有方法相比的優勢的一致性。這已作為同行評議的會議論文發表[38]。
雖然基于信號的在線審計利用了審計師的信息優勢,有可能勝過非信號策略,但由于幾個關鍵的缺陷,SAG在實踐中表現不佳。首先,SAG假設所有攻擊者都有相同的目標,因此他們對攻擊目標的偏好是相同的。他們的偏好由攻擊被抓住或沒有被抓住時雙方的獎勵和懲罰來表示。然而,在現實中,攻擊者破壞系統或敏感數據的動機有很大不同。例如,一個HCO的員工出于好奇偷看了一個VIP的EHR,可能比一個在黑市上出售相同記錄(然后實施身份盜竊)的員工更不需要擔心。第二,按照安全博弈建模的標準假設,SAG假設攻擊者總是以無誤的效用最大化的理性行事。然而,這是一個不合理的強勢假設,因為現實世界的攻擊者可能沒有時間、精力或知識來進行準確的效用計算來選擇策略。而且經驗表明,面對現實世界的攻擊者,博弈建模中的這種假設會給審計師帶來過大的損失[39],因為審計師可以對那些他們認為攻擊者不可能攻擊的目標保護不足。
本論文的第三個目的(如圖1.2所示)是通過解決它們的上述缺陷使在線信令審計機制變得穩健。我們引入了一個新的審計框架,我們稱之為魯棒貝葉斯SAG。首先,我們通過對SAG進行貝葉斯式的擴展,在審計環境中對多個攻擊者類型進行建模,其中審計者在選擇其審計策略時考慮了參與者的回報和偏好的不確定性。然后,由此產生的問題可以通過一個緊湊的表述來解決。第二,為了模擬現實世界中攻擊者的不完全理性,我們探索了穩健優化中的兩種不同類型的方法。1)約束攻擊者的策略選擇與他們的最優策略的最壞情況下的偏差,以及2)約束攻擊者的偏差對審計師損失的影響。我們將每種類型的約束納入實時解決穩健貝葉斯SAG的算法中,并為每種約束建立了相應的解決概念。我們研究了這些解決方案的理論屬性以及它們之間的關系。令人驚訝的是,這兩種算法,雖然視角完全不同,但在某些情況下可以導致等價,并表現出魯棒性的一致性。為了評估穩健貝葉斯SAG的性能,我們構建了兩個環境。1)與VUMC超過1000萬次真實EHR訪問的審計日志相關的真實環境(與目標2中的評估數據集相同);2)從真實數據中得到的模擬控制環境,這使我們能夠模擬攻擊者關于其理性程度的行為。我們特別評估了我們的解決方案和最先進的審計方法在不同條件下的預期效用,以證明新的審計解決方案的價值和其可擴展性。這已經提交給一個會議進行審查。
本論文的其余部分組織如下。第二章調查了相關工作。之后,我們通過將相應的問題形式化為特定的博弈論模型,推導出它們的解決方案,然后使用真實和模擬的數據集進行評估,對上述每個目標進行擴展。具體來說,在第三章中,我們將預警優先級的博弈形式化,并推導出其解決算法,以改善離線數據濫用審計。在第四章中,我們介紹了在線信號的概念,以及由此產生的模型-SAG,然后是解決方案的理論屬性和性能評估。第五章提出了考慮到多種攻擊者類型和他們在選擇策略時的不完全理性的SAG的強大框架。在第六章中,我們總結了我們的貢獻并討論了未來的工作,從而結束了論文。
在許多現實世界的應用中,多主體決策是一個普遍存在的問題,如自動駕駛、多人視頻游戲和機器人團隊運動。多智能體學習的主要挑戰包括其他智能體行為的不確定性,以及由聯合觀察、行動和策略空間的高維性導致的維數災難。由于未知的智能體意圖和意外的、可能的對抗性行為,這些挑戰在對抗性場景中進一步加劇。本文提出了魯棒和可擴展的多智能體學習方法,目標是高效地構建可以在對抗性場景中魯棒運行的自主智能體。通過觀察智能體的行為準確推斷其意圖的能力是魯棒決策的關鍵。在這種情況下,一個挑戰是對手實際行為的高度不確定性,包括潛在的欺騙,這可能與先驗行為模型有很大的不同。捕捉自我主體和對手之間的交互以及對雙方主體可用信息的推理,對于建模這種欺騙行為至關重要。本文采用博弈論對手建模方法解決了這一意圖識別問題,該方法基于一種新的多樣性驅動的信念空間集合訓練技術,用于實現對欺騙的魯棒性**。為了將集成方法擴展到具有多個智能體的場景,本文提出了一種可擴展的多智能體學習技術,該技術通過稀疏注意力機制促進了接近最優的聯合策略學習。該機制的結果是集中的參數更新,這大大提高了采樣效率**。此外,本文還提出了一種新的隱式集成訓練方法,該方法利用多任務學習和深度生成策略分布,以較低的計算和內存成本獲得更好的魯棒性。將魯棒的意圖識別和可擴展的多智能體學習結合起來,可以實現魯棒的、可擴展的離線策略學習。然而,完全自主的智能體還需要能夠不斷地從新的環境和對等智能體中學習(并適應)。因此,本文還提出了一種安全的適應方法,既能適應新的對手,又能在對抗場景中對任何可能的對手剝削保持低可利用性。本文的貢獻有助于構建自主代理,使其能夠在具有不確定性的競爭多智能體場景下做出魯棒的決策,并通過計算效率學習安全地適應以前未見的對等智能體。
由于醫療數據的多樣性和數據收集和注釋的費用高昂,數據不足和異質性是表示學習在醫學機器學習中的挑戰。為了從如此有限和異構的醫療數據中學習可泛化的表示,我們的目標是利用各種學習范式來克服這個問題。在本文中,我們系統地探索了有限數據、數據不平衡和異構數據的機器學習框架,使用跨領域學習、自我監督學習、對比學習、元學習、多任務學習和魯棒學習。我們提出了不同醫療應用的研究,如臨床語言翻譯、超聲圖像分類和分割、醫學圖像檢索、皮膚診斷分類、病理元數據預測和肺部病理預測。
//dspace.mit.edu/handle/1721.1/144745
我們首先關注有限的數據問題,這在醫學領域很常見。我們利用具有相同錨點的無監督嵌入空間對齊方法,在有限且不配對的醫學語料庫中學習臨床語言翻譯的跨領域表示,并使用統計語言建模進行句子翻譯。使用臨床正確性和可讀性的指標,開發的方法在單詞和句子級別的翻譯中優于基于詞典的算法。為了更好地學習有限數量的超聲圖像的數據表示,我們隨后采用了自我監督學習技術,并將相應的元數據作為多模態資源集成,以引入歸納偏差。我們發現,與標準遷移學習方法相比,通過開發的方法學習的表示可以獲得更好的下游任務性能,如超聲圖像質量分類和器官分割。
接下來,我們放大數據不平衡問題。本文探索了對比學習的用途,特別是孿生網絡,從不平衡的眼底成像數據集中學習表示,用于糖尿病視網膜病變圖像檢索。與標準的監督學習設置相比,我們使用從Siamese網絡學習的表示獲得了可比較但可解釋的結果。我們還利用極不平衡的長尾皮膚圖像數據集進行皮膚病分類的元學習。我們發現,使用元學習模型和使用常規類不平衡技術訓練的模型集成可以產生更好的預測性能,特別是對于罕見的皮膚病。
最后,針對異構醫療數據,我們開發了一個多模態多任務學習框架來學習病理元數據預測的共享表示。我們利用多模態融合技術集成幻燈片圖像、自由文本和結構化元數據,并采用多任務目標損失來引入學習時的歸納偏差。這比標準的單模態單任務訓練設置產生更好的預測能力。我們還應用魯棒訓練技術來學習可以解決兩個胸部x射線數據集分布轉移的表示。與標準訓練相比,我們發現當存在偏移時,魯棒訓練提供了更好的容忍度,并學習了肺病理預測的魯棒表示。本文的研究并不詳盡,但對在有限和異構的醫療數據設置下利用機器學習幫助臨床決策進行了廣泛的了解。我們還提供了見解和警告,以激發利用低資源和高維醫療數據的機器學習的未來研究方向,并希望對現實世界的臨床產生積極的影響。
時間序列數據在現實世界的應用中無處不在。這些數據產生了不同但密切相關的學習任務(例如,時間序列分類、回歸或預測)。與更傳統的橫斷面設置相比,這些任務往往沒有被完全正規化。因此,不同的任務可能被混同在同一個名稱下,算法經常被應用于錯誤的任務,而性能估計可能是不可靠的。在實踐中,像scikit-learn這樣的軟件框架已經成為數據科學的基本工具。然而,大多數現有的框架都集中在橫斷面數據上。據我們所知,對于時間性數據,還沒有類似的框架存在。此外,盡管這些框架很重要,但它們的設計原則卻從未被充分理解。相反,討論往往集中在使用和功能上,而幾乎完全忽略了設計。
為了解決這些問題,我們在本論文中開發了(i)學習任務的正式分類法,(ii)ML工具箱的新設計原則和(iii)一個新的統一的時間序列ML框架。該框架已經在一個名為sktime的開源Python包中實現。設計原則來自于現有的最先進的工具箱和經典的軟件設計實踐,使用了領域驅動的方法和一個新的科學類型系統。我們表明,這些原則不僅可以解釋現有框架的關鍵方面,還可以指導像sktime這樣的新框架的開發。最后,我們用sktime重現并擴展了M4比賽,這是一項主要的預測基準比較研究。復制比賽使我們能夠驗證已發布的結果并說明sktime的有效性。擴展比賽使我們能夠探索以前沒有研究過的ML模型的潛力。我們發現,在M4數據的一個子集上,用sktime實現的簡單ML模型可以與手工制作的M4贏家模型的最先進性能相媲美。
時間序列數據在科學、商業和工業應用中無處不在。一個時間序列由一個有索引的數值序列組成,通常是在一段時間內反復觀察所研究的一些現象。時間序列出現在許多應用中。例如,金融市場的價格變動、工業過程中的傳感器讀數(如化學反應器中的溫度或壓力)、病人的醫療記錄(如血壓和心率)以及顧客的購物記錄。
時間序列的一個內在特征是,通常情況下,觀察值在統計上依賴于以前的觀察值。直觀地說,在過去觀察到某些數值后,在未來觀察到某些數值的可能性更大。時間序列分析是一套涉及分析這種依賴性的技術。分析時間序列在現實世界的應用中是非常重要的。它使我們能夠更好地理解產生觀察數據的基本過程,并對其進行預測。最終,時間序列分析可以指導我們的決策,改善現實世界應用的結果。
機器學習為數據分析和預測提供了一套密切相關的技術。雖然機器學習傳統上側重于非時間性的截面數據,但近年來已經開發了許多技術來對時間序列數據進行預測。在整個論文中,我們將這些技術稱為 "機器學習",或簡稱為 "ML",當應用于時間序列時,稱為 "帶時間序列的ML"。
時間序列的ML是一個高度跨學科的領域。技術在不同的學科中使用和發展,通常是重疊的,包括計量經濟學、金融學、醫學、工程學和自然與社會科學等等。正因為如此,類似的問題和技術經常在不同的背景下出現。與更傳統的、橫斷面的ML設置相比,對于常見的時間序列問題,即我們所說的 "學習任務",似乎沒有既定的 "共識"定義。同時,在時間數據背景下,會出現各種密切相關但不同的任務。例如,預測,最常見的任務之一,一般來說,指的是根據過去的數據進行時間上的前瞻性預測的問題。但是,根據不同的背景,預測可能有不同的含義:它可能涉及一個或多個時間序列,序列可能是相關的或獨立的,而且我們想要預測的未來時間段可能有也可能沒有數據。這些對于現實世界的應用來說是微妙但重要的區別。雖然僅僅是預測就會產生模棱兩可的問題表述,但在時間數據背景下還會出現許多學習任務,包括時間序列分類、時間序列回歸和注釋等等。因此,不同的問題之間的關系并不總是那么明顯,或者一個問題的解決方案如何應用于另一個問題。了解這些問題可能采取的不同形式,對于理解我們如何使用ML技術來解決這些問題至關重要。在時間背景中出現的常見數據形式是什么?什么是常見學習問題的種類?它們是如何關聯的?以及我們如何以數學上的精確方式來定義這些問題?
本論文的第一個目標就是要解決這些問題。我們通過開發時間序列數據和關鍵學習任務的正式描述和分類法來實現這一目標。該分類法集中于預測性的時間序列任務,特別是(確定性的)點預測任務,包括預測以及時間序列分類和回歸,將非預測性任務(如時間序列聚類)和概率性任務(如分布性預測)留給未來的工作。請注意,在整個論文中,我們關注的是學習關聯而不是識別因果關系。
本論文的第二個目標是為多個時間序列學習任務設計一個統一的軟件框架。在實踐中,ML應用通常涉及一些步驟:從業者首先指定、訓練和選擇一個合適的模型,然后驗證和部署它。為了評估這樣的工作流程,從業人員編寫了軟件代碼,通常結合了現有軟件包的功能。這些軟件包被稱為 "工具箱",提供預制的代碼片斷,使編寫應用程序代碼的速度更快。從業人員不需要從頭開始構建每一個軟件,而是可以簡單地把預制的代碼片斷放在一起。另一方面,"框架 "是一種特殊的工具箱。框架不僅提供可重復使用的功能,而且還提供整體結構。它們在一個給定的應用領域中捕捉常見的軟件設計決策,并將其提煉成模板,從業者只需復制和填寫即可。這就減少了從業人員必須做出的決定數量,使他們能夠專注于應用程序的細節。這樣一來,從業人員不僅可以更快地編寫軟件,而且應用程序也會有一個類似的結構。它們將更一致,更可重復使用,更容易維護。
近年來,框架已經成為現代數據科學的重要基礎設施。它們在很大程度上決定了實踐中的可能性。它們已經成為從業者的主要工具和科學、商業和工業應用的核心組件。流行的例子包括Python中的scikit-learn[205],Java中的Weka[101],Julia中的MLJ[31],以及R中的mlr3[151]或caret[148]。橫斷面數據包括對多個獨立實例的觀察,這些觀察來自于一個時間點上的不同種類的測量(例如,不同病人入院時的醫療診斷)。橫斷面數據的基本假設,即觀測值代表獨立樣本,通常被時間序列數據所違反。這就是為什么橫斷面框架傾向于將時間序列視為范圍之外的原因(例如,見Buitinck等人[46])。請注意,雖然人們仍然可以將截面技術應用于時間序列,但這通常會給標準的數據科學工作流程帶來相當大的復雜性,并且需要格外小心以避免錯誤。盡管時間序列數據無處不在,但據我們所知,目前還沒有一個與截面技術相媲美的框架用于時間序列的ML。本論文的第二個目標是開發這樣一個框架。
正如我們所見,時間序列數據可以產生許多學習任務,包括預測、分類和注釋。這些任務描述了不同的學習問題,但它們也是密切相關的。這種關系可以用 "還原(Reduction)"來理解[24]。還原是一種技術,利用一個任務的算法來解決另一個任務。正如我們將看到的,還原是時間序列分析的核心。在時間序列領域,許多還原方法是可能的,許多現有的最先進的解決方案都使用了還原。
還原方法將一個時間序列任務重塑為一個相關的截面任務,這樣我們就可以使用任何一個更成熟的截面算法來解決原來的時間序列任務。例如,一個預測任務可以在數據的先驗滑動窗口轉換的幫助下通過截面回歸來解決[34]。同樣,一個時間序列的分類任務可以通過首先從每個時間序列中提取特征來重新構建成一個橫斷面分類任務[87]。
然而,盡管還原方法很重要,但并沒有一個統一的框架用于多種學習任務,這將使從業者能夠輕松地將一種任務的算法應用于另一種。與此相反,目前的時間序列分析的軟件生態系統是相對分散的。雖然有各種專門的工具箱為特定的模型系列或學習任務提供豐富的接口,但大多數工具箱都是相互不兼容的,并且缺乏與更多基礎性的橫斷面框架的整合。對于實踐者來說,這使得他們很難結合不同工具箱的功能,也很難充分利用還原關系。對于開發者來說,這使得他們很難建立和整合新的方法,而不必重新實現其他地方已有的大量功能。因此,總的來說,時間序列分析的工具箱能力仍然有限。為了解決這些問題,我們建議開發一個統一的框架,支持多種學習任務和它們之間的還原方法。
建議的框架已經在sktime中實現,這是一個免費的開源軟件包。sktime的目的是建立一個完善的框架,使目前的生態系統作為一個整體更加可用和可互操作。雖然我們的目標受眾有基本的編程能力,但我們的目標是在Python中提供一個實用和一致的ML框架,以便在一個非ML專家可以使用的編程環境中指定、訓練和驗證時間序列算法,并在各種科學應用中可重復使用。因此,重點是提供一個模塊化和原則性的面向對象的應用編程接口(API)。我們利用了專門為科學計算設計的增強型交互式Python解釋器[206],而不是花力氣創建一個命令行界面,更不用說圖形用戶界面(GUI)。我們專注于適合單機內存的中等規模的數據。對于更大的數據集,我們打算整合現有的工具,以便在多臺機器上進行更可擴展的分布式計算(例如Dask[219])。
當前版本的sktime專注于常見的預測性任務,如時間序列分類、回歸和預測。然而,該設計很容易擴展到其他任務。在未來的工作中,我們希望增加對非預測性任務的支持,如時間序列聚類和注釋。
從上述內容中,區分ML應用和研究中的兩個基本問題將是有幫助的。我們稱它們為 "從業者的問題 "和 "開發者的問題"。實踐者的問題是要解決手頭的特定ML問題。例如,預測一個化學過程的溫度或從病人的心率預測疾病的類型。為了解決這些問題,從業者編寫應用程序代碼。另一方面,開發者的問題是開發工具箱,幫助從業者更有效地解決他們各自的問題。現有的大部分ML研究都集中在算法開發和為特定的從業者的問題找到更好的解決方案。相比之下,本論文的大部分內容關注的是為開發者的問題找到更好的解決方案。
一個工具箱的有效性和適用性關鍵取決于它的設計。工具箱的設計--和任何軟件設計一樣--是很難的。我們必須確定從業者工作流程中的關鍵對象,在適當的粒度水平上為它們找到抽象,將它們轉化為具有明確接口的類和函數,明確它們之間的層次和關系,并在一個可重用的軟件包中實現它們。例如,ML背景下的關鍵對象是學習算法和數據容器。工具箱的設計就是為這些對象尋找抽象,這樣從業者就可以在不同的數據集上重復使用算法,而不需要改變很多代碼。
雖然開發者問題的重要性已經得到了認可(例如,見Sonnenburg等人[238]),但到目前為止,針對其挑戰的研究仍然很少。特別是,很少有論文研究工具箱設計的原則。相反,討論往往集中在交流設計的 "什么 "上(如軟件功能或使用方法),而幾乎完全忽略了 "為什么"。例如,工具箱的開發者在介紹他們的工作時,常常認同一套設計原則,然而這些原則通常仍然過于模糊,無法解釋具體的設計決策(例如,見Buitinck等人[46])。雖然實際的軟件往往包含了大量的設計思想,但我們并不知道有任何文獻描述了ML框架的可概括的設計原則。為了解決這些問題,本論文的第三個目標是得出ML工具箱的關鍵軟件設計原則。
我們認為,分析 "為什么 "對于將成功的設計從一個領域推廣到新的領域(例如,從截面數據領域到時間序列)至關重要。正如我們將看到的,我們的原則不能僅僅解釋現有工具箱的關鍵方面,還可以指導新框架的發展--包括sktime,我們提出的用于時間序列的ML框架。最終,我們希望我們的研究能夠啟發其他關于ML工具箱的基本設計原則的研究。
我們的軟件設計方法主要屬于 "領域驅動的設計"[78]。領域驅動設計的中心思想是,軟件的結構和語言應該與感興趣的領域中的關鍵概念緊密對應。每個軟件都與它的目標用戶的某些活動或興趣有關。用戶應用軟件的那個主題領域就是領域。因此,工具箱設計的第一步是為我們感興趣的領域開發一個概念模型,即ML理論或方法論,特別是針對時間序列的ML。
第二步是將概念模型映射到軟件上。經典軟件設計的語料庫提供了一個相關的想法、有用的形式主義和將概念轉化為軟件的最佳實踐的自然來源。雖然很多東西可以直接從現有的軟件設計實踐中轉移過來,但是ML有一個實質性的方面與經典領域不同:算法、界面和工作流與數學和統計理論密切相關--在某種程度上,數學對象不僅是方法論的核心,也是其表示、工作流規范和用戶互動的關鍵元素。我們認為,工具箱設計的進步需要ML理論的進步,包括概念分析和數學形式主義方面。然而,在關于軟件設計的科學討論中,ML理論在很大程度上仍然缺席。這種情況帶來了獨特的挑戰。如何識別、描述和激勵ML工具箱的設計方案?我們如何能在ML領域找到精辟的抽象?我們如何將這些抽象概念形式化,使之與基礎數學概念相聯系,同時又能在軟件中實現?從現有的工具箱中可以得出哪些可概括的設計原則來指導新工具箱的設計?雖然這些問題更普遍地涉及ML工具箱的設計,但也有一些針對時間序列領域的問題需要回答。在有時間序列的ML領域,有哪些不同類型的算法?這些算法的界面應該是什么樣子的?不同的算法是如何相互作用和相互聯系的?
我們試圖通過概念建模、形式化的數學統計、新的設計原則和適用的先進設計模式的結合來解決這些問題。我們將首先回顧軟件設計的關鍵概念,重點是面向對象的編程,這是ML軟件的主要范式。然后,我們提出了一個簡單而強大的想法,即 "科學類型"--一個新的類型系統,它捕捉了關鍵ML概念的數據科學目的。簡而言之,科學類型是一種結構化的數據類型,同時具有該類型的所有元素必須滿足的關鍵數學或統計屬性。科學類型將使我們能夠以一種在數學上精確和在軟件上容易實現的方式來描述關鍵概念。例如,我們可以說一個 "管道 "由一個 "特征提取器 "和一個 "監督學習器 "組成,以某種形式放在一起。我們相信,有關的類型可以被精確化,從而可以利用它們進行設計考慮,而不僅僅是沒有實際內容的模糊隱喻。通過科學的類型,我們能夠推導出一套新穎的針對ML的軟件設計原則。正如我們將看到的,這些原則不僅可以解釋現有工具箱的核心內容,還可以指導新工具箱的開發,如sktime。
在開發了一個統一的時間序列ML框架后,本論文的第四個也是最后一個目標是通過復制和擴展一個主要的預測基準比較研究,即M4競賽[182]來說明其有效性。
基準比較研究對ML研究至關重要,因為它們允許我們系統地評估新算法,并將其與現有的基線和最先進的解決方案進行比較。因此,這些研究的可重復性對科學進步至關重要[40, 128, 178]。工具箱,如sktime,具有原則性和模塊化的界面,使我們能夠輕松地復制現有算法的結果,并對新算法進行實驗。
特別是,復制M4競賽將使我們能夠驗證已發表的結果,用參考實現測試我們的框架,并說明其有效性和適用性。擴展M4競賽將使我們能夠實現和評估以前沒有研究過的算法,并研究簡單的、基于還原的ML算法是否能夠與贏得M4競賽的定制算法的最先進性能相匹配。為此,我們使用sktime重新實現了比賽中的關鍵算法,并增加了在sktime中容易實現的基于減少的模型。據我們所知,這是第一個獨立于已發布代碼的M4競賽的完整復制品。正如我們將看到的,我們不僅能夠在sktime提供的單一框架內重新實現比賽,而且還能夠建立簡單的ML模型,在M4數據集的重要子集上與獲勝模型的性能相當。
綜上所述,本論文所涉及的研究問題可以按照其概念性、方法性和應用性分為三組問題。
第一組問題是概念性的。在時間序列數據背景下,有哪些不同類型的數據形式和學習問題?我們如何以一種數學上的精確方式將這些問題形式化?它們之間有什么聯系?這些問題在本論文的第一部分通過開發一個正式的學習任務分類法來解決。
第二組問題是方法論性質的。我們怎樣才能識別、描述和激勵ML工具箱的設計方案?我們如何能在ML領域找到精準的抽象?我們如何將這些抽象概念形式化,使之與基礎數學概念相聯系,同時又能在軟件中輕松實現?從現有的工具箱中可以得出哪些可歸納和可重復使用的設計原則和模式來指導新工具箱的設計?這些問題將在第二部分討論。對這些問題的回答在很大程度上需要對ML工具箱設計進行新的研究。我們希望在這篇論文中提供一些答案,從現有的最先進的工具箱和經典軟件設計的最佳實踐中得出關鍵設計原則。雖然這些問題更普遍地涉及到工具箱的設計,但本論文也涉及到一個統一的時間序列的ML框架的具體設計。在這個領域有哪些不同類型的算法?這些算法類型的界面應該是什么樣子的?不同的算法類型是如何相互作用和聯系的?此外,我們還討論了與為時間序列的ML創建一個新的統一框架的理由有關的問題。已經存在哪些相關的軟件?現有軟件生態系統的局限性是什么?為時間序列的ML開發一個統一的框架的原因是什么?雖然存在幾個用于時間序列的ML的工具箱,但據我們所知,我們是第一個提供一個由我們的學習任務分類和設計原則支持的統一框架。
最后一組問題是應用性質的。我們如何使用統一的框架來指定新的ML算法?考慮到一個統一的時間序列ML框架,我們能否找到簡單的ML算法來匹配最先進的預測算法的性能?這些問題將在第三部分通過重現和擴展M4競賽來解決,M4競賽是預測研究中關鍵的比較基準研究之一。
本論文的研究貢獻可以概括為以下幾點。
1.將時間序列學習問題形式化為學習任務,并為時間序列學習任務制定了正式的分類法,重點是常見的(確定性的)點預測任務,如時間序列分類、回歸和預測,以及它們之間的還原關系。
2.受現有的最先進的工具箱和經典軟件設計的最佳實踐的啟發,為ML工具箱開發、形式化和激勵一套新穎的、可重復使用的設計原則,該原則基于科學類型系統的理念,將軟件的實現與基礎的數學和統計概念聯系起來。
3.回顧現有的時間序列分析軟件,討論當前工具箱功能的局限性,重點是Python的開源生態系統。
4.設計并實現了第一個用于時間序列的ML的統一框架,目的是在Python中提供一個原則性和模塊化的面向對象的應用編程接口(API),用于指定、訓練和驗證中等規模數據的時間序列算法。這個統一的框架已經在一個名為sktime的開源項目中實現。
5.M4預測競賽的再現和擴展,這是預測算法預測性能的主要基準比較研究之一,重點是使用sktime來評估和比較簡單的基于還原的ML算法。據我們所知,這是在一個獨立于已發布代碼的單一框架內第一次完整地再現M4競賽。
本論文有三部分結構,包括概念、方法和應用部分。
在第一部分,我們為時間序列的ML領域建立了概念模型,包括時間序列學習任務的分類。在第二章中,我們首先回顧了關鍵的ML概念和傳統的橫斷面監督學習環境,這將作為我們在整個論文中進行比較的參考。然后在第三章制定了時間序列學習任務的正式分類法。
第二部分是方法論。我們首先推導出ML工具箱的一般軟件設計原則,然后用這些原則來開發用sktime實現的時間序列ML的統一框架的具體設計。我們在第四章開始介紹ML工具箱設計背景下的軟件設計的基本概念。第5章介紹了科學類型的概念,并推導出了可以通用的設計原則。第7章回顧了開源的Python時間序列生態系統,并討論了目前的局限性和建立一個統一的時間序列分析框架的理由。第八章激勵并描述了sktime的設計和實現,結合了第一部分的概念模型和第二部分的軟件設計原則。
第三部分也是最后一部分是應用。在第九章中,我們使用sktime來評估和比較用于預測的簡單ML算法,通過重現和擴展M4預測比賽,驗證已發表的結果,對照參考實現測試所實現功能的正確性,并說明sktime的有效性和適用性。
第十章最后討論了本論文的局限性和未來研究的方向第十章最后討論了本論文的局限性和未來研究的方向。
多變量時間序列的異常檢測是許多領域的一個重要問題。系統的日益復雜和數據量的爆炸性增長使其自動化變得至關重要。基于深度學習的方法在檢測方面顯示出良好的效果,但由于其長時間的訓練和有限的魯棒性,并不能滿足工業需求。為了滿足工業需求,本論文提出了一種新的無監督方法,用于多變量時間序列的異常檢測,稱為USAD,基于自動編碼器架構和對抗性訓練。該方法符合工業界對魯棒性和訓練速度的要求,同時在檢測方面達到了最先進的性能。然而,深度神經網絡方法在從數據中提取特征的能力方面受到限制,因為它們只依賴局部信息。因此,為了提高這些方法的性能,本論文提出了一種引入非局部信息的特征工程策略。這一策略在不增加訓練時間的情況下提高了基于神經網絡的方法的性能。鑒于近年來深度學習方法在多變量時間序列異常檢測中的良好表現,研究人員在他們的基準中忽略了所有其他方法,導致所提出的方法的復雜性在目前的出版物中爆炸性增長。這種缺乏與文獻中更常規的方法的比較,不允許斷言基準中報告的進展不是虛幻的,這種不斷增加的復雜性是必要的。為了解決這個問題,本論文提出對多變量時間序列中的16種異常檢測方法進行比較,這些方法分為三類。傳統方法、機器學習方法和基于深度神經網絡的方法。本研究表明,沒有證據表明深度神經網絡是解決這一問題的必要條件。
關鍵詞:異常檢測,時間序列,多變量,深度學習,非監督性
由于數據的大量產生,時間序列及其分析正變得越來越重要。時間序列被用于大量的領域,如工業控制系統[2]、金融[3]和醫療保健[4]。
時間序列分析包括從按時間順序排列的點中提取信息,即時間序列,它可以有多種用途。最常見的是觀察一個變量的歷史,以便進行預測。這涉及到根據以前觀察到的變量值來預測其未來值。另一個常見的目的是發現時間序列之間的關聯性。這允許了解系統中不同變量之間的相互作用。許多其他目標解釋了時間序列分析的普及,如尋找趨勢、周期、季節性變化或檢測異常行為。
檢測意外行為或不符合預期行為的模式是一門活躍的研究學科,稱為時間序列中的異常檢測[5]。異常檢測是一個重要的領域。它包括檢測罕見的事件,或者更普遍的,與大多數數據不同的反常的觀察。這些罕見事件可以是各種類型的,它們存在于多個不同的領域(欺詐性金融交易、醫療問題或網絡入侵)。檢測這些罕見事件是許多領域的一個主要問題。例如,到2020年,檢測銀行交易欺詐可以為全球節省320億美元[6]。因此,對于行業來說,能夠檢測其系統中的異常情況是至關重要的。
本論文關注異常檢測這一關鍵任務。具體來說,它專注于時間序列異常檢測方法的一個子集,即無監督檢測。與監督檢測不同,無監督檢測方法不需要與數據樣本相關的標簽。這樣做的目的是為了檢測與以前觀察到的數據不同的行為[7]。最后,本論文關注多變量時間序列,因為它是最通用的背景,因為單變量時間序列只是2.1.1節中介紹的m=1的多變量背景的一個特例。
在過去的十年中,人們對深度神經網絡(DNNs)的熱情越來越高[8],這要歸功于它們在潛在的大體積和大維度的復雜數據中推斷高階相關的能力[9, 10]。時間序列中的異常檢測也沒有逃過這一趨勢。基于DNN的方法旨在學習多變量時間序列的深度潛在表征,以推斷出一個變量模型,然后用于對未見數據的異常分級。越來越多地使用DNN架構的理由在于,需要學習多變量數據的時間演化中潛在的復雜數據模式。因此,出現了許多方法,主要是基于遞歸神經網絡來捕捉時間信息[11, 12, 13]。然而,這些方法以犧牲其訓練速度為代價獲得良好的結果。事實上,這些方法都沒有在其性能標準中考慮到訓練時間。這就是為什么有必要開發在異常檢測方面具有與技術水平相當的性能的方法,同時偏重于允許快速和節能的訓練的架構。
與任何機器學習方法一樣,深度學習方法的性能與提取的特征的質量相關[14]。增強時間序列數據的特征工程通常是通過將外部但相關的信息作為一個額外的變量帶到時間序列中來完成。然而,這需要關于測量過程的領域知識。機器學習方法的另一個策略是在時間序列上創建局部特征,如移動平均線或局部最大和最小值。這兩種策略,由于是手工操作,效率不高,耗時長,而且需要很高的領域知識專長[15]。從理論上講,鑒于DNN已被證明具有自動學習局部特征的能力,從而解決了更多傳統統計和機器學習方法的局限性,DNN已成為一種有希望的替代方案。盡管它們具有學習這種局部特征的能力,但事實證明,特征工程可以加速和提高DNN的學習性能[16],DNN學習的特征的一個內在限制是它們只依賴局部信息。然而,目前文獻中還沒有成熟的方法來解決時間序列的這個問題。
由于DNN在多個領域表現出良好的性能[9, 10, 17, 18],近年來,基于DNN的多變量時間序列異常檢測方法蓬勃發展(表1.1)。然而,這些工作已經遠離了與更傳統的方法,即機器學習[19]和傳統/統計方法(如[1, 2, 13])的比較,同時提出了方法上的進步和基于DNN方法的改進性能。這種趨勢鼓勵社區開發更復雜的模型,以提高基于DNN的方法的性能,但沒有任何理論或經驗證據表明這些模型優于文獻中更成熟的方法體系。
基于DNN的模型訓練起來很復雜,涉及大量的參數估計,需要大量的訓練樣本和計算資源。此外,隨著更大的模型不斷被開發,它們的復雜性也在不斷增加。相反,傳統的模型更簡單、更輕便、更容易解釋,而且往往更能適應現實世界應用的限制。因此,關鍵是要確定基于DNN的方法所帶來的復雜性是否是為獲得性能而付出的必要代價,或者近年來報告的進展是虛幻的[20],應該優先使用傳統方法。由于缺乏涵蓋所有方法系列的一般性比較,無法回答這個問題,阻礙了基于DNN的方法在實際應用中的轉化和使用。目前,文獻中還沒有關于這種特性的完整基準。
表1.1: 2018年至2021年同行評議的基于深度學習的多變量時間序列異常檢測方法
本論文是CIFRE(Convention Industrielle de Formation par la Recherche)的論文,是Orange和EURECOM的合作。Orange是一家法國電信公司。它在全球擁有近2.7億客戶。因此,本論文的貢獻和開發的方法是為了融入Orange的工業環境中。本論文的所有貢獻如下。
一種快速而穩定的方法,稱為多變量時間序列的無監督異常檢測(USAD),基于對抗性訓練的自動編碼器。其自動編碼器結構使其能夠進行無監督學習。使用對抗性訓練和它的結構使它能夠在提供快速訓練的同時隔離異常現象。
在使用DNN進行異常檢測的情況下,一種新的特征工程策略來增強時間序列數據。其目標是雙重的。首先,將單變量時間序列轉化為多變量時間序列以提高DNN的性能。第二,使用一種特征工程策略,將非本地信息引入時間序列,這是DNN無法學習的。這是通過使用一個叫做Matrix-Profile的數據結構作為一個通用的非瑣碎特征來實現的。矩陣文件允許提取與時間序列的子序列之間的相似性相對應的非本地特征。與每個單獨的方法相比,性能顯示該方法在不增加計算時間的情況下實現了更好的性能。
對包括USAD在內的16種傳統的、基于機器學習的和基于深度神經網絡的方法在五個開放的真實世界數據集上的異常檢測性能的研究。對這16種方法中每一種的性能分析和比較表明,沒有哪一種方法的性能優于其他方法。當數據集包含上下文異常或數據集較大時,深層神經網絡似乎表現得更好,而傳統技術在數據集較小時表現得更好。因此,不可能說深度神經網絡優于以前的方法,社區應該重新將這三類方法納入多變量時間序列基準的異常檢測中。
本節對以下各章的內容進行了總結:
第二章主要分為兩部分。第一部分介紹了時間序列和它們的特征。第二部分專門討論時間序列中的異常檢測,并介紹了分為三個主要類別的方法的技術現狀。傳統的、機器學習的和深度學習的方法。
第三章介紹了一種由不良訓練的自動編碼器架構組成的多變量時間序列的無監督異常檢測方法,并展示了該方法在五個真實世界的開放數據集以及Orange的專有數據上的性能。
第四章介紹了一種特征工程策略,通過引入非局部信息將單變量時間序列轉化為多變量時間序列,并表明這種策略解決了深度神經網絡的局限性,并證明了這種組合在不增加計算時間的情況下優于每種方法。
第五章質疑是否需要主要基于深度神經網絡的更復雜的方法來進行多變量時間序列的異常檢測,并提出對屬于第二章中提出的三類的16種方法進行研究。性能分析表明,這三類方法中沒有一種方法優于其他方法。并討論了基于深度神經網絡的方法在多變量時間序列異常檢測基準中可能出現的性能錯覺。
最后,第六章總結了這項工作的主要貢獻,并提出了對這項研究可能繼續進行的一些想法。
本論文是在已發表文章的基礎上進行的研究。本論文中出現的部分內容曾在以下論文中發表過:
Julien Audibert, Pietro Michiardi, Frédéric Guyard, Sébastien Marti, and Maria A. Zuluaga. USAD:多變量時間序列上的非監督性異常檢測。在第26屆ACM SIGKDD知識發現與數據挖掘國際會議(KDD '20)論文集中。
Julien Audibert, Frédéric Guyard, Sébastien Marti, and Maria A. Zuluaga. 從單變量到多變量的時間序列異常檢測與非本地信息。在ECML PKDD 2021的第六屆高級分析和時態數據學習研討會上。
Julien Audibert, Pietro Michiardi, Frédéric Guyard, Sébastien Marti, and Maria A. Zuluaga. 論深度神經網絡對多變量時間序列異常檢測的好處,正在模式識別2021年評審中。
本論文開發的部分方法參加了KDDCUP2021的 "多數據集時間序列異常檢測 "挑戰賽。參與的方法在565名參賽者中獲得了第16名。
預計醫療數據量的增長速度將超過任何其他行業。這為開發嚴格的分析和機器學習方法以應用于大型健康數據集創造了需求。這些包含個人身份信息的數據集帶有隱私保護,對數據的可見性及其發布進行了限制。此外,病人數據往往包含復雜的關系,如非線性關系和異質性。這些特點會給醫療數據的分析帶來獨特的復雜性,并限制了開箱即用的解決方案的使用。值得注意的是,醫療保健研究具有令人難以置信的高風險,它可能是生命和死亡之間的區別,對個人的生活質量和醫療有重大影響。由于這些原因,開發嚴格的解決方案就顯得更為關鍵。這篇論文的重點是應用分析學和機器學習來解決基于醫療數據的應用研究問題。
第一章是對論文的介紹。它介紹了每個研究的研究目標和貢獻。本章還討論了每個研究中使用的方法的價值和使用行政索賠數據的好處。
在第二章中,我們討論了確定疾病控制和預防中心(CDC)新建議對患有高危慢性病的婦女避孕醫療索賠的影響的研究。該研究包括14個州在建議發布前兩年和發布后兩年參加醫療補助的婦女。我們重點關注兩個結果指標。(1)總體避孕措施的使用和(2)CDC推薦的避孕措施的使用(即那些具有最高效力的避孕措施)。我們對整個研究人群和健康狀況的每個結果進行了評估。建議后的比率與建議前的比率之比被用來確定接受新建議的統計學上的意義。結果發現,在有這些健康狀況的婦女中,以及在每種狀況下,避孕方法的總體使用都有增加。然而,結果也顯示,最高效能的方法的使用總體上有所增加,但并非每種情況都有增加。本章最后提出了在這一人群中進一步提高最高功效方法使用率的建議。
在第三章中,我們評估了青少年母親所生嬰兒的健康和保健結果。我們的全國性研究評估了青春期懷孕對嬰兒出生后第一年的健康和保健的影響。研究組中的每個嬰兒(青少年母親所生的嬰兒)與對照組(成年母親所生的嬰兒)根據其母親的人口統計資料進行匹配。評估的結果是:低出生體重、藥物暴露、寄養、健康狀況、死亡率、急診室就診和健康就診。結果表明,兩組之間存在差異,特別是在低出生體重和急診科就診方面。然而,這些差異并不像以前的研究所發現的那樣劇烈--這表明一個有希望的結果,即這兩個群體之間的差距可能正在縮小。本章還包括關于如何支持青少年母親的建議。
在第四章中,我們將統計學習方法應用于差異研究(DID)環境中。常用的DID方法依賴于參數化的統計模型,這些模型對數據的未知基礎函數形式做出了強有力的假設。在這項研究中,我們擴展了現有的統計機器學習方法,以非參數化定義的DID參數為目標,同時考慮了一個更大的非參數化模型空間,使其假設更少。我們為DID設計開發了一個通用框架,允許研究人員使用機器學習來估計因果或統計效應量,同時提供統計推斷。我們通過模擬來證明其性能,在模擬中我們將其與更傳統的方法進行比較。 ?該研究的激勵性例子估計了基于發作的捆綁支付對圍產期支出的影響。本章最后提出了所提出的估算器的局限性和對未來工作的建議。
第五章將機器學習應用于社會網絡的邊緣權重估計問題。社會網絡分析被用來可視化、量化和評估兩個實體之間的關系。在醫療衛生領域,社交網絡在各種場合下都有助于量化某種關系對醫療結果、干預措施或醫生治療決定的影響。算法已經被用來預測社會網絡的信息,如邊緣的存在,或相似性措施,如共同鄰居。然而,很少有研究關注加權圖,對其邊緣權重的估計工作就更少。準確的權重估計可以作為一種數據質量工具來檢查數據中的權重是否正確,以及我們預期接下來會在哪里出現新的更強(或更弱)的關系。這項研究評估了三種估算器的性能,包括一種集合機器學習方法,以預測加權社會網絡的邊緣權重。我們用一個教師招聘的例子來比較這三種方法的準確性,最后提出了對未來工作的建議。
第六章是本論文的結論。它包括討論研究對衛生保健政策的總體影響以及為行政索賠數據開發的技術。提出了未來的工作以及更多的衛生保健應用。
柏林AWS AI的一名應用科學家,我在那里研究AutoGluon。目前我的研究方向是時間序列預測和AutoML。 我在慕尼黑工業大學(Technical University of Munich)攻讀機器學習博士學位,導師是Stephan Günnemann。在讀博士期間,我主要研究時間點過程(TPPs)——連續時間事件序列的概率模型,如社交媒體上的用戶活動或地震學中的地震序列。
Modeling Continuous-time Event Data with Neural Temporal Point Processes
事件數據是機器學習許多高影響力應用的核心。電子健康記錄中的醫院訪問,地震學中的地震目錄,以及神經科學中的高峰列車——所有這些都可以用連續時間中可變長度的事件序列來表示。時間點流程(TPPs)為此類數據建模提供了一個自然的框架。然而,傳統的TPP模型缺乏捕捉現實事件數據中呈現的復雜模式的能力。神經TPP旨在通過將神經網絡與點過程文獻中的基本思想相結合來解決這一限制。本論文的兩個主要主題是(1) 設計靈活、可處理和高效的神經TPP模型,(2)它們在現實問題中的應用。我們的第一個貢獻是TPP和神經密度估計領域之間的聯系。這使得我們能夠開發第一個神經TPP模型,其中的可能性計算、采樣和預測都可以以封閉的形式有效地完成。接下來,我們提出了TriTPP——一種新的表達性TPP模型,與現有方法不同,該模型中所有操作都可以并行完成。快速平行采樣為TPP模式開啟了新的應用。我們通過推導連續時間離散狀態系統的變分推斷方案來證明這一點。最后,我們將擬合優度測試方法與神經TPP模型相結合,建立了一種簡單有效的事件序列異常檢測方法。
金融交易、在線交流、神經突列、地震——各種人為和自然現象都可以用連續時間的事件序列來表示。這種事件數據的概率模型被稱為時間點過程(TPP),可以用來進行預測,找到模式,并更好地理解各自的現實世界系統。TPPs理論是在20世紀Feller [56,58], Cox [35,38], Lewis [105,106], Hawkes[79]和Ogata[133,134]的開創性著作中發展起來的。由于事件數據的普遍性,TPPs被廣泛應用于地震[82,135]和神經科學[46,68]等科學領域,以及金融[9,80]和醫療[3,56]等行業。
在過去的幾十年里,在實際應用中遇到的事件數據的規模和復雜性都出現了爆炸式增長。地震學的新技術能夠收集數以百萬計的地震的豐富多樣的數據集[126,192]。像Twitter和Facebook這樣的在線服務以前所未有的規模捕捉社交互動,而AWS這樣的托管提供商每天產生PB級的數據[165]。分析這些數據可以釋放出巨大的價值。然而,傳統的TPP模型,如泊松過程或自激過程,無法捕捉這些數據中呈現的復雜模式。此外,事件序列通常伴隨著與預測任務相關的附加屬性(例如,位置),但將它們納入傳統的TPP需要繁瑣的特征工程。處理這些問題需要開發新的TPP模型,該模型具有表示復雜模式的靈活性,并具有足夠的可擴展性,以處理大型多樣化的數據集。
近年來,被稱為神經TPPs的一類新模型出現,以應對上述挑戰[170]。神經TPP將點過程理論的基本思想與深度學習方法相結合。深度學習方法基于神經網絡——通過可微變換組合定義的表達函數逼近器[72]。基于神經網絡的方法大大提高了計算機視覺[101,186]、自然語言處理[23,48]、圖機器學習[212]和許多其他領域的性能。在本文中,我們研究了深度學習在連續時間事件數據中的應用。
在神經TPPs環境中,神經網絡的靈活性允許我們從數據中自動學習事件發生的不同模式,而不是像傳統模型那樣手動指定它們。例如,在一個自激過程中,觀察到的事件只能增加未來事件的到達率——這是一個相當有限的假設,在許多現實世界的事件數據集中不成立(例如,大腦中的抑制性神經元降低了放電率[46])。相比之下,神經TPP模型可以通過純數據驅動的方式自動學習不同事件類型的抑制和興奮效應。2016年,Du等人[52]和Mei & Eisner[119]的開創性工作首次展示了TPP與神經網絡相結合帶來的新可能性。隨后,許多論文提出了神經TPP的新模型架構和參數估計算法[95,108,181,198-200]。然而,基于深度學習的TPP模式的設計和應用仍存在許多懸而未決的問題。
神經跨TPP模型應該滿足許多要求,以成功地應用于現實世界的任務。此類模型的表達性、可處理性、高效訓練和推理往往相互矛盾,現有的神經TPP架構在這些屬性之間做出了次優權衡。在論文的第一部分,我們關注了TPP模式設計的這些方面,并將其作為我們的第一個研究問題:
研究問題1:我們如何定義靈活的神經TPP模型,同時可處理和高效?
我們首先回顧了概率建模和深度學習的基礎知識,并在第2章中從機器學習的角度對TPP進行了獨立的介紹。在第三章中,我們討論了現有神經TPP模型的局限性,并引入了一類新的模型來解決這些缺點。通過與神經密度估計領域的聯系,我們構建了靈活的神經TPP,其中似然計算和采樣都可以解析地完成。與現有的方法相比,這是一個重大的改進,沒有一種方法同時滿足所有這些標準。接下來,在第4章中,我們將采取不同的路徑,并展示如何通過三角形地圖的視角來看待所有的TPP。基于這一見解,我們提出了TriTPP——一種基于可逆變換組成的靈活高效的TPP參數化方法。現代的TPP架構通常使用自回歸神經網絡(例如,rnn和變壓器),因此具有內在的順序性。相比之下,在TriTPP中,采樣和訓練可以并行進行,這大大提高了效率。此外,重新參數化的高效采樣為TPP提供了新的應用。這就直接引出了我們的第二個研究問題:
研究問題2: 我們如何應用神經TPP來解決現實世界的問題?
在第5章中,我們展示了重新參數化技巧如何讓我們有效地訓練基于抽樣損失的TPP模型。TPP的這種損失函數通常是不連續的,這使得用基于梯度的方法對其進行優化是不可能的。為了解決這一挑戰,我們引入了一個可微松弛的損失,包括變長事件序列。為了展示這種方法的實用性,我們開發了一個連續時間離散狀態系統的變分推斷方案,如馬爾可夫跳躍過程。最后,在第6章中,我們用TPPs處理事件序列的異常檢測。我們演示了如何使用生成模型的擬合優度測試來解決異常檢測問題——針對任意數據類型,而不僅僅是事件序列。我們將該框架與第三章的神經TPP模型相結合,得到了一種簡單有效的異常檢測方法。
隨著互聯網的興起,每天都有不同形式的大量的文本數據產生:新聞、研究文獻、 博客、論壇文字以及社交媒體評論等。很多重要有用的信息隱藏在其中,如何從這些自 由文本中自動抽取所需要的信息是一個關鍵并且重要的一步。信息抽取任務就是為此目 標而誕生。本文主要研究信息抽取子任務之一的實體關系抽取任務。該任務旨在識別文 本中出現的實體,并判斷出實體之間存在的關系。
傳統的有監督實體關系抽取通常采用基于流水線的方法,即實體模型和關系模型 分開訓練。在測試階段,先用實體模型識別出實體,然后關系模型找出這些實體之間的 關系。這種流水線的方法存在著錯誤傳播的缺點,前一個任務的錯誤會累積到后一個任 務。為了緩解這一問題,研究人員提出了聯合模型。聯合模型將兩個子模型統一建模, 可以進一步利用兩個任務之間的潛在信息,以緩解錯誤傳播的缺點。聯合模型的難點是 如何加強實體模型和關系模型之間的交互,比如實體模型和關系模型的輸出之間存在著 一定的約束,在建模的時候考慮到此類約束將有助于聯合模型的性能。
另一方面,為了解決實體關系抽取數據集難以獲得的問題,遠程監督的方法也被提 出來。其主要思想是利用知識庫和大規模文本數據對齊,自動構建大規模的訓練集。然 而,遠程監督方法的缺點是自動構建的訓練集中存在著很多的噪音數據,這些噪音數據 的存在對遠程監督實體關系抽取有著很大的負面影響。此外,在有些應用場景中可能沒 有現成的知識庫可以用來進行遠程監督,如何解決類似的數據噪音和數據缺失問題也是 一大挑戰。
根據實體關系抽取方法的研究現狀,本文從數據和聯合模型兩個角度探索了幾種實 體關系抽取聯合模型,并且探究了所提出模型的優勢和不足。具體來說,本文的主要貢 獻有