亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

用于健康和生物醫學領域的機器學習的數據集通常是有噪聲的,采樣不規律,只有稀疏的標記,相對于數據和任務的維度都很小。這些問題推動了表示學習在這個領域的應用,它包含了各種技術,旨在產生適合下游建模任務的數據集表示。該領域的表示學習還可以利用生物醫學領域的重要外部知識。在本文中,我將探索新的生物醫學數據預訓練和表示學習策略,這些策略利用外部結構或知識來為局部和全局尺度的學習提供信息。這些技術將在四章中進行探討: (1)利用未標記數據來推斷半監督學習環境中的分布約束; (2)在基因-基因共同調控網絡上使用圖卷積神經網絡改進基因表達數據的建模; (3)將自然語言處理的預訓練前技術應用于電子健康記錄數據,并表明電子健康記錄時序數據需要新的方法; (4)通過結構誘導的預訓練前應用來斷言預訓練前應用的全局結構。

//dspace.mit.edu/handle/1721.1/144655

我的論文集中在解決這些挑戰,在設計預訓練和表示學習算法,利用結構和知識的臨床和生物醫學領域。特別是,在這篇論文中,我將討論四個具體的研究努力,每一個都將結構和知識納入表征學習的不同方式。我描述了下面的每一章,并在每一章的描述中引用了驅動這一章的基礎工作,以及其他我與他人合著的相關工作,這些工作雖然不在這一章中,但與主題相關。在這一節的最后,我還列出了我在研究生學習期間完成的其他出版物,這些出版物沒有在這篇論文中出現。

首先,在第2章中,我將探索如何利用循環Wasserstein回歸生成對抗網絡(CWR-GAN)從無標簽數據中學習到的分布式知識來解決臨床和生物醫學回歸問題。我們表明,這種方法在預測重癥監護患者的個別治療反應估計方面明顯優于傳統的監督學習。這項工作進一步推動了更大規模的自監督或半監督預訓練系統,它們同樣利用了未標記數據,特別是對神經網絡潛在空間施加全局結構約束的預訓練方法。主要工作[134],其他相關文獻[11]。

第二,在第3章中,我展示了使用遺傳共同調控信息固有的圖結構可以顯著提高基因表達數據的建模。這表明,局部結構的使用可以在非傳統結構化的生物醫學領域提供更高質量的表示,并進一步推動我后來的分析如何在更大的規模將結構納入訓練前系統。第三,在第4章中,我討論了傳統訓練前算法對電子健康記錄數據的適應性,特別關注結構化的生理臨床時間序列。這項工作突出了傳統算法對這種新模式的限制。特別是,我們表明,多類預訓練算法的性能顯著優于基于填補的方法,這突出表明,對自然語言處理方法的na?ve適應在這種模式下并不能提供成功。因此,這一失敗激發了生物醫學模式訓練前新方法的開發。最后,第四章,在第5章中,我探索了一個新的預訓練算法的理論框架,強調了預訓練算法中樣本間歸納偏差的重要性。我們引入了結構誘導預訓練(SIPT)框架,并提供了理論和經驗證明,將全局結構誘導到預訓練潛在空間可以提供顯著的好處,這為開發專門針對生物醫學數據的新預訓練方法提供了重要的機會。主要工作[132],其他相關出版物[164,131]。

總的來說,在這篇論文中,我們將證明整合結構,無論是直接從數據中學習還是通過外部知識,都可以顯著提高臨床和生物醫學機器學習的性能

付費5元查看完整內容

相關內容

 (Massachusetts Institute of Technology,MIT)是美國一所研究型私立大學,位于馬薩諸塞州(麻省)的劍橋市。麻省理工學院的自然及工程科學在世界上享有極佳的盛譽,該校的工程系曾連續七屆獲得美國工科研究生課程冠軍,其中以電子工程專業名氣最響,緊跟其后的是機械工程。其管理學、經濟學、哲學、政治學、語言學也同樣優秀。

在本文中,我們的目標是改進深度強化學習中的泛化。對任何類型的學習來說,泛化都是一項基本挑戰,它決定了如何將已獲得的知識轉移到新的、以前從未見過的情況中。本文專注于強化學習,這是一個描述人工智能體如何學習與環境交互以實現目標的框架。近年來,利用神經網絡表示智能體取得了顯著的成功,并極大地擴展了其可能的應用范圍。本文的目標是通過允許這些智能體更快地學習,學習更好的解決方案,并對以前未見過的情況做出魯棒的反應,從而提高它們的性能。在這個探索中,我們探索了一系列不同的方法和途徑。我們專注于將額外的結構,也稱為歸納偏差,納入主體。專注于特定的,但廣泛適用的問題領域,我們可以開發專門的架構,從而大大提高性能。在第3章中,我們關注的是部分可觀察環境,在這種環境中,智能體每時每刻都不能完全訪問所有與任務相關的信息。在第4章中,我們將注意力轉向多任務和遷移學習,并設計了一種新的訓練方法,允許訓練分層結構的智能體。我們的方法優化了單個解決方案的可重用性,大大提高了傳輸設置中的性能。

//ora.ox.ac.uk/objects/uuid:9fdfadb0-e527-4421-9a22-8466c9fed9c8 在本文的第二部分中,我們將注意力轉向正則化,這是另一種形式的歸納偏差,作為提高深度智能體泛化的方法。在第五章中,我們首先探討了強化學習(RL)中的隨機正則化。雖然這些技術已被證明在監督學習中非常有效,但我們強調并克服了將它們直接應用到在線RL算法中的困難,這是RL中最強大和應用最廣泛的學習類型之一。在第6章中,我們通過探索訓練數據中的瞬態非平穩性如何干擾神經網絡的隨機梯度訓練,并使其偏向較差的解,在更基本的水平上研究了深度rl中的泛化。許多先進的RL算法將這些類型的非平穩性引入到訓練中,甚至在平穩環境中,通過使用持續改進的數據收集策略。我們提出了一個新的框架,以減少經過訓練的策略所經歷的非平穩性,從而允許改進的泛化。

付費5元查看完整內容

利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。

在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。

付費5元查看完整內容

由于醫療數據的多樣性和數據收集和注釋的費用高昂,數據不足和異質性是表示學習在醫學機器學習中的挑戰。為了從如此有限和異構的醫療數據中學習可泛化的表示,我們的目標是利用各種學習范式來克服這個問題。在本文中,我們系統地探索了有限數據、數據不平衡和異構數據的機器學習框架,使用跨領域學習、自我監督學習、對比學習、元學習、多任務學習和魯棒學習。我們提出了不同醫療應用的研究,如臨床語言翻譯、超聲圖像分類和分割、醫學圖像檢索、皮膚診斷分類、病理元數據預測和肺部病理預測。

//dspace.mit.edu/handle/1721.1/144745

我們首先關注有限的數據問題,這在醫學領域很常見。我們利用具有相同錨點的無監督嵌入空間對齊方法,在有限且不配對的醫學語料庫中學習臨床語言翻譯的跨領域表示,并使用統計語言建模進行句子翻譯。使用臨床正確性和可讀性的指標,開發的方法在單詞和句子級別的翻譯中優于基于詞典的算法。為了更好地學習有限數量的超聲圖像的數據表示,我們隨后采用了自我監督學習技術,并將相應的元數據作為多模態資源集成,以引入歸納偏差。我們發現,與標準遷移學習方法相比,通過開發的方法學習的表示可以獲得更好的下游任務性能,如超聲圖像質量分類和器官分割。

接下來,我們放大數據不平衡問題。本文探索了對比學習的用途,特別是孿生網絡,從不平衡的眼底成像數據集中學習表示,用于糖尿病視網膜病變圖像檢索。與標準的監督學習設置相比,我們使用從Siamese網絡學習的表示獲得了可比較但可解釋的結果。我們還利用極不平衡的長尾皮膚圖像數據集進行皮膚病分類的元學習。我們發現,使用元學習模型和使用常規類不平衡技術訓練的模型集成可以產生更好的預測性能,特別是對于罕見的皮膚病。

最后,針對異構醫療數據,我們開發了一個多模態多任務學習框架來學習病理元數據預測的共享表示。我們利用多模態融合技術集成幻燈片圖像、自由文本和結構化元數據,并采用多任務目標損失來引入學習時的歸納偏差。這比標準的單模態單任務訓練設置產生更好的預測能力。我們還應用魯棒訓練技術來學習可以解決兩個胸部x射線數據集分布轉移的表示。與標準訓練相比,我們發現當存在偏移時,魯棒訓練提供了更好的容忍度,并學習了肺病理預測的魯棒表示。本文的研究并不詳盡,但對在有限和異構的醫療數據設置下利用機器學習幫助臨床決策進行了廣泛的了解。我們還提供了見解和警告,以激發利用低資源和高維醫療數據的機器學習的未來研究方向,并希望對現實世界的臨床產生積極的影響。

付費5元查看完整內容

摘要

智能手機和可穿戴設備的廣泛采用導致了豐富數據集的積累,這有助于以從未有的細節理解行為和健康。與此同時,機器學習,特別是深度學習在各種預測任務中取得了令人矚目的表現,但它們在時間序列數據上的使用似乎具有挑戰性。由于噪聲、稀疏性、行為的長尾分布、缺乏標簽和多模態,現有模型難以從這種獨特類型的數據中學習。本論文通過開發新模型來解決這些挑戰,這些模型利用多任務學習進行準確預測,多模態融合來改進種群子類型,以及自我監督來學習廣義表示。我們將我們提出的方法應用于通過傳感器數據預測心理健康和心肺健康的現實世界任務。

首先,我們研究從智能手機(運動和背景音頻)收集的被動數據與瞬時情緒水平的關系。我們的新訓練管道將不同的傳感器數據結合到低維嵌入中,并將縱向用戶軌跡聚類為結果,優于僅基于心理學問卷的傳統方法。其次,由于情緒不穩定作為心理健康狀況不佳的預測因素,我們提出了用于時間序列預測的編碼器 - 解碼器模型,該模型利用多任務學習的情緒雙模態。

接下來,受視覺和語言任務中通用模型成功的推動,我們提出了一種自我監督的神經網絡,可用作可穿戴數據的特征提取器。為此,我們將心率響應設置為活動數據的監督信號,利用它們潛在的生理關系,并表明由此產生的與任務無關的嵌入可以泛化通過遷移學習(例如 BMI、年齡、能量)預測結構不同的下游結果支出),優于無監督自動編碼器和生物標志物。最后,承認健康狀況是整體健康的一個強有力的預測指標,然而,這只能用昂貴的儀器(例如,最大攝氧量測試)來測量,我們開發了能夠準確預測當前可穿戴設備的細粒度健康水平的模型,更重要的是,近十年后它的方向和規模。

所有提出的方法都在大型縱向數據集上進行評估,有成千上萬的參與者。本論文中開發的模型和得出的見解為更好地理解高維行為和生理數據提供了證據,這些數據對大規模健康和生活方式監測具有重要意義。

第一章 引言

1.1 研究動機

計算機和數據已經改變了我們獲取信息的方式、我們的交流方式以及我們對科學的思考方式。大型數據集的管理已經徹底改變了許多領域,實現了幾十年前無法想象的規模(Aad等人, 2012)。但是孤立的數據是沒有意義的;我們的努力應該有針對性地提取影響決策并最終改善生活的可行見解和知識。

健康數據是直接改變生活的最佳選擇。我們處理這些數據的方式的進步可以改變我們的社會。盡管絕大多數醫學研究都研究臨床數據(實驗室、影像學、生命體征等),但普通人每年只看醫生大約 5 次(Kim 等人,2014 年)。另一方面,可穿戴傳感和移動計算的最新進展以及它們的廣泛采用,為在實驗室和醫院環境之外以縱向方式收集健康和福祉數據創造了新途徑。除了“填補”傳統臨床數據的空白外,這些設備還為大規模生活方式監測開辟了新的研究和商業方向。例如,全球數百萬人使用此類設備來跟蹤他們的身體活動和睡眠,并具有越來越復雜的預測能力(Althoff 等人,2017 年)。

與此同時,看似完全不同的力量,如成熟的開源科學軟件庫、更容易的數據眾包和標簽,以及專用硬件(顯卡)的再利用,都使預測建模得到了顯著改進。許多機器學習 (ML) 任務都取得了令人印象深刻的性能,從圖像中的對象識別(He 等人,2016 年)到在圍棋、雅達利和國際象棋游戲中贏得最佳玩家(Schrittwieser 等人,2020 年) ,或在乳腺癌篩查方面表現優于專家(McKinney 等人,2020 年)。在所有這些案例中,共同點是管理高質量的大型數據集,這些數據集允許模型利用潛在模式并隨后在現實世界中進行泛化(Hyland 等人,2020 年)。然而,尤其是在錯誤預測可能產生嚴重后果的健康領域,此類系統的推出和采用遭到了抵制(Davenport 和 Kalakota,2019 年)。相反,在線服務、社交網絡或流媒體服務等低誤報成本和高數字化率的領域,不僅接收機器學習,而且積極推動研究界進一步發展計算機視覺和自然語言領域發展。

類似于社交網絡如何學習我們的在線行為,可穿戴設備和移動設備監控我們在現實世界中的活動。通過跟蹤我們的睡眠、步數、飲食和工作習慣,他們可以全面了解我們日常健康中最重要的組成部分(世界衛生組織,2002 年),然而現在只有通過調查才有可能。盡管我們認識到此類數據集的價值,但機器學習在健康和移動傳感方面的進展并沒有跟上其他領域的步伐。例如,在過去十年中,Fitbit 或 iPhone 等設備一直在以前所未有的時間分辨率收集多模式傳感器數據。然而,有效利用這些數據集帶來了許多挑戰,導致這些數據在科學和醫學研究中經常被忽視。此外,在這個粒度上獲得高質量注釋和基本事實可能是昂貴的,甚至是不可能的。需要新的計算方法來應對這些挑戰,本論文試圖彌合其中的一些差距。

1.2 傳統身心健康監測的局限性

盡管檢測和了解心理和身體健康的波動很重要,但醫生和研究人員仍受到一個關鍵限制的阻礙:缺乏可靠和有意義的數據。大多數已建立的研究和臨床實踐都是基于紙筆書面的自我報告和調查,雖然在沒有替代方案的情況下很有價值,但它們會受到偏見并且經常提供不完整的信息(Brenner 和 DeLamater,2014 年)。

個人可能不準確地回憶起他們的行為,報告他們習慣的理想化版本或它們的某種組合。先前的研究發現,自我報告的身體活動存在報告偏差,這源于社會期望偏差(報告被視為社會期望的行為),以及精確報告身體活動行為的強度、持續時間和頻率的認知復雜性(Sallis and Saelens,2000)。此外,對自我報告行為的理解僅限于向研究參與者提供的特定問題集。這些可能不足以反映復雜行為的完整視圖。報告錯誤導致的不準確可能隨機分布在所研究的人群中。這些錯誤也可能是系統性的,不同人群中的參與者系統地低于或過度報告他們的活動水平。這可能導致錯誤關聯的識別。

與身體健康類似,偏見會以更微妙的方式影響心理健康研究。被要求報告他們的情緒水平或測試抑郁癥的患者可能會被自我強化循環中的問題內容觸發,這可能弊大于利(Labott 等人,2013 年)。為了減少對使用自我報告身心健康測量研究中的偏見擔憂,應盡可能根據金標準測量或客觀測量對問卷進行驗證。來自移動設備的數據可以結合兩者:由于推送通知,自我報告總是帶有時間戳和上下文,而被動傳感器可以不顯眼地客觀地監控行為。

1.3 多感官機器學習的挑戰

在大多數領域,科學家的典型工作流程涉及解釋數據集方差的綜合變量。直到最近,這個過程的特點是精細的特征工程,以便構建能夠區分某些類別的信息特征(在分類的情況下)。現在,深度神經網絡可通過學習潛在特征作為優化過程的另一作用以及實現最先進的結果(LeCun等人, 2015)來自動化這項任務。這對于移動傳感數據更為重要(圖 1.1 展示了移動傳感器數據的典型機器學習工作流程示意圖)。

圖 1.1:機器學習工作流的生命周期。處理來自個人設備的數據時遵循的迭代步驟。本論文對應用于整個生命周期的方法做出了貢獻,特別關注新穎的特征提取和表示方法,以及推廣到以縱向方式收集的新數據。

來自加速度計、心電圖 (ECG)、陀螺儀和麥克風等常見傳感器的數據通常表示為高維時間序列 (Lane等人, 2010)。與其他數據類型不同,這些傳感器測量是有噪聲的,盡管在小規模研究中人工設計的特征已被證明是有效的(Wang等人, 2014),但要為個人用戶行為的不同噪聲水平選擇魯棒的特征并不簡單。移動測量中的噪聲很難建模,因為它與時間相關 (Park, 2004) 并呈現非線性結構 (Ang et al., 2007)。除了噪聲之外,建模傳感器數據的挑戰還延伸到不同的稀疏程度(Abedin 等人,2019;Ghassemi 等人,2015)、無法獲得高質量注釋和標簽(Bulling 等人,2014)以及異構數據類型(Radu 等人,2018 年),與已建立的基準任務中使用的類型不同。

描述這些挑戰的說明性場景可能是個人在洗澡時摘下智能手表。手表的光傳感器可能會從遠處的表面反射,從而記錄錯誤的心率(噪音);非磨損期會產生不規則的采樣數據,這些數據必須用預期的傳感器值(稀疏性)進行估算;用戶不太可能在分鐘級別注釋此事件或其他事件(標簽稀缺性)。此外,當最終佩戴時,運??動傳感器和心臟傳感器對壓力等外部刺激(多模態)的反應會有所不同(Bent 等人,2020 年)。

尺度也不同。大型縱向研究,如 UK Biobank (Doherty等人, 2017)、Apple Study (Perez等人, 2019)、Fenland Study (O'Connor等人, 2015)、Utsureko (Suhara等人, 2017) ) 和 EmotionSense (Servia-Rodr′?guez等人, 2017) 一直在使用可穿戴傳感器監測數萬名參與者的身心健康。例如,超過 200000 名 Fitbit 用戶的靜息心率升高被用于預測美國的流感樣疾病(Radin 等人,2020 年)。然而,諸如廣義線性混合模型之類的統計方法對具有重復測量的縱向數據進行操作(例如,單個用戶出現多天),無法擴展到該數量的受試者(Zhang等人, 2016)。此外,鑒于之前的移動健康研究是通過受控實驗和有限數量的參與者進行的(Sano,2016;Jaques 等,2017;LiKamWa 等,2013),尚不清楚之前的發現和方法是否可以轉移到這些大型數據集。此外,缺乏對參與的嚴格控制以及促進參與的有限機制,使得收集的數據更難以解釋。

可以說,這里的潛在挑戰是表示。機器學習試圖找到有意義的表示,將數據轉換為線性可分的空間并區分語義類。從捕獲圖像數據集結構的卷積網絡的低維嵌入 (LeCun等人, 2015) 到最近通過預測輸入數據的失真樣本來學習更好特征的自監督網絡,它已經走了很長一段路(Devlin等人,2019)。但是了解多感官測量如何跨時間相互關聯意味著構建個人健康狀態的表示。本論文認為,未來健康機器學習的一些基本組成部分將是多任務處理、遷移學習和預測。我們現在知道,執行多項任務的模型不僅更有用,而且還使每個單獨的任務更加魯棒(Kaiser等人, 2017)。此外,能夠推理未來的模型可以更好地跨不同環境遷移(Chen等人, 2021)。因此,我們需要模型來通過改進數據表示來解決這些挑戰,該表示利用跨傳感器關系并盡可能少地依賴手動注釋。

1.4 論文與論證

我們回顧了移動健康機器學習改進帶來的一些潛在好處,采用傳統方法時會出現哪些限制,以及在處理含噪的傳感器數據時會遇到哪些挑戰。形式上,總體目標可以表述為:改進機器學習方法,用于由消費者移動和可穿戴設備生成的動態和靜態、多任務和有限監督的觀察、回顧和縱向數據,用于最終目標是改善健康和福祉,重點是心理和身體健康。我們通過首先評估現有方法在大規模身心健康數據集上的潛力,然后提出優于當前方法或提供新見解的新模型來證實這一說法。我們的方法利用并擴展了多模態融合、多任務學習、時間序列預測、遷移學習和自我監督學習的范式。特別是,本論文解決了以下四個研究問題:

? 研究問題1。我們如何使用機器學習將被動傳感器時間序列與傳統的用戶級元數據相結合,以區分集群用戶軌跡?

? 研究問題2。多任務學習和編碼器-解碼器模型在多步時間序列預測中的效果如何?

? 研究問題3。我們如何訓練具有自我監督的通用神經網絡來利用大量未標記的時間序列數據?

? 研究問題4。我們如何使用深度學習對自由生活的可穿戴傳感器數據進行長期心肺健康預測?

為了解決這些問題,我們開發了可以融合時間序列和表格數據的模型,以及能夠準確預測心理健康的序列模型。此外,我們設計了新穎的自我監督任務,利用大量未標記的時間序列數據,并提出了新模型,以使用自由的生活傳感器數據來預測健康水平。

1.5 貢獻和章節大綱

在方法方面,我們將深度學習模型定制為未標記的時間序列。在應用領域,我們采用機器學習方法來應對身心健康領域的挑戰性任務。我們將從第 2 章介紹序列數據深度學習的背景開始,然后介紹延伸到本文其余章節的四個主要貢獻,如下所示:

貢獻 1:用于大規模情緒預測的多模態機器學習

在第 3 章中,我們展示了心理特征與被動收集的感知數據(加速度計的活動和麥克風的噪聲水平)相結合,可以檢測出一般情緒偏離普通放松的個體特征。我們使用來自 EmotionSense 研究的數據驗證了我們的方法,該研究是在野外收集的一個大型移動應用程序數據集,有 17,251 名參與者,發現這些模式的組合實現了最佳分類性能,并且被動感知的準確性提高了 5%。這項研究背后的主要動機是,經驗抽樣已被提出作為一種監測心理健康的機制,但它需要用戶的關注,因此會導致相當大的保留問題。我們研究是否可以使用被動感知和一次性調查來識別放松和不放松的用戶,并通過擴展來不顯眼地監測心理健康。

建議的方法包括兩個步驟。首先,使用標準算法(如 k-means)對歷史情緒軌跡(特征提取后)進行聚類,以找到具有相似軌跡的用戶組。其次,將用戶分類到找到的集群中。我們的管道采用特征選擇、降維和分??類算法,例如梯度提升樹和深度神經網絡。

實驗結果表明,通過在個性和人口統計調查中加入被動感知,我們可以更準確地預測個人用戶的情緒群體。當使用每周傳感器(加速度計和麥克風)和一次性問卷數據作為輸入時,我們的模型實現了 75% 的 AUC。我們討論了這種多模態數據的特征提取技術和適當的分類器,以及在處理靜態和動態特征時深度神經網絡的過擬合缺點。這些發現可能對移動健康應用程序產生重大影響,這些應用程序可以受益于被動傳感的正確建模以及額外的用戶元數據。

貢獻 2:用于情緒時間序列預測的多任務和序列學習

在第 4 章中,我們提出了一個端到端的編碼器-解碼器模型,用于從之前的自我報告的情緒中預測未來情緒的序列。我們的結果表明,多任務同時學習情緒的兩個維度,這比單個模型或基線更準確。此外,繪制神經激活圖有助于我們了解情緒的潛在軌跡,以及事后錯誤分析確定模型在用戶個性、情緒變化或星期幾方面的表現存在顯著差異。這項研究背后的主要動機是心理學家主要使用筆和紙調查來跟蹤心理健康,這與移動應用程序不同,容易產生回憶偏差。在更技術方面,我們表明當前的心理健康機器學習模型不能提供長期預測,也不能從時間序列中學習復雜的模式。

所提出的方法依賴于端到端長短期記憶 (LSTM) 編碼器-解碼器模型。該序列通過一個 LSTM,被轉換為單個向量,并通過另一個預測未來序列的 LSTM 進行解碼。此外,在處理健康數據時,模型的可解釋性總是很重要,因此我們分析了訓練模型各層的作用。隨著我們進入更深層次,我們看到網絡展示了積極和消極情緒的連續統一體,盡管它已經被訓練為僅預測情緒。此外,通過檢查解碼器的單個神經元,我們觀察到一些神經元幾乎總是以相同的斜率發射,而另一些則更保守,幾乎是平線。這有助于我們識別情緒演變的不同亞型。

在這里,我們再次使用來自 EmotionSense 研究的數據,但是,這次我們只使用了自我報告的情緒序列。我們的結果表明,3 周是情緒報告的最佳窗口,驗證了之前關于抑郁癥預測的研究。此外,我們的模型優于機器學習回歸器和簡單基線,而多任務學習似乎有助于預測警覺性(兩個情緒維度之一)。我們相信這項工作為心理學家和未來移動心理健康應用程序的開發人員提供了一種即用型且有效的工具,用于大規模早期診斷心理健康問題。

貢獻 3:來自自由生活可穿戴數據的生理表征的自監督遷移學習

在第 5 章中,我們開發了一種新穎的自監督通用神經網絡,該網絡將活動數據映射到心率響應,并可用作特征提取器可穿戴數據。它的功能可用于根據用戶獨特生理進行個性化的各種實際下游任務,并且該模型在通過消融研究評估的上游和下游任務中優于一組強大的基線。

對于預訓練,我們引入了一個聯合損失函數,它通過使用模型的預測密度的分位數來作為傳統均方誤差的正則化器,以逼近 HR 數據的長尾,這是現實中普遍存在的問題-世界(健康)數據。在那里,我們表明,包括單一的靜息心率測量具有顯著影響,并且結合時間戳的循環建模,在自由生活條件下實現了 ~9 BPM 的最低誤差。

在下游,我們通過將窗口級特征聚合到用戶級特征來執行一組下游遷移學習任務,并通過在推斷生理上有意義的變量、優于自動編碼器和常見生物標志物方面的強大性能展示學習嵌入所捕獲的價值。例如,我們的模型實現了體重指數 (BMI) 預測的 AUC 為 0.70,體育活動能量消耗的 AUC 為 0.80。通過檢查嵌入,我們還注意到大多數結果隨著潛在維度的增加而改善,而有些結果對其大小保持不變。

我們使用最大的多模式可穿戴心電圖和腕部加速度測量數據集 Fenland 研究評估該模型,包括跟蹤一周的 1,700 多名參與者,以及使用臨床實驗室設備測量的相關健康結果。我們執行消融測試以顯示不同模式和架構組件的性能。總體而言,我們提出了一種用于行為和生理數據的多模態自我監督方法,對大規模健康和生活方式監測具有重要意義。

貢獻 4:使用深度學習從自由生活可穿戴設備預測適應性心肺健康

在第 6 章中,我們利用可穿戴數據和常見生物標志物開發深度學習模型,以預測健康的黃金標準(VO2max),并實現與其他產品相比的強大性能傳統方法。

心肺健康是代謝疾病和死亡率的公認預測指標。健康狀況直接測量為最大耗氧量 (VO2max),或使用對標準運動測試的心率反應進行間接評估。然而,這種運動測試成本高且繁重,限制了其在醫療保健和大規模人口研究中的實用性。也可以使用 RHR 和自我報告的鍛煉習慣來近似健身,但與基于動態數據的估計相比,準確性較低。現代可穿戴設備捕獲非標準化動態數據,可以改善健康預測。

在這里,我們使用更大的 Fenland 研究隊列,并分析來自一項人口研究的可穿戴傳感器在自由生活條件下的運動和心率信號,該研究包括 11,059 名參與者,這些參與者也接受了標準運動測試。我們開發了一個深度神經網絡模型,該模型利用傳感器信息來預測 VO2max,與保持樣本中的基本事實相比,產生 r = 0.82 [CI 0.80-0.83] 的 Pearson 相關性。該模型使用正常日常生活的測量結果優于傳統的非運動健身模型和傳統的生物標志物,無需進行特定的運動測試。此外,我們展示了這種方法在檢測 7 年后重復測量的縱向子樣本 (n = 2,675) 中隨時間變化的適應度變化的適應性和適用性。我們在當前和未來適應度之間的差異(delta)中評估模型的推理能力。對于最后一項任務,模型產生的結果轉化為預測的 delta 和真實 VO2max 的 delta 之間的 0.57 相關性。最后,該模型產生的潛在表征為大規模的健身意識監測和干預鋪平了道路。

本論文的最后一章(第 7 章)反映了前幾章提出的新見解和結果,并概述了局限性以及潛在的未來研究方向。

付費5元查看完整內容

摘要

生物醫學數據收集的最新進展允許收集大量數據集,測量數千到數百萬個單細胞中的數千個特征。這些數據有可能以以前不可能的分辨率推進我們對生物機制的理解。然而,了解這種規模和類型數據的方法很少。盡管神經網絡在監督學習問題上取得了巨大進步,但要使它們對更難表示監督的數據中的發現成為有用,還有很多工作要做。神經網絡的靈活性和表現力有時會成為這些監督較少的領域障礙,從生物醫學數據中提取知識就是這種情況。在生物數據中更常見的一種先驗知識以幾何約束的形式出現。

在本論文中,我們旨在利用這些幾何知識來創建可擴展和可解釋的模型來理解這些數據。將幾何先驗編碼到神經網絡和圖模型中,使我們能夠描述模型的解決方案,因為它們與圖信號處理和最優傳輸領域相關。這些鏈接使我們能夠理解和解釋這種數據類型。我們將這項工作分為三個部分。第一個借用圖信號處理的概念,通過約束和結構化架構來構建更具可解釋性和性能的神經網絡。第二個借鑒了最優傳輸理論,有效地進行異常檢測和軌跡推斷,并有理論保證。第三個研究如何比較基礎流形上的分布,這可用于了解不同的擾動或條件之間的關系。為此,我們設計了一種基于聯合細胞圖上擴散的最佳傳輸的有效近似。總之,這些工作利用我們對數據幾何的先前理解來創建更有用的數據模型。我們將這些方法應用于分子圖、圖像、單細胞測序和健康記錄數據

引言

數據分析領域在不斷變化。有人問是否會有一天我們不再需要新算法,數據分析領域就像從現成的工具中挑選合適的工具并將其應用于一些新數據一樣簡單。答案當然是否定的,只要數據、計算機或問題不斷變化,我們將始終需要新的算法和方法。

數據生成、處理和存儲方面的進步為我們提供了前所未有的從這些數據中學習的能力。在某些領域,幾何數據分析領域試圖利用點之間的局部關系來理解數據。

隨著廉價測序技術的出現,單細胞數據分析領域直到最近才成為可能,使我們能夠同時測量單個細胞的許多特征。這導致來自底層連續流形的非常高維和嘈雜的數據集。這種對數據生成過程的假設是整個工作中的一個共同主題,我們將看到其他先驗知識開始發揮作用,這些先驗最好使用一種或另一種文獻進行描述。

本論文從第 2 章中對圖信號處理、深度學習和最優傳輸的概述開始。雖然這些領域是從不同的文獻中發展而來的,但每個領域都試圖理解從一些基礎度量空間中采樣的點或點的分布如何相互關聯。在本論文中,我們融合了來自這些領域的想法,以深入了解生物醫學數據,重點關注單細胞轉錄組數據以及其他圖形和圖像數據集。這些數據類型的共同點是它們要么在圖數據集中具有點之間的一些內在關系,要么假設是從一些可以在本地表示的底層低維流形中采樣的。

本論文分為三個部分,第一部分側重于融合深度學習和圖信號處理,通過借鑒圖信號處理的思想來制作更具可解釋性的深度學習組件,并借鑒深度學習的思想來制作從圖信號開發性能更高的固有可解釋模型加工。第二部分融合了深度學習和最優傳輸,以創建具有可解釋屬性的深度學習模型。最后,在第三部分中,我們將其完整循環,將最優傳輸和圖形信號處理相結合,以一種基于嵌入的快速方法來優化從底層流形采樣的點的傳輸。這種基于嵌入的方法使我們能夠快速逼近許多分布之間的 Wasserstein 距離,而無需解決成對優化問題。

在第 3 章中,我們首先使用來自圖信號處理的思想提出了一種更具可解釋性的深度學習架構。一層中的神經元在排列下是無序的和等效的,因此從Run-to-Run可能很難找到負責特定功能的神經元。我們通過在給定神經網絡層中的神經元之間施加圖結構來向層添加結構。這導致更多可重復和可解釋的層,其中神經元將通過打破標準架構中權重對稱性而不降低表達性,基于圖結構從Run-to-Run執行相同的功能。

在第 4 章中,我們將深度學習的思想引入幾何散射。先前的工作表明,幾何散射在性能方面與從深度學習文獻中開發的當前圖神經網絡架構具有競爭力 [73],但對新數據不那么靈活,依賴于許多固定參數。在本章中,我們研究了更靈活的幾何散射網絡的好處,我們稱之為可學習幾何散射(LEGS),它允許我們學習固定的散射參數。我們表明這在生物醫學圖中特別有用,其中有各種各樣的圖,從小型密集連接圖到大型稀疏連接圖。事實證明,LEGS 的額外靈活性有助于適應這些不同的數據類型。

在第 5 章中,我們將來自最優傳輸的想法應用于無監督異常檢測問題。這里的目標是給定一個正常點的訓練樣本,建立一個可以檢測異常點的模型。例如,在給定一組狗圖像的圖像中,檢測測試集中的貓。一般來說,這個問題是使用基于重建的方法來解決的,訓練一個容量有限的模型來重建訓練集,然后根據這個模型重建它們的好壞對測試圖像進??行評分,這個想法是模型將無法重建遠離訓練集的點.我們指出了這種方法的三個問題,并提出了一種基于容量受限編碼器的不同方法,該編碼器直接對輸入點進行評分。我們將其與解決 Wasserstein 距離的對偶相關聯,并將其應用于理論以提供模型輸出的保證。

在第 6 章中,我們將稱為連續歸一化流 (CNF) [38] 的特定深度學習模型與動態最優傳輸聯系起來。然后,我們使用它來模擬單個細胞隨時間的軌跡。當前單細胞轉錄組測量的一個問題是它們具有破壞性——測量細胞的狀態會破壞細胞。這使得隨著時間的推移測量單個細胞變得困難。在這里,我們在多個時間點收集人口水平數據,并使用正則化 CNF 推斷單個細胞軌跡。我們表明,我們可以根據單細胞時間序列數據更準確地模擬細胞狀態隨時間的變化。

在第 7 章中,我們將流形上的最優傳輸與該圖上的一系列多尺度擴散聯系起來。通過比較圖上分布的擴散行為,我們可以快速估計推土機的距離,特別是當我們在 Wasserstein 度量中尋找具有多種測地線地面距離的最近鄰分布時。我們展示了如何將現有的多尺度方法推廣到推土機的距離計算中,并在將其擴展到圖形域的同時提高速度和準確性。

在第 8 章中,我們將第 7 章的工作擴展到不平衡最優傳輸,它融合了推土機距離(Earth-Mover distance)和無度量的總變化距離。直觀地說,這允許創建和銷毀(成本)而不是傳輸質量。我們將這種新的不平衡傳輸應用于醫學概念知識圖譜,以理解從患者筆記中提取的概念。

本論文的以下章節基于以下出版物和預印本。完整出版物的鏈接://alextong.net/publications

圖 8.6:使用 TV 距離(頂部)和 UDEMD 距離(底部)在 Snomed-CT 圖上建模為信號的患者嵌入,由患者診斷著色。 UDEMD 更好地組織空間,如 (b-c) 中的選定項、(d) 中的混淆矩陣的差異以及 (e) 中診斷的 k-最近鄰分類精度所指出的那樣。在 (b) 中,請注意 TV 嵌入(頂部)在顯示無法通過診斷區分的顱內出血的患者子集之間產生虛假分離(由于信號中的噪聲)。另一方面,UDEMD 嵌入(底部)顯示了具有此診斷的患者的連續體。對于以綠色顯示的腦腫塊或腫瘤患者也是如此。 (c) UDEMD 嵌入將患有急性冠狀動脈綜合征的患者組織成一個連續的軌跡,出院的患者(較輕的病例)朝向底部,更嚴重的病例朝向頂部。TV嵌入再次分裂了這個軌跡。

付費5元查看完整內容
北京阿比特科技有限公司