亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要

智能手機和可穿戴設備的廣泛采用導致了豐富數據集的積累,這有助于以從未有的細節理解行為和健康。與此同時,機器學習,特別是深度學習在各種預測任務中取得了令人矚目的表現,但它們在時間序列數據上的使用似乎具有挑戰性。由于噪聲、稀疏性、行為的長尾分布、缺乏標簽和多模態,現有模型難以從這種獨特類型的數據中學習。本論文通過開發新模型來解決這些挑戰,這些模型利用多任務學習進行準確預測,多模態融合來改進種群子類型,以及自我監督來學習廣義表示。我們將我們提出的方法應用于通過傳感器數據預測心理健康和心肺健康的現實世界任務。

首先,我們研究從智能手機(運動和背景音頻)收集的被動數據與瞬時情緒水平的關系。我們的新訓練管道將不同的傳感器數據結合到低維嵌入中,并將縱向用戶軌跡聚類為結果,優于僅基于心理學問卷的傳統方法。其次,由于情緒不穩定作為心理健康狀況不佳的預測因素,我們提出了用于時間序列預測的編碼器 - 解碼器模型,該模型利用多任務學習的情緒雙模態。

接下來,受視覺和語言任務中通用模型成功的推動,我們提出了一種自我監督的神經網絡,可用作可穿戴數據的特征提取器。為此,我們將心率響應設置為活動數據的監督信號,利用它們潛在的生理關系,并表明由此產生的與任務無關的嵌入可以泛化通過遷移學習(例如 BMI、年齡、能量)預測結構不同的下游結果支出),優于無監督自動編碼器和生物標志物。最后,承認健康狀況是整體健康的一個強有力的預測指標,然而,這只能用昂貴的儀器(例如,最大攝氧量測試)來測量,我們開發了能夠準確預測當前可穿戴設備的細粒度健康水平的模型,更重要的是,近十年后它的方向和規模。

所有提出的方法都在大型縱向數據集上進行評估,有成千上萬的參與者。本論文中開發的模型和得出的見解為更好地理解高維行為和生理數據提供了證據,這些數據對大規模健康和生活方式監測具有重要意義。

第一章 引言

1.1 研究動機

計算機和數據已經改變了我們獲取信息的方式、我們的交流方式以及我們對科學的思考方式。大型數據集的管理已經徹底改變了許多領域,實現了幾十年前無法想象的規模(Aad等人, 2012)。但是孤立的數據是沒有意義的;我們的努力應該有針對性地提取影響決策并最終改善生活的可行見解和知識。

健康數據是直接改變生活的最佳選擇。我們處理這些數據的方式的進步可以改變我們的社會。盡管絕大多數醫學研究都研究臨床數據(實驗室、影像學、生命體征等),但普通人每年只看醫生大約 5 次(Kim 等人,2014 年)。另一方面,可穿戴傳感和移動計算的最新進展以及它們的廣泛采用,為在實驗室和醫院環境之外以縱向方式收集健康和福祉數據創造了新途徑。除了“填補”傳統臨床數據的空白外,這些設備還為大規模生活方式監測開辟了新的研究和商業方向。例如,全球數百萬人使用此類設備來跟蹤他們的身體活動和睡眠,并具有越來越復雜的預測能力(Althoff 等人,2017 年)。

與此同時,看似完全不同的力量,如成熟的開源科學軟件庫、更容易的數據眾包和標簽,以及專用硬件(顯卡)的再利用,都使預測建模得到了顯著改進。許多機器學習 (ML) 任務都取得了令人印象深刻的性能,從圖像中的對象識別(He 等人,2016 年)到在圍棋、雅達利和國際象棋游戲中贏得最佳玩家(Schrittwieser 等人,2020 年) ,或在乳腺癌篩查方面表現優于專家(McKinney 等人,2020 年)。在所有這些案例中,共同點是管理高質量的大型數據集,這些數據集允許模型利用潛在模式并隨后在現實世界中進行泛化(Hyland 等人,2020 年)。然而,尤其是在錯誤預測可能產生嚴重后果的健康領域,此類系統的推出和采用遭到了抵制(Davenport 和 Kalakota,2019 年)。相反,在線服務、社交網絡或流媒體服務等低誤報成本和高數字化率的領域,不僅接收機器學習,而且積極推動研究界進一步發展計算機視覺和自然語言領域發展。

類似于社交網絡如何學習我們的在線行為,可穿戴設備和移動設備監控我們在現實世界中的活動。通過跟蹤我們的睡眠、步數、飲食和工作習慣,他們可以全面了解我們日常健康中最重要的組成部分(世界衛生組織,2002 年),然而現在只有通過調查才有可能。盡管我們認識到此類數據集的價值,但機器學習在健康和移動傳感方面的進展并沒有跟上其他領域的步伐。例如,在過去十年中,Fitbit 或 iPhone 等設備一直在以前所未有的時間分辨率收集多模式傳感器數據。然而,有效利用這些數據集帶來了許多挑戰,導致這些數據在科學和醫學研究中經常被忽視。此外,在這個粒度上獲得高質量注釋和基本事實可能是昂貴的,甚至是不可能的。需要新的計算方法來應對這些挑戰,本論文試圖彌合其中的一些差距。

1.2 傳統身心健康監測的局限性

盡管檢測和了解心理和身體健康的波動很重要,但醫生和研究人員仍受到一個關鍵限制的阻礙:缺乏可靠和有意義的數據。大多數已建立的研究和臨床實踐都是基于紙筆書面的自我報告和調查,雖然在沒有替代方案的情況下很有價值,但它們會受到偏見并且經常提供不完整的信息(Brenner 和 DeLamater,2014 年)。

個人可能不準確地回憶起他們的行為,報告他們習慣的理想化版本或它們的某種組合。先前的研究發現,自我報告的身體活動存在報告偏差,這源于社會期望偏差(報告被視為社會期望的行為),以及精確報告身體活動行為的強度、持續時間和頻率的認知復雜性(Sallis and Saelens,2000)。此外,對自我報告行為的理解僅限于向研究參與者提供的特定問題集。這些可能不足以反映復雜行為的完整視圖。報告錯誤導致的不準確可能隨機分布在所研究的人群中。這些錯誤也可能是系統性的,不同人群中的參與者系統地低于或過度報告他們的活動水平。這可能導致錯誤關聯的識別。

與身體健康類似,偏見會以更微妙的方式影響心理健康研究。被要求報告他們的情緒水平或測試抑郁癥的患者可能會被自我強化循環中的問題內容觸發,這可能弊大于利(Labott 等人,2013 年)。為了減少對使用自我報告身心健康測量研究中的偏見擔憂,應盡可能根據金標準測量或客觀測量對問卷進行驗證。來自移動設備的數據可以結合兩者:由于推送通知,自我報告總是帶有時間戳和上下文,而被動傳感器可以不顯眼地客觀地監控行為。

1.3 多感官機器學習的挑戰

在大多數領域,科學家的典型工作流程涉及解釋數據集方差的綜合變量。直到最近,這個過程的特點是精細的特征工程,以便構建能夠區分某些類別的信息特征(在分類的情況下)。現在,深度神經網絡可通過學習潛在特征作為優化過程的另一作用以及實現最先進的結果(LeCun等人, 2015)來自動化這項任務。這對于移動傳感數據更為重要(圖 1.1 展示了移動傳感器數據的典型機器學習工作流程示意圖)。

圖 1.1:機器學習工作流的生命周期。處理來自個人設備的數據時遵循的迭代步驟。本論文對應用于整個生命周期的方法做出了貢獻,特別關注新穎的特征提取和表示方法,以及推廣到以縱向方式收集的新數據。

來自加速度計、心電圖 (ECG)、陀螺儀和麥克風等常見傳感器的數據通常表示為高維時間序列 (Lane等人, 2010)。與其他數據類型不同,這些傳感器測量是有噪聲的,盡管在小規模研究中人工設計的特征已被證明是有效的(Wang等人, 2014),但要為個人用戶行為的不同噪聲水平選擇魯棒的特征并不簡單。移動測量中的噪聲很難建模,因為它與時間相關 (Park, 2004) 并呈現非線性結構 (Ang et al., 2007)。除了噪聲之外,建模傳感器數據的挑戰還延伸到不同的稀疏程度(Abedin 等人,2019;Ghassemi 等人,2015)、無法獲得高質量注釋和標簽(Bulling 等人,2014)以及異構數據類型(Radu 等人,2018 年),與已建立的基準任務中使用的類型不同。

描述這些挑戰的說明性場景可能是個人在洗澡時摘下智能手表。手表的光傳感器可能會從遠處的表面反射,從而記錄錯誤的心率(噪音);非磨損期會產生不規則的采樣數據,這些數據必須用預期的傳感器值(稀疏性)進行估算;用戶不太可能在分鐘級別注釋此事件或其他事件(標簽稀缺性)。此外,當最終佩戴時,運??動傳感器和心臟傳感器對壓力等外部刺激(多模態)的反應會有所不同(Bent 等人,2020 年)。

尺度也不同。大型縱向研究,如 UK Biobank (Doherty等人, 2017)、Apple Study (Perez等人, 2019)、Fenland Study (O'Connor等人, 2015)、Utsureko (Suhara等人, 2017) ) 和 EmotionSense (Servia-Rodr′?guez等人, 2017) 一直在使用可穿戴傳感器監測數萬名參與者的身心健康。例如,超過 200000 名 Fitbit 用戶的靜息心率升高被用于預測美國的流感樣疾病(Radin 等人,2020 年)。然而,諸如廣義線性混合模型之類的統計方法對具有重復測量的縱向數據進行操作(例如,單個用戶出現多天),無法擴展到該數量的受試者(Zhang等人, 2016)。此外,鑒于之前的移動健康研究是通過受控實驗和有限數量的參與者進行的(Sano,2016;Jaques 等,2017;LiKamWa 等,2013),尚不清楚之前的發現和方法是否可以轉移到這些大型數據集。此外,缺乏對參與的嚴格控制以及促進參與的有限機制,使得收集的數據更難以解釋。

可以說,這里的潛在挑戰是表示。機器學習試圖找到有意義的表示,將數據轉換為線性可分的空間并區分語義類。從捕獲圖像數據集結構的卷積網絡的低維嵌入 (LeCun等人, 2015) 到最近通過預測輸入數據的失真樣本來學習更好特征的自監督網絡,它已經走了很長一段路(Devlin等人,2019)。但是了解多感官測量如何跨時間相互關聯意味著構建個人健康狀態的表示。本論文認為,未來健康機器學習的一些基本組成部分將是多任務處理、遷移學習和預測。我們現在知道,執行多項任務的模型不僅更有用,而且還使每個單獨的任務更加魯棒(Kaiser等人, 2017)。此外,能夠推理未來的模型可以更好地跨不同環境遷移(Chen等人, 2021)。因此,我們需要模型來通過改進數據表示來解決這些挑戰,該表示利用跨傳感器關系并盡可能少地依賴手動注釋。

1.4 論文與論證

我們回顧了移動健康機器學習改進帶來的一些潛在好處,采用傳統方法時會出現哪些限制,以及在處理含噪的傳感器數據時會遇到哪些挑戰。形式上,總體目標可以表述為:改進機器學習方法,用于由消費者移動和可穿戴設備生成的動態和靜態、多任務和有限監督的觀察、回顧和縱向數據,用于最終目標是改善健康和福祉,重點是心理和身體健康。我們通過首先評估現有方法在大規模身心健康數據集上的潛力,然后提出優于當前方法或提供新見解的新模型來證實這一說法。我們的方法利用并擴展了多模態融合、多任務學習、時間序列預測、遷移學習和自我監督學習的范式。特別是,本論文解決了以下四個研究問題:

? 研究問題1。我們如何使用機器學習將被動傳感器時間序列與傳統的用戶級元數據相結合,以區分集群用戶軌跡?

? 研究問題2。多任務學習和編碼器-解碼器模型在多步時間序列預測中的效果如何?

? 研究問題3。我們如何訓練具有自我監督的通用神經網絡來利用大量未標記的時間序列數據?

? 研究問題4。我們如何使用深度學習對自由生活的可穿戴傳感器數據進行長期心肺健康預測?

為了解決這些問題,我們開發了可以融合時間序列和表格數據的模型,以及能夠準確預測心理健康的序列模型。此外,我們設計了新穎的自我監督任務,利用大量未標記的時間序列數據,并提出了新模型,以使用自由的生活傳感器數據來預測健康水平。

1.5 貢獻和章節大綱

在方法方面,我們將深度學習模型定制為未標記的時間序列。在應用領域,我們采用機器學習方法來應對身心健康領域的挑戰性任務。我們將從第 2 章介紹序列數據深度學習的背景開始,然后介紹延伸到本文其余章節的四個主要貢獻,如下所示:

貢獻 1:用于大規模情緒預測的多模態機器學習

在第 3 章中,我們展示了心理特征與被動收集的感知數據(加速度計的活動和麥克風的噪聲水平)相結合,可以檢測出一般情緒偏離普通放松的個體特征。我們使用來自 EmotionSense 研究的數據驗證了我們的方法,該研究是在野外收集的一個大型移動應用程序數據集,有 17,251 名參與者,發現這些模式的組合實現了最佳分類性能,并且被動感知的準確性提高了 5%。這項研究背后的主要動機是,經驗抽樣已被提出作為一種監測心理健康的機制,但它需要用戶的關注,因此會導致相當大的保留問題。我們研究是否可以使用被動感知和一次性調查來識別放松和不放松的用戶,并通過擴展來不顯眼地監測心理健康。

建議的方法包括兩個步驟。首先,使用標準算法(如 k-means)對歷史情緒軌跡(特征提取后)進行聚類,以找到具有相似軌跡的用戶組。其次,將用戶分類到找到的集群中。我們的管道采用特征選擇、降維和分??類算法,例如梯度提升樹和深度神經網絡。

實驗結果表明,通過在個性和人口統計調查中加入被動感知,我們可以更準確地預測個人用戶的情緒群體。當使用每周傳感器(加速度計和麥克風)和一次性問卷數據作為輸入時,我們的模型實現了 75% 的 AUC。我們討論了這種多模態數據的特征提取技術和適當的分類器,以及在處理靜態和動態特征時深度神經網絡的過擬合缺點。這些發現可能對移動健康應用程序產生重大影響,這些應用程序可以受益于被動傳感的正確建模以及額外的用戶元數據。

貢獻 2:用于情緒時間序列預測的多任務和序列學習

在第 4 章中,我們提出了一個端到端的編碼器-解碼器模型,用于從之前的自我報告的情緒中預測未來情緒的序列。我們的結果表明,多任務同時學習情緒的兩個維度,這比單個模型或基線更準確。此外,繪制神經激活圖有助于我們了解情緒的潛在軌跡,以及事后錯誤分析確定模型在用戶個性、情緒變化或星期幾方面的表現存在顯著差異。這項研究背后的主要動機是心理學家主要使用筆和紙調查來跟蹤心理健康,這與移動應用程序不同,容易產生回憶偏差。在更技術方面,我們表明當前的心理健康機器學習模型不能提供長期預測,也不能從時間序列中學習復雜的模式。

所提出的方法依賴于端到端長短期記憶 (LSTM) 編碼器-解碼器模型。該序列通過一個 LSTM,被轉換為單個向量,并通過另一個預測未來序列的 LSTM 進行解碼。此外,在處理健康數據時,模型的可解釋性總是很重要,因此我們分析了訓練模型各層的作用。隨著我們進入更深層次,我們看到網絡展示了積極和消極情緒的連續統一體,盡管它已經被訓練為僅預測情緒。此外,通過檢查解碼器的單個神經元,我們觀察到一些神經元幾乎總是以相同的斜率發射,而另一些則更保守,幾乎是平線。這有助于我們識別情緒演變的不同亞型。

在這里,我們再次使用來自 EmotionSense 研究的數據,但是,這次我們只使用了自我報告的情緒序列。我們的結果表明,3 周是情緒報告的最佳窗口,驗證了之前關于抑郁癥預測的研究。此外,我們的模型優于機器學習回歸器和簡單基線,而多任務學習似乎有助于預測警覺性(兩個情緒維度之一)。我們相信這項工作為心理學家和未來移動心理健康應用程序的開發人員提供了一種即用型且有效的工具,用于大規模早期診斷心理健康問題。

貢獻 3:來自自由生活可穿戴數據的生理表征的自監督遷移學習

在第 5 章中,我們開發了一種新穎的自監督通用神經網絡,該網絡將活動數據映射到心率響應,并可用作特征提取器可穿戴數據。它的功能可用于根據用戶獨特生理進行個性化的各種實際下游任務,并且該模型在通過消融研究評估的上游和下游任務中優于一組強大的基線。

對于預訓練,我們引入了一個聯合損失函數,它通過使用模型的預測密度的分位數來作為傳統均方誤差的正則化器,以逼近 HR 數據的長尾,這是現實中普遍存在的問題-世界(健康)數據。在那里,我們表明,包括單一的靜息心率測量具有顯著影響,并且結合時間戳的循環建模,在自由生活條件下實現了 ~9 BPM 的最低誤差。

在下游,我們通過將窗口級特征聚合到用戶級特征來執行一組下游遷移學習任務,并通過在推斷生理上有意義的變量、優于自動編碼器和常見生物標志物方面的強大性能展示學習嵌入所捕獲的價值。例如,我們的模型實現了體重指數 (BMI) 預測的 AUC 為 0.70,體育活動能量消耗的 AUC 為 0.80。通過檢查嵌入,我們還注意到大多數結果隨著潛在維度的增加而改善,而有些結果對其大小保持不變。

我們使用最大的多模式可穿戴心電圖和腕部加速度測量數據集 Fenland 研究評估該模型,包括跟蹤一周的 1,700 多名參與者,以及使用臨床實驗室設備測量的相關健康結果。我們執行消融測試以顯示不同模式和架構組件的性能。總體而言,我們提出了一種用于行為和生理數據的多模態自我監督方法,對大規模健康和生活方式監測具有重要意義。

貢獻 4:使用深度學習從自由生活可穿戴設備預測適應性心肺健康

在第 6 章中,我們利用可穿戴數據和常見生物標志物開發深度學習模型,以預測健康的黃金標準(VO2max),并實現與其他產品相比的強大性能傳統方法。

心肺健康是代謝疾病和死亡率的公認預測指標。健康狀況直接測量為最大耗氧量 (VO2max),或使用對標準運動測試的心率反應進行間接評估。然而,這種運動測試成本高且繁重,限制了其在醫療保健和大規模人口研究中的實用性。也可以使用 RHR 和自我報告的鍛煉習慣來近似健身,但與基于動態數據的估計相比,準確性較低。現代可穿戴設備捕獲非標準化動態數據,可以改善健康預測。

在這里,我們使用更大的 Fenland 研究隊列,并分析來自一項人口研究的可穿戴傳感器在自由生活條件下的運動和心率信號,該研究包括 11,059 名參與者,這些參與者也接受了標準運動測試。我們開發了一個深度神經網絡模型,該模型利用傳感器信息來預測 VO2max,與保持樣本中的基本事實相比,產生 r = 0.82 [CI 0.80-0.83] 的 Pearson 相關性。該模型使用正常日常生活的測量結果優于傳統的非運動健身模型和傳統的生物標志物,無需進行特定的運動測試。此外,我們展示了這種方法在檢測 7 年后重復測量的縱向子樣本 (n = 2,675) 中隨時間變化的適應度變化的適應性和適用性。我們在當前和未來適應度之間的差異(delta)中評估模型的推理能力。對于最后一項任務,模型產生的結果轉化為預測的 delta 和真實 VO2max 的 delta 之間的 0.57 相關性。最后,該模型產生的潛在表征為大規模的健身意識監測和干預鋪平了道路。

本論文的最后一章(第 7 章)反映了前幾章提出的新見解和結果,并概述了局限性以及潛在的未來研究方向。

付費5元查看完整內容

相關內容

智慧醫療英文簡稱WIT120,是最近興起的專有醫療名詞,通過打造健康檔案區域醫療信息平臺,利用最先進的物聯網技術,實現患者與醫務人員、醫療機構、醫療設備之間的互動,逐步達到信息化。

摘要

對氣象數據進行聚類在多個方面都是一項有價值的工作。結果可以在更大的氣象預報框架內以各種方式使用,或者可以簡單地用作表征特定感興趣區域的氣候差異分析工具。這項研究提出了一種基于在大約 11 個月的長時間范圍內,溫度時間序列相似性對地理位置進行聚類的方法。為此,使用了一種利用深度學習的新興且強大的聚類技術,稱為深度表示聚類 (DRC)。此外,提出了一種時間序列特定的 DRC 算法,以解決該領域的當前差距。最后,與傳統的數值氣象預報(NWP)相比,基于深度學習的氣象預報作為一種獲得更快速預測的手段,是一個越來越普遍的研究課題。由于它們是控制大氣行為的已知物理方程,即 Navier-Stokes 方程,因此探索了將這些定律重新表述為基于物理的損失函數的概念,特別感興趣的是用這種損失函數訓練的模型是否可以勝過它的基線對應物。

圖 15:時間序列聚類方法流程圖

1 引言

氣象預報有著悠久的歷史,它植根于基本的物理原理。 20 世紀初的科學家們注意到,大氣可以被視為一種流體,因此可以使用偏微分方程 (PDE) 進行建模,并建立了描述流體特性隨時間和空間變化的物理原理 [21]。這些在氣象預報領域被稱為數值氣象預報 (NWP) 的方法隨著時間的推移有了很大的改進,目前代表了標準的氣象建模方法。然而,深度學習和機器學習方法的進步引起了人們對將數據驅動的方法應用于氣象建模和預測問題的極大興趣。此外,正在進行研究以專門解決在物理過程建模中使用深度學習方法的問題,其中與氣象一樣,通常有關于可以利用的過程的現有信息。

機器和深度學習技術(如聚類)也可用于分析氣象數據。這通常是為了將在廣泛區域內經歷相似氣象模式的時間段組合在一起,但也可以將在很長一段時間內經歷相似氣象模式的地理區域組合在一起。這兩種方法都可以幫助建立更廣泛的氣象預報框架,而后者也可以用來提供一個地區氣候差異的一般特征。

這項研究以幾種方式增加了深度學習和大氣/氣候建模領域。首先,使用一種強大的新型聚類算法,在此稱為深度表示聚類 (DRC),將美國聚類到在時間序列形狀和氣象動態方面具有相似性的地理區域。其次,將解決當前對 DRC 研究的空白。具體來說,據我們所知,還沒有發布任何時間序列特定的 DRC 算法。相反,在處理時間序列數據時,大多數人在其聚類算法的核心使用基于歐幾里德的距離度量,這可能會產生不良結果。最后,探討了在深度學習模型中利用已知物理定律進行 24 小時氣象預報的前景。

1.1 動機與背景

1.1.1 深層氣象預報中的聚類分析

聚類

獲得準確氣象預報的復雜性和難度怎么強調都不為過。基本過程是高度非線性、混沌和非平穩的。雖然這些類型的現象可以通過神經網絡建模,但以任何方式暗示正在經歷的氣象模式類型的信息可以在更廣泛的預測框架中使用。這使一些研究人員轉向了對氣象數據進行聚類并使用聚類的性質和成員資格來通知神經網絡 [22] 的想法。此外,為了對區域氣候進行分類,對地理位置進行分組的歷史由來已久[17]。一種尚未探索的方法是直接使用時間序列數據和適當的時間序列距離度量來解釋時間序列的形狀。這樣做會產生與大氣測量結果相似的位置集群。同樣,這些結果可用于各種目的。在氣象預報框架中,這可用于構建特定于集群的模型,以了解每個集群中氣象的典型復雜行為。通過為每個集群擬合獨特的模型,他們有更好的機會通過關注這些位置的典型行為來學習在其集群中觀察到的復雜關系。聚類結果也可以更普遍地用作對一個地區的氣候進行廣泛分類的一種方式。

動力學

在某些研究領域中,時間序列分析的研究與動力系統的研究存在脫鉤。在處理氣象數據時,始終認識到每個時間序列只是較大動力系統的一維投影這一事實很重要,特別是因為我們希望部分基于每個時間序列的潛在動力學相似性來驅動集群形成地點。出于這個原因,提出的 DRC 算法特別注意驅動動態感知集群的形成。

1.1.2 時間序列的深度表示聚類

時間序列聚類

聚類時間序列數據存在一些獨特的挑戰。這源于這樣一個事實,即聚類需要使用距離度量或度量來確定點的相似性或相異性。在靜態數據的情況下,數據點或向量 x ∈ R n 表示觀察的 n 個特征,而時間序列向量 y ∈ R n 表示系統某些特征的時間測量值。測量靜態數據向量之間的相似性通常與歐幾里德距離相關聯,并且適當地如此。但是,要理解為什么這在時間數據的情況下可能會出現問題,請考慮圖 1 中的時間序列。

圖 1. 除了相位之外,兩個正弦波完全相同。如果使用歐幾里德距離進行比較,它們將被認為遠不如預期的相似。此外,時間序列質心計算通常最好使用 dtw 重心平均或其變體來完成。

雖然很明顯,這是兩個相位稍有偏移的相同正弦波,并且在聚類的情況下應該被認為是高度相似的,但歐幾里德距離會產生一種錯誤的不相似感。為了通過氣象模式的相似性對地理位置進行分組,我們的距離測量必須考慮時間變化和變化。

質心計算是許多聚類算法的另一個基本組成部分。就像歐幾里得距離會錯誤地表示兩個時間序列的真實相似性一樣,用于質心計算的算術平均值也會產生不自然的時間序列平均值。具體來說,算術平均值通常會產生一個在形狀方面嚴重扭曲的平均值,因此不能恰當地代表其組成部分。回到圖 1,可以看出算術平均曲線(綠色)是兩個正弦波形的錯誤表示,而紅色曲線是基于動態時間規整 (DTW) 的平均值,稍后將更詳細地介紹,對于這些時間序列來說是一個更好的“平均值”。

為什么選擇深度表示聚類 (DRC)?

深度表示聚類描述了一類使用神經網絡來輔助聚類任務的模型。主要方法結合了表示學習(通常通過自動編碼器)和聚類損失,以驅動形成集群友好的表示。由于該過程通常涉及表示學習,因此 DRC 非常適合高維、復雜的數據,因為它可以映射到低維表示。這在計算上和避免維度災難方面都很有用。由于這項研究的聚類任務涉及長而復雜的時間序列,DRC 是一種自然的方法。最后,M. Cuturi 和 M. Blondel 最近的研究工作產生了動態時間扭曲 (DTW) 損失的可微版本,稱為 soft-DTW [23],這很重要,主要有兩個原因。首先,時間序列不能與標準歐幾里得距離函數在相似性方面進行適當比較。取而代之的是像 DTW 這樣的東西,或者像 soft-DTW 這樣的松弛,對于解釋形狀的相似性是必要的。其次,由于 DRC 是一種基于神經網絡的方法,因此訓練中使用的所有損失函數必須是可微的,以便通過反向傳播促進參數優化,這是標準 DTW 所缺乏的特性。由于這些原因,softDTW 的開發非常適合創建可以適當處理時間序列數據的 DRC 算法。

1.1.3 深度氣象預報

有很多理由考慮使用深度學習方法來模擬物理過程,尤其是大氣動力學。首先,傳統的 NWP 方法在計算上非常昂貴,因為相關的 PDE 必須在每個預測周期用新的初始條件和邊界條件求解。此外,增強預測能力和預測分辨率需要增加計算資源。具體來說,研究人員已經表明,將預測分辨率翻倍需要計算能力提高一個數量級 [24]。另一方面,一旦訓練了深度學習模型,獲得預測的速度相對較快。

其次,數據驅動的方法很靈活,可用于幫助從業者快速開始在沒有出現區域高分辨率 NWP 的位置進行本地化預測。這對軍隊來說是一個顯著的好處。例如,當部隊被派往建立新的前哨時,首要任務之一是建造一個機場,以便可以進行進出基地的運輸和行動。了解和預測機場內外氣象的能力對于前哨基地的成功至關重要。然而,這不僅適用于機場運營。各種任務規劃都需要準確的氣象評估,在許多此類海外環境中,沒有提供高分辨率預測的區域/本地 NWP 模型。由參謀長聯席會議發布的題為“氣象和海洋行動”的聯合出版物 3-59 [25] 明確闡述了這一點,指出其聯合氣象和海洋 (METOC) 行動的基石是準確性、一致性、相關性和及時性。為了實現準確度目標,他們指出,“METOC 數據和信息在代表當前和未來環境狀態時必須是可衡量的正確”[25]。關于及時性,他們說,“及時性原則取決于產品源自最新的可用數據,快速處理和傳播,并在適當的時間整合到規劃和執行過程中”[25]。深度學習、數據驅動的模型通過提供一種快速獲得任何給定區域的預測的方法,專門解決了準確性和及時性目標。

最后,盡管最近才成為主流研究領域,但數據驅動的方法并不排除結合已知的物理原理。原始方程提供了大氣量如何在空間和時間上相互變化的數學描述,對于手頭的問題而言是有價值的信息,而與特定的建模方法無關。這些方程可以在神經網絡訓練框架中使用,以激勵符合已知物理定律的預測。這種方法利用了這些變量之間已知的物理關系,同時也受益于深度神經網絡(DNN)提供的通用函數逼近能力[26]。

1.2 問題陳述

本研究提出了一種新穎的基于形狀、動態感知的 DRC 算法,用于在地理上而非時間上對氣象數據進行聚類。此外,我們的目標是通過利用深度學習來提高氣象預報的速度和定位,同時允許深度神經網絡利用已知的物理原理。

1.3 論文的組織

第二章將首先探討有關氣象預報的歷史、深度氣象預報的當前研究、Navier-Stokes 方程和基于物理的深度學習方法的文獻。在此之后,將討論氣象聚類、動力系統和 DRC。

第三章將介紹兩種基于軟 DTW 的 DRC 算法,這些算法在氣象數據中的應用,以及 Navier-Stokes 啟發的基于物理學的損失函數概念證明,用于氣象預報。最后,第四章和第五章將分別提供結果、結論和未來工作。

圖27:k=9 的聚類圖。僅來自自動編碼器的初始聚類結果在 (27a) 中重新顯示,兩個 epoch 訓練后的 SDTW-KM-DRC 和 SDTW-KLD-DRC 結果分別在 (27b) 和 (27c) 中顯示。

付費5元查看完整內容

這本書對理解概率推理在感性決策和行動中的作用,提供了一個溫和的介紹,一個嚴謹的定量框架。概率或貝葉斯推斷是一種從不確定的證據中得出結論的方法。這本書解釋了有多少形式的感知和行動可以作為貝葉斯推理的數學模型。根據這些模型,人類的思維行為就像一個有能力的數據科學家(或者犯罪現場調查員,或者診斷醫生……)當處理有噪聲和模糊的數據時。近幾十年來,貝葉斯關于感知和行動的方法越來越受歡迎,并得到了廣泛的測試。

//www.cns.nyu.edu/malab/bayesianbook.html

推理在感知中起著核心作用。我們的眼睛、耳朵、皮膚和其他感覺器官記錄身體信號,并將這些信號轉化為電脈沖,傳輸到大腦,類似神經的摩爾斯碼。大腦必須解碼這些信號,并從這些信號中推斷出世界的狀態。眼睛記錄光的模式,但不能識別視覺場景。皮膚能感覺到壓力和振動,但不能識別引起這些刺激的外部物體。肌肉能感覺到緊張,但不能明確地指示身體的結構。耳朵能探測到聲波,但并不表明其含義。大腦承擔著這些困難的解釋任務,通過接收到的感官信息對世界做出感性的最佳猜測。

本書探索的貝葉斯方法對感知建模讓我們感到興奮,因為它解釋了豐富的數據,并成功地解釋了許多實驗的結果。在貝葉斯框架內,生物體的目標是計算描述世界狀態的參數的概率分布。這種計算是基于感官信息和從經驗中積累的知識。特定的感官信息和先驗知識是特定于手頭任務的,但計算在每個情況下都符合相同的概率演算規則。因此,貝葉斯方法將大量看似不同的行為統一在一個連貫的框架內。

雖然這本書的重點是感知和行動,貝葉斯模型在認知科學和心理學的其他領域是廣泛有用的。特別是,貝葉斯模型在高級認知[2]中有著豐富的歷史,至少可以追溯到喬納森·埃文斯[43]和約翰·安德森[21]的工作,對認知發展的理解做出了巨大貢獻[53,123]。本書中偶爾會出現更高層次的認知,特別是在第6章(學習)、第12章(變化世界中的推理)和第13章(推理與實用的結合)中。在第15章(背景中的貝葉斯模型)中,我們評論了感知和認知之間的差異。

付費5元查看完整內容

在一個特定的數據集上訓練一個強大的神經預測器執行一項任務的主流NLP范式取得了在各種應用上的成功(如:情感分類、基于廣度預測的問答或機器翻譯)。然而,它建立在數據分布是平穩的假設之上,即。在訓練和測試時,數據都是從一個固定的分布中取樣的。這種訓練方式與我們人類在不斷變化的信息流中學習和操作的方式不一致。此外,它不適合于真實世界的用例,在這些用例中,數據分布預計會在模型的生命周期中發生變化。

本文的第一個目標是描述這種偏移在自然語言處理環境中可能采取的不同形式,并提出基準和評價指標來衡量它對當前深度學習體系結構的影響。然后,我們繼續采取步驟,以減輕分布轉移對NLP模型的影響。為此,我們開發了基于分布魯棒優化框架的參數化重構方法。從經驗上講,我們證明了這些方法產生了更魯棒的模型,正如在選擇的現實問題上所證明的那樣。在本文的第三部分和最后一部分,我們探索了有效地適應現有模型的新領域或任務的方法。我們對這個主題的貢獻來自于信息幾何學的靈感,獲得了一個新的梯度更新規則,緩解了適應過程中災難性的遺忘問題。

我們從評估開始,因為分布轉移特別難以描述和測量,特別是在自然語言方面。這部分是由于數據缺乏規范的度量結構。換句話說,如何有效地衡量兩個句子之間的語義相似度還不清楚,因此沒有直接的方法來衡量兩個樣本之間的差異,更不用說兩種分布了。因此,作為解決分布偏移的第一步,我們提出了一個新的基準(第3章)和評估指標(第4章),分別評估域偏移和對抗擾動的魯棒性。有了這些工具在手,我們開始構建魯棒的模型,這些模型經過訓練,即使在沒有關于轉移本質的明確信息的情況下,對分布轉移也不那么敏感。這是通過利用訓練分布中的數據多樣性來實現的,以確保在訓練數據(子群體)中存在的各種領域上的統一性能。具體來說,我們制定了一個分布魯棒優化框架的參數化版本,該框架允許訓練模型對子群體轉移更為穩健(第5章和第6章)。最后,在靜態環境中學習從根本上是次優的:我們不能期望我們的模型在每一個可能的未來環境中都表現良好,我們必須能夠使它們適應我們遇到的任何新情況。因此,我們研究了一種機制,通過這種機制,我們能夠根據新的證據微調訓練模型,而不會忘記之前獲得的知識(第7章)。

//www.zhuanzhi.ai/paper/c5e7a9742d6a6313d63c5976499166dc

付費5元查看完整內容

機器學習正在醫療健康等各種關鍵應用得到實施。為了能夠信任機器學習模型,并在它出現故障時修復它,能夠解釋它的決策是很重要的。例如,如果一個模型在特定的子群體(性別、種族等)上的表現很差,找出原因并解決它是很重要的。在本文中,我們研究了現有可解釋性方法的不足,并介紹了新的ML可解釋性算法,旨在解決一些不足。數據是訓練機器學習模型的材料。如果不返回最初訓練ML模型的數據,就不可能解釋ML模型的行為。一個基本的挑戰是如何量化每個數據源對模型性能的貢獻。例如,在醫療健康和消費市場,有人提出個人應因其產生的數據而得到補償,但對個人數據的公平估值尚不清楚。在本文中,我們討論了數據公平價值評估的原則框架; 也就是說,給定一個學習算法和一個性能度量來量化結果模型的性能,我們試圖找到單個數據的貢獻。本論文分為3個部分,機器學習的可解釋性和公平性,數據估值,以及用于醫療健康的機器學習——所有這些都被一個共同的目標聯系在一起,即使機器學習的使用對人類的福祉更負責。

//searchworks.stanford.edu/view/13874839

付費5元查看完整內容

在本文中,我們研究了生成模型的幾個重要標準,并引入評價指標來解決每個問題,同時討論了生成模型評價中的上述問題。特別是,我們研究了測量生成輸出的感知現實主義的挑戰,并引入了一個人在循環中的評估系統,利用心理物理學理論,以人類知覺文獻和眾包技術為基礎,構建一個高效、可靠、并采用一致的方法比較不同的模型。除此之外,我們還分析了解纏性(Disentanglement),這是評估已學習表示的一個日益重要的特性,通過使用持久同調測量生成模型數據流形的內在特性。

//searchworks.stanford.edu/view/13883847

付費5元查看完整內容

概率圖建模(PGM)提供了一個框架,以設計一個可解釋的生成過程的數據和表達不確定性的未知數。這使得PGM對于理解數據背后的現象和決策非常有用。在可解釋推理是關鍵的領域內,PGM取得了巨大的成功,例如市場營銷、醫學、神經科學和社會科學。然而,PGM往往缺乏靈活性,這阻礙了它在建模大規模高維復雜數據和執行需要靈活性的任務(例如在視覺和語言應用程序中)時的使用。

深度學習(DL)是另一個從數據中建模和學習的框架,近年來取得了巨大的成功。DL功能強大,具有很大的靈活性,但缺乏PGM的可解釋性和校準性。

本文研究了深度概率圖建模(DPGM)。DPGM通過利用DL使PGM更加靈活。DPGM帶來了從數據中學習的新方法,這些方法展示了PGM和DL的優點。

我們在PGM中使用DL來構建具有可解釋潛在結構的靈活模型。我們提出一系列模型擴展指數族主成分分析(EF-PCA),使用神經網絡提高預測性能,同時加強潛在因素的可解釋性。我們引入的另一個模型類支持在建模順序數據時考慮長期依賴關系,這在使用純DL或PGM方法時是一個挑戰。該序列數據模型類已成功應用于語言建模、情感分析的無監督文檔表示學習、會話建模和醫院再入院預測的患者表示學習。最后,DPGM成功地解決了概率主題模型的幾個突出問題。

在PGM中利用DL也帶來了學習復雜數據的新算法。例如,我們開發了熵正則化對抗學習,這是一種與PGM中使用的傳統最大似然方法不同的學習范式。從DL的角度來看,熵正則化對抗學習為生成式對抗網絡長期存在的模式崩潰問題提供了一種解決方案。

付費5元查看完整內容

近年來,機器學習取得了顯著進展,提供了一些新功能,比如創建復雜的、可計算的文本和圖像表示。這些功能催生了新產品,如基于圖像內容的圖像搜索、多種語言之間的自動翻譯,甚至是真實圖像和聲音的合成。同時,機器學習已經在企業中被廣泛采用,用于經典的用例(例如,預測客戶流失、貸款違約和制造設備故障)。

在機器學習取得成功的地方,它是非常成功的。

在許多情況下,這種成功可以歸因于對大量訓練數據的監督學習(結合大量計算)。總的來說,有監督的學習系統擅長于一項任務:預測。當目標是預測一個結果,并且我們有很多這個結果的例子,以及與它相關的特征時,我們可能會轉向監督學習。

隨著機器學習的普及,它在業務流程中的影響范圍已經從狹窄的預測擴展到決策制定。機器學習系統的結果經常被用來設定信用限額,預測制造設備故障,以及管理我們的各種新聞推送。當個人和企業試圖從這些復雜和非線性系統提供的信息中學習時,更多(和更好)的可解釋性方法已經被開發出來,這是非常重要的。

然而,僅僅基于預測的推理有一些基本的限制。例如,如果銀行提高客戶的信用額度會發生什么?這些問題不能用建立在先前觀察到的數據上的相關模型來回答,因為它們涉及到客戶選擇的可能變化,作為對信用限額變化的反應。在很多情況下,我們的決策過程的結果是一種干預——一種改變世界的行動。正如我們將在本報告中展示的,純粹相關的預測系統不具備在這種干預下進行推理的能力,因此容易產生偏差。對于干預下的數據決策,我們需要因果關系。

即使對于純粹的預測系統(這是監督學習的強項),應用一些因果思維也會帶來好處。根據因果關系的定義,它們是不變的,這意味著它們在不同的情況和環境中都是正確的。對于機器學習系統來說,這是一個非常理想的特性,在機器學習系統中,我們經常根據我們在訓練中沒有看到的數據進行預測;我們需要這些系統具有適應性和健壯性。

因果推理和機器學習的交集是一個迅速擴展的研究領域。它已經產生了可供主流采用的功能——這些功能可以幫助我們構建更健壯、可靠和公平的機器學習系統。

本書介紹了因果推理,因為它涉及很多數據科學和機器學習工作。我們引入因果圖,著重于消除理解的概念障礙。然后我們利用這個理解來探索關于不變預測的最新想法,它給高維問題帶來了因果圖的一些好處。通過附帶的原型,我們展示了即使是經典的機器學習問題,如圖像分類,也可以從因果推理工具中受益。

付費5元查看完整內容

凸優化作為一個數學問題已經被研究了一個多世紀,并在許多應用領域的實踐中應用了大約半個世紀,包括控制、金融、信號處理、數據挖掘和機器學習。本文主要研究凸優化的幾個問題,以及機器學習的具體應用。

付費5元查看完整內容

機器學習應用在高風險領域(如刑事判決、醫學測試、在線廣告等)的流行,至關重要的是要確保這些決策支持系統不會傳播歷史數據中可能存在的現有偏見或歧視。一般來說,在算法公平文獻中有兩個關于公平的中心概念。第一個是個體公平,它要求公平的算法以相似的方式對待相似的個體。然而,在實踐中,通常很難找到或設計一個社會可接受的距離度量來捕獲個體之間關于特定任務的相似性。相反,在這篇博客文章中,我們關注的是公平的第二個概念,群體公平,更具體地說是統計上的平等,這本質上要求預測器的結果在不同的子群體中是平等的。

付費5元查看完整內容
北京阿比特科技有限公司