基于機器學習系統的決策，特別是當這種決策可能影響到人類的生命時，是機器學習界最感興趣的一個話題。因此，有必要為這些系統配備一種估計其發出的預測的不確定性的方法，以幫助從業者做出更明智的決策。在本工作中，我們介紹了不確定性估計的主題，并分析了這種估計在應用于分類系統時的特殊性。我們分析了不同的方法，這些方法被設計用來為基于深度學習的分類系統提供測量其預測的不確定性的機制。我們將審視如何使用不同的方法對這種不確定性進行建模和測量，以及對不確定性的不同應用的實際考慮。此外，我們還回顧了一些在開發此類度量標準時應注意的屬性。總而言之，本調查旨在為分類系統中不確定性的估計提供一個務實的概述，這對學術研究和深度學習從業者都非常有用。

1 引言

機器學習（ML）目前存在于各種應用和領域。目標識別、自動字幕和機器翻譯只是機器學習，特別是深度學習（DL）為競爭性業務服務的多個領域中的一部分。在某些應用領域，如自動駕駛或自動病人診斷支持系統，所需的性能水平非常高。預測的失敗會導致嚴重的經濟損失，甚至是人命的損失。因此，需要有管理自動決策所帶來的風險的方法，特別是對這些類型的應用。

在應用深度學習系統（機器學習的一個子領域）時，管理這種風險尤其重要。深度學習是基于使用豐富的人工神經網絡（ANN）的架構。它與傳統機器學習系統的主要區別之一是假設這些ANN可以捕捉到輸入數據的有意義的特征，并使其適應學習任務。通過委托這些模型中的特征工程，DL使得分類系統的設計更加簡單。

然而，這種將特征工程委托給模型的做法，以及許多現代DL架構中存在的大量模型參數，使得這些系統難以解釋。如果我們在獲得的預測中加入一個不確定性的度量，使我們能夠管理決策中使用的風險，那么這種缺乏可解釋性的問題就可以得到解決。然而，不確定性的概念不是單一的，甚至沒有一個公認的定義，因為它存在于機器學習過程的每個階段。不確定性的來源可以在數據采集和預處理、模型設計、選擇階段、甚至是訓練過程中找到。這就產生了許多不同的不確定性定義，取決于研究人員和從業者關注的具體方面。

根據機器學習文獻，Gal[28]，理解不確定性的一種常見方式是依靠其來源。在這種情況下，我們可以考慮alleatoric不確定性--它與數據中固有的不確定性有關--和epistemic不確定性--它與模型的信心有關。[88]中提出的另一種方法是將其分為四種類型：隨機性--與隨機變量有關的一種客觀不確定性；模糊性--由于沒有嚴格或精確的概念界限而產生的一種認知不確定性；粗糙性--代表知識的準確程度；以及非特定性或模糊性--從兩個或多個不明確的對象中選擇一個而產生。此外，我們還可以考慮其他不同的類型，取決于不確定性是否可以減少。正如我們將看到的，并不總是能夠保持這些鮮明的劃分，因為同一個模型在其生命周期內可能遭受不同類型的不確定性。

鑒于上述情況，我們可以說，不確定性是一個復雜的概念，需要被表示、測量和應用。本工作的目標是調查文獻中存在的針對分類系統中采用的這三個階段的不同方法。盡管在深度學習分類模型中估計不確定性所遵循的程序與用于傳統分類模型的程序沒有根本的不同，但它確實有一些具體的特點。在深度學習中，最廣泛使用的損失函數是softmax交叉熵，這在傳統模型中從來沒有很受歡迎。這個函數在早期層的未標度輸出（logits）上運行，意味著理解單元的相對標度是線性的。這樣的方法提供了一個直接的概率解釋，即以類的分數作為定義不確定度的基礎。此外，神經網絡固有的靈活性可以用來豐富分類模型，增加一些組件來計算這些不確定性措施。例如，額外的層可以用來應用分層貝葉斯模型進行不確定性估計。關于認識上的不確定性度量，經典的方法是將每個模型參數視為一組定義隨機變量的參數估計，而不是一個點估計。在這種情況下，挑戰依賴于要估計的參數數量，可能是數以百萬計的。

本文的附加價值有三個方面。首先，與Gal[28]不同的是，他專注于回歸問題中的不確定性估計，我們處理分類問題，調查了一系列方法，從最早的基于Dropout的方法到更新穎的技術，如在單純線上建立連續分布模型。其次，我們通過統一的貝葉斯視角來介紹各種方法，以利于理解。最后，我們不僅介紹了估計技術的最新進展，而且還介紹了關于其特性和在實際場景中使用的一些考慮。

文章的以下兩節正式介紹了深度學習分類場景，這也是本次調查的重點，同時也回顧了不確定性的定義。

第4節調查了深度學習分類系統中的不確定性是如何表示的。在大多數情況下，這些系統產生的結果是以一組類的概率分布的形式出現的。表示系統預測中的不確定性的最基本方法之一是依靠這些概率來決定是否相信系統的結果。然而，正如文章所示，這些概率可能會導致錯誤，因為它們可能沒有被很好地校準，它們的解釋可能不直觀，或者更糟糕的是，它們可能被錯誤地認為是安全的預測。

與其依賴這些點估計，不確定性估計方法可以從分類器輸出的后驗分布的近似值產生不確定性度量。我們將看到各種工作如何通過使用不同的概率分布和關注其定義的不同術語來提出不同的方法來模擬這種后驗分布。

在回顧了估計分類器后驗分布的不同方法后，我們在第5節中介紹了測量不確定性的不同方法。如果我們要把不確定性的概念變成一個可操作的值，使風險在分類系統中得到管理，這是一個必要的步驟。在這一節中，我們將看到這些系統在試圖提取不確定性的單一度量時是如何帶來額外困難的。這是由于分類系統通常會返回多個值，以及每個類別的相應不確定性。因此，有必要建立一種機制，將這些多個輸出合并為一個單一的值。正如我們的回顧所顯示的，這種額外的復雜性導致了多種總結不確定性的方式，與回歸系統的不確定性度量形成對比，后者通常輸出一個單一的值。

第6節介紹了一些應用，說明了不確定性在與分類系統相關的不同方面的使用。

最后，第7節對本文進行了總結，并描述了不確定性估計方法面臨的一系列挑戰。這樣做的目的是為讀者提供一些標準和良好的實踐，幫助從業者在將不確定性納入分類系統的設計時選擇最適合他們問題的方法。

付費5元查看完整內容

摘要

時間序列數據在現實世界的應用中無處不在。這些數據產生了不同但密切相關的學習任務（例如，時間序列分類、回歸或預測）。與更傳統的橫斷面設置相比，這些任務往往沒有被完全正規化。因此，不同的任務可能被混同在同一個名稱下，算法經常被應用于錯誤的任務，而性能估計可能是不可靠的。在實踐中，像scikit-learn這樣的軟件框架已經成為數據科學的基本工具。然而，大多數現有的框架都集中在橫斷面數據上。據我們所知，對于時間性數據，還沒有類似的框架存在。此外，盡管這些框架很重要，但它們的設計原則卻從未被充分理解。相反，討論往往集中在使用和功能上，而幾乎完全忽略了設計。

為了解決這些問題，我們在本論文中開發了（i）學習任務的正式分類法，（ii）ML工具箱的新設計原則和（iii）一個新的統一的時間序列ML框架。該框架已經在一個名為sktime的開源Python包中實現。設計原則來自于現有的最先進的工具箱和經典的軟件設計實踐，使用了領域驅動的方法和一個新的科學類型系統。我們表明，這些原則不僅可以解釋現有框架的關鍵方面，還可以指導像sktime這樣的新框架的開發。最后，我們用sktime重現并擴展了M4比賽，這是一項主要的預測基準比較研究。復制比賽使我們能夠驗證已發布的結果并說明sktime的有效性。擴展比賽使我們能夠探索以前沒有研究過的ML模型的潛力。我們發現，在M4數據的一個子集上，用sktime實現的簡單ML模型可以與手工制作的M4贏家模型的最先進性能相媲美。

第1章簡介

1.1 時間序列分析和機器學習

時間序列數據在科學、商業和工業應用中無處不在。一個時間序列由一個有索引的數值序列組成，通常是在一段時間內反復觀察所研究的一些現象。時間序列出現在許多應用中。例如，金融市場的價格變動、工業過程中的傳感器讀數（如化學反應器中的溫度或壓力）、病人的醫療記錄（如血壓和心率）以及顧客的購物記錄。

時間序列的一個內在特征是，通常情況下，觀察值在統計上依賴于以前的觀察值。直觀地說，在過去觀察到某些數值后，在未來觀察到某些數值的可能性更大。時間序列分析是一套涉及分析這種依賴性的技術。分析時間序列在現實世界的應用中是非常重要的。它使我們能夠更好地理解產生觀察數據的基本過程，并對其進行預測。最終，時間序列分析可以指導我們的決策，改善現實世界應用的結果。

機器學習為數據分析和預測提供了一套密切相關的技術。雖然機器學習傳統上側重于非時間性的截面數據，但近年來已經開發了許多技術來對時間序列數據進行預測。在整個論文中，我們將這些技術稱為 "機器學習"，或簡稱為 "ML"，當應用于時間序列時，稱為 "帶時間序列的ML"。

時間序列的ML是一個高度跨學科的領域。技術在不同的學科中使用和發展，通常是重疊的，包括計量經濟學、金融學、醫學、工程學和自然與社會科學等等。正因為如此，類似的問題和技術經常在不同的背景下出現。與更傳統的、橫斷面的ML設置相比，對于常見的時間序列問題，即我們所說的 "學習任務"，似乎沒有既定的 "共識"定義。同時，在時間數據背景下，會出現各種密切相關但不同的任務。例如，預測，最常見的任務之一，一般來說，指的是根據過去的數據進行時間上的前瞻性預測的問題。但是，根據不同的背景，預測可能有不同的含義：它可能涉及一個或多個時間序列，序列可能是相關的或獨立的，而且我們想要預測的未來時間段可能有也可能沒有數據。這些對于現實世界的應用來說是微妙但重要的區別。雖然僅僅是預測就會產生模棱兩可的問題表述，但在時間數據背景下還會出現許多學習任務，包括時間序列分類、時間序列回歸和注釋等等。因此，不同的問題之間的關系并不總是那么明顯，或者一個問題的解決方案如何應用于另一個問題。了解這些問題可能采取的不同形式，對于理解我們如何使用ML技術來解決這些問題至關重要。在時間背景中出現的常見數據形式是什么？什么是常見學習問題的種類？它們是如何關聯的？以及我們如何以數學上的精確方式來定義這些問題？

本論文的第一個目標就是要解決這些問題。我們通過開發時間序列數據和關鍵學習任務的正式描述和分類法來實現這一目標。該分類法集中于預測性的時間序列任務，特別是（確定性的）點預測任務，包括預測以及時間序列分類和回歸，將非預測性任務（如時間序列聚類）和概率性任務（如分布性預測）留給未來的工作。請注意，在整個論文中，我們關注的是學習關聯而不是識別因果關系。

1.2 時間序列分析的統一框架

本論文的第二個目標是為多個時間序列學習任務設計一個統一的軟件框架。在實踐中，ML應用通常涉及一些步驟：從業者首先指定、訓練和選擇一個合適的模型，然后驗證和部署它。為了評估這樣的工作流程，從業人員編寫了軟件代碼，通常結合了現有軟件包的功能。這些軟件包被稱為 "工具箱"，提供預制的代碼片斷，使編寫應用程序代碼的速度更快。從業人員不需要從頭開始構建每一個軟件，而是可以簡單地把預制的代碼片斷放在一起。另一方面，"框架 "是一種特殊的工具箱。框架不僅提供可重復使用的功能，而且還提供整體結構。它們在一個給定的應用領域中捕捉常見的軟件設計決策，并將其提煉成模板，從業者只需復制和填寫即可。這就減少了從業人員必須做出的決定數量，使他們能夠專注于應用程序的細節。這樣一來，從業人員不僅可以更快地編寫軟件，而且應用程序也會有一個類似的結構。它們將更一致，更可重復使用，更容易維護。

近年來，框架已經成為現代數據科學的重要基礎設施。它們在很大程度上決定了實踐中的可能性。它們已經成為從業者的主要工具和科學、商業和工業應用的核心組件。流行的例子包括Python中的scikit-learn[205]，Java中的Weka[101]，Julia中的MLJ[31]，以及R中的mlr3[151]或caret[148]。橫斷面數據包括對多個獨立實例的觀察，這些觀察來自于一個時間點上的不同種類的測量（例如，不同病人入院時的醫療診斷）。橫斷面數據的基本假設，即觀測值代表獨立樣本，通常被時間序列數據所違反。這就是為什么橫斷面框架傾向于將時間序列視為范圍之外的原因（例如，見Buitinck等人[46]）。請注意，雖然人們仍然可以將截面技術應用于時間序列，但這通常會給標準的數據科學工作流程帶來相當大的復雜性，并且需要格外小心以避免錯誤。盡管時間序列數據無處不在，但據我們所知，目前還沒有一個與截面技術相媲美的框架用于時間序列的ML。本論文的第二個目標是開發這樣一個框架。

正如我們所見，時間序列數據可以產生許多學習任務，包括預測、分類和注釋。這些任務描述了不同的學習問題，但它們也是密切相關的。這種關系可以用 "還原（Reduction）"來理解[24]。還原是一種技術，利用一個任務的算法來解決另一個任務。正如我們將看到的，還原是時間序列分析的核心。在時間序列領域，許多還原方法是可能的，許多現有的最先進的解決方案都使用了還原。

還原方法將一個時間序列任務重塑為一個相關的截面任務，這樣我們就可以使用任何一個更成熟的截面算法來解決原來的時間序列任務。例如，一個預測任務可以在數據的先驗滑動窗口轉換的幫助下通過截面回歸來解決[34]。同樣，一個時間序列的分類任務可以通過首先從每個時間序列中提取特征來重新構建成一個橫斷面分類任務[87]。

然而，盡管還原方法很重要，但并沒有一個統一的框架用于多種學習任務，這將使從業者能夠輕松地將一種任務的算法應用于另一種。與此相反，目前的時間序列分析的軟件生態系統是相對分散的。雖然有各種專門的工具箱為特定的模型系列或學習任務提供豐富的接口，但大多數工具箱都是相互不兼容的，并且缺乏與更多基礎性的橫斷面框架的整合。對于實踐者來說，這使得他們很難結合不同工具箱的功能，也很難充分利用還原關系。對于開發者來說，這使得他們很難建立和整合新的方法，而不必重新實現其他地方已有的大量功能。因此，總的來說，時間序列分析的工具箱能力仍然有限。為了解決這些問題，我們建議開發一個統一的框架，支持多種學習任務和它們之間的還原方法。

建議的框架已經在sktime中實現，這是一個免費的開源軟件包。sktime的目的是建立一個完善的框架，使目前的生態系統作為一個整體更加可用和可互操作。雖然我們的目標受眾有基本的編程能力，但我們的目標是在Python中提供一個實用和一致的ML框架，以便在一個非ML專家可以使用的編程環境中指定、訓練和驗證時間序列算法，并在各種科學應用中可重復使用。因此，重點是提供一個模塊化和原則性的面向對象的應用編程接口（API）。我們利用了專門為科學計算設計的增強型交互式Python解釋器[206]，而不是花力氣創建一個命令行界面，更不用說圖形用戶界面（GUI）。我們專注于適合單機內存的中等規模的數據。對于更大的數據集，我們打算整合現有的工具，以便在多臺機器上進行更可擴展的分布式計算（例如Dask[219]）。

當前版本的sktime專注于常見的預測性任務，如時間序列分類、回歸和預測。然而，該設計很容易擴展到其他任務。在未來的工作中，我們希望增加對非預測性任務的支持，如時間序列聚類和注釋。

1.3 ML工具箱的軟件設計

從上述內容中，區分ML應用和研究中的兩個基本問題將是有幫助的。我們稱它們為 "從業者的問題 "和 "開發者的問題"。實踐者的問題是要解決手頭的特定ML問題。例如，預測一個化學過程的溫度或從病人的心率預測疾病的類型。為了解決這些問題，從業者編寫應用程序代碼。另一方面，開發者的問題是開發工具箱，幫助從業者更有效地解決他們各自的問題。現有的大部分ML研究都集中在算法開發和為特定的從業者的問題找到更好的解決方案。相比之下，本論文的大部分內容關注的是為開發者的問題找到更好的解決方案。

一個工具箱的有效性和適用性關鍵取決于它的設計。工具箱的設計--和任何軟件設計一樣--是很難的。我們必須確定從業者工作流程中的關鍵對象，在適當的粒度水平上為它們找到抽象，將它們轉化為具有明確接口的類和函數，明確它們之間的層次和關系，并在一個可重用的軟件包中實現它們。例如，ML背景下的關鍵對象是學習算法和數據容器。工具箱的設計就是為這些對象尋找抽象，這樣從業者就可以在不同的數據集上重復使用算法，而不需要改變很多代碼。

雖然開發者問題的重要性已經得到了認可（例如，見Sonnenburg等人[238]），但到目前為止，針對其挑戰的研究仍然很少。特別是，很少有論文研究工具箱設計的原則。相反，討論往往集中在交流設計的 "什么 "上（如軟件功能或使用方法），而幾乎完全忽略了 "為什么"。例如，工具箱的開發者在介紹他們的工作時，常常認同一套設計原則，然而這些原則通常仍然過于模糊，無法解釋具體的設計決策（例如，見Buitinck等人[46]）。雖然實際的軟件往往包含了大量的設計思想，但我們并不知道有任何文獻描述了ML框架的可概括的設計原則。為了解決這些問題，本論文的第三個目標是得出ML工具箱的關鍵軟件設計原則。

我們認為，分析 "為什么 "對于將成功的設計從一個領域推廣到新的領域（例如，從截面數據領域到時間序列）至關重要。正如我們將看到的，我們的原則不能僅僅解釋現有工具箱的關鍵方面，還可以指導新框架的發展--包括sktime，我們提出的用于時間序列的ML框架。最終，我們希望我們的研究能夠啟發其他關于ML工具箱的基本設計原則的研究。

我們的軟件設計方法主要屬于 "領域驅動的設計"[78]。領域驅動設計的中心思想是，軟件的結構和語言應該與感興趣的領域中的關鍵概念緊密對應。每個軟件都與它的目標用戶的某些活動或興趣有關。用戶應用軟件的那個主題領域就是領域。因此，工具箱設計的第一步是為我們感興趣的領域開發一個概念模型，即ML理論或方法論，特別是針對時間序列的ML。

第二步是將概念模型映射到軟件上。經典軟件設計的語料庫提供了一個相關的想法、有用的形式主義和將概念轉化為軟件的最佳實踐的自然來源。雖然很多東西可以直接從現有的軟件設計實踐中轉移過來，但是ML有一個實質性的方面與經典領域不同：算法、界面和工作流與數學和統計理論密切相關--在某種程度上，數學對象不僅是方法論的核心，也是其表示、工作流規范和用戶互動的關鍵元素。我們認為，工具箱設計的進步需要ML理論的進步，包括概念分析和數學形式主義方面。然而，在關于軟件設計的科學討論中，ML理論在很大程度上仍然缺席。這種情況帶來了獨特的挑戰。如何識別、描述和激勵ML工具箱的設計方案？我們如何能在ML領域找到精辟的抽象？我們如何將這些抽象概念形式化，使之與基礎數學概念相聯系，同時又能在軟件中實現？從現有的工具箱中可以得出哪些可概括的設計原則來指導新工具箱的設計？雖然這些問題更普遍地涉及ML工具箱的設計，但也有一些針對時間序列領域的問題需要回答。在有時間序列的ML領域，有哪些不同類型的算法？這些算法的界面應該是什么樣子的？不同的算法是如何相互作用和相互聯系的？

我們試圖通過概念建模、形式化的數學統計、新的設計原則和適用的先進設計模式的結合來解決這些問題。我們將首先回顧軟件設計的關鍵概念，重點是面向對象的編程，這是ML軟件的主要范式。然后，我們提出了一個簡單而強大的想法，即 "科學類型"--一個新的類型系統，它捕捉了關鍵ML概念的數據科學目的。簡而言之，科學類型是一種結構化的數據類型，同時具有該類型的所有元素必須滿足的關鍵數學或統計屬性。科學類型將使我們能夠以一種在數學上精確和在軟件上容易實現的方式來描述關鍵概念。例如，我們可以說一個 "管道 "由一個 "特征提取器 "和一個 "監督學習器 "組成，以某種形式放在一起。我們相信，有關的類型可以被精確化，從而可以利用它們進行設計考慮，而不僅僅是沒有實際內容的模糊隱喻。通過科學的類型，我們能夠推導出一套新穎的針對ML的軟件設計原則。正如我們將看到的，這些原則不僅可以解釋現有工具箱的核心內容，還可以指導新工具箱的開發，如sktime。

1.4 算法基準測試比較

在開發了一個統一的時間序列ML框架后，本論文的第四個也是最后一個目標是通過復制和擴展一個主要的預測基準比較研究，即M4競賽[182]來說明其有效性。

基準比較研究對ML研究至關重要，因為它們允許我們系統地評估新算法，并將其與現有的基線和最先進的解決方案進行比較。因此，這些研究的可重復性對科學進步至關重要[40, 128, 178]。工具箱，如sktime，具有原則性和模塊化的界面，使我們能夠輕松地復制現有算法的結果，并對新算法進行實驗。

特別是，復制M4競賽將使我們能夠驗證已發表的結果，用參考實現測試我們的框架，并說明其有效性和適用性。擴展M4競賽將使我們能夠實現和評估以前沒有研究過的算法，并研究簡單的、基于還原的ML算法是否能夠與贏得M4競賽的定制算法的最先進性能相匹配。為此，我們使用sktime重新實現了比賽中的關鍵算法，并增加了在sktime中容易實現的基于減少的模型。據我們所知，這是第一個獨立于已發布代碼的M4競賽的完整復制品。正如我們將看到的，我們不僅能夠在sktime提供的單一框架內重新實現比賽，而且還能夠建立簡單的ML模型，在M4數據集的重要子集上與獲勝模型的性能相當。

1.5 研究問題

綜上所述，本論文所涉及的研究問題可以按照其概念性、方法性和應用性分為三組問題。

第一組問題是概念性的。在時間序列數據背景下，有哪些不同類型的數據形式和學習問題？我們如何以一種數學上的精確方式將這些問題形式化？它們之間有什么聯系？這些問題在本論文的第一部分通過開發一個正式的學習任務分類法來解決。

第二組問題是方法論性質的。我們怎樣才能識別、描述和激勵ML工具箱的設計方案？我們如何能在ML領域找到精準的抽象？我們如何將這些抽象概念形式化，使之與基礎數學概念相聯系，同時又能在軟件中輕松實現？從現有的工具箱中可以得出哪些可歸納和可重復使用的設計原則和模式來指導新工具箱的設計？這些問題將在第二部分討論。對這些問題的回答在很大程度上需要對ML工具箱設計進行新的研究。我們希望在這篇論文中提供一些答案，從現有的最先進的工具箱和經典軟件設計的最佳實踐中得出關鍵設計原則。雖然這些問題更普遍地涉及到工具箱的設計，但本論文也涉及到一個統一的時間序列的ML框架的具體設計。在這個領域有哪些不同類型的算法？這些算法類型的界面應該是什么樣子的？不同的算法類型是如何相互作用和聯系的？此外，我們還討論了與為時間序列的ML創建一個新的統一框架的理由有關的問題。已經存在哪些相關的軟件？現有軟件生態系統的局限性是什么？為時間序列的ML開發一個統一的框架的原因是什么？雖然存在幾個用于時間序列的ML的工具箱，但據我們所知，我們是第一個提供一個由我們的學習任務分類和設計原則支持的統一框架。

最后一組問題是應用性質的。我們如何使用統一的框架來指定新的ML算法？考慮到一個統一的時間序列ML框架，我們能否找到簡單的ML算法來匹配最先進的預測算法的性能？這些問題將在第三部分通過重現和擴展M4競賽來解決，M4競賽是預測研究中關鍵的比較基準研究之一。

1.6 貢獻

本論文的研究貢獻可以概括為以下幾點。

1.將時間序列學習問題形式化為學習任務，并為時間序列學習任務制定了正式的分類法，重點是常見的（確定性的）點預測任務，如時間序列分類、回歸和預測，以及它們之間的還原關系。

2.受現有的最先進的工具箱和經典軟件設計的最佳實踐的啟發，為ML工具箱開發、形式化和激勵一套新穎的、可重復使用的設計原則，該原則基于科學類型系統的理念，將軟件的實現與基礎的數學和統計概念聯系起來。

3.回顧現有的時間序列分析軟件，討論當前工具箱功能的局限性，重點是Python的開源生態系統。

4.設計并實現了第一個用于時間序列的ML的統一框架，目的是在Python中提供一個原則性和模塊化的面向對象的應用編程接口（API），用于指定、訓練和驗證中等規模數據的時間序列算法。這個統一的框架已經在一個名為sktime的開源項目中實現。

5.M4預測競賽的再現和擴展，這是預測算法預測性能的主要基準比較研究之一，重點是使用sktime來評估和比較簡單的基于還原的ML算法。據我們所知，這是在一個獨立于已發布代碼的單一框架內第一次完整地再現M4競賽。

1.7 結構

本論文有三部分結構，包括概念、方法和應用部分。

在第一部分，我們為時間序列的ML領域建立了概念模型，包括時間序列學習任務的分類。在第二章中，我們首先回顧了關鍵的ML概念和傳統的橫斷面監督學習環境，這將作為我們在整個論文中進行比較的參考。然后在第三章制定了時間序列學習任務的正式分類法。

第二部分是方法論。我們首先推導出ML工具箱的一般軟件設計原則，然后用這些原則來開發用sktime實現的時間序列ML的統一框架的具體設計。我們在第四章開始介紹ML工具箱設計背景下的軟件設計的基本概念。第5章介紹了科學類型的概念，并推導出了可以通用的設計原則。第7章回顧了開源的Python時間序列生態系統，并討論了目前的局限性和建立一個統一的時間序列分析框架的理由。第八章激勵并描述了sktime的設計和實現，結合了第一部分的概念模型和第二部分的軟件設計原則。

第三部分也是最后一部分是應用。在第九章中，我們使用sktime來評估和比較用于預測的簡單ML算法，通過重現和擴展M4預測比賽，驗證已發表的結果，對照參考實現測試所實現功能的正確性，并說明sktime的有效性和適用性。

第十章最后討論了本論文的局限性和未來研究的方向第十章最后討論了本論文的局限性和未來研究的方向。

付費5元查看完整內容

AI+建筑 · 結構動力學和振動聲學 · 機器學習 · 論文 · 綜述論文 ·

2022 年 4 月 12 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

機器學習 (ML) 的使用已迅速擴展到多個領域，在結構動力學和振動聲學 (SD&V) 中產生了許多應用。在前所未有的數據可用性、算法進步和計算能力的推動下，ML 從數據中揭示洞察力的能力不斷增強，增強了決策制定、不確定性處理、模式識別和實時評估。 SD&V 中的三個主要應用都利用了這些優勢。在結構健康監測中，機器學習檢測和預測導致安全操作和優化維護計劃。 ML 技術在主動噪聲控制和主動振動控制中利用了系統識別和控制設計。最后，所謂的基于 ML 的代理模型為昂貴的模擬提供了快速替代方案，從而實現了穩健和優化的產品設計。盡管該地區有許多作品，但尚未對其進行審查和分析。因此，為了跟蹤和理解這種持續的領域整合，本文對機器學習在 SD&V 分析中的應用進行了調查，闡明了當前的實施狀態和新出現的機會。為這三種應用中的每一種確定了主要的方法、優勢、局限性和基于科學知識的建議。此外，本文還考慮了數字孿生和物理引導 ML 在克服當前挑戰和推動未來研究進展方面的作用。因此，該調查對在 SD&V 中應用的機器學習的現狀進行了廣泛的概述，并引導讀者深入了解該領域的進展和前景。

圖 9：結構健康監測工作流程：（a）在經典方法中，特征提取和選擇是手工制作的，然后是 ML 方法；(b) 如果使用深度學習，則通過 ML 方法自動執行特征提取和選擇。

圖 15：數字孿生框架：來自物理的數據由數字孿生的數據驅動方法處理，在整個產品生命周期中支持優化和穩健的決策。

付費5元查看完整內容

深度神經網絡 · 不確定性 ·

2021 年 7 月 9 日

[付費5元查看完整內容]深度神經網絡不確定性研究綜述論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

由于神經網絡的日益普及，對神經網絡預測的信心變得越來越重要。然而，基本的神經網絡不會給出確定性估計，也不會受到信心過度或不足的影響。許多研究人員一直致力于理解和量化神經網絡預測中的不確定性。因此，不同類型和來源的不確定性已被識別，并提出了各種方法來測量和量化神經網絡中的不確定性。本工作對神經網絡中的不確定性估計進行了全面的概述，綜述了該領域的最新進展，突出了當前的挑戰，并確定了潛在的研究機會。它旨在給任何對神經網絡中的不確定性估計感興趣的人一個廣泛的概述和介紹，而不預設在這一領域有先驗知識。對不確定性的主要來源進行了全面的介紹，并將它們分為可約模型不確定性和不可約數據不確定性。本文介紹了基于確定性神經網絡、貝葉斯神經網絡、神經網絡集成和測試時間數據增強等方法對這些不確定性的建模，并討論了這些領域的不同分支和最新進展。對于實際應用，我們討論不確定性的不同措施，校準神經網絡的方法，并給出現有基線和實現的概述。來自不同領域廣泛挑戰的不同例子，提供了實際應用中有關不確定性的需求和挑戰的概念。此外，討論了當前用于任務和安全關鍵的現實世界應用的方法的實際限制，并展望了未來的步驟，以更廣泛地使用這些方法。

//www.zhuanzhi.ai/paper/9a9009dae03438c7a71e0bc1b54de0fa

付費5元查看完整內容

監督學習 · 機器學習 · 可解釋性 ·

2020 年 11 月 19 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

通過人工神經網絡等獲得的預測具有很高的準確性，但人類經常將這些模型視為黑盒子。對于人類來說，關于決策制定的洞察大多是不透明的。在醫療保健或金融等高度敏感領域，對決策的理解至關重要。黑盒子背后的決策要求它對人類來說更加透明、可問責和可理解。這篇綜述論文提供了基本的定義，概述了可解釋監督機器學習(SML)的不同原理和方法。我們進行了最先進的綜述，回顧過去和最近可解釋的SML方法，并根據介紹的定義對它們進行分類。最后，我們通過一個解釋性的案例研究來說明原則，并討論未來的重要方向。

//www.zhuanzhi.ai/paper/d34a1111c1ab9ea312570ae8e011903c

目前人工智能(AI)模型的準確性是顯著的，但準確性并不是最重要的唯一方面。對于高風險的領域，對模型和輸出的詳細理解也很重要。底層的機器學習和深度學習算法構建的復雜模型對人類來說是不透明的。Holzinger等人(2019b)指出，醫學領域是人工智能面臨的最大挑戰之一。對于像醫療這樣的領域，深刻理解人工智能的應用是至關重要的，對可解釋人工智能(XAI)的需求是顯而易見的。

可解釋性在許多領域很重要，但不是在所有領域。我們已經提到了可解釋性很重要的領域，例如衛生保健。在其他領域，比如飛機碰撞避免，算法多年來一直在沒有人工交互的情況下運行，也沒有給出解釋。當存在某種程度的不完整時，需要可解釋性。可以肯定的是，不完整性不能與不確定性混淆。不確定性指的是可以通過數學模型形式化和處理的東西。另一方面，不完全性意味著關于問題的某些東西不能充分編碼到模型中(Doshi-Velez和Kim(2017))。例如，刑事風險評估工具應該是公正的，它也應該符合人類的公平和道德觀念。但倫理學是一個很寬泛的領域，它是主觀的，很難正式化。相比之下，飛機避免碰撞是一個很容易理解的問題，也可以被精確地描述。如果一個系統能夠很好地避免碰撞，就不用再擔心它了。不需要解釋。

本文詳細介紹了可解釋SML的定義，并為該領域中各種方法的分類奠定了基礎。我們區分了各種問題定義，將可解釋監督學習領域分為可解釋模型、代理模型擬合和解釋生成。可解釋模型的定義關注于自然實現的或通過使用設計原則強制實現的整個模型理解。代理模型擬合方法近似基于黑盒的局部或全局可解釋模型。解釋生成過程直接產生一種解釋，區分局部解釋和全局解釋。

綜上所述，本文的貢獻如下:

對五種不同的解釋方法進行形式化，并對整個解釋鏈的相應文獻(分類和回歸)進行回顧。
可解釋性的原因，審查重要領域和可解釋性的評估
這一章僅僅強調了圍繞數據和可解釋性主題的各個方面，比如數據質量和本體
支持理解不同解釋方法的連續用例
回顧重要的未來方向和討論

付費5元查看完整內容

文本分類 · 文獻綜述 ·

2020 年 8 月 6 日

[付費5元查看完整內容]【文本分類大綜述：從淺層到深度學習，35頁pdf】

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

摘要

文本分類是自然語言處理中最基本、最基本的任務。過去十年，由于深度學習取得了前所未有的成功，這一領域的研究激增。大量的方法、數據集和評價指標已經在文獻中提出，提高了全面和更新綜述的需要。本文通過回顧1961年到2020年的先進方法的現狀來填補這一空白，側重于從淺到深的模型學習。我們根據所涉及的文本和用于特征提取和分類的模型創建文本分類的分類法。然后我們詳細討論每一個類別，處理支持預測測試的技術發展和基準數據集。本綜述還提供了不同技術之間的綜合比較，以及確定各種評估指標的優缺點。最后，總結了本研究的關鍵意義、未來研究方向和面臨的挑戰。

介紹

在許多自然語言處理(NLP)應用中，文本分類（為文本指定預定義標簽的過程）是一個基本和重要的任務, 如情緒分析[1][2][3],主題標簽[4][5][6],問答[7][8][9]和對話行為分類。在信息爆炸的時代，手工對大量文本數據進行處理和分類是一項耗時且具有挑戰性的工作。此外，手工文本分類的準確性容易受到人為因素的影響，如疲勞、專業知識等。人們希望使用機器學習方法來自動化文本分類過程，以產生更可靠和較少主觀的結果。此外，通過定位所需信息，可以提高信息檢索效率，緩解信息超載的問題。圖1給出了在淺層和深層分析的基礎上，文本分類所涉及的步驟流程圖。文本數據不同于數字、圖像或信號數據。它需要NLP技術來仔細處理。第一個重要的步驟是對模型的文本數據進行預處理。淺層學習模型通常需要通過人工方法獲得良好的樣本特征，然后用經典的機器學習算法對其進行分類。因此，特征提取在很大程度上制約了該方法的有效性。然而，與淺層模型不同，深度學習通過學習一組直接將特征映射到輸出的非線性轉換，將特征工程集成到模型擬合過程中。

主要文本分類方法的示意圖如圖2所示。從20世紀60年代到21世紀10年代，基于淺層學習的文本分類模型占據了主導地位。淺層學習意味著在樂此不疲的模型,如 Na??ve Bayes(NB)[10], K-近鄰(KNN)[11],和支持向量機(SVM)[12]。與早期基于規則的方法相比，該方法在準確性和穩定性方面具有明顯的優勢。然而，這些方法仍然需要進行特征工程，這是非常耗時和昂貴的。此外，它們往往忽略文本數據中自然的順序結構或上下文信息，使學習詞匯的語義信息變得困難。自2010年代以來，文本分類逐漸從淺層學習模式向深度學習模式轉變。與基于淺層學習的方法相比，深度學習方法避免了人工設計規則和特征，并自動提供文本挖掘的語義意義表示。因此，大部分文本分類研究工作都是基于DNNs的，這是一種計算復雜度很高的數據驅動方法。很少有人關注于用淺層學習模型來解決計算和數據的局限性。

在文獻中，Kowsari等[13]考慮了不同的文本特征提取、降維方法、文本分類的基本模型結構和評價方法。Minaee等人[14]回顧了最近基于深度學習的文本分類方法、基準數據集和評估指標。與現有的文本分類研究不同，我們利用近年來的研究成果對現有的模型進行了從淺到深的總結。淺層學習模型強調特征提取和分類器設計。一旦文本具有精心設計的特征，就可以通過訓練分類器來快速收斂。在不需要領域知識的情況下，DNNs可以自動進行特征提取和學習。然后給出了單標簽和多標簽任務的數據集和評價指標，并從數據、模型和性能的角度總結了未來的研究挑戰。此外，我們在4個表中總結了各種信息，包括經典淺層和深度學習模型的必要信息、DNNs的技術細節、主要數據集的主要信息，以及在不同應用下的最新方法的一般基準。總而言之，本研究的主要貢獻如下:

我們在表1中介紹了文本分類的過程和發展，并總結了經典模式在出版年份方面的必要信息，包括地點、應用、引用和代碼鏈接。
根據模型結構，從淺層學習模型到深度學習模型，對主要模型進行了全面的分析和研究。我們在表2中對經典或更具體的模型進行了總結，并主要從基本模型、度量和實驗數據集方面概述了設計差異。
我們介紹了現有的數據集，并給出了主要的評價指標的制定，包括單標簽和多標簽文本分類任務。我們在表3中總結了基本數據集的必要信息，包括類別的數量，平均句子長度，每個數據集的大小，相關的論文和數據地址。
我們在表5中總結了經典模型在基準數據集上的分類精度得分，并通過討論文本分類面臨的主要挑戰和本研究的關鍵意義來總結綜述結果。

付費5元查看完整內容

圖像分割 · 計算機視覺 · 計算機圖形學 · 深度學習 · Jadavpur University ·

2019 年 6 月 16 日

[付費5元查看完整內容]【文獻綜述】圖像分割綜述，224篇參考文獻，附58頁PDF

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

題目： Understanding Deep Learning Techniques for Image Segmentation

簡介： 機器學習已被大量基于深度學習的方法所淹沒。各種類型的深度神經網絡（例如卷積神經網絡，遞歸網絡，對抗網絡，自動編碼器等）有效地解決了許多具有挑戰性的計算機視覺任務，例如在不受限制的環境中對對象進行檢測，定位，識別和分割。盡管有很多關于對象檢測或識別領域的分析研究，但相對于圖像分割技術，出現了許多新的深度學習技術。本文從分析的角度探討了圖像分割的各種深度學習技術。這項工作的主要目的是提供對圖像分割領域做出重大貢獻的主要技術的直觀理解。從一些傳統的圖像分割方法開始，本文進一步描述了深度學習對圖像分割域的影響。此后，大多數主要的分割算法已按照專用于其獨特貢獻的段落進行了邏輯分類。

付費5元查看完整內容