如何對不同設置下的序列數據建模是一個跨許多領域的重要機器學習問題，包括對時間序列數據、自然語言文本和事件流的預測。不同字段中的順序數據通常具有不同的特征。例如，自然語言文本可以被視為一個離散變量的序列，而傳感器網絡信號可以被視為一個連續向量空間中的多變量序列。為了在各種各樣的現實世界領域中開發成功的神經網絡模型，我們需要根據數據和問題的性質定制架構和算法。本文設計了新穎高效的神經網絡解決方案，用于序列建模和應用。具體來說，這些貢獻可以分為四部分。

第一部分重點研究了多變量序列數據中變量之間的相關性，如多傳感器的時間序列，并提出了新的算法，即深度可分圖卷積網絡(DSGC)(第二章)[60]和分解遞歸神經網絡(FRNN)(第三章)[63]，以利用相關模式，提高預測精度。

第二部分側重于將人類先驗知識用于時序數據依賴模式的時間建模。具體地說，我們提出了一種新的方法，命名為長期和短期時間序列網絡(LSTNet)(第4章)[59]，它被證明是特別有效的捕獲各種周期模式在不同的應用。

第三部分著重于序列分類任務中Transformers 的高效算法。具體來說，通過識別常用的Transformer架構中的計算冗余，并提出一種新的替代方案，即漏斗Transformers (第5章)[27]，我們實現了更好的計算與精度之間的權衡。

第四部分側重于事件之間時間關系的建模/預測，其中的主要挑戰是從稀疏標記的數據中有效學習。我們通過結合高級數據增強、半監督學習和人類先驗知識的引入來應對這一挑戰(第6章)。因此，我們大大提高了這項任務的最先進性能。

付費5元查看完整內容

相關內容

序列建模

關注 2

深度學習 · 幾何表示 · 麻省理工學院 (MIT) · 博士論文 ·

2022 年 9 月 4 日

[付費5元查看完整內容]【MIT博士論文】深度學習幾何表示，138頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

雖然深度學習已經成功地應用于計算機圖形學和視覺的許多任務，但標準的學習架構通常是基于密集和規則的形狀表示，如像素或體素網格。另一方面，幾十年的計算機圖形學和幾何處理研究已經產生了專門的算法和工具，這些算法和工具使用沒有這種規則結構的表示。在這篇論文中，我們回顧了幾何圖形中的傳統方法，提出了深度學習流程和歸納偏差，這些深度學習流程和歸納偏差可以直接兼容常見的幾何表示，而不依賴于簡單的統一結構。

在過去的十年中，硬件的發展、訓練數據的大規模可用性和算法的進步推動了深度學習在各種應用中的成功。神經網絡廣泛地能夠處理不完整、混亂和模糊的輸入，產生有用的和一致的輸出。計算機圖形學和視覺也不例外，深度學習的普及，數據驅動的方法現在已經成為許多任務的標準。在這些領域中，最富有成效的深度學習架構是卷積神經網絡(CNN)。如今，CNN在圖像分類、分割，目標檢測和圖像到圖像的轉換。然而，CNN對柵格表示(例如，圖1-1中的像素和體素網格)進行操作。網格結構是卷積的基本組成部分，是信息在網絡層之間和像素之間傳遞的一種機制。這種結構被用來優化GPU硬件性能，許多現成的數據集由像素或體素網格格式的示例組成。

由于各種原因，柵格表示很容易使用。它們與相機傳感器、屏幕等標準輸入輸出設備兼容，構成了表現不同結構和拓撲結構的多樣視覺內容的有效手段。因此，CNN利用合理的歸納偏差，以簡單的歐拉方式處理數據，將固定操作應用到密集的網格。另一方面，拉格朗日表示使用隨形狀移動的稀疏參數集，即控制點來表示幾何形狀。這種表示具有明顯的優勢。通過將形狀表示為基元的集合，我們可以輕松地應用轉換并以任意分辨率呈現，同時只存儲稀疏表示。此外，參數表示對于高級推理是有效的，例如發現公共底層結構和估計形狀之間的對應關系，促進檢索、探索和樣式/結構轉移的工具。它們可以用傳統軟件直觀地編輯，與分辨率無關，并且可以高效地存儲。

許多工具、算法和數學框架已經被開發出來，用于編寫、操作和分析此類拉格朗日內容。藝術家、工程師和動畫師使用標準的CAD和3D建模軟件。模擬依賴于使用網格的有限元分析。然而，通過將與我們的機器學習方法兼容的形狀模式限制在歐拉網格中，我們放棄了這些成熟工具的許多見解和技術。

在這篇論文中，我們提出設計深度學習算法。我們沒有將標準架構、損失函數和訓練算法視為理所當然，從而接受各自的輸入和輸出形狀模式，而是考慮了比像素更豐富、更適合應用的其他幾何原子單位。這種范式的轉變促使我們對傳統方法和應用進行現代化改造，這些方法和應用先于深度學習。特別是，我們借鑒了度量幾何、幾何測量理論、譜幾何和動畫等領域的思想，開發了自定義尾損失函數、架構和培訓管道，使深度學習成為處理視覺數據的從業者更有用的工具。

在這篇論文中，我們提出了深度學習架構、訓練程序和算法，使在可視化數據數據集上訓練神經網絡成為可能，這些數據的格式使用起來直觀，并兼容常見的下游任務和應用，如設計、建模、仿真和渲染。在第二章中，我們描述了一種基于三角形網格的編碼器，借鑒了譜幾何的思想。在第三章中，我們考慮了兩種方法，受度量幾何的啟發，來產生參數化定義的形狀，比如CAD模型。第四章介紹了一種混合形狀表示，它結合了顯式幾何的優點和隱式幾何的優點。最后，在第5章中，我們提出了一種自監督的方法來學習圖像集合的直觀分解，例如，動畫或視頻游戲的幀，這允許使用學習到的紋理塊作為幾何基元進行高級操作。我們在圖1-2中說明了我們的貢獻。

付費5元查看完整內容

卡內基梅隆大學 (Carnegie Mellon University) · 博士論文 · 知識表示學習 ·

2022 年 8 月 11 日

[付費5元查看完整內容]【CMU博士論文】多視圖上下文理解的知識增強表示學習

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

計算上下文理解指的是agent融合不同信息源進行決策的能力，因此，通常被認為是人工智能(AI)等復雜機器推理能力的先決條件。數據驅動和知識驅動方法是追求這種機器意義生成能力的兩種經典技術。然而，雖然數據驅動的方法試圖通過在現實世界中的觀察來模擬事件的統計規律，但它們仍然難以解釋，而且缺乏自然地結合外部知識的機制。相反，知識驅動的方法結合了結構化的知識庫，使基于公理原則的符號推理成為可能，并產生更多可解釋的預測; 然而，它們往往缺乏估計推斷的統計顯著性或魯棒地適應輸入中的擾動的能力。為了解決這些問題，我們使用混合AI方法作為綜合兩種方法的優勢的一般框架。具體而言，我們繼承了神經符號的概念，將其作為一種使用領域知識來指導深度神經網絡學習進程的方法。領域知識以多種形式出現，包括:(i) 圖模型，它描述了實體之間的關系，如依賴、獨立、因果、相關和部分相關; (ii) 常識性知識，包括空間知識、物體的物理屬性、語義關系和功能知識; 專家智能體以演示或軟標簽的形式提供特權信息; (iv) 習得的行為原語和先驗，這些行為原語和先驗可能構成可推廣和可轉移的任務執行;以及(v)輔助任務、目標和約束條件——為約束優化精心選擇。

無論可用的領域知識類型是什么，相同的實際目標仍然是:學習有意義的神經表征，用于下游感興趣的任務。神經表征學習的潛在目標是在統計上識別agent輸入數據或觀察中變化的最佳解釋因素，通常需要對輸入中多種模式或觀點之間的互補性的直覺。雖然已經有很多關注于學習特定任務的有效神經表征，然后將學習到的表征轉移或適應其他任務，相對較少的重點放在有各種類型的領域知識的表征學習。這些知識可用于恢復潛在生成過程的信息，設計學習問題的有效建模策略，確保模型的可轉移性或泛化性，或理解視圖之間的互補性。本文研究了將上述類型的領域知識與神經表示相結合的方法，以提高以下問題領域的模型性能和通用性:神經常識推理、多模態機器人導航和自動駕駛。本文提供了一系列工具、方法、任務、國際AI挑戰和排行榜、數據集和知識圖;此外，這項工作還成功組織了兩場關于自動駕駛安全學習的國際研討會。

付費5元查看完整內容

異常檢測 · 時間序列 · 深度學習 · 無監督異常檢測 · 索邦大學 ·

2022 年 7 月 25 日

[付費5元查看完整內容]索邦大學121頁博士論文《時間序列中的無監督異常檢測》

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

多變量時間序列的異常檢測是許多領域的一個重要問題。系統的日益復雜和數據量的爆炸性增長使其自動化變得至關重要。基于深度學習的方法在檢測方面顯示出良好的效果，但由于其長時間的訓練和有限的魯棒性，并不能滿足工業需求。為了滿足工業需求，本論文提出了一種新的無監督方法，用于多變量時間序列的異常檢測，稱為USAD，基于自動編碼器架構和對抗性訓練。該方法符合工業界對魯棒性和訓練速度的要求，同時在檢測方面達到了最先進的性能。然而，深度神經網絡方法在從數據中提取特征的能力方面受到限制，因為它們只依賴局部信息。因此，為了提高這些方法的性能，本論文提出了一種引入非局部信息的特征工程策略。這一策略在不增加訓練時間的情況下提高了基于神經網絡的方法的性能。鑒于近年來深度學習方法在多變量時間序列異常檢測中的良好表現，研究人員在他們的基準中忽略了所有其他方法，導致所提出的方法的復雜性在目前的出版物中爆炸性增長。這種缺乏與文獻中更常規的方法的比較，不允許斷言基準中報告的進展不是虛幻的，這種不斷增加的復雜性是必要的。為了解決這個問題，本論文提出對多變量時間序列中的16種異常檢測方法進行比較，這些方法分為三類。傳統方法、機器學習方法和基于深度神經網絡的方法。本研究表明，沒有證據表明深度神經網絡是解決這一問題的必要條件。

關鍵詞：異常檢測，時間序列，多變量，深度學習，非監督性

第1章簡介

1.1 背景和動機

由于數據的大量產生，時間序列及其分析正變得越來越重要。時間序列被用于大量的領域，如工業控制系統[2]、金融[3]和醫療保健[4]。

時間序列分析包括從按時間順序排列的點中提取信息，即時間序列，它可以有多種用途。最常見的是觀察一個變量的歷史，以便進行預測。這涉及到根據以前觀察到的變量值來預測其未來值。另一個常見的目的是發現時間序列之間的關聯性。這允許了解系統中不同變量之間的相互作用。許多其他目標解釋了時間序列分析的普及，如尋找趨勢、周期、季節性變化或檢測異常行為。

檢測意外行為或不符合預期行為的模式是一門活躍的研究學科，稱為時間序列中的異常檢測[5]。異常檢測是一個重要的領域。它包括檢測罕見的事件，或者更普遍的，與大多數數據不同的反常的觀察。這些罕見事件可以是各種類型的，它們存在于多個不同的領域（欺詐性金融交易、醫療問題或網絡入侵）。檢測這些罕見事件是許多領域的一個主要問題。例如，到2020年，檢測銀行交易欺詐可以為全球節省320億美元[6]。因此，對于行業來說，能夠檢測其系統中的異常情況是至關重要的。

本論文關注異常檢測這一關鍵任務。具體來說，它專注于時間序列異常檢測方法的一個子集，即無監督檢測。與監督檢測不同，無監督檢測方法不需要與數據樣本相關的標簽。這樣做的目的是為了檢測與以前觀察到的數據不同的行為[7]。最后，本論文關注多變量時間序列，因為它是最通用的背景，因為單變量時間序列只是2.1.1節中介紹的m=1的多變量背景的一個特例。

在過去的十年中，人們對深度神經網絡（DNNs）的熱情越來越高[8]，這要歸功于它們在潛在的大體積和大維度的復雜數據中推斷高階相關的能力[9, 10]。時間序列中的異常檢測也沒有逃過這一趨勢。基于DNN的方法旨在學習多變量時間序列的深度潛在表征，以推斷出一個變量模型，然后用于對未見數據的異常分級。越來越多地使用DNN架構的理由在于，需要學習多變量數據的時間演化中潛在的復雜數據模式。因此，出現了許多方法，主要是基于遞歸神經網絡來捕捉時間信息[11, 12, 13]。然而，這些方法以犧牲其訓練速度為代價獲得良好的結果。事實上，這些方法都沒有在其性能標準中考慮到訓練時間。這就是為什么有必要開發在異常檢測方面具有與技術水平相當的性能的方法，同時偏重于允許快速和節能的訓練的架構。

與任何機器學習方法一樣，深度學習方法的性能與提取的特征的質量相關[14]。增強時間序列數據的特征工程通常是通過將外部但相關的信息作為一個額外的變量帶到時間序列中來完成。然而，這需要關于測量過程的領域知識。機器學習方法的另一個策略是在時間序列上創建局部特征，如移動平均線或局部最大和最小值。這兩種策略，由于是手工操作，效率不高，耗時長，而且需要很高的領域知識專長[15]。從理論上講，鑒于DNN已被證明具有自動學習局部特征的能力，從而解決了更多傳統統計和機器學習方法的局限性，DNN已成為一種有希望的替代方案。盡管它們具有學習這種局部特征的能力，但事實證明，特征工程可以加速和提高DNN的學習性能[16]，DNN學習的特征的一個內在限制是它們只依賴局部信息。然而，目前文獻中還沒有成熟的方法來解決時間序列的這個問題。

由于DNN在多個領域表現出良好的性能[9, 10, 17, 18]，近年來，基于DNN的多變量時間序列異常檢測方法蓬勃發展（表1.1）。然而，這些工作已經遠離了與更傳統的方法，即機器學習[19]和傳統/統計方法（如[1, 2, 13]）的比較，同時提出了方法上的進步和基于DNN方法的改進性能。這種趨勢鼓勵社區開發更復雜的模型，以提高基于DNN的方法的性能，但沒有任何理論或經驗證據表明這些模型優于文獻中更成熟的方法體系。

基于DNN的模型訓練起來很復雜，涉及大量的參數估計，需要大量的訓練樣本和計算資源。此外，隨著更大的模型不斷被開發，它們的復雜性也在不斷增加。相反，傳統的模型更簡單、更輕便、更容易解釋，而且往往更能適應現實世界應用的限制。因此，關鍵是要確定基于DNN的方法所帶來的復雜性是否是為獲得性能而付出的必要代價，或者近年來報告的進展是虛幻的[20]，應該優先使用傳統方法。由于缺乏涵蓋所有方法系列的一般性比較，無法回答這個問題，阻礙了基于DNN的方法在實際應用中的轉化和使用。目前，文獻中還沒有關于這種特性的完整基準。

表1.1: 2018年至2021年同行評議的基于深度學習的多變量時間序列異常檢測方法

1.2 貢獻

本論文是CIFRE（Convention Industrielle de Formation par la Recherche）的論文，是Orange和EURECOM的合作。Orange是一家法國電信公司。它在全球擁有近2.7億客戶。因此，本論文的貢獻和開發的方法是為了融入Orange的工業環境中。本論文的所有貢獻如下。

一種快速而穩定的方法，稱為多變量時間序列的無監督異常檢測（USAD），基于對抗性訓練的自動編碼器。其自動編碼器結構使其能夠進行無監督學習。使用對抗性訓練和它的結構使它能夠在提供快速訓練的同時隔離異常現象。
在使用DNN進行異常檢測的情況下，一種新的特征工程策略來增強時間序列數據。其目標是雙重的。首先，將單變量時間序列轉化為多變量時間序列以提高DNN的性能。第二，使用一種特征工程策略，將非本地信息引入時間序列，這是DNN無法學習的。這是通過使用一個叫做Matrix-Profile的數據結構作為一個通用的非瑣碎特征來實現的。矩陣文件允許提取與時間序列的子序列之間的相似性相對應的非本地特征。與每個單獨的方法相比，性能顯示該方法在不增加計算時間的情況下實現了更好的性能。
對包括USAD在內的16種傳統的、基于機器學習的和基于深度神經網絡的方法在五個開放的真實世界數據集上的異常檢測性能的研究。對這16種方法中每一種的性能分析和比較表明，沒有哪一種方法的性能優于其他方法。當數據集包含上下文異常或數據集較大時，深層神經網絡似乎表現得更好，而傳統技術在數據集較小時表現得更好。因此，不可能說深度神經網絡優于以前的方法，社區應該重新將這三類方法納入多變量時間序列基準的異常檢測中。

1.3 論文結構

本節對以下各章的內容進行了總結：

第二章主要分為兩部分。第一部分介紹了時間序列和它們的特征。第二部分專門討論時間序列中的異常檢測，并介紹了分為三個主要類別的方法的技術現狀。傳統的、機器學習的和深度學習的方法。
第三章介紹了一種由不良訓練的自動編碼器架構組成的多變量時間序列的無監督異常檢測方法，并展示了該方法在五個真實世界的開放數據集以及Orange的專有數據上的性能。
第四章介紹了一種特征工程策略，通過引入非局部信息將單變量時間序列轉化為多變量時間序列，并表明這種策略解決了深度神經網絡的局限性，并證明了這種組合在不增加計算時間的情況下優于每種方法。
第五章質疑是否需要主要基于深度神經網絡的更復雜的方法來進行多變量時間序列的異常檢測，并提出對屬于第二章中提出的三類的16種方法進行研究。性能分析表明，這三類方法中沒有一種方法優于其他方法。并討論了基于深度神經網絡的方法在多變量時間序列異常檢測基準中可能出現的性能錯覺。
最后，第六章總結了這項工作的主要貢獻，并提出了對這項研究可能繼續進行的一些想法。

1.4 著作

本論文是在已發表文章的基礎上進行的研究。本論文中出現的部分內容曾在以下論文中發表過：

Julien Audibert, Pietro Michiardi, Frédéric Guyard, Sébastien Marti, and Maria A. Zuluaga. USAD：多變量時間序列上的非監督性異常檢測。在第26屆ACM SIGKDD知識發現與數據挖掘國際會議（KDD '20）論文集中。
Julien Audibert, Frédéric Guyard, Sébastien Marti, and Maria A. Zuluaga. 從單變量到多變量的時間序列異常檢測與非本地信息。在ECML PKDD 2021的第六屆高級分析和時態數據學習研討會上。
Julien Audibert, Pietro Michiardi, Frédéric Guyard, Sébastien Marti, and Maria A. Zuluaga. 論深度神經網絡對多變量時間序列異常檢測的好處，正在模式識別2021年評審中。

1.5 參與挑戰

本論文開發的部分方法參加了KDDCUP2021的 "多數據集時間序列異常檢測 "挑戰賽。參與的方法在565名參賽者中獲得了第16名。

付費5元查看完整內容

博士論文 · 元強化學習 · 記憶機制 · 卡內基梅隆大學 (Carnegie Mellon University) ·

2022 年 6 月 23 日

[付費5元查看完整內容]【CMU博士論文】通過記憶的元強化學習，118頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

現代深度強化學習(RL)算法，盡管處于人工智能能力的最前沿，但通常需要大量的訓練樣本才能達到與人類相當的性能水平。這種嚴重的數據效率低下是深度RL實際應用的主要障礙:在沒有模擬器的情況下，深度RL幾乎不可能應用于任何領域。為了解決這種關鍵數據效率低下的問題，在本論文中，我們致力于設計能夠快速適應新環境的元學習智能體。與標準的強化學習相比，元學習在特定的環境分布上進行學習，從這些環境中采樣特定的任務，并直接優化元學習器，以提高策略改進的速度。通過利用與感興趣任務具有共同子結構的任務分布，元學習器可以調整自己的歸納偏見，使其能夠在測試時快速適應。

本論文的重點是設計元學習算法，利用記憶作為驅動快速適應新環境的主要機制。具有情景間記憶的元學習是一類元學習方法，利用基于特定環境的整個交互歷史的記憶架構來產生策略。因此，在特定任務中驅動策略改進的學習動態被包含在序列模型的計算過程中，本質上把學習算法的設計交給了體系結構。雖然概念簡單，但使用情景間記憶的元學習非常有效，仍然是最先進的方法。我們提出并討論了幾種通過記憶進行元學習的技術。

論文的第一部分集中在“具身”類環境，其中一個主體在一個類似自然世界的環境中有物理表現。我們利用這種高度結構化的環境集來設計具有快速記憶、規劃和狀態推斷能力的整體嵌入式代理體系結構。在論文的第二部分，我們將重點放在沒有強公共子結構的一般環境中應用的方法。首先，我們重新檢查元學習代理與環境的交互模式:提出用一個并行執行框架來取代典型的順序處理交互歷史，其中多個智能體并行地在環境中行動。接下來，我們討論了一個通用的和強大的序列模型的使用片段間存儲器，門控transformer，展示了性能和數據效率的巨大改進。最后，我們開發了一種方法，可以顯著降低(元)強化學習設置中transformer模型的訓練成本和作用延遲，目的是(1)使它們在研究社區中更廣泛地使用，(2)解鎖它們在實時和延遲受限的應用中使用，如機器人。

//www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf

付費5元查看完整內容

博士論文 · 多任務學習 · 視覺場景理解 ·

2022 年 4 月 5 日

[付費5元查看完整內容]【博士論文】多任務學習視覺場景理解，140頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

盡管最近在深度學習方面取得了進展，但大多數方法仍然采用豎井式的解決方案，即為每個單獨的任務訓練一個單獨的神經網絡。然而，許多現實世界的問題需要同時解決許多任務。例如，一輛自動駕駛汽車應該能夠檢測場景中的所有物體，對其進行定位，估計其距離和軌跡等，以便在其周圍環境中安全導航。類似地，用于商業應用的圖像識別系統應該能夠標記產品、檢索類似的商品、提出個性化的建議等，以便為客戶提供盡可能好的服務。這類問題促使研究人員建立多任務學習模型。多任務學習的核心思想是并行學習多個任務，同時共享學習到的表示。與單任務情況相比，多任務網絡具有許多實際的優點，單任務情況下，每個單獨的任務由自己的網絡單獨解決。首先，由于層的共享，產生的內存占用大大減少。其次，由于它們避免在共享層中重復計算特征，每個任務一次，它們顯示出提高的推理速度。第三，如果相關的任務共享互補信息，或者作為一個正則化器，它們有可能提高性能。

在構建多任務學習模型時，我們面臨著兩個重要的挑戰。首先，我們需要想出能夠處理多個任務的神經網絡架構。其次，我們需要為共同學習任務制定新的訓練方案。特別是，由于我們并行地優化多個目標，一個或多個任務可能會開始主導權重更新過程，從而阻礙模型學習其他任務。在這份手稿中，我們在視覺場景理解的背景下鉆研了這兩個問題。我們提出了兩種新的模型類型來解決體系結構問題。首先，我們探索了分支多任務網絡，其中神經網絡的更深層次逐漸成長為更具體的任務。我們介紹了一種有原則的方法來自動構建這樣的分支多任務網絡。構造過程將可以用一組相似特征來解決的任務組合在一起，同時在任務相似性和網絡復雜性之間進行權衡。通過這種方式，我們的方法生成的模型可以在性能和計算資源量之間做出更好的權衡。

其次，我們提出了一種新的神經網絡結構，用于聯合處理多個密集的預測任務。其關鍵思想是從多個尺度上對其他任務的預測中提取有用信息，從而提高對每個任務的預測。包含多個尺度的動機是基于這樣的觀察:在某個尺度上具有高相似性的任務不能保證在其他尺度上保持這種行為，反之亦然。在密集標記的兩個流行基準上進行的廣泛實驗表明，與之前的工作不同，我們的模型提供了多任務學習的全部潛力，即更小的內存占用，減少的計算數量，以及更好的性能w.r.t.單任務學習。此外，我們還考慮了多任務學習優化問題。我們首先分析幾種平衡任務學習的現有技術。令人驚訝的是，我們發現了這些工作之間的一些差異。我們假設，這可能是由于多任務學習缺乏標準化的基準，不同的基準受益于特定的策略。基于這個結果，我們然后分離最有希望的元素，并提出一組啟發式方法來平衡任務。啟發式具有實際性質，并在不同的基準測試中產生更魯棒的性能。

在最后一章中，我們從另一個角度來考慮場景理解的問題。文獻中描述的許多模型都受益于有監督的預訓練。在這種情況下，在轉移到感興趣的任務之前，模型首先在一個更大的帶注釋的數據集(如ImageNet)上進行預訓練。這使得模型能夠很好地執行，即使是在只有少量標記示例的數據集上。不幸的是，有監督的預訓練依賴于帶注釋的數據集本身，這限制了它的適用性。為了解決這個問題，研究人員開始探索自監督學習方法。我們以對比學習為基礎來回顧最近流行的作品。首先，我們展示了現有的方法，如MoCo可以在不同的數據集上獲得穩健的結果，包括以場景為中心的數據、長尾數據和特定領域的數據。其次，我們通過增加額外的不變性來改進學習的表示。這一結果直接有利于許多下游任務，如語義分割、檢測等。最后，我們證明了通過自監督學習所獲得的改進也可以轉化為多任務學習網絡。綜上所述，本文提出了幾個重要的貢獻，以改進多任務學習模型的視覺場景理解。創新集中在改進神經網絡結構、優化過程和訓練前方面。所有方法都經過了各種基準測試。該代碼公開發布://github.com/SimonVandenhende。

付費5元查看完整內容

神經序列建模 · 多元序列數據 · 時序數據 · Transformer · 論文 ·

2021 年 11 月 2 日

[付費5元查看完整內容]【CMU博士論文】神經序列建模與應用，Neural Sequential Modeling and Applications

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

如何在各種設置中建模序列數據是跨許多領域的一個重要機器學習問題，包括對時間序列數據、自然語言文本和事件流的預測。不同領域的序列數據通常具有不同的特征。例如，自然語言文本可以看作是離散變量的序列，而傳感器網絡信號可以看作是連續向量空間中的多變量序列。為了在如此多的現實領域中開發成功的神經網絡模型，我們需要根據數據和問題的性質定制體系結構和算法。本文針對順序建模及其應用設計了新穎高效的神經網絡解決方案。具體來說，這些貢獻可以分為四個部分。 //www.cs.cmu.edu/~glai1/

第一部分主要關注多元序列數據中變量之間的相關性，如多個傳感器的時間序列，提出了利用相關模式提高預測精度的新算法，即深度可分圖卷積網絡(DSGC)(第2章)[60]和分解遞歸神經網絡(FRNN)(第3章)[63]。

第二部分的重點是在時序數據依賴模式的時間建模中結合人類先驗知識。具體地說，我們提出了一種新的方法，稱為長短期時間序列網絡(LSTNet)(第4章)[59]，它被證明在不同的應用中特別有效地捕捉各種周期模式。

第三部分重點討論了變換器Transformers在序列分類任務中的有效算法。具體來說，通過識別常用Transformer架構中的計算冗余，并提出一種新的替代方案，即漏斗Transformers(第5章)[27]，我們在計算和精度之間實現了更好的權衡。

第四部分著重于建模/預測事件之間的時間關系，其中的主要挑戰是有效地從稀疏標記的數據中學習。我們通過結合高級數據增強、半監督學習和引入人類先驗知識來解決這一挑戰(第6章)。因此，我們大大提高了這項任務的最先進性能。

付費5元查看完整內容

牛津大學 (University of Oxford) · 重建和分割三維物體 ·

2020 年 11 月 9 日

[付費5元查看完整內容]【牛津大學BoYang博士論文】學習重建和分割三維物體，143頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

賦予機器以感知三維世界的能力，就像我們人類一樣，是人工智能領域一個基本且長期存在的主題。給定不同類型的視覺輸入，如二維/三維傳感器獲取的圖像或點云，一個重要的目標是理解三維環境的幾何結構和語義。傳統的方法通常利用手工特征來估計物體或場景的形狀和語義。然而，他們很難推廣到新的對象和場景，并努力克服關鍵問題造成的視覺遮擋。相比之下，我們的目標是理解場景和其中的對象，通過學習一般和魯棒的表示使用深度神經網絡，訓練在大規模的真實世界3D數據。為了實現這些目標，本文從單視圖或多視圖的物體級三維形狀估計到場景級語義理解三個方面做出了核心貢獻。

在第3章中，我們從一張圖像開始估計一個物體的完整三維形狀。利用幾何細節恢復密集的三維圖形，提出一種強大的編碼器解碼器結構，并結合對抗式學習，從大型三維對象庫中學習可行的幾何先驗。在第4章中，我們建立了一個更通用的框架來從任意數量的圖像中精確地估計物體的三維形狀。通過引入一種新的基于注意力的聚合模塊和兩階段的訓練算法，我們的框架能夠集成可變數量的輸入視圖，預測穩健且一致的物體三維形狀。在第5章中，我們將我們的研究擴展到三維場景，這通常是一個復雜的個體對象的集合。現實世界的3D場景，例如點云，通常是雜亂的，無結構的，閉塞的和不完整的。在借鑒以往基于點的網絡工作的基礎上，我們引入了一種全新的端到端管道來同時識別、檢測和分割三維點云中的所有對象。

總的來說，本文開發了一系列新穎的數據驅動算法，讓機器感知我們真實的3D環境，可以說是在推動人工智能和機器理解的邊界。

//ora.ox.ac.uk/objects/uuid:5f9cd30d-0ee7-412d-ba49-44f5fd76bf28

付費5元查看完整內容

深度學習 · 時序分類 · 博士論文 ·

2020 年 10 月 4 日

[付費5元查看完整內容]【Haute-Alsace博士論文】深度學習時序分類，175頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

數據科學是設計從大量數據中提取知識的算法和管道。時間序列分析是數據科學的一個領域，它感興趣的是分析按時間順序排列的數值序列。時間序列特別有趣，因為它讓我們能夠可視化和理解一個過程在一段時間內的演變。他們的分析可以揭示數據之間的趨勢、關系和相似性。存在大量以時間序列形式包含數據的領域:醫療保健(心電圖、血糖等)、活動識別、遙感、金融(股票市場價格)、工業(傳感器)等。

在數據挖掘中，分類是一項受監督的任務，它涉及從組織到類中的帶標簽的數據中學習模型，以便預測新實例的正確標簽。時間序列分類包括構造用于自動標注時間序列數據的算法。例如，使用健康患者或心臟病患者的一組標記的心電圖，目標是訓練一個模型，能夠預測新的心電圖是否包含病理。時間序列數據的時序方面需要算法的發展，這些算法能夠利用這種時間特性，從而使傳統表格數據現有的現成機器學習模型在解決底層任務時處于次優狀態。

在這種背景下，近年來，深度學習已經成為解決監督分類任務的最有效方法之一，特別是在計算機視覺領域。本論文的主要目的是研究和發展專門為分類時間序列數據而構建的深度神經網絡。因此，我們進行了第一次大規模的實驗研究，這使我們能夠比較現有的深度學習方法，并將它們與其他基于非深度學習的先進方法進行比較。隨后，我們在這一領域做出了大量的貢獻，特別是在遷移學習、數據增強、集成和對抗性攻擊的背景下。最后，我們還提出了一種新的架構，基于著名的Inception 網絡(谷歌)，它是目前最有效的架構之一。

我們在包含超過100個數據集的基準測試上進行的實驗使我們能夠驗證我們的貢獻的性能。最后，我們還展示了深度學習方法在外科數據科學領域的相關性，我們提出了一種可解釋的方法，以便從運動學多變量時間序列數據評估外科技能。

深度學習序列分類概述

在過去的二十年中，TSC被認為是數據挖掘中最具挑戰性的問題之一(Yang and Wu, 2006; Esling and Agon, 2012)。隨著時間數據可用性的增加(Silva et al.，2018)，自2015年以來已有數百種TSC算法被提出(Bagnall et al.，2017)。由于時間序列數據具有自然的時間順序，幾乎在每一個需要某種人類認知過程的任務中都存在時間序列數據(Langkvist, Karlsson, and Loutfi, 2014)。事實上，任何使用考慮到排序概念的已注冊數據的分類問題都可以被視為TSC問題(Cristian Borges Gamboa, 2017)。時間序列在許多實際應用中都遇到過，包括醫療保健(Gogolou等，2018)和人類活動識別(Wang et al.，2018;到聲學場景分類(Nwe, Dat, and Ma, 2017)和網絡安全(Susto, Cenedese, and Terzi, 2018)。此外，UCR/UEA檔案中數據集類型的多樣性(Dau等，2019;Bagnall et al，2017)(最大的時間序列數據集儲存庫)展示了TSC問題的不同應用。

付費5元查看完整內容

卡內基梅隆大學 (Carnegie Mellon University) · 信息檢索 · 神經匹配 · 重要性學習 ·

2020 年 7 月 20 日

[付費5元查看完整內容]【CMU博士論文】信息檢索中的神經匹配和重要性學習，163頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本篇推薦來自CMU-LTI的小姐姐Zhuyun Dai博士論文《Neural Matching and Importance Learning in Information Retrieval》，是信息檢索領域值得關注的最新工作。

作者介紹：

Zhuyun Dai

卡內基梅隆大學語言技術學院(LTI)的博士生。研究方向是提升當今信息檢索系統的語言理解能力，構建下一代信息助理系統，幫助人們無縫地獲取世界上的知識。

//www.cs.cmu.edu/~zhuyund/index.html

信息檢索中的神經匹配與重要性學習

地址：

在50-60年的時間里，信息檢索(IR)系統依賴于詞匯袋方法。盡管詞包檢索有一些長期存在的限制，但解決這些問題的嘗試大多是不成功的。最近，神經網絡為自然語言建模提供了一種新的范式。這篇論文的目的是結合IR的觀點和神經網絡的關鍵優勢，以帶來更深入的語言理解IR。

本論文的第一部分主要研究如何匹配查詢和文檔。 最先進的排序器以前依賴于精確的詞匯匹配，這導致了眾所周知的詞匯不匹配問題。本文開發了將軟匹配引入相關性排序的神經模型。利用分布式文本表示，我們的模型可以對每個查詢詞和每個文檔詞進行軟匹配。由于軟匹配信號有噪聲，本文提出了一種新的核池技術，該技術根據軟匹配對相關性的貢獻對軟匹配進行分組。本文還研究了預訓練好的模型參數是否可以改善低資源域，以及模型架構在非文本檢索任務中是否可重用。我們的方法比以前最先進的排名系統有很大的優勢。

本論文的第二部分主要研究如何表示查詢和文檔。一個典型的搜索引擎使用頻率統計來確定單詞的權重，但是頻繁的單詞對文本的意義不一定是必要的。本論文開發的神經網絡，以估計詞的重要性，基于如何相互作用的語言語境。開發了一種弱監督方法，允許在沒有任何人工注釋的情況下訓練我們的模型。我們的模型可以離線運行，在不影響效率的前提下顯著提高了第一階段的檢索。

總之，本文提出了一種新的神經檢索范式，克服了傳統檢索模型在匹配和重要性加權方面的局限性。在神經相關性排序、深度檢索模型和深度文檔理解等方面提出了一些有前景的方法。

付費5元查看完整內容

圖機器學習 ·

2020 年 5 月 11 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，人們對學習圖結構數據表示的興趣大增。基于標記數據的可用性，圖表示學習方法一般分為三大類。第一種是網絡嵌入(如淺層圖嵌入或圖自動編碼器)，它側重于學習關系結構的無監督表示。第二種是圖正則化神經網絡，它利用圖來增加半監督學習的正則化目標的神經網絡損失。第三種是圖神經網絡，目的是學習具有任意結構的離散拓撲上的可微函數。然而，盡管這些領域很受歡迎，但在統一這三種范式方面的工作卻少得驚人。在這里，我們的目標是彌合圖神經網絡、網絡嵌入和圖正則化模型之間的差距。我們提出了圖結構數據表示學習方法的一個綜合分類，旨在統一幾個不同的工作主體。具體來說，我們提出了一個圖編碼解碼器模型(GRAPHEDM)，它將目前流行的圖半監督學習算法(如GraphSage、Graph Convolutional Networks、Graph Attention Networks)和圖表示的非監督學習(如DeepWalk、node2vec等)歸納為一個統一的方法。為了說明這種方法的一般性，我們將30多個現有方法放入這個框架中。我們相信，這種統一的觀點既為理解這些方法背后的直覺提供了堅實的基礎，也使該領域的未來研究成為可能。

概述

學習復雜結構化數據的表示是一項具有挑戰性的任務。在過去的十年中，針對特定類型的結構化數據開發了許多成功的模型，包括定義在離散歐幾里德域上的數據。例如，序列數據，如文本或視頻，可以通過遞歸神經網絡建模，它可以捕捉序列信息，產生高效的表示，如機器翻譯和語音識別任務。還有卷積神經網絡(convolutional neural networks, CNNs)，它根據移位不變性等結構先驗參數化神經網絡，在圖像分類或語音識別等模式識別任務中取得了前所未有的表現。這些主要的成功僅限于具有簡單關系結構的特定類型的數據(例如，順序數據或遵循規則模式的數據)。

在許多設置中，數據幾乎不是規則的: 通常會出現復雜的關系結構，從該結構中提取信息是理解對象之間如何交互的關鍵。圖是一種通用的數據結構，它可以表示復雜的關系數據(由節點和邊組成)，并出現在多個領域，如社交網絡、計算化學[41]、生物學[105]、推薦系統[64]、半監督學習[39]等。對于圖結構的數據來說，將CNNs泛化為圖并非易事，定義具有強結構先驗的網絡是一項挑戰，因為結構可以是任意的，并且可以在不同的圖甚至同一圖中的不同節點之間發生顯著變化。特別是，像卷積這樣的操作不能直接應用于不規則的圖域。例如，在圖像中，每個像素具有相同的鄰域結構，允許在圖像中的多個位置應用相同的過濾器權重。然而，在圖中，我們不能定義節點的順序，因為每個節點可能具有不同的鄰域結構(圖1)。此外，歐幾里德卷積強烈依賴于幾何先驗(如移位不變性)，這些先驗不能推廣到非歐幾里德域(如平移可能甚至不能在非歐幾里德域上定義)。

這些挑戰導致了幾何深度學習(GDL)研究的發展，旨在將深度學習技術應用于非歐幾里德數據。特別是，考慮到圖在現實世界應用中的廣泛流行，人們對將機器學習方法應用于圖結構數據的興趣激增。其中，圖表示學習(GRL)方法旨在學習圖結構數據的低維連續向量表示，也稱為嵌入。

廣義上講，GRL可以分為兩類學習問題，非監督GRL和監督(或半監督)GRL。第一個系列的目標是學習保持輸入圖結構的低維歐幾里德表示。第二系列也學習低維歐幾里德表示，但為一個特定的下游預測任務，如節點或圖分類。與非監督設置不同，在非監督設置中輸入通常是圖結構，監督設置中的輸入通常由圖上定義的不同信號組成，通常稱為節點特征。此外，底層的離散圖域可以是固定的，這是直推學習設置(例如，預測一個大型社交網絡中的用戶屬性)，但也可以在歸納性學習設置中發生變化(例如，預測分子屬性，其中每個分子都是一個圖)。最后，請注意，雖然大多數有監督和無監督的方法學習歐幾里德向量空間中的表示，最近有興趣的非歐幾里德表示學習，其目的是學習非歐幾里德嵌入空間，如雙曲空間或球面空間。這項工作的主要動機是使用一個連續的嵌入空間，它類似于它試圖嵌入的輸入數據的底層離散結構(例如，雙曲空間是樹的連續版本[99])。

鑒于圖表示學習領域的發展速度令人印象深刻，我們認為在一個統一的、可理解的框架中總結和描述所有方法是很重要的。本次綜述的目的是為圖結構數據的表示學習方法提供一個統一的視圖，以便更好地理解在深度學習模型中利用圖結構的不同方法。

目前已有大量的圖表示學習綜述。首先，有一些研究覆蓋了淺層網絡嵌入和自動編碼技術，我們參考[18,24,46,51,122]這些方法的詳細概述。其次，Bronstein等人的[15]也給出了非歐幾里德數據(如圖或流形)的深度學習模型的廣泛概述。第三，最近的一些研究[8,116,124,126]涵蓋了將深度學習應用到圖數據的方法，包括圖數據神經網絡。這些調查大多集中在圖形表示學習的一個特定子領域，而沒有在每個子領域之間建立聯系。

在這項工作中，我們擴展了Hamilton等人提出的編碼-解碼器框架，并介紹了一個通用的框架，圖編碼解碼器模型(GRAPHEDM)，它允許我們將現有的工作分為四大類: (i)淺嵌入方法，(ii)自動編碼方法，(iii) 圖正則化方法，和(iv) 圖神經網絡(GNNs)。此外，我們還介紹了一個圖卷積框架(GCF)，專門用于描述基于卷積的GNN，該框架在廣泛的應用中實現了最先進的性能。這使我們能夠分析和比較各種GNN，從在Graph Fourier域中操作的方法到將self-attention作為鄰域聚合函數的方法[111]。我們希望這種近期工作的統一形式將幫助讀者深入了解圖的各種學習方法，從而推斷出相似性、差異性，并指出潛在的擴展和限制。盡管如此，我們對前幾次綜述的貢獻有三個方面

我們介紹了一個通用的框架，即GRAPHEDM，來描述一系列廣泛的有監督和無監督的方法，這些方法對圖形結構數據進行操作，即淺層嵌入方法、圖形正則化方法、圖形自動編碼方法和圖形神經網絡。
我們的綜述是第一次嘗試從同一角度統一和查看這些不同的工作線，我們提供了一個通用分類(圖3)來理解這些方法之間的差異和相似之處。特別是，這種分類封裝了30多個現有的GRL方法。在一個全面的分類中描述這些方法，可以讓我們了解這些方法究竟有何不同。
我們為GRL發布了一個開源庫，其中包括最先進的GRL方法和重要的圖形應用程序，包括節點分類和鏈接預測。我們的實現可以在//github.com/google/gcnn-survey-paper上找到。