多元時間序列的因果關系分析是數據挖掘領域的研究熱點. 時間序列數據包含著與時間動態有關的、未知的、有價值的信息, 因此若能挖掘出這些知識進而對時間序列未來趨勢進行預測或干預, 具有重要的現實意義. 為此, 本文綜述了多元時間序列因果關系分析的研究進展、應用與展望. 首先, 本文歸納了主要的因果分析方法, 包括Granger因果關系分析、基于信息理論的因果分析和基于狀態空間的因果分析; 然后, 總結了不同方法的優缺點、適用范圍和發展方向, 并概述了其在不同領域的典型應用; 最后, 討論了多元時間序列因果分析方法待解決的問題和未來研究趨勢.
時間序列是指現實世界中的某個觀測變量, 按照其發生的時間先后順序排列的一組數字序列. 時間序列可以分為一元時間序列和多元時間序列, 多元時間序列是指多個一元時間序列的組合, 可以認為是一次采樣中可以獲得不同來源的多個觀測變量. 多元時間序列廣泛存在于自然[1]、醫學[2]、社會[3]、工業[4]等各個領域的復雜系統中, 多個變量之間具有復雜的關聯關系, 相互影響作用不明確. 隨著數據采集和存儲技術的發展, 時間序列數據的維度和規模不斷增加, 為建立準確的預測模型增加了難度. 同時, 隨著數據維度的增加, 出現了大量冗余和無關變量, 容易掩蓋重要變量的作用, 對模型的建立產生負面的影響[5]. 時間序列數據挖掘[6-7]是當前研究的熱門問題, 研究如何有效地從多元時間序列中挖掘潛在的有用信息、構建預測模型, 能夠為自然、醫學、社會、工業等領域的控制、決策與調控提供理論指導, 具有十分重要的現實意義[8]. 因此, 本文主要研究多元時間序列的分析手段, 解釋未知系統的動力學特性與運行規律, 從而為建立更加精確的系統模型奠定基礎.
在多變量系統中, 通過分析可觀測變量之間的相關關系, 可以找出對建模貢獻度大的相關變量, 從而推斷出系統的運行機理. 目前, 多元時間序列相關性分析主要集中于統計學手段, 例如Pearson相關系數、秩相關系數、典型相關分析[9]、互信息[10]、最大信息系數[11]、灰色關聯分析[12]、Copula分析[13]等. 這些方法能夠有效處理線性或非線性相關關系, 其分析結果具有對稱性. 然而, 多個變量之間不僅存在直接相互作用, 還存在以中間變量為橋梁的間接相互作用, 并且影響關系通常具有非對稱性. 傳統的相關性分析方法難以處理間接關系、非對稱影響關系, 在實際應用中受到很大限制.
隨著系統復雜度的增加, 相關性分析難以滿足建模需求, 因果關系分析方法得到廣泛關注[14]. 因果關系是一個系統(因)與另一個系統(果)之間的作用關系, 其中第1個系統是第2個系統的原因, 第2個系統依賴于第1個系統. 1969年, Granger[15]首次提出了一種評價二變量時間序列之間是否存在相互作用的因果關系分析方法, 即Granger因果關系分析方法. 該方法基于系統的可預測性, 基本思想是: 對于兩個時間序列, 如果一個時間序列未來時刻的預測誤差, 能夠通過引入另一個時間序列的歷史信息而減小, 則稱第2個時間序列對第1個時間序列具有因果影響. 由于傳統的Granger因果分析建立在線性模型的基礎上, 僅對二元時間序列進行分析, 在提出之后出現了大量改進模型[16]. Granger因果分析方法具有很強的可解釋性, 但是此類方法只能給出定性分析結果, 并且對于高維時間序列容易產生虛假因果現象. 基于信息測度的因果分析是一類非參數方法, 包括轉移熵、條件熵、條件互信息等, 這類方法通過建立評價函數, 能夠定量分析因果關系的強弱[17]. 此外, 基于狀態空間的因果模型[18]、貝葉斯網絡等模型[19-20], 同樣用于分析各種類型的因果關系. 因此, 針對多變量系統的建模要求, 合理利用因果分析方法的優勢, 研究系統各個變量之間的驅動響應關系, 進而推斷系統內部結構和運行機理, 是當前研究的熱點問題[21].
綜上所述, 相比于常規的相關性分析方法, 因果分析方法能夠分析出具有方向性的直接因果關系, 更加適用于多變量系統的分析與建模. 本文針對多元時間序列因果關系分析的幾類典型方法進行綜述, 包括Granger因果關系分析、基于信息理論的因果分析和基于狀態空間的因果分析, 并結合當前流行的機器學習方法、不同領域時間序列建模的需求等, 討論因果分析方法的實際應用和未來發展趨勢.
摘要: 電子病歷是醫院信息化發展的產物, 其中包含了豐富的醫療信息和臨床知識, 是輔助臨床決策和藥物挖掘等的重要資源.因此, 如何高效地挖掘大量電子病歷數據中的信息是一個重要的研究課題.近些年來, 隨著計算機技術尤其是機器學習以及深度學習的蓬勃發展, 對電子病歷這一特殊領域數據的挖掘有了更高的要求.電子病歷綜述旨在通過對電子病歷研究現狀的分析來指導未來電子病歷文本挖掘領域的發展.具體而言, 綜述首先介紹了電子病歷數據的特點和電子病歷的數據預處理的常用方法;然后總結了電子病歷數據挖掘的4個典型任務(醫學命名實體識別、關系抽取、文本分類和智能問診), 并且圍繞典型任務介紹了常用的基本模型以及研究人員在任務上的部分探索;最后結合糖尿病和心腦血管疾病2類特定疾病, 對電子病歷的現有應用場景做了簡單介紹.
在許多數據科學問題中,由觀測數據估計因果關系是一項極具挑戰但又十分必要的環節。基于觀察數據、利用數據的隨機波動——即借助準實驗判定因果關系的方法。同時,作者展示了如何將該方法與機器學習相結合,在典型的數據科學環境中回答因果問題。該文還強調了數據科學家如何能夠幫助推進這些方法,從而對來自醫學、工業和社會中的高維數據進行因果估計。
基于事件社會網絡(Event-Based Social Network,EBSN)是一種結合了線上網絡和線下網絡的新型社會網絡,近年來得到了越來越多關注,已有許多國內外重要研究機構的研究者們對其進行研究并取得許多研究成果.在EBSN推薦系統中,一個重要任務就是設計出更好、更合理的推薦算法以提高推薦精確度和用戶滿意度,其關鍵在于充分結合EBSN中的各種上下文信息去挖掘用戶、事件和群組的隱藏特征.本文主要對EBSN推薦系統的最新研究進展進行綜述. 首先,概述EBSN的定義、結構、屬性和特征,介紹EBSN推薦系統的基本框架,以及分析EBSN推薦系統與其他推薦系統的區別.其次,對EBSN推薦系統的主要推薦方法和推薦內容進行歸納、總結和對比分析.最后,分析EBSN推薦系統的研究難點及其發展趨勢,并對本文作出總結.
//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6145&flag=1
時間序列是在一段時間內觀察到的一系列觀測值xt。通常情況下,觀測可以在整個時間間隔內進行,可以在一個時間間隔內或在固定的時間點上隨機采樣。不同類型的時間采樣需要不同的數據分析方法。在本課程中,我們將重點討論在固定的等距時間點觀測的情況,因此我們將假設我們觀測到{xt: t∈Z} (Z ={…, 0, 1, 2,…})。讓我們從一個簡單的例子開始,獨立的、不相關的隨機變量(時間序列的最簡單的例子)。圖1.1給出了一個曲線圖。我們觀察到數據中沒有任何清晰的模式。我們對下一次觀測的最佳預測(預測器)是零(這似乎是平均值)。時間序列與經典統計學的區別在于觀察結果之間存在相關性。這使我們能夠更好地預測未來的觀測結果。
//www.stat.tamu.edu/~suhasini/
摘要: 時間序列是按照時間排序的一組隨機變量,它通常是在相等間隔的時間段內依照給定的采樣率對某種潛在過程進行觀測的結果。時間序列數據本質上反映的是某個或者某些隨機變量隨時間不斷變化的趨勢,而時間序列預測方法的核心就是從數據中挖掘出這種規律,并利用其對將來的數據做出估計。針對時間序列預測方法,著重介紹了傳統的時間序列預測方法、基于機器學習的時間序列預測方法和基于參數模型的在線時間序列預測方法,并對未來的研究方向進行了進一步的展望。
//www.jsjkx.com/CN/10.11896%EF%BC%8Fj.issn.1002-137X.2019.01.004
我們生活在一個由大量不同模態內容構建而成的多媒體世界中,不同模態信息之間具有高度的相關性和互補性,多模態表征學習的主要目的就是挖掘出不同模態之間的共性和特性,產生出可以表示多模態信息的隱含向量.該文章主要介紹了目前應用較廣的視覺語言表征的相應研究工作,包括傳統的基于相似性模型的研究方法和目前主流的基于語言模型的預訓練的方法.目前比較好的思路和解決方案是將視覺特征語義化然后與文本特征通過一個強大的特征抽取器產生出表征,其中Transformer[1]作為主要的特征抽取器被應用表征學習的各類任務中.文章分別從研究背景、不同研究方法的劃分、測評方法、未來發展趨勢等幾個不同角度進行闡述.
//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6125&flag=1
近年來, 隨著海量數據的涌現, 可以表示對象之間復雜關系的圖結構數據越來越受到重視并給已有的算法帶來了極大的挑戰. 圖神經網絡作為可以揭示深層拓撲信息的模型, 已開始廣泛應用于諸多領域,如通信、生命科學和經濟金融等. 本文對近幾年來提出的圖神經網絡模型和應用進行綜述, 主要分為以下幾類:基于空間方法的圖神經網絡模型、基于譜方法的圖神經網絡模型和基于生成方法的圖神經網絡模型等,并提出可供未來進一步研究的問題.
//engine.scichina.com/publisher/scp/journal/SSM/50/3/10.1360/N012019-00133?slug=fulltext
圖是對對象及其相互關系的一種簡潔抽象的直觀數學表達. 具有相互關系的數據—圖結構數據在眾多領域普遍存在, 并得到廣泛應用. 隨著大量數據的涌現, 傳統的圖算法在解決一些深層次的重要問題, 如節點分類和鏈路預測等方面有很大的局限性. 圖神經網絡模型考慮了輸入數據的規模、異質性和深層拓撲信息等, 在挖掘深層次有效拓撲信息、 提取數據的關鍵復雜特征和 實現對海量數據的快速處理等方面, 例如, 預測化學分子的特性 [1]、文本的關系提取 [2,3]、圖形圖像的結構推理 [4,5]、社交網絡的鏈路預測和節點聚類 [6]、缺失信息的網絡補全 [7]和藥物的相互作用預測 [8], 顯示了令人信服的可靠性能.
圖神經網絡的概念最早于 2005 年由 Gori 等 [9]提出, 他借鑒神經網絡領域的研究成果, 設計了一種用于處理圖結構數據的模型. 2009 年, Scarselli 等 [10]對此模型進行了詳細闡述. 此后, 陸續有關于圖神經網絡的新模型及應用研究被提出. 近年來, 隨著對圖結構數據研究興趣的不斷增加, 圖神經網絡研究論文數量呈現出快速上漲的趨勢, 圖神經網絡的研究方向和應用領域都得到了很大的拓展.
目前已有一些文獻對圖神經網絡進行了綜述. 文獻 [11]對圖結構數據和流形數據領域的深度學習方法進行了綜述, 側重于將所述各種方法置于一個稱為幾何深度學習的統一框架之內; 文獻[12]將圖神經網絡方法分為三類: 半監督學習、無監督學習和最新進展, 并根據發展歷史對各種方法進行介紹、分析和對比; 文獻[13]介紹了圖神經網絡原始模型、變體和一般框架, 并將圖神經網絡的應用劃分為結構場景、非結構場景和其他場景; 文獻[14]提出了一種新的圖神經網絡分類方法, 重點介紹了圖卷積網絡, 并總結了圖神經網絡方法在不同學習任務中的開源代碼和基準.
本文將對圖神經網絡模型的理論及應用進行綜述, 并討論未來的方向和挑戰性問題. 與其他綜述文獻的不同之處在于, 我們給出新的分類標準, 并且介紹圖神經網絡豐富的應用成果. 本文具體結構如下: 首先介紹三類主要的圖神經網絡模型, 分別是基于空間方法的圖神經網絡、基于譜方法的圖神經網絡和基于生成方法的圖神經網絡等; 然后介紹模型在節點分類、鏈路預測和圖生成等方面的應用; 最后提出未來的研究方向.