推薦系統(RS)已顯著推進了在線內容發現和個性化決策制定。然而,RS中出現的脆弱性促使人們轉向可信賴推薦系統(TRS)。盡管TRS取得了許多進展,但大多數研究側重于數據相關性,而忽視了推薦中的基本因果關系。這一缺陷阻礙了TRS在解決可信賴性問題時識別原因,導致公平性、魯棒性和可解釋性受限。為了彌補這一差距,因果學習作為一類有前途的方法出現,以增強TRS。這些方法基于可靠的因果關系,在減輕各種偏差和噪聲的同時,為TRS提供有洞察力的解釋。然而,這一充滿活力的領域缺乏及時的綜述。本文從因果學習的角度創建了TRS的概述。我們首先介紹面向因果性的TRS(CTRS)的優勢和常見程序。然后,我們識別每個階段的潛在可信賴性挑戰,并將它們與可行的因果解決方案聯系起來,隨后分類CTRS方法。最后,我們討論了推進這一領域的幾個未來方向。
黑盒AI模型的激增促使需要解釋其內部機制并證明它們的可靠性,特別是在高風險應用領域,如醫療保健和自動駕駛。由于缺乏可解釋AI(XAI)的嚴格定義,開發了大量與可解釋性、可解讀性和透明度相關的研究,以從不同角度解釋和分析模型。因此,面對一長串的論文,要全面了解XAI研究的所有方面變得具有挑戰性。考慮到神經網絡在AI研究中的流行,我們將關注范圍縮窄到XAI研究的一個特定領域:基于梯度的解釋,這可以直接用于神經網絡模型。在這篇綜述中,我們系統地探索了迄今為止基于梯度的解釋方法,并引入了一個新的分類體系,將它們分為四個不同的類別。然后,我們按時間順序介紹技術細節的精髓,并強調算法的演變。接下來,我們引入人類和量化評估來衡量算法性能。更重要的是,我們展示了XAI的一般挑戰和基于梯度解釋的特定挑戰。我們希望這篇綜述能幫助研究人員理解最新進展及其相應的缺點,這可能會激發他們在未來工作中解決這些問題的興趣。
如今,我們目睹了在各個領域內神經網絡模型的顯著激增,例如,計算機視覺 [28, 43, 54]、自然語言處理 [10, 53, 97]、機器人學 [9, 47] 和醫療保健 [36, 75]。由于它們不透明的決策過程,AI模型可能會對少數民族表現出偏見或做出意外且可能災難性的錯誤。例如,ProPublica報告稱,COMPAS司法系統對非洲裔美國人的被告存在偏見,預測他們重新犯罪的可能性較高 [35]。Ribeiro等人 [70] 觀察到,模型在背景中存在雪的情況下區分狼和哈士奇犬。因此,迫切需要闡明內部過程,理解決策機制,并增強用戶對AI系統的信任。 可解釋AI(XAI)指的是一系列旨在推理和理解模型行為、提供洞見以糾正模型錯誤/偏見,并最終使用戶接受并信任模型預測的技術。根據Guidotti等人 [26] 的分類,如圖1所示,XAI可以被分類為以下方面:先驗解釋和事后解釋。先驗解釋努力開發用戶可以直接理解的透明模型,無需額外的解釋工具,例如,決策樹 [69] 和決策規則 [31]。事后解釋旨在通過利用輸入特征與模型預測之間的關系來解釋訓練過的黑盒模型。事后解釋可以進一步分為模型解釋 [13, 45]、結果解釋 [70, 84] 和模型檢查 [18, 23]。模型解釋涉及使用在全局級別上可解釋和透明的模型來近似黑盒模型的整體邏輯。結果解釋專注于探索特定預測的背后原因,屬于局部級別。模型檢查旨在提供視覺和文本表示,以便于理解模型的工作機制。 在結果解釋中通常采用兩種方法:特征歸因(也稱為特征重要性方法)和反事實解釋。特征歸因直接識別輸入特征對模型輸出的重要性,而反事實解釋探索輸入空間中的最小且有意義的擾動,以回答輸入值的哪些變化可能會影響模型的預測。為了更深入地探索兩種方法之間的聯系,我們引用了Kommiya Mothilal等人的研究 [42]。
1.1 本綜述的目的
由于缺乏一個普遍且嚴格的可解釋AI(XAI)定義,大量與可解釋性、可解讀性、透明度及其他相關概念的研究都屬于XAI領域。在谷歌學術上搜索“可解釋AI”關鍵詞會得到超過200,000個結果,這給在單一出版物內全面闡述XAI的所有方面帶來了巨大挑戰。盡管已有許多關于XAI的綜述文章或書籍章節 [2, 5, 11, 14, 14, 21, 26, 30, 51,58, 73, 85],但大多數僅簡要描述并展示了XAI的某個特定子領域,如基于梯度的特征歸因的早期工作。這種對特定子領域的欠充分探索激勵我們全面概述基于梯度解釋的最新進展。先前的綜述旨在幫助從業者快速掌握XAI的各個方面,而我們的綜述文章深入探討了基于梯度解釋方法的算法細節。通過這樣做,我們的目的是幫助研究人員在更多應用中采用適當的方法,并在這一狹窄領域內促進創新突破。 基于不同的方法論途徑,特征歸因包含以下研究分支:基于擾動的方法 [16, 17, 95]、基于替代的方法 [25, 70]、基于分解的方法 [6, 8, 59, 60] 以及基于梯度的方法 [79, 81, 84]。然而,在本文中,我們專注于基于梯度的方法,出于以下考慮。
梯度的直覺。梯度量化了輸入特征中的無窮小變化如何影響模型預測。因此,我們可以利用梯度及其變體有效地分析特征修改對模型預測結果的影響。
神經網絡的無縫集成。神經網絡在各個領域獲得了極大的流行度和令人印象深刻的性能。在模型訓練后,可以通過反向傳播輕松獲得梯度。因此,基于梯度的解釋能夠直接解釋神經網絡,無需對模型本身進行任何更改。
滿足公理化屬性。由于缺乏真實基準,特征歸因方法可能會產生不同的解釋,這導致了確定哪個解釋更可信的挑戰。基于梯度的解釋是有意設計來滿足某些公理化原則的,例如敏感性和完整性,確保產生合理且期望的解釋。
1.2 我們的貢獻
我們綜述的貢獻總結如下:
我們提出了一個新穎的分類體系,系統地將基于梯度的特征歸因分為四組。隨后,我們介紹了每組算法的研究動機和技術細節的要點。
我們全面概述了一系列廣泛接受的評估指標,包括人類評估和客觀指標,使得可以定量和定性地比較各種解釋方法的性能。
我們總結了XAI中的一般研究挑戰以及基于梯度解釋特有的特定挑戰,這些挑戰可能會滋養并為未來工作中的潛在改進奠定基礎。
機器學習模型雖然日益先進,但在很大程度上依賴于獨立同分布(IID)假設,這一假設在實際中往往得不到滿足,因為不可避免的分布偏移。這使得它們在風險敏感的應用部署中顯得脆弱且不可信。這一重大問題因此催生了各種旨在開發能夠進行分布外(Out-of-Distribution, OOD)泛化的算法的研究分支。盡管有這些努力,但對分布外泛化的評估卻鮮有關注,這同樣是一個復雜且基礎的問題。其目標不僅是評估一個模型的分布外泛化能力是否強大,而且還要評估一個模型在哪些地方泛化得好或泛化得差。這需要描述模型可以有效解決的分布偏移類型,并確定給定模型的安全和風險輸入區域。本文是進行分布外評估綜述的第一次嘗試。我們根據測試數據的可用性,將現有研究歸類為三種范式:分布外性能測試、分布外性能預測和分布外內在屬性表征。此外,我們還簡要討論了在預訓練模型上進行分布外評估的背景。最后,我們提出了分布外評估未來研究的幾個有希望的方向。
在過去的十年中,機器學習領域發生了重大進展。在數據和計算資源的指數級增長的推動下,神經網絡在包括但不限于計算機視覺[1]、自然語言處理[2]和推薦系統[3]等廣泛的應用領域取得了驚人的性能。盡管取得了顯著進展,但我們必須承認,現有的機器學習算法和模型仍然面臨著幾個持續存在的挑戰,這些挑戰極大地削弱了它們的可靠性和信任度。這些挑戰包括隱私泄露[4]、黑盒模型的弱可解釋性[5]、在對抗性攻擊下的脆弱性[6],以及面對分布偏移時泛化性能的顯著下降[7]。上述挑戰對當前機器學習算法的廣泛應用構成了實質性的障礙,特別是在高風險敏感性領域。典型例子包括法律[8](公平和公正至關重要)、醫療保健[9](患者福祉至上)和自動駕駛[10](人類生命取決于這些算法的性能)。
在這些挑戰中,分布偏移下的泛化問題,通常稱為分布外(Out-of-Distribution, OOD)泛化,構成了一個重大的障礙。這是因為當前算法在很大程度上依賴于IID假設,即測試數據和訓練數據應該是獨立同分布的,但幾乎到處都存在分布偏移。在真實應用中,我們幾乎無法保證部署模型遇到的測試數據將符合與訓練數據相同的分布。例如,推薦系統的模型在美國收集的用戶數據上進行訓練,但任務是擴展到其他國家的用戶,這些用戶的偏好分布可能有很大差異。同樣,主要由真實照片組成的數據集上訓練的視覺識別模型面臨著識別各種風格圖像的艱巨任務,如藝術繪畫,這代表了與其訓練數據的顯著分布偏移[11]。此外,訓練數據中通常存在人口群體的不平衡,特別是在性別或種族方面。在這種情況下,當訓練數據中的少數群體在測試數據中占主導地位時,模型的泛化性能可能會輕易下降[12]。所有這些分布偏移的實例都導致了機器學習算法的性能下降。盡管自更早以來已經開發了領域適應技術[13]、[14]、[15]來解決類似問題,但在野外環境中,分布偏移無處不在且未知,我們不太可能事先有權訪問測試數據。
一種直接的方法涉及開發算法,以增強模型在完全未知的測試數據下的OOD泛化能力,正如沈等人[7]所強調的。近年來,幾個研究分支致力于這一目標。領域泛化(DG)[16]、[17]、[18]利用多個訓練領域使模型能夠泛化到以前未見過的測試領域,主要在計算機視覺領域。分布魯棒優化(DRO)及其變體[19]、[20]、[21]試圖解決最壞情況下的分布。不變學習[22]、[23]、[24]尋求捕獲訓練數據中存在的潛在異質性和不變性。穩定學習[25]、[26]、[27]方法借鑒了因果推斷的思想,通過樣本重新加權來去相關變量。這些不同的分支共同貢獻于提高OOD泛化的總體目標,每個分支都提供了不可忽視的獨特見解和進步。
另一種使機器學習模型適用于高風險領域的途徑是評估,即評估它們在可能的OOD場景下的泛化能力。與OOD泛化算法的迅速增長相比,評估方面受到的關注要少得多。評估在機器學習的各個領域都是必不可少的。適當的評估協議和方法有潛力推動一個領域的進步,就像ImageNet[28]在計算機視覺領域所做的那樣。在OOD泛化的背景下,評估扮演著更為基礎的角色。一方面,與ID(In-Distribution)評估相比,OOD評估通常更加復雜。例如,給定一個單一任務的數據集,如圖像識別,一種自然的方法是將其隨機分割成訓練集和測試集,以測試準確率作為ID泛化的評估指標。但是,面對同一個數據集,我們如何分割數據集以生成所需的分布偏移并描述這種偏移?這種分布偏移是否可解[29]?在OOD的背景下,這變成了一個更復雜的過程。另一方面,值得注意的是,目前的OOD泛化算法沒有一個能在各種OOD設置中取得普遍且巨大的改進,并像ResNet[1]對計算機視覺社區所做的,或Transformer[30]對自然語言處理社區所做的那樣,引爆OOD社區。事實上,鑒于存在多種類型的分布偏移需要解決[31],而且很難一勞永逸地解決它們,因此開發一個在OOD泛化方面一致超過其他模型大幅度的模型是相當困難的。在這種情況下,評估模型在哪些方面表現出色或失敗更加實用和有用。具體而言,我們的目標轉向識別存在哪些類型的分布偏移[32],評估模型處理它們的能力,并尋找模型表現出色或糟糕的安全和風險輸入區域[33]。通過這種方式,我們可以充分利用現有的訓練模型,這些模型不能任意泛化,但適用于某些場景。
此外,與直接開發針對OOD泛化的模型相比,OOD評估還提供了額外的好處。如今,從頭開始訓練一個深度模型,甚至僅僅是對現有模型進行微調,都可能是耗時且昂貴的[34]。在像罕見疾病[35]這樣的數據稀缺場景中,可能根本沒有足夠的數據進行訓練。在這種情況下,盡管無法進一步改進它,我們仍可以借助適當的OOD評估方法決定是否以及在哪里使用這個模型,或從模型池中選擇合適的模型。此外,OOD評估也更具靈活性。設計的評估指標不必是可優化的,它可以無縫地融入模型選擇過程中,這是OOD泛化的一個關鍵但鮮有研究的方面[18]、[36]。它還可以與非算法操作結合使用,如添加額外數據或特征[33]。
因此,我們認為OOD評估是OOD泛化的一個基本方向。目標不僅是確定一個模型是否具有良好的OOD泛化能力,而且還要識別它在哪里可以表現良好,包括分布偏移的類型和程度,以及模型保持其能力的相應輸入區域。在本文中,我們提供了當前OOD評估協議、指標和方法的系統性綜述,涵蓋了OOD評估的多方面目標。據我們所知,我們是第一個全面審視這一領域的人。之前的綜述主要集中在OOD泛化本身[7],或是機器學習模型的一般評估[34]。另一項綜述也回顧了OOD模型的評估,但其范圍僅限于NLP領域[37]。
本文的其余部分安排如下。在第2節中,我們介紹了問題設定和OOD評估范式的分類。在第3節、第4節、第5節中,我們主要根據對OOD測試數據的依賴性描述了OOD評估范式的每個類別。在第6節中,我們討論了預訓練模型范圍內的OOD評估,包括大型語言模型(LLMs)。最后,在第7節中,我們總結了這篇論文,并提出了一些在未來研究努力中值得進一步探索的方向。
分布外性能測試
設計關于標記數據集的分布外性能測試程序絕非一個瑣碎的問題。對于ID泛化任務,給定一個標記數據集,直接隨機將其分割成訓練集和測試集已經足夠合理。但對于分布外泛化,許多問題需要仔細考慮。如果沒有給定的數據集,我們應該如何從頭開始生成一個標記的合成數據集來模擬特定類型的分布偏移?如果有給定的數據集,我們應該如何人為地生成分布偏移,或根據現有的分布偏移將數據集劃分為多個環境?在獲得數據集和環境劃分后,我們如何減少由于預訓練[36]和神諭模型選擇[18]導致的測試數據信息泄露的潛在可能性?此外,一旦我們測試了模型在標記數據集上的性能,我們應該如何有效地分析這一性能?在分布外性能測試方面需要解決許多問題。在本節中,我們將介紹當前的分布外數據集或基準以及它們的基本設計原則,以及分析性能和分布偏移的現有方法。
分布外性能預測
與分布外性能測試不同,后者的測試數據是完全可訪問的,這一領域代表了另一個研究維度,旨在預測在提供的未標記分布外測試數據上的性能。我們可以用醫學圖像智能系統的例子來說明這一點。這些系統作為輔助工具幫助醫生進行診斷。假設部署在這些系統上的模型是在北京和上海的患者數據上訓練的。現在我們想探索在廣州醫院部署這些模型和系統的可能性。因此,我們需要預測這些模型面對新場景下從患者收集的未標記圖像數據時的分布外性能。當前的工作嘗試從兩個角度應對這一挑戰。一些研究直接關注模型輸出在應用到測試數據時的屬性,而不使用訓練數據。相反,其他工作利用訓練數據的分布差異或模型一致性。前者通常更加方便和靈活,然而后者通常能夠提供更優的預測,因為它們利用了更多的信息。
結論與未來方向
科學合理的分布外評估范式,即對分布外泛化的評估,不僅對于推動新的分布外泛化算法的發展具有重要意義,而且對于現有模型的更實用和靈活的應用也極為關鍵。在本文中,我們對問題設定、三個主要類別的分布外評估方法進行了系統性的綜述,并簡要討論了在預訓練模型的背景下的應用。盡管我們已經討論了每個特定分布外評估類別的缺點和未來方向,但基于我們目前對分布外評估的認識和反思,我們在這里列舉了幾個更具普遍性但在當前文獻中相對缺乏的有價值的潛在未來方向。
分布外評估超越性能:大多數現有的分布外評估范式主要圍繞模型的性能。它們旨在評估模型的分布外性能是否足夠好,或者在模型之間進行比較。然而,如第一節所述,分布外評估的目標不僅僅是“是否”,還包括“在哪里”。考慮到各種類型的分布偏移,尋找分布外泛化的最終解決方案是困難的,因此,在部署機器學習模型時,識別特定模型的安全或風險區域,以及驗證算法能夠有效應對的分布偏移類型更為實用。上文提到的一些工作[32]、[33]、[95]、[96]、[118]是朝著這一目標的初步努力。值得注意的是,它們都是相對較新的工作,這表明可能存在一個朝向超越性能評估的趨勢。
分布外訓練數據評估:雖然全訓練模型是模型結構、算法和訓練數據的綜合結果,但當前的分布外評估范式大多評估不同模型結構或不同算法之間的模型,很少跨不同種類的訓練數據進行評估,也很少分析有利于分布外泛化的訓練數據屬性。在人們關注開發新模型結構和新算法的時代,訓練數據容易被忽視,盡管它對模型性能有著關鍵影響[142]、[143]、[144]。只有少數研究從訓練數據異質性的角度探討這個問題[122]、[145]。 區分分布外泛化與ID泛化的性能:現有的分布外評估方法依賴于絕對性能的直接比較。然而,我們對這些比較是否準確衡量模型的真實分布外泛化能力提出了疑問。存在一種可能性,性能提升歸因于ID泛化能力的改進,而非分布外泛化能力。例如,對同一數據集進行足夠的訓練,更大的網絡往往在ID和分布外測試數據上都能達到更高的性能。ID與分布外之間的性能差距,雖然不一定是適當的評估指標,可能保持不變甚至變大。當然,增加訓練數據的大小和模型容量通常有助于提高ID性能,從而提高分布外性能,但這并不意味著這是解決分布外泛化問題的答案,考慮到大型模型也會遭遇分布偏移時的嚴重性能下降[81]、[82],以及相關的偏見和公平性問題[34]、[140]。因此,對于分布外泛化的最終解決方案,我們建議在評估模型的分布外泛化能力時,應該區分分布外性能和ID性能。簡單使用性能差距可能不適合,因為強正則化技巧,如使用大的權重衰減,可能會降低ID性能以減少性能差距。已有一些工作討論了分布外和ID性能之間的關系[82]、[111]、[146]、[147]、[148],期待對這方面進行更深入的研究。
這篇系統性文獻綜述全面檢視了大型語言模型(LLMs)在預測和異常檢測中的應用,突出了當前研究的現狀、固有挑戰和未來的潛在方向。LLMs在解析和分析大規模數據集以識別模式、預測未來事件和檢測各個領域中的異常行為方面展示了顯著潛力。然而,本綜述識別了幾個關鍵挑戰,阻礙了它們更廣泛的采用和有效性,包括依賴龐大的歷史數據集、在不同上下文中的泛化問題、模型幻覺現象、模型知識邊界內的限制,以及所需的大量計算資源。通過詳細分析,本綜述討論了克服這些障礙的潛在解決方案和策略,如集成多模態數據、學習方法論的進步,以及強調模型可解釋性和計算效率。此外,本綜述概述了可能塑造LLMs在這些領域發展的關鍵趨勢,包括推向實時處理、可持續建模實踐的重要性,以及跨學科合作的價值。最后,本綜述強調了LLMs在預測和異常檢測方面可能產生的變革性影響,同時強調了實現它們全部潛力需要持續的創新、倫理考慮和實際解決方案的必要性。
這項系統性文獻綜述全面考察了大型語言模型(LLMs)在預測和異常檢測應用中的使用,強調了研究的當前狀態、固有挑戰和未來的潛在方向。LLMs在解析和分析大量數據集以識別模式、預測未來事件和檢測各個領域中的異常行為方面展示了顯著潛力。然而,這項綜述識別了幾個關鍵挑戰,這些挑戰阻礙了它們更廣泛的采用和有效性,包括依賴龐大的歷史數據集、在不同上下文中的泛化問題、模型幻覺現象、模型知識邊界的限制,以及所需的大量計算資源。通過詳細分析,本綜述討論了克服這些障礙的潛在解決方案和策略,例如集成多模態數據、學習方法論的進步,以及強調模型可解釋性和計算效率。此外,本綜述概述了可能塑造LLMs在這些領域發展的關鍵趨勢,包括向實時處理的推進、可持續建模實踐的重要性,以及跨學科合作的價值。總之,這項綜述強調了LLMs在預測和異常檢測方面可能產生的變革性影響,同時強調了實現它們全部潛力需要持續的創新、倫理考慮和實際解決方案的必要性。
預測和異常檢測在數據科學領域是至關重要的組成部分,為從網絡安全到金融市場的多個領域提供了基本見解。這些技術在預測即將到來的趨勢和識別偏離規范預期的非典型模式方面起著核心作用,這些能力在廣泛的應用中促進了預防性策略的發展。預測利用歷史數據來對未來事件或趨勢進行知情預測。它涉及對正在分析的情況進行假設選擇,選擇適當的數據集,分析數據,并確定預測。預測是多個行業戰略規劃和決策制定的基石,使組織和政策制定者能夠預測變化,管理風險,并有效分配資源。異常檢測,也稱為離群點檢測,是旨在識別與典型模式或規范顯著偏離的數據點、實體或事件的分析過程。這種方法在自動監控系統中發揮著關鍵作用,特別是在識別潛在有害的離群點,從而保護數據完整性和安全。
預測和異常檢測是分析過程,天生非常適合時間序列或帶時間戳的數據,因為它們尋求理解和利用的信息具有時間性質。時間序列數據是在時間間隔內收集或記錄的數據點序列,通常展示出趨勢、季節性變化和周期性,這是預測技術旨在捕捉并推測到未來的特征。帶時間戳的數據特別有助于異常檢測,因為它允許識別與建立的時間模式的偏差。例如,在網絡安全中,異常檢測系統可以識別可能表明安全漏洞的不尋常訪問模式。在工業環境中,它可能會標記傳感器讀數的意外下降或飆升,從而可能防止設備故障。
本研究著手全面探索LLMs在預測和異常檢測領域的整合和潛力,這些領域傳統上由定量數據分析主導。LLMs在自然語言處理(NLP)中的迅速發展提供了一個前所未有的機會來增強甚至可能革新這些領域。本文旨在彌合LLMs先進的語言處理能力與預測分析和檢測離群點中涉及的預測分析之間的差距。我們深入探討了從LLMs中獲得的定性見解如何補充傳統的定量方法,從而豐富了在包括金融、網絡安全和醫療保健在內的各個領域的分析深度和準確性。此外,這項調查還討論了在LLMs與這些關鍵數據科學應用交叉點的挑戰、倫理考慮和未來研究方向。我們的目標是提供一個全面的視角,不僅闡明了LLMs在這些領域的應用現狀,還激發了跨學科的對話和研究,導航現代數據環境的復雜性,并為預測分析鋪平了創新解決方案的道路。
貢獻概述如下:
這是第一篇全面的系統性文獻綜述(SLR),專門研究LLMs在預測和異常檢測領域的應用。通過這項綜述,我們闡明了LLMs對這些特定任務中的數值和文本數據的獨特影響。
本研究編制了一套指導方針,概述了LLMs在各種任務中的最佳利用方式,為該領域提供了一種結構化的方法來在實際場景中使用這些先進模型。
這項文獻綜述提供了盡可能深入的理論洞察,特別是LLMs處理復雜模式和傳統模型可能忽略的數據細微差別的能力。
本工作為未來圍繞預測和異常檢測建模的研究開辟了新的路徑。
論文接下來的結構安排如下:第2節概述了進行系統性文獻綜述的方法論。第3節提供了LLMs在預測和異常檢測研究當前狀態的概覽。第4節討論了將LLMs應用于這些領域的挑戰和限制。第5節探討了在基于LLM的預測和異常檢測中使用的數據集和數據預處理技術。第6節介紹了評估LLMs在這些任務中表現的評估指標和方法。第7節深入探討了LLMs在預測中的應用,而第8節專注于它們在異常檢測中的應用。第9節討論了使用LLMs在這些領域中可能面臨的潛在威脅和風險。第10節概述了LLMs在預測和異常檢測應用中的未來方向和潛在研究途徑。第11節提供了相關工作的概覽,第12節總結了本文。
大型語言模型(LLMs)的廣闊領域帶來了前所未有的自然語言處理進步,顯著影響了包括預測和異常檢測在內的各種任務。本節提供了LLMs當前狀態和演化的全面概覽,概述了它們的基礎結構、發展軌跡,以及它們在轉換數據分析和預測建模中所扮演的關鍵角色。從LLMs的背景開始,我們追溯了從初期階段到作為當代應用支柱的復雜預訓練基礎模型的語言模型的演化過程。然后,我們分類了LLMs顯示出顯著效果的任務,特別關注預測和異常檢測,以說明它們適用性的廣度。進一步的探索致力于利用LLMs的力量所采用的多樣化方法,包括基于提示的技術、微調機制、零樣本、少樣本學習的利用、重編程策略,以及結合多種方法以提高性能的混合方法。本節旨在讓讀者全面了解LLMs的復雜景觀,為后續部分更深入探索它們的能力和應用奠定基礎。
大型語言模型(LLMs)的出現顯著擴展了異常檢測的視野,為識別多樣化數據集和領域中的不規則性提供了復雜的解決方案。本節全面檢查了LLMs如何被利用來精確指出可能表明錯誤、欺詐、系統故障或網絡威脅的偏離。這一探索從時間序列異常檢測開始,其中LLMs分析順序數據以偵測不尋常模式,造福于依賴持續監控的行業,如金融、制造和能源。接下來,討論轉向異常日志分析,突出LLMs篩查大量日志數據以識別和分類異常的能力,從而提高IT安全和運營效率。關于微服務異常檢測的部分展示了LLMs在云計算和分布式系統這一日益復雜的領域中的應用,它們通過在微服務級別檢測異常,在維護系統健康和安全方面發揮著關鍵作用。這一詳盡的探索旨在闡明LLMs在異常檢測中的前沿方法論和有影響的應用,強調它們在保護和優化現代數字基礎設施中的關鍵作用。
這篇系統性文獻綜述探索了在預測和異常檢測背景下迅速發展的大型語言模型(LLMs)領域,提供了當前方法論、挑戰和未來方向的全面概覽。正如我們所見,LLMs擁有巨大的潛力來轉變這些領域,提供了能夠解析龐大數據集以預測未來事件和以顯著準確性識別偏離常規的復雜工具。然而,這一旅程充滿挑戰,包括依賴廣泛的歷史數據集、泛化問題、幻覺現象、知識邊界,以及對計算效率的需求。
盡管存在這些障礙,前進的道路被有希望的解決方案和創新所照亮。多模態數據源的整合、轉移和元學習的進步、對可解釋性和可信度的關注、推向實時處理和邊緣計算的推動、跨學科合作,以及對可持續建模實踐的承諾,都代表了將塑造LLMs在預測和異常檢測未來的關鍵趨勢。
本綜述強調了在這一領域繼續研究和發展的重要性,突出了對不僅強大和準確,而且透明、適應性強和易于獲取的模型的需求。隨著技術的進步,我們對倫理考慮的方法也必須進步,確保LLMs的部署對社會產生積極貢獻,并且不會加劇現有的不平等或環境問題。
總之,LLMs革新預測和異常檢測的潛力是明確的,但實現這一潛力需要科學界、行業利益相關者和政策制定者的共同努力。通過解決本綜述中概述的挑戰并利用新興趨勢所提供的機會,我們可以期待一個LLMs在引導我們理解現代世界的復雜性、推動對全社會有益的見解和創新中發揮關鍵作用的未來。
表格推理旨在根據提供的表格以及可選的表格文本描述,按照用戶需求生成相應的問題答案,有效提高獲取信息的效率。近來,使用大型語言模型(LLMs)已成為表格推理的主流方法,因為它不僅顯著降低了注釋成本,還超過了以往方法的性能。然而,現有研究仍然缺乏基于LLM的表格推理工作的總結。由于現有研究的缺乏,哪些技術可以在LLMs時代提高表格推理性能、LLMs為何在表格推理上表現出色、以及如何在未來增強表格推理能力的問題,仍然大部分未被探索。這一差距顯著限制了研究進展。為了回答上述問題并推進LLMs下的表格推理研究,我們呈現了這篇綜述,以分析現有研究,激發未來的工作。在這篇論文中,我們分析了在LLM時代用于提高表格推理性能的主流技術,以及LLMs相比于LLMs之前的模型在解決表格推理問題時的優勢。我們從現有方法的改進和實際應用的擴展兩個方向提供研究指導,以激發未來的研究。
在信息過載的時代,推薦系統(RSs)已經成為在線服務平臺不可或缺的一部分。傳統的RSs通過觀察用戶的歷史活動、用戶畫像和交互項目內容之間的相關性來估計用戶的興趣并預測其未來的行為。然而,由于沒有考慮導致觀察到的用戶行為的內在因果原因,生成的推薦可能存在多種類型的偏差。此外,驅動用戶活動的因果動機通常糾纏在這些RSs中,無法保證推薦的可解釋性和泛化能力。為了解決這些缺點,近年來人們對用因果推理技術增強傳統RSs的興趣激增。本綜述提供了因果RSs的系統概述,幫助讀者全面了解這一有前途的領域。從傳統RSs的基本概念及其由于缺乏因果推理能力而產生的局限性開始。討論了如何引入不同的因果推理技術來解決這些挑戰,重點是去偏差、提高可解釋性和提高泛化能力。徹底分析了因果RSs的各種評估策略,特別是在利益的因果影響不可用的情況下,如何用有偏的數據可靠地估計它們的性能。最后,對未來因果關系研究的潛在方向進行了展望。
1. 引言
隨著web上的信息呈指數級增長,推薦系統(RSs)在現代在線服務中扮演著越來越重要的角色,因為它能夠根據用戶的個性化興趣自動地向他們提供商品**。
傳統RSs主要可以分為三類[9]:基于協同過濾的方法[10]、基于內容的方法[11]和混合方法[12]。基于協同過濾的RSs利用用戶過去的瀏覽、點擊、購買等行為來估計用戶的興趣并預測其未來的行為。另一方面,基于內容的方法通過匹配用戶興趣和項目內容來預測新的推薦。混合方法結合了兩者的優勢,綜合考慮了協同信息和用戶/項目特征信息,產生更準確的推薦。盡管近年來上述三類RSs都取得了巨大的成就,但這些方法的一個很大的局限性是,它們只能根據觀察到的用戶歷史行為和用戶/項目特征中的相關性來估計用戶興趣并預測未來的推薦,這不能保證因果關系[13,14]。
例如,基于協同過濾的RS可能會發現某種類型的幾個電視劇傾向于從一組用戶中獲得高評分,并得出結論,我們應該不斷向這些用戶推薦相同類型的電視劇。但有一個重要的問題:高收視率是由于用戶確實喜歡該類型的電視劇,還是由于用戶接觸到的同一類型的電視劇有限(即曝光偏差),如果有機會,他們會更喜歡看新的節目?此外,基于內容的RS可以觀察到具有某些特征的微視頻與更多的點擊相關聯,并得出這些特征可能反映了當前用戶興趣的趨勢。但點擊量之所以如此之高,是因為這些微視頻往往具有聳人聽聞的標題,容易讓用戶上當受騙嗎?此外,如果這些微視頻的標題改為反映其真實內容的標題,用戶還會點擊它們嗎?上述問題在本質上是因果的,因為它們要么詢問干預的效果(例如,如果一個新的電視劇展示給用戶,評分將是什么),要么詢問反事實的結果(例如,如果微視頻的標題更改以忠實地反映內容,用戶還會點擊它嗎),而不僅僅是觀察數據中的關聯。Pearl[15]認為,這些問題位于因果關系階梯的第2級和第3級,即干預推理和反事實推理,而傳統的RSs不能回答這些問題,即僅用位于階梯第1級的關聯進行推理。為什么這些因果問題對RSs很重要?第一個原因是,如果不解決這些問題,很容易在推薦中產生偏差,而這種偏差會被很長一段時間忽視。如果上述基于協同過濾的RSs錯誤地揭示了用戶興趣的暴露偏差,則會通過不斷向用戶推薦相似的項目來放大該偏差;最終,推薦將失去偶然性,用戶的在線體驗可能會嚴重下降。同樣的,對于基于內容的微視頻RSs來說,如果不能區分用戶興趣引起的點擊和被標題黨欺騙的點擊,就會過度推薦標題聳人聽聞的微視頻,這對那些花費大量精力設計內容的優質微視頻上傳者是不公平的。此外,了解用戶活動的原因有助于提高推薦的可解釋性。考慮一個因果問題,用戶購買商品是出于質量還是價格低廉。尋求用戶行為背后的因果解釋可以幫助服務提供商根據用戶的個性化偏好增強RS算法。因果推斷能夠識別穩定不變的因果關系,并在此基礎上提出建議,同時丟棄不受歡迎或容易變化的其他相關性。以推薦餐廳為例。用戶選擇餐館可能是因為方便(例如,去附近的快餐店快速地吃點東西,但他們不一定喜歡,非穩定相關)或由于個人興趣(例如,出差很遠的地方去火鍋店,穩定的因果關系)。如果RS能恰當地解析出影響用戶之前光顧餐廳的意圖,即使不同餐廳的便利性水平可能因各種內部或外部原因(如用戶搬到新地方)而發生變化,系統仍能很好地適應新情況。從這個角度來看,因果RSs的泛化能力可以得到大幅提升。
本綜述對因果RS研究的最新進展進行了系統的概述。組織結構如圖1所示。在第2節中,我們從傳統RSs的基本概念及其相關推理的局限性開始。第3節回顧了機器學習和統計學中兩個重要的因果推理范式,并展示了它們與推薦任務的聯系。第4節深入討論了如何引入不同的因果推理技術來解決傳統RSs的局限性,重點是去偏倚、可解釋性的提高和泛化能力的提高。第5節總結了因果RSs的一般評估策略。最后,第6和第7節討論了因果性RSs的前瞻性開放問題和未來方向,并總結了本綜述。
2. 因果推薦系統
基于前幾節討論的RSs和因果推斷的初步知識,我們準備介紹最先進的因果RSs。重點關注了三個重要的主題,即偏差緩解、可解釋性提高和泛化能力的提高,以及它們的相互聯系,其中可以很好地解決由于相關推理而傳統RSs的各種限制。傳統RSs的關聯推理可以繼承用戶觀察行為中的多種類型偏差,并在未來的推薦[46]中放大這些偏差。這些偏差可能會導致各種后果,如離線評估與在線指標之間的差異、多樣性的喪失、推薦質量的降低、攻擊性的推薦等。因果推斷可以區分穩定的因果關系和可能對推薦產生負面影響的虛假關聯和偏差,從而提高推薦的魯棒性。在前幾節中,我們介紹了因果關系,以解決傳統RSs的各種類型的偏差和虛假相關性問題。在本節中,我們使用因果關系來解釋用戶決策過程。具體來說,我們討論了一個有趣的問題,旨在解開用戶的意圖,從而解釋他們過去的行為,即用戶購買一件物品是因為她符合當前的趨勢還是因為她真的喜歡它?這個問題的棘手之處在于:在現實中,我們只觀察到影響,即購買,這兩個原因都可以解釋。
在從潛在偏差和糾纏的觀察數據集中估計因果關系之后,RSs的泛化能力可以得到顯著增強,因為即使我們進行推薦的上下文(或環境)發生了變化(例如,項目流行度、用戶從眾性等),我們仍然可以根據穩定和不變的因果關系來進行推薦。同時丟棄或糾正其他瞬時的、易受變化影響的不良相關性[56,93]。在本節中,我們使用用于流行度偏差的PD算法和用于因果可解釋性的DICE算法作為兩個例子,來展示如何通過因果干預和解纏來提高RSs的泛化性。
參考文獻:
Jiahui Liu, Peter Dolan, and Elin R?nby Pedersen. Personalized news recommendation based on click behavior. In Proceedings of the 15th International Conference on Intelligent User Interfaces, pages 31–40, 2010.
Ioannis Paparrizos, B Barla Cambazoglu, and Aristides Gionis. Machine learned job recommendation. In Proceedings of the 5th ACM Conference on Recommender Systems, pages 325–328, 2011.
數學推理是人類智能的一個基本方面,可應用于科學、工程、金融和日常生活等各個領域。能夠解決數學問題和證明定理的人工智能系統的發展引起了機器學習和自然語言處理領域的重大興趣。例如,數學是對強大的深度學習模型具有挑戰性的推理方面的測試平臺,推動新的算法和建模的進步。另一方面,大規模神經語言模型的最新進展為使用深度學習進行數學推理開辟了新的基準和機會。本文回顧了過去十年數學推理和深度學習交叉點的關鍵任務、數據集和方法。對現有的基準和方法進行了評估,并討論了該領域未來的研究方向。
1. 引言
數學推理是人類智能的一個關鍵方面,它使我們能夠根據數字數據和語言來理解和做出決定。它適用于科學、工程、金融和日常生活等各個領域,涵蓋了從模式識別和數值運算等基本技能到解決問題、邏輯推理和抽象思維等高級技能的一系列能力。能夠解決數學問題和證明定理的人工智能(AI)系統的發展一直是機器學習和自然語言處理(NLP)領域的一個長期研究重點,可以追溯到20世紀60年代(Feigenbaum et al., 1963;Bobrow, 1964)。近年來,人們對這一領域的興趣激增,如圖1所示。
深度學習在各種自然語言處理任務中表現出巨大的成功,如問答和機器翻譯(Sutskever等人,2014;Devlin等人,2018)。類似地,研究人員開發了各種用于數學推理的神經網絡方法,已被證明在解決數學應用題解決、定理證明和幾何問題解決等復雜任務方面是有效的。例如,基于深度學習的數學應用題解決者采用了一種帶有注意力機制的序列到序列框架來生成數學表達式作為中間步驟(Wang et al., 2018a;Chiang and Chen, 2019)。此外,通過大規模語料庫和Transformer模型(Vaswani et al., 2017),預訓練語言模型在各種數學任務上取得了有希望的結果。最近,像GPT-3 (Brown et al., 2020)這樣的大型語言模型(LLM)在復雜推理和上下文學習方面表現出了令人印象深刻的能力,進一步推進了數學推理領域。
最近在數學推理研究方面的進展令人印象深刻和鼓舞人心。本文綜述了深度學習在數學推理中的進展。本文討論了各種任務和數據集(第2節),并研究了神經網絡(第3節)和預訓練語言模型(第4節)在數學領域的進展。本文還探索了基于大型語言模型的上下文學習的快速進展(第5節),用于數學推理。進一步分析了現有的基準,發現對多模態和低資源設置的關注較少(第6.1節)。循證研究表明,當前的數值表示是不夠的,深度學習方法對于數學推理不一致(第6.2節)。從泛化和魯棒性、可信推理、從反饋中學習和多模態數學推理等方面改進當前的工作是有益的(第7節)。
2 任務和數據集
在本節中,我們將研究目前用于使用深度學習方法進行數學推理研究的各種任務和數據集。表2列出了該領域常用的數據集。
2.1 數學應用題解決
幾十年來,開發自動解決數學應用題(MWPs)的算法一直是NLP研究人員的興趣(Feigenbaum et al., 1963;Bobrow, 1964)。數學應用題(也稱為代數或算術應用題)描述了一個簡短的敘述,涉及字符、實體和數量。MWP的數學關系可以用一組方程來建模,這些方程的解揭示了問題的最終答案。一個典型的例子如表1所示。作題涉及加、減、乘、除四種基本算術運算,有一個或多個運算步驟。NLP系統中MWPs的挑戰在于對語言理解、語義解析和多種數學推理技能的需求。
2.2 定理證明
自動化定理證明是人工智能領域長期以來的挑戰(Newell等人,1957;Feigenbaum et al., 1963)。問題是要通過一系列邏輯論證(證明)來證明一個數學主張(定理)的真實性。定理證明測試了各種技能,例如選擇有效的多步策略,使用背景知識和執行符號操作(例如算術或推導)。
2.3 幾何解題
自動幾何問題求解(GPS)也是數學推理研究中一個長期存在的人工智能任務(Gelernter et al., 1960; Wen-Tsun, 1986; Chou et al., 1996; Ye et al., 2008),近年來備受關注。與數學應用題不同,幾何問題由自然語言的文本描述和幾何圖形組成。如圖2所示,多模態輸入描述了幾何元素的實體、屬性和關系,目標是找到未知變量的數值解。GPS對于深度學習方法來說是一項具有挑戰性的任務,因為它需要復雜的技能。它涉及到解析多模態信息、進行符號抽象、利用定理知識和進行定量推理的能力。
2.4 數學問答
數值推理是人類智能中的核心能力,在許多自然語言處理任務中發揮著重要作用。除了定理證明和年級數學應用題解決,還有廣泛的以數學推理為中心的問答(QA)基準。本文將這些任務稱為數學問答(MathQA)。近年來出現了大量的數據集。例如,QuaRel (Tafjord et al., 2019)是一個包含不同故事問題的數據集,涉及19種不同類型的數量。McTaco (Zhou et al., 2019)研究的是時間常識問題,而Fermi (Kalyan et al., 2021)研究的是費米問題,其答案只能近似估計。
3 用于數學推理的神經網絡
3.1 數學的Seq2Seq網絡
序列到序列(Seq2Seq) (Sutskever et al., 2014)神經網絡已成功應用于數學推理任務,如數學應用題解決(Wang et al., 2017)、定理證明(Yang and Deng, 2019)、幾何問題解決(Robaidek et al., 2018)和數學問答(Tafjord et al., 2019)。Seq2Seq模型使用編碼器-解碼器架構,通常將數學推理形式化為序列生成任務。這種方法背后的基本思想是將輸入序列(例如數學問題)映射到輸出序列(例如方程、程序和證明)。常見的編碼器和解碼器包括長短期記憶網絡(LSTM) (Hochreiter和Schmidhuber, 1997)、門控循環單元(GRU) (Cho等人,2014)以及它們的雙向變體:BiLSTM和BiGRU。DNS (Wang et al., 2017)是第一項使用Seq2Seq模型將應用題中的句子轉換為數學方程的工作。大量工作表明,Seq2Seq模型比之前的統計學習方法具有性能優勢(Ling et al., 2017; Wang et al., 2018a; Huang et al., 2018; Chiang and Chen, 2019; Wang et al., 2019; Li et al., 2019)。
3.2基于圖的數學網絡
Seq2Seq方法在生成數學表達式和不依賴手工特征方面表現出優勢。數學表達式可以被轉換成一種基于樹的結構,例如抽象語法樹(AST)和一種基于圖的結構,它描述了表達式中的結構化信息。然而,Seq2Seq方法沒有顯式地對這些重要信息進行建模。為了解決這個問題,基于圖的神經網絡被開發出來顯式地建模表達式中的結構。 序列到樹(Seq2Tree)模型在編碼輸出序列時顯式建模樹結構(Liu et al., 2019a; Xie and Sun, 2019; Wu et al., 2020; Zhang et al., 2020a; Zaporojets et al., 2021; Qin et al., 2021; Wu et al., 2021b; Lin et al., 2021; Hong et al., 2021a)。例如,(Liu et al., 2019a)設計了一個Seq2Tree模型,以更好地利用來自方程的AST的信息。相反,Seq2DAG (Cao et al., 2021),在生成方程時應用了序列圖(Seq2Graph)框架,因為圖解碼器能夠提取多個變量之間的復雜關系。在編碼輸入的數學序列時,也可以嵌入基于圖的信息(Zhang et al., 2020b; Shen and Jin, 2020; Li et al., 2020b; Wu et al., 2021a)。例如,ASTactic (Yang and Deng, 2019)在ast上應用TreeLSTM (Tai et al., 2015)來表示定理證明的輸入目標和前提。 3.3基于注意力的數學網絡
注意力機制已成功應用于自然語言處理(Bahdanau等人,2014)和計算機視覺問題(Xu等人,2015;Woo等人,2018),在解碼過程中考慮了輸入的隱藏向量。最近,研究人員一直在探索它在數學推理任務中的有用性,因為它可以用來識別數學概念之間最重要的關系。例如,Math-EN (Wang et al., 2018a)是一個數學應用題解決程序,受益于通過自注意力學習到的長距離依賴信息。基于注意力的方法也被應用于其他數學推理任務,如幾何問題求解(Robaidek等人,2018;Chen et al., 2021a)和定理證明(Yang and Deng, 2019)。人們對各種注意力機制進行了研究,以提取更好的表示,例如Group-ATT (Li et al., 2019),它使用不同的多頭注意力來提取各種類型的MWP特征,以及圖注意力,用于提取知識感知信息(Wu et al., 2020)。
4 預訓練的數學推理語言模型
預訓練語言模型(例如,Devlin等人(2018);Radford et al. (2020);Brown等人(2020))在廣泛的NLP任務上證明了顯著的性能提升(Qiu等人,2020)。通過在大型文本語料庫上進行預訓練,模型學習有價值的世界知識(Guu等人,2020),這些知識可應用于下游任務,如問題回答(Khashabi等人,2020)、文本分類(Minaee等人,2021)和對話生成(Zhang等人,2019;Qiu等,2022a,b)。類似的想法可以應用于與數學相關的問題,之前的工作表明,預先訓練的語言模型在回答數學應用題時表現良好(Kim et al., 2020; Shen et al., 2021; Yu et al., 2021b; Cobbe et al., 2021; Li et al., 2022b; Jie et al., 2022; Ni et al., 2022),協助定理證明(Polu and Sutskever, 2020; Han et al., 2022; Wu et al., 2022b; Jiang et al., 2022b; Welleck et al., 2022a),以及其他數學任務(Lu et al., 2021a; Chen et al., 2022a; Cao and Xiao, 2022; Clark et al., 2020; Chen et al., 2021c; Zhu et al., 2021; Hendrycks et al., 2021; Zhao et al., 2022; Nye et al., 2021; Charton, 2021)。
**然而,盡管大型語言模型在建模自然語言方面表現出色,但將其用于數學推理存在一些挑戰。**首先,預訓練語言模型沒有專門在數學數據上進行訓練。這可能導致與自然語言任務相比,他們對數學相關任務的熟練程度較低。與文本數據相比,用于大規模預訓練的數學或科學數據也較少。其次,預訓練模型的規模繼續增長,使得為特定的下游任務從頭訓練整個模型的成本很高。此外,下游任務可能處理不同的輸入格式或模態,如結構化表(Zhao et al., 2022; Chen et al., 2021c; Zhu et al., 2021)或圖表(Lu et al., 2021a; Chen et al., 2022a; Lu et al., 2021b)。為了應對這些挑戰,研究人員必須通過對下游任務進行微調或適應神經架構來調整預訓練模型。最后,盡管預訓練語言模型可以編碼大量的語言信息,但模型僅從語言建模目標中學習數值表示或高級推理技能可能是困難的(Lin et al., 2020;Kalyan等人,2021年)。考慮到這一點,最近有研究調研了從基礎課程開始注入數學相關技能(Geva et al., 2020; Feng et al., 2021; Wu et al., 2021d)。
5 .基于上下文的數學推理學習
大型語言模型(LLM),如GPT3 (Brown et al., 2020),最近徹底改變了自然語言處理(NLP)領域,特別是由于其強大的少樣本上下文學習能力(Brown et al., 2020)。上下文學習(ICL)使LLM能夠通過在推理時提供一些任務示例作為條件來執行目標任務,而無需更新模型參數(Radford et al., 2020; Brown et al., 2020)。ICL允許用戶快速為新用例構建模型,而無需擔心為每個任務進行微調和存儲大量新參數,因此現在被廣泛用于少樣本設置(Min等人,2022)。一個上下文中的例子通常包含一個輸入-輸出對和一些提示詞,例如,請從列表中選擇最大的數字。輸入:[2,4,1,5,8]。輸出:8,而few-shot通過給出多個示例來工作,然后是一個最終輸入示例,模型預計將預測輸出。然而,這種標準的少次提示(在測試時示例前給LLM提供輸入-輸出對的上下文示例)尚未被證明足以在數學推理等具有挑戰性的任務上取得高性能(Rae等人,2021)。
結論:
本文對數學推理的深度學習進行了全面的綜述。回顧了已經使用的各種任務和數據集,并討論了已經采取的各種方法,包括早期的神經網絡,后來的預訓練語言模型和最近的大型語言模型。還確定了現有數據集和方法中的幾個差距,包括對低資源設置的關注有限、計算能力表示不足和推理能力不一致。最后,對未來的研究方向進行了展望,并指出了該領域進一步探索的潛力。本文的目標是為對發展數學推理深度學習感興趣的讀者提供一個全面而有用的資源。為了幫助我們完成這項工作,我們創建了一個閱讀列表,并將在//github.com/lupantech/dl4math的GitHub存儲庫中不斷更新
時間序列異常檢測在廣泛的研究領域和應用中有著廣泛的應用,包括制造業和醫療健康。異常的出現可能表明出現了新的或意料之外的事件,例如生產故障、系統缺陷或心臟跳動,因此特別值得關注。時間序列的巨大規模和復雜模式促使研究人員開發專門的深度學習模型來檢測異常模式。本綜述的重點是通過使用深度學習來提供結構化的、全面的、最先進的時間序列異常檢測模型。它提供了基于因素的分類法,將異常檢測模型劃分為不同的類別。除了描述每種類型的基本異常檢測技術外,還討論了其優點和局限性。此外,本研究包含了近年來跨不同應用領域的時間序列深度異常檢測實例。最后總結了在采用深度異常檢測模型時研究中存在的問題和面臨的挑戰。
1. 概述
異常檢測又稱異常值檢測和新穎性檢測,自60年代以來一直是眾多研究領域的一個蓬勃發展的研究領域[74]。隨著計算過程的發展,大數據和人工智能(AI)受到了積極的影響,有助于時間序列分析,包括異常檢測。隨著可獲得的數據越來越多,算法越來越高效,計算能力越來越強,時間序列分析越來越多地被用于通過預測、分類和異常檢測[59]、[26]來解決業務問題。時間序列異常檢測在城市管理、入侵檢測、醫療風險、自然災害等多個領域的需求日益增長,其重要性也日益提高。
隨著深度學習在過去幾年的顯著進步,它已經越來越有能力學習復雜時間序列的表達表示,比如同時具有空間(度量間)和時間特征的多維數據。在深度異常檢測中,利用神經網絡學習特征表示或異常評分來檢測異常。許多深度異常檢測模型已經被開發出來,在不同的現實應用中,對時間序列檢測任務提供了明顯高于傳統異常檢測的性能。雖然Chandola等人在[29]中對深度學習異常檢測模型進行了廣泛的綜述,但本研究的目的是對深度異常檢測模型進行全面的綜述,重點關注時間序列數據。考慮到多變量時間序列分析比單變量時間序列分析更具挑戰性,目前提出的模型主要用于處理多變量時間序列。
雖然在異常檢測領域已有多篇文獻綜述[140],[27]、[20]、[23]和一些評價綜述論文存在[154]、[102],但對時間序列數據[41]的深度異常檢測方法的研究僅一篇。然而,這一綜述并沒有涵蓋近年來出現的大量時間序列異常檢測方法,如DAEMON[37]、TranAD[171]、DCT-GAN[116]和Interfusion[119]。因此,有必要進行一項涵蓋該領域當前技術現狀的調研,以幫助研究人員確定:1)時間序列異常檢測的重要未來研究方向是什么;2)在特定的應用環境下,哪些方法適合應用。具體而言,本文有以下幾點貢獻:
提出了一種新的時間序列深度異常檢測模型分類方法。深度異常檢測模型一般分為三類:基于預測的、基于重構的和混合方法。每個類別被劃分為子類別,根據模型中使用的深度神經網絡架構定義子類別。模型的特征是各種不同的結構特征,這有助于其檢測能力。
本研究提供了對當前技術狀態的全面回顧。這一領域的發展方向和趨勢已經十分清晰。
描述了該領域目前使用的主要基準和數據集,并提供了超鏈接。
對可能導致時間序列中不同異常發生的基本原理的討論
本文的其余部分組織如下。在第二節中,我們從時間序列的初步定義開始。然后概述了時間序列數據異常分類的分類法。第3節討論了深度異常檢測模型如何應用于時間序列數據。然后,根據深度神經網絡的主要方法(基于預測的、基于重構的、混合的)和主要架構,介紹了不同的深度模型及其功能。對于所考慮的異常檢測模型,可以在第4節中找到公開可用的和常用的數據集的概述。此外,第5節探討了時間序列深度異常檢測模型在不同領域的應用領域。最后,第6節提供了該領域的幾個挑戰,可以作為未來的機會。
2. 深度異常檢測方法
在具有復雜結構的數據中,深度神經網絡是建模依賴關系的強大方法。許多學者對其在異常檢測中的應用非常著迷,它使用了許多深度學習架構,如圖3所示。在實踐中,訓練數據往往只有極少數被標記的異常。因此,大多數模型試圖學習正常數據的表示或特征。然后根據異常定義檢測異常,這意味著他們發現了與正常數據不同的數據。在最近的深度異常檢測模型中,有四種學習方案:無監督、有監督、半監督和自監督。這是基于標簽數據點的可用性(或缺乏)。監督方法采用一種獨特的方法來學習異常數據和正常數據之間的邊界,該方法基于在訓練集中發現的所有標簽。它可以確定一個適當的閾值,如果分配給這些時間戳的異常評分(第3.1節)超過閾值,則該閾值將用于將所有時間戳分類為異常。這種方法的問題是它不適用于現實世界中的應用程序,因為異常通常是未知的或標記不正確的。相反,在無監督異常檢測方法中,不區分訓練集和測試集。這些技術是最靈活的,因為它們完全依賴于數據的內在特征。它們在流應用程序中很有用,因為它們不需要標簽進行培訓和測試。盡管有這些優點,研究人員可能會遇到困難,評估異常檢測模型使用非監督方法。異常檢測問題通常被視為無監督學習問題,因為歷史數據固有的無標記性質和異常的不可預測性質。在數據集只包含正常點且不存在異常的情況下,可以使用半監督方法。然后,訓練一個模型來擬合時間序列分布,并檢測任何偏離該分布的點作為異常。通過充分利用未標記數據本身(例如,通過設計文本前任務),訓練自監督方法從其可觀察部分預測輸入的任何未觀察部分(或屬性)。在自監督學習中,只需要從無監督問題中自動生成少量的標記,因此將無監督問題轉換為有監督問題。
隨著深度學習的不斷發展,目標檢測技術逐步從基于傳統的手工檢測方法向基于深度神經網絡的檢測方法轉變。在眾多基于深度學習的目標檢測算法中,基于深度學習的單階段目標檢測算法因其網絡結構較簡單、運行速度較快以及具有更高的檢測效率而被廣泛運用。但現有的基于深度學習的單階段目標檢測方法由于小目標物體包含的特征信息較少、分辨率較低、背景信息較復雜、細節信息不明顯以及定位精度要求較高等原因,導致在檢測過程中對小目標物體的檢測效果不理想,使得模型檢測精度降低。針對目前基于深度學習的單階段目標檢測算法存在的問題,研究了大量基于深度學習的單階段小目標檢測技術。首先從單階段目標檢測方法的Anchor Box、網絡結構、交并比函數以及損失函數等幾個方面,系統地總結了針對小目標檢測的優化方法;其次列舉了常用的小目標檢測數據集及其應用領域,并給出在各小目標檢測數據集上的檢測結果圖;最后探討了基于深度學習的單階段小目標檢測方法的未來研究方向。
近年來,基于圖學習的推薦系統(GLRS)這個新興話題得到了快速發展。GLRS采用高級的圖學習方法來建模用戶的偏好和意圖,以及物品的特征來進行推薦。與其他RS方法(包括基于內容的過濾和協同過濾)不同,GLRS是建立在圖上的,其中重要對象(如用戶、物品和屬性)是顯式或隱式連接的。
隨著圖學習技術的快速發展,探索和開發圖中的同質或異質關系是構建更有效的RS的一個有前途的方向。通過討論如何從基于圖的表示中提取重要的知識,以提高推薦的準確性、可靠性和可解釋性。
首先對GLRS進行了表示和形式化,然后對該研究領域面臨的主要挑戰和主要進展進行了總結和分類。
引言
推薦系統(RS)是人工智能(AI)最流行和最重要的應用之一。它們已被廣泛采用,以幫助許多流行的內容分享和電子商務網站的用戶更容易找到相關的內容、產品或服務。與此同時,圖學習(Graph Learning, GL)是一種新興的人工智能技術,它涉及到應用于圖結構數據的機器學習,近年來發展迅速,顯示出了其強大的能力[Wu et al., 2021]。事實上,得益于這些學習關系數據的能力,一種基于GL的RS范式,即基于圖學習的推薦系統(GLRS),在過去幾年中被提出并得到了廣泛的研究[Guo等人,2020]。在本文中,我們對這一新興領域的挑戰和進展進行了系統的回顧。
動機: 為什么要用圖學習RS?
RS中的大部分數據本質上是一個圖結構。在現實世界中,我們身邊的大多數事物都或明或暗地相互聯系著;換句話說,我們生活在一個圖的世界里。這種特征在RS中更加明顯,這里考慮的對象包括用戶、物品、屬性、上下文,這些對象之間緊密相連,通過各種關系相互影響[Hu et al., 2014],如圖1所示。在實踐中,RS所使用的數據會產生各種各樣的圖表,這對推薦的質量有很大的幫助。
圖學習具有學習復雜關系的能力。作為最具發展前景的機器學習技術之一,GL在獲取嵌入在不同類型圖中的知識方面顯示出了巨大的潛力。具體來說,許多GL技術,如隨機游走和圖神經網絡,已經被開發出來學習特定類型的關系由圖建模,并被證明是相當有效的[Wu et al., 2021]。因此,使用GL來建模RS中的各種關系是一個自然和令人信服的選擇。
圖學習如何幫助RS? 到目前為止,還沒有統一的GLRS形式化。我們通常從高層次的角度對GLRS進行形式化。我們用一個RS的數據構造一個圖G = {V, E},其中對象(如用戶和商品)在V中表示為節點,它們之間的關系(如購買)在E中表示為邊。構建并訓練GLRS模型M(Θ)學習最優模型參數Θ,生成最優推薦結果R。
根據具體的推薦數據和場景,可以以不同的形式定義圖G和推薦目標R,例如,G可以是同質序列或異構網絡,而R可以是對物品的預測評級或排名。目標函數f可以是最大效用[Wang et al., 2019f]或節點之間形成鏈接的最大概率[Verma et al., 2019]。
這項工作的主要貢獻總結如下:
? 我們系統地分析了各種GLRS圖所呈現的關鍵挑戰,并從數據驅動的角度對其進行分類,為更好地理解GLRS的重要特征提供了有用的視角。
? 我們通過系統分類較先進的技術文獻,總結了目前GLRS的研究進展。
? 我們分享和討論了一些GLRS開放的研究方向,供社區參考。