黑盒AI模型的激增促使需要解釋其內部機制并證明它們的可靠性,特別是在高風險應用領域,如醫療保健和自動駕駛。由于缺乏可解釋AI(XAI)的嚴格定義,開發了大量與可解釋性、可解讀性和透明度相關的研究,以從不同角度解釋和分析模型。因此,面對一長串的論文,要全面了解XAI研究的所有方面變得具有挑戰性。考慮到神經網絡在AI研究中的流行,我們將關注范圍縮窄到XAI研究的一個特定領域:基于梯度的解釋,這可以直接用于神經網絡模型。在這篇綜述中,我們系統地探索了迄今為止基于梯度的解釋方法,并引入了一個新的分類體系,將它們分為四個不同的類別。然后,我們按時間順序介紹技術細節的精髓,并強調算法的演變。接下來,我們引入人類和量化評估來衡量算法性能。更重要的是,我們展示了XAI的一般挑戰和基于梯度解釋的特定挑戰。我們希望這篇綜述能幫助研究人員理解最新進展及其相應的缺點,這可能會激發他們在未來工作中解決這些問題的興趣。
如今,我們目睹了在各個領域內神經網絡模型的顯著激增,例如,計算機視覺 [28, 43, 54]、自然語言處理 [10, 53, 97]、機器人學 [9, 47] 和醫療保健 [36, 75]。由于它們不透明的決策過程,AI模型可能會對少數民族表現出偏見或做出意外且可能災難性的錯誤。例如,ProPublica報告稱,COMPAS司法系統對非洲裔美國人的被告存在偏見,預測他們重新犯罪的可能性較高 [35]。Ribeiro等人 [70] 觀察到,模型在背景中存在雪的情況下區分狼和哈士奇犬。因此,迫切需要闡明內部過程,理解決策機制,并增強用戶對AI系統的信任。 可解釋AI(XAI)指的是一系列旨在推理和理解模型行為、提供洞見以糾正模型錯誤/偏見,并最終使用戶接受并信任模型預測的技術。根據Guidotti等人 [26] 的分類,如圖1所示,XAI可以被分類為以下方面:先驗解釋和事后解釋。先驗解釋努力開發用戶可以直接理解的透明模型,無需額外的解釋工具,例如,決策樹 [69] 和決策規則 [31]。事后解釋旨在通過利用輸入特征與模型預測之間的關系來解釋訓練過的黑盒模型。事后解釋可以進一步分為模型解釋 [13, 45]、結果解釋 [70, 84] 和模型檢查 [18, 23]。模型解釋涉及使用在全局級別上可解釋和透明的模型來近似黑盒模型的整體邏輯。結果解釋專注于探索特定預測的背后原因,屬于局部級別。模型檢查旨在提供視覺和文本表示,以便于理解模型的工作機制。 在結果解釋中通常采用兩種方法:特征歸因(也稱為特征重要性方法)和反事實解釋。特征歸因直接識別輸入特征對模型輸出的重要性,而反事實解釋探索輸入空間中的最小且有意義的擾動,以回答輸入值的哪些變化可能會影響模型的預測。為了更深入地探索兩種方法之間的聯系,我們引用了Kommiya Mothilal等人的研究 [42]。
1.1 本綜述的目的
由于缺乏一個普遍且嚴格的可解釋AI(XAI)定義,大量與可解釋性、可解讀性、透明度及其他相關概念的研究都屬于XAI領域。在谷歌學術上搜索“可解釋AI”關鍵詞會得到超過200,000個結果,這給在單一出版物內全面闡述XAI的所有方面帶來了巨大挑戰。盡管已有許多關于XAI的綜述文章或書籍章節 [2, 5, 11, 14, 14, 21, 26, 30, 51,58, 73, 85],但大多數僅簡要描述并展示了XAI的某個特定子領域,如基于梯度的特征歸因的早期工作。這種對特定子領域的欠充分探索激勵我們全面概述基于梯度解釋的最新進展。先前的綜述旨在幫助從業者快速掌握XAI的各個方面,而我們的綜述文章深入探討了基于梯度解釋方法的算法細節。通過這樣做,我們的目的是幫助研究人員在更多應用中采用適當的方法,并在這一狹窄領域內促進創新突破。 基于不同的方法論途徑,特征歸因包含以下研究分支:基于擾動的方法 [16, 17, 95]、基于替代的方法 [25, 70]、基于分解的方法 [6, 8, 59, 60] 以及基于梯度的方法 [79, 81, 84]。然而,在本文中,我們專注于基于梯度的方法,出于以下考慮。
梯度的直覺。梯度量化了輸入特征中的無窮小變化如何影響模型預測。因此,我們可以利用梯度及其變體有效地分析特征修改對模型預測結果的影響。
神經網絡的無縫集成。神經網絡在各個領域獲得了極大的流行度和令人印象深刻的性能。在模型訓練后,可以通過反向傳播輕松獲得梯度。因此,基于梯度的解釋能夠直接解釋神經網絡,無需對模型本身進行任何更改。
滿足公理化屬性。由于缺乏真實基準,特征歸因方法可能會產生不同的解釋,這導致了確定哪個解釋更可信的挑戰。基于梯度的解釋是有意設計來滿足某些公理化原則的,例如敏感性和完整性,確保產生合理且期望的解釋。
1.2 我們的貢獻
我們綜述的貢獻總結如下:
我們提出了一個新穎的分類體系,系統地將基于梯度的特征歸因分為四組。隨后,我們介紹了每組算法的研究動機和技術細節的要點。
我們全面概述了一系列廣泛接受的評估指標,包括人類評估和客觀指標,使得可以定量和定性地比較各種解釋方法的性能。
我們總結了XAI中的一般研究挑戰以及基于梯度解釋特有的特定挑戰,這些挑戰可能會滋養并為未來工作中的潛在改進奠定基礎。
大型語言模型(LLMs)已在自然語言處理(NLP)領域催生了重大進展,然而它們面臨著諸如幻覺錯誤和對特定領域知識需求等挑戰。為了緩解這些問題,最近的方法學已將從外部資源檢索到的信息與LLMs整合,顯著提升了它們在NLP任務中的表現。這篇綜述論文針對缺乏對檢索增強語言模型(RALMs)、包括檢索增強生成(RAG)和檢索增強理解(RAU)的全面概述,提供了它們的范式、演變、分類和應用的深入考察。文章討論了RALMs的基本組件,包括檢索器、語言模型和增強組件,以及它們的互動如何導致多樣化的模型結構和應用。RALMs在從翻譯和對話系統到知識密集型應用的廣泛任務中顯示出其實用性。綜述還包括了幾種評估RALMs的方法,強調在評估中穩健性、準確性和相關性的重要性。同時也指出了RALMs的限制,特別是在檢索質量和計算效率方面,提供了未來研究的方向。總之,這篇綜述旨在提供對RALMs的結構化洞見、其潛力以及NLP未來發展的途徑。論文還附帶了一個包含已調研工作和進一步研究資源的Github倉庫://github.com/2471023025/RALM_Survey。
自然語言處理(NLP)是計算機科學和人工智能領域內的一個重要研究方向,致力于研究使人與計算機之間能夠使用自然語言有效溝通的理論和方法學框架。作為一個多學科領域,NLP整合了語言學、計算機科學和數學,旨在實現人類語言與計算機數據之間的相互轉換。其最終目標是賦予計算機處理和“理解”自然語言的能力,從而便于執行自動翻譯、文本分類和情感分析等任務。NLP的復雜性體現在它包括的眾多步驟上,如詞匯分割、詞性標注、解析、詞干提取、命名實體識別等,這些都增加了在人工智能系統中復制人類語言理解的難度。
傳統的自然語言處理任務通常使用基于統計的算法(Hogenboom et al., 2010)(Serra et al., 2013)(Aussenac-Gilles and S?rgel, 2005)和深度學習算法,如卷積神經網絡(CNN)(Yin et al., 2017)、遞歸神經網絡(RNN)(Banerjee et al., 2019)、長短時記憶網絡(LSTM)(Yao and Guan, 2018)等。最近,隨著變壓器架構(Vaswani et al., 2017)作為自然語言處理的代表性技術的出現,其受歡迎程度顯著提高。變壓器架構作為一個突出的大語言模型(Lewis et al., 2019)(Raffel et al., 2020)在自然語言處理領域已經持續展示出優越的性能,吸引了越來越多研究者的關注,他們致力于研究其能力。
當前最流行的語言模型是GPT系列(Radford et al., 2019)(Brown et al., 2020)(Achiam et al., 2023)和Bert系列(Liu et al., 2019)(Devlin et al., 2018)(Sanh et al., 2019),這些模型已經在多種自然語言處理任務中表現出色。其中,自編碼語言模型特別擅長于自然語言理解任務,而自回歸語言模型更適合于自然語言生成任務。雖然增加參數(Touvron et al., 2023b)和模型調優(Han et al., 2023)可以提升LLMs的性能,但“幻覺”現象(Ji et al., 2023)仍然存在。此外,語言模型在有效處理知識密集型工作(Feng et al., 2023)和更新其知識的能力不足(Mousavi et al., 2024)方面的限制也一直很明顯。因此,許多研究者(Lewis et al., 2020)(Izacard and Grave, 2020b)(Khandelwal et al., 2019)采用了檢索技術來獲取外部知識,這可以幫助語言模型在多種任務中獲得更好的性能。
當前關于使用檢索增強來提升LLMs性能的綜述還很少。Zhao et al.(2023)提供了關于多模態RAG的全面概述。Zhao et al.(2024a)專注于人工智能生成內容(AIGC)領域的檢索增強生成技術的利用。這篇文章提供了最近RAG工作的全面概述,但它沒有覆蓋所有相關領域。此外,文章缺乏足夠的細節來提供整體發展的全面時間線。Gao et al.(2023)研究了對大模型的RAG的增強。這篇文章總結了一些最近的RAG工作,但它獨立地介紹了檢索器和生成器,這不利于后續工作的組件升級和互動。Li et al.(2022b)專注于文本生成。文章中的圖表較少,內容更抽象,不利于讀者的理解。
關于NLP中的檢索增強方法,僅有關于RAG的綜述只講述了部分故事。不僅與自然語言生成(NLG)相關的任務需要檢索增強技術,自然語言理解(NLU)任務也需要外部信息。迄今為止,全面綜述NLP全譜系中應用增強檢索技術的文章還很少。為了改善當前狀況,本文提出以下貢獻: (1) 本文不僅關注與RAG相關的工作,還重點強調了RALM,并與NLP的概念保持一致。與生成相關的工作與NLG對齊,而其余的工作與NLU對齊。 (2) RALM的兩個組成部分,檢索器和語言模型,都進行了詳細描述,這兩個組件的不同交互模式也首次被準確定義。 (3) 提供了RALM工作計劃的全面概述,總結了當前RALM的常見和新穎應用,并分析了相關限制。提出了這些限制的潛在解決方案,并推薦了未來研究方向。
圖1提供了RALM方法框架的總體概述。以下是本文的摘要:第2節定義RALM。第3節提供了RALM中檢索器的詳細分類和總結。第4節提供了RALM中語言模型的詳細分類和總結。第5節對RALM的特定增強進行了分類和總結。第6節是RALM檢索數據來源的分類和總結。第7節是RALM應用的總結。第8節是RALM評估和基準的總結。最后,第9節討論了現有RALM的限制和未來工作的方向。
RALMs的整合代表了NLP系統能力的重大進步。本綜述提供了對RALMs的廣泛回顧,突出了它們的架構、應用和所面臨的挑戰。通過檢索和整合外部知識,RALMs增強了語言模型,從而在包括翻譯、對話生成和知識圖譜補全等多種NLP任務中提升了性能。
盡管取得了成功,RALMs仍面臨幾個限制。值得注意的是,它們對對抗性輸入的魯棒性、檢索結果的質量、部署相關的計算成本以及應用領域多樣性的缺乏被認為是需要進一步關注的領域。為了解決這些問題,研究社區提出了幾種策略,例如改進評估方法、完善檢索技術和探索在性能與效率之間保持平衡的成本效益解決方案。 未來,RALMs的進步將依賴于增強其魯棒性、提高檢索質量和擴展其應用范圍。通過采用更復雜的技術并將RALMs與其他AI技術整合,這些模型可以被用來應對更廣泛的挑戰。在這一領域持續的研究和開發預計將帶來更具韌性、效率和多功能性的RALMs,從而推動NLP及其它領域所能達到的界限。隨著RALMs的不斷演進,它們有望賦予AI系統更深入的理解力和更接近人類的語言能力,從而在廣泛的領域中開辟新的可能性。
人工智能(AI)模型現在被用于我們生活的所有方面,如醫療保健、教育和就業。由于它們被用于許多敏感的環境中,并做出可能改變生活的決策,潛在的偏見結果是一個緊迫的問題。開發者應確保這些模型不會表現出任何意料之外的歧視性做法,如對某些性別、種族或殘疾人的偏見。隨著AI系統的普遍傳播,研究人員和從業者越來越意識到不公平的模型,并努力減少其中的偏見。已經進行了大量研究來解決這些問題,以確保模型不會有意或無意地延續偏見。本綜述提供了研究人員促進AI系統公平性的不同方法的概要。我們探討了當前文獻中存在的不同公平性定義。我們通過對不同類型的偏見進行分類并研究不同應用領域中偏見AI的案例,創建了一個綜合性的分類體系。對研究人員減少AI模型中偏見所采用的方法和技術進行了徹底的研究。此外,我們還深入了解了偏見模型對用戶體驗的影響以及在開發和部署這些模型時需要考慮的倫理問題。我們希望這篇綜述能幫助研究人員和從業者理解AI系統中公平性和偏見的復雜細節。通過分享這篇徹底的綜述,我們旨在促進公平和負責任的AI領域的額外討論。 自動化系統的使用在各個領域迅速推進,影響著從招聘員工到推薦系統的一切。AI系統嵌入到我們的日常活動中,并極大地影響著我們的生活,特別是當用于做出改變生活的決策時。這些模型具有巨大潛力,因為它們可以整合大量數據并比人類更有效、更快地執行非常復雜的計算。然而,在AI的潛力中,關于這些系統中的公平性和偏見問題也隨之而來。由于這些系統在醫療保健、金融和刑事司法等領域被用于為個人做出重要決策,確保這些模型的公平性至關重要。 近年來,AI偏見的多個案例被曝光,它對個人和社區的重大影響是不可避免的。例如,在美國,用于判定重新犯罪評分的算法被發現對黑人被告有偏見。谷歌Bard被看到通過陳述男孩想要實現目標并在生活中做出改變,而女孩想要愛和關懷來描繪性別刻板印象。這只是兩個例子,但像這樣的眾多問題導致了在開發和部署公平AI模型方面的興趣不斷增長。圖1顯示了過去七年在這一領域發表的論文數量。多年來,該領域發表的論文量穩步增加。到2021年,論文數量激增超過1000篇。穩定增長的結果是,去年發表的論文接近驚人的2000篇。該圖強調了這些主題多年來在研究社區中的重要性。 在評估模型的公平性時,已經使用了多個公平性定義。本綜述探討了文獻中討論的所有不同的公平性標準。許多研究人員一直在努力解決自動化模型中的公平性問題。在公平AI的廣泛領域內,研究人員提出了多種策略來解決和減少其中的偏見。同時,也重要的是要意識到,某些策略只適用于某些類型的偏見。本文詳細描述了不同類型的偏見和用于減少這些偏見的所有常見方法。此外,本綜述還涵蓋了不公平的原因、包括但不限于醫療保健、教育和金融等不同領域內偏見案例的詳細信息。努力使AI模型公平也可以增強用戶體驗。在本文中,我們討論了偏見模型對用戶的影響以及應遵循的確保用戶信任的倫理指南。在論文的最后,我們提到了當前文獻的挑戰和局限性。總的來說,本文的目的是闡明在AI模型的背景下關于偏見和公平性所做的現有工作。我們希望這篇論文能為研究人員和實踐者提供這一領域的豐富視角,并鼓勵他們確定自己的研究方向,并開發創新想法以減少意外后果。
機器學習模型雖然日益先進,但在很大程度上依賴于獨立同分布(IID)假設,這一假設在實際中往往得不到滿足,因為不可避免的分布偏移。這使得它們在風險敏感的應用部署中顯得脆弱且不可信。這一重大問題因此催生了各種旨在開發能夠進行分布外(Out-of-Distribution, OOD)泛化的算法的研究分支。盡管有這些努力,但對分布外泛化的評估卻鮮有關注,這同樣是一個復雜且基礎的問題。其目標不僅是評估一個模型的分布外泛化能力是否強大,而且還要評估一個模型在哪些地方泛化得好或泛化得差。這需要描述模型可以有效解決的分布偏移類型,并確定給定模型的安全和風險輸入區域。本文是進行分布外評估綜述的第一次嘗試。我們根據測試數據的可用性,將現有研究歸類為三種范式:分布外性能測試、分布外性能預測和分布外內在屬性表征。此外,我們還簡要討論了在預訓練模型上進行分布外評估的背景。最后,我們提出了分布外評估未來研究的幾個有希望的方向。
在過去的十年中,機器學習領域發生了重大進展。在數據和計算資源的指數級增長的推動下,神經網絡在包括但不限于計算機視覺[1]、自然語言處理[2]和推薦系統[3]等廣泛的應用領域取得了驚人的性能。盡管取得了顯著進展,但我們必須承認,現有的機器學習算法和模型仍然面臨著幾個持續存在的挑戰,這些挑戰極大地削弱了它們的可靠性和信任度。這些挑戰包括隱私泄露[4]、黑盒模型的弱可解釋性[5]、在對抗性攻擊下的脆弱性[6],以及面對分布偏移時泛化性能的顯著下降[7]。上述挑戰對當前機器學習算法的廣泛應用構成了實質性的障礙,特別是在高風險敏感性領域。典型例子包括法律[8](公平和公正至關重要)、醫療保健[9](患者福祉至上)和自動駕駛[10](人類生命取決于這些算法的性能)。
在這些挑戰中,分布偏移下的泛化問題,通常稱為分布外(Out-of-Distribution, OOD)泛化,構成了一個重大的障礙。這是因為當前算法在很大程度上依賴于IID假設,即測試數據和訓練數據應該是獨立同分布的,但幾乎到處都存在分布偏移。在真實應用中,我們幾乎無法保證部署模型遇到的測試數據將符合與訓練數據相同的分布。例如,推薦系統的模型在美國收集的用戶數據上進行訓練,但任務是擴展到其他國家的用戶,這些用戶的偏好分布可能有很大差異。同樣,主要由真實照片組成的數據集上訓練的視覺識別模型面臨著識別各種風格圖像的艱巨任務,如藝術繪畫,這代表了與其訓練數據的顯著分布偏移[11]。此外,訓練數據中通常存在人口群體的不平衡,特別是在性別或種族方面。在這種情況下,當訓練數據中的少數群體在測試數據中占主導地位時,模型的泛化性能可能會輕易下降[12]。所有這些分布偏移的實例都導致了機器學習算法的性能下降。盡管自更早以來已經開發了領域適應技術[13]、[14]、[15]來解決類似問題,但在野外環境中,分布偏移無處不在且未知,我們不太可能事先有權訪問測試數據。
一種直接的方法涉及開發算法,以增強模型在完全未知的測試數據下的OOD泛化能力,正如沈等人[7]所強調的。近年來,幾個研究分支致力于這一目標。領域泛化(DG)[16]、[17]、[18]利用多個訓練領域使模型能夠泛化到以前未見過的測試領域,主要在計算機視覺領域。分布魯棒優化(DRO)及其變體[19]、[20]、[21]試圖解決最壞情況下的分布。不變學習[22]、[23]、[24]尋求捕獲訓練數據中存在的潛在異質性和不變性。穩定學習[25]、[26]、[27]方法借鑒了因果推斷的思想,通過樣本重新加權來去相關變量。這些不同的分支共同貢獻于提高OOD泛化的總體目標,每個分支都提供了不可忽視的獨特見解和進步。
另一種使機器學習模型適用于高風險領域的途徑是評估,即評估它們在可能的OOD場景下的泛化能力。與OOD泛化算法的迅速增長相比,評估方面受到的關注要少得多。評估在機器學習的各個領域都是必不可少的。適當的評估協議和方法有潛力推動一個領域的進步,就像ImageNet[28]在計算機視覺領域所做的那樣。在OOD泛化的背景下,評估扮演著更為基礎的角色。一方面,與ID(In-Distribution)評估相比,OOD評估通常更加復雜。例如,給定一個單一任務的數據集,如圖像識別,一種自然的方法是將其隨機分割成訓練集和測試集,以測試準確率作為ID泛化的評估指標。但是,面對同一個數據集,我們如何分割數據集以生成所需的分布偏移并描述這種偏移?這種分布偏移是否可解[29]?在OOD的背景下,這變成了一個更復雜的過程。另一方面,值得注意的是,目前的OOD泛化算法沒有一個能在各種OOD設置中取得普遍且巨大的改進,并像ResNet[1]對計算機視覺社區所做的,或Transformer[30]對自然語言處理社區所做的那樣,引爆OOD社區。事實上,鑒于存在多種類型的分布偏移需要解決[31],而且很難一勞永逸地解決它們,因此開發一個在OOD泛化方面一致超過其他模型大幅度的模型是相當困難的。在這種情況下,評估模型在哪些方面表現出色或失敗更加實用和有用。具體而言,我們的目標轉向識別存在哪些類型的分布偏移[32],評估模型處理它們的能力,并尋找模型表現出色或糟糕的安全和風險輸入區域[33]。通過這種方式,我們可以充分利用現有的訓練模型,這些模型不能任意泛化,但適用于某些場景。
此外,與直接開發針對OOD泛化的模型相比,OOD評估還提供了額外的好處。如今,從頭開始訓練一個深度模型,甚至僅僅是對現有模型進行微調,都可能是耗時且昂貴的[34]。在像罕見疾病[35]這樣的數據稀缺場景中,可能根本沒有足夠的數據進行訓練。在這種情況下,盡管無法進一步改進它,我們仍可以借助適當的OOD評估方法決定是否以及在哪里使用這個模型,或從模型池中選擇合適的模型。此外,OOD評估也更具靈活性。設計的評估指標不必是可優化的,它可以無縫地融入模型選擇過程中,這是OOD泛化的一個關鍵但鮮有研究的方面[18]、[36]。它還可以與非算法操作結合使用,如添加額外數據或特征[33]。
因此,我們認為OOD評估是OOD泛化的一個基本方向。目標不僅是確定一個模型是否具有良好的OOD泛化能力,而且還要識別它在哪里可以表現良好,包括分布偏移的類型和程度,以及模型保持其能力的相應輸入區域。在本文中,我們提供了當前OOD評估協議、指標和方法的系統性綜述,涵蓋了OOD評估的多方面目標。據我們所知,我們是第一個全面審視這一領域的人。之前的綜述主要集中在OOD泛化本身[7],或是機器學習模型的一般評估[34]。另一項綜述也回顧了OOD模型的評估,但其范圍僅限于NLP領域[37]。
本文的其余部分安排如下。在第2節中,我們介紹了問題設定和OOD評估范式的分類。在第3節、第4節、第5節中,我們主要根據對OOD測試數據的依賴性描述了OOD評估范式的每個類別。在第6節中,我們討論了預訓練模型范圍內的OOD評估,包括大型語言模型(LLMs)。最后,在第7節中,我們總結了這篇論文,并提出了一些在未來研究努力中值得進一步探索的方向。
分布外性能測試
設計關于標記數據集的分布外性能測試程序絕非一個瑣碎的問題。對于ID泛化任務,給定一個標記數據集,直接隨機將其分割成訓練集和測試集已經足夠合理。但對于分布外泛化,許多問題需要仔細考慮。如果沒有給定的數據集,我們應該如何從頭開始生成一個標記的合成數據集來模擬特定類型的分布偏移?如果有給定的數據集,我們應該如何人為地生成分布偏移,或根據現有的分布偏移將數據集劃分為多個環境?在獲得數據集和環境劃分后,我們如何減少由于預訓練[36]和神諭模型選擇[18]導致的測試數據信息泄露的潛在可能性?此外,一旦我們測試了模型在標記數據集上的性能,我們應該如何有效地分析這一性能?在分布外性能測試方面需要解決許多問題。在本節中,我們將介紹當前的分布外數據集或基準以及它們的基本設計原則,以及分析性能和分布偏移的現有方法。
分布外性能預測
與分布外性能測試不同,后者的測試數據是完全可訪問的,這一領域代表了另一個研究維度,旨在預測在提供的未標記分布外測試數據上的性能。我們可以用醫學圖像智能系統的例子來說明這一點。這些系統作為輔助工具幫助醫生進行診斷。假設部署在這些系統上的模型是在北京和上海的患者數據上訓練的。現在我們想探索在廣州醫院部署這些模型和系統的可能性。因此,我們需要預測這些模型面對新場景下從患者收集的未標記圖像數據時的分布外性能。當前的工作嘗試從兩個角度應對這一挑戰。一些研究直接關注模型輸出在應用到測試數據時的屬性,而不使用訓練數據。相反,其他工作利用訓練數據的分布差異或模型一致性。前者通常更加方便和靈活,然而后者通常能夠提供更優的預測,因為它們利用了更多的信息。
結論與未來方向
科學合理的分布外評估范式,即對分布外泛化的評估,不僅對于推動新的分布外泛化算法的發展具有重要意義,而且對于現有模型的更實用和靈活的應用也極為關鍵。在本文中,我們對問題設定、三個主要類別的分布外評估方法進行了系統性的綜述,并簡要討論了在預訓練模型的背景下的應用。盡管我們已經討論了每個特定分布外評估類別的缺點和未來方向,但基于我們目前對分布外評估的認識和反思,我們在這里列舉了幾個更具普遍性但在當前文獻中相對缺乏的有價值的潛在未來方向。
分布外評估超越性能:大多數現有的分布外評估范式主要圍繞模型的性能。它們旨在評估模型的分布外性能是否足夠好,或者在模型之間進行比較。然而,如第一節所述,分布外評估的目標不僅僅是“是否”,還包括“在哪里”。考慮到各種類型的分布偏移,尋找分布外泛化的最終解決方案是困難的,因此,在部署機器學習模型時,識別特定模型的安全或風險區域,以及驗證算法能夠有效應對的分布偏移類型更為實用。上文提到的一些工作[32]、[33]、[95]、[96]、[118]是朝著這一目標的初步努力。值得注意的是,它們都是相對較新的工作,這表明可能存在一個朝向超越性能評估的趨勢。
分布外訓練數據評估:雖然全訓練模型是模型結構、算法和訓練數據的綜合結果,但當前的分布外評估范式大多評估不同模型結構或不同算法之間的模型,很少跨不同種類的訓練數據進行評估,也很少分析有利于分布外泛化的訓練數據屬性。在人們關注開發新模型結構和新算法的時代,訓練數據容易被忽視,盡管它對模型性能有著關鍵影響[142]、[143]、[144]。只有少數研究從訓練數據異質性的角度探討這個問題[122]、[145]。 區分分布外泛化與ID泛化的性能:現有的分布外評估方法依賴于絕對性能的直接比較。然而,我們對這些比較是否準確衡量模型的真實分布外泛化能力提出了疑問。存在一種可能性,性能提升歸因于ID泛化能力的改進,而非分布外泛化能力。例如,對同一數據集進行足夠的訓練,更大的網絡往往在ID和分布外測試數據上都能達到更高的性能。ID與分布外之間的性能差距,雖然不一定是適當的評估指標,可能保持不變甚至變大。當然,增加訓練數據的大小和模型容量通常有助于提高ID性能,從而提高分布外性能,但這并不意味著這是解決分布外泛化問題的答案,考慮到大型模型也會遭遇分布偏移時的嚴重性能下降[81]、[82],以及相關的偏見和公平性問題[34]、[140]。因此,對于分布外泛化的最終解決方案,我們建議在評估模型的分布外泛化能力時,應該區分分布外性能和ID性能。簡單使用性能差距可能不適合,因為強正則化技巧,如使用大的權重衰減,可能會降低ID性能以減少性能差距。已有一些工作討論了分布外和ID性能之間的關系[82]、[111]、[146]、[147]、[148],期待對這方面進行更深入的研究。
這篇系統性文獻綜述全面檢視了大型語言模型(LLMs)在預測和異常檢測中的應用,突出了當前研究的現狀、固有挑戰和未來的潛在方向。LLMs在解析和分析大規模數據集以識別模式、預測未來事件和檢測各個領域中的異常行為方面展示了顯著潛力。然而,本綜述識別了幾個關鍵挑戰,阻礙了它們更廣泛的采用和有效性,包括依賴龐大的歷史數據集、在不同上下文中的泛化問題、模型幻覺現象、模型知識邊界內的限制,以及所需的大量計算資源。通過詳細分析,本綜述討論了克服這些障礙的潛在解決方案和策略,如集成多模態數據、學習方法論的進步,以及強調模型可解釋性和計算效率。此外,本綜述概述了可能塑造LLMs在這些領域發展的關鍵趨勢,包括推向實時處理、可持續建模實踐的重要性,以及跨學科合作的價值。最后,本綜述強調了LLMs在預測和異常檢測方面可能產生的變革性影響,同時強調了實現它們全部潛力需要持續的創新、倫理考慮和實際解決方案的必要性。
這項系統性文獻綜述全面考察了大型語言模型(LLMs)在預測和異常檢測應用中的使用,強調了研究的當前狀態、固有挑戰和未來的潛在方向。LLMs在解析和分析大量數據集以識別模式、預測未來事件和檢測各個領域中的異常行為方面展示了顯著潛力。然而,這項綜述識別了幾個關鍵挑戰,這些挑戰阻礙了它們更廣泛的采用和有效性,包括依賴龐大的歷史數據集、在不同上下文中的泛化問題、模型幻覺現象、模型知識邊界的限制,以及所需的大量計算資源。通過詳細分析,本綜述討論了克服這些障礙的潛在解決方案和策略,例如集成多模態數據、學習方法論的進步,以及強調模型可解釋性和計算效率。此外,本綜述概述了可能塑造LLMs在這些領域發展的關鍵趨勢,包括向實時處理的推進、可持續建模實踐的重要性,以及跨學科合作的價值。總之,這項綜述強調了LLMs在預測和異常檢測方面可能產生的變革性影響,同時強調了實現它們全部潛力需要持續的創新、倫理考慮和實際解決方案的必要性。
預測和異常檢測在數據科學領域是至關重要的組成部分,為從網絡安全到金融市場的多個領域提供了基本見解。這些技術在預測即將到來的趨勢和識別偏離規范預期的非典型模式方面起著核心作用,這些能力在廣泛的應用中促進了預防性策略的發展。預測利用歷史數據來對未來事件或趨勢進行知情預測。它涉及對正在分析的情況進行假設選擇,選擇適當的數據集,分析數據,并確定預測。預測是多個行業戰略規劃和決策制定的基石,使組織和政策制定者能夠預測變化,管理風險,并有效分配資源。異常檢測,也稱為離群點檢測,是旨在識別與典型模式或規范顯著偏離的數據點、實體或事件的分析過程。這種方法在自動監控系統中發揮著關鍵作用,特別是在識別潛在有害的離群點,從而保護數據完整性和安全。
預測和異常檢測是分析過程,天生非常適合時間序列或帶時間戳的數據,因為它們尋求理解和利用的信息具有時間性質。時間序列數據是在時間間隔內收集或記錄的數據點序列,通常展示出趨勢、季節性變化和周期性,這是預測技術旨在捕捉并推測到未來的特征。帶時間戳的數據特別有助于異常檢測,因為它允許識別與建立的時間模式的偏差。例如,在網絡安全中,異常檢測系統可以識別可能表明安全漏洞的不尋常訪問模式。在工業環境中,它可能會標記傳感器讀數的意外下降或飆升,從而可能防止設備故障。
本研究著手全面探索LLMs在預測和異常檢測領域的整合和潛力,這些領域傳統上由定量數據分析主導。LLMs在自然語言處理(NLP)中的迅速發展提供了一個前所未有的機會來增強甚至可能革新這些領域。本文旨在彌合LLMs先進的語言處理能力與預測分析和檢測離群點中涉及的預測分析之間的差距。我們深入探討了從LLMs中獲得的定性見解如何補充傳統的定量方法,從而豐富了在包括金融、網絡安全和醫療保健在內的各個領域的分析深度和準確性。此外,這項調查還討論了在LLMs與這些關鍵數據科學應用交叉點的挑戰、倫理考慮和未來研究方向。我們的目標是提供一個全面的視角,不僅闡明了LLMs在這些領域的應用現狀,還激發了跨學科的對話和研究,導航現代數據環境的復雜性,并為預測分析鋪平了創新解決方案的道路。
貢獻概述如下:
這是第一篇全面的系統性文獻綜述(SLR),專門研究LLMs在預測和異常檢測領域的應用。通過這項綜述,我們闡明了LLMs對這些特定任務中的數值和文本數據的獨特影響。
本研究編制了一套指導方針,概述了LLMs在各種任務中的最佳利用方式,為該領域提供了一種結構化的方法來在實際場景中使用這些先進模型。
這項文獻綜述提供了盡可能深入的理論洞察,特別是LLMs處理復雜模式和傳統模型可能忽略的數據細微差別的能力。
本工作為未來圍繞預測和異常檢測建模的研究開辟了新的路徑。
論文接下來的結構安排如下:第2節概述了進行系統性文獻綜述的方法論。第3節提供了LLMs在預測和異常檢測研究當前狀態的概覽。第4節討論了將LLMs應用于這些領域的挑戰和限制。第5節探討了在基于LLM的預測和異常檢測中使用的數據集和數據預處理技術。第6節介紹了評估LLMs在這些任務中表現的評估指標和方法。第7節深入探討了LLMs在預測中的應用,而第8節專注于它們在異常檢測中的應用。第9節討論了使用LLMs在這些領域中可能面臨的潛在威脅和風險。第10節概述了LLMs在預測和異常檢測應用中的未來方向和潛在研究途徑。第11節提供了相關工作的概覽,第12節總結了本文。
大型語言模型(LLMs)的廣闊領域帶來了前所未有的自然語言處理進步,顯著影響了包括預測和異常檢測在內的各種任務。本節提供了LLMs當前狀態和演化的全面概覽,概述了它們的基礎結構、發展軌跡,以及它們在轉換數據分析和預測建模中所扮演的關鍵角色。從LLMs的背景開始,我們追溯了從初期階段到作為當代應用支柱的復雜預訓練基礎模型的語言模型的演化過程。然后,我們分類了LLMs顯示出顯著效果的任務,特別關注預測和異常檢測,以說明它們適用性的廣度。進一步的探索致力于利用LLMs的力量所采用的多樣化方法,包括基于提示的技術、微調機制、零樣本、少樣本學習的利用、重編程策略,以及結合多種方法以提高性能的混合方法。本節旨在讓讀者全面了解LLMs的復雜景觀,為后續部分更深入探索它們的能力和應用奠定基礎。
大型語言模型(LLMs)的出現顯著擴展了異常檢測的視野,為識別多樣化數據集和領域中的不規則性提供了復雜的解決方案。本節全面檢查了LLMs如何被利用來精確指出可能表明錯誤、欺詐、系統故障或網絡威脅的偏離。這一探索從時間序列異常檢測開始,其中LLMs分析順序數據以偵測不尋常模式,造福于依賴持續監控的行業,如金融、制造和能源。接下來,討論轉向異常日志分析,突出LLMs篩查大量日志數據以識別和分類異常的能力,從而提高IT安全和運營效率。關于微服務異常檢測的部分展示了LLMs在云計算和分布式系統這一日益復雜的領域中的應用,它們通過在微服務級別檢測異常,在維護系統健康和安全方面發揮著關鍵作用。這一詳盡的探索旨在闡明LLMs在異常檢測中的前沿方法論和有影響的應用,強調它們在保護和優化現代數字基礎設施中的關鍵作用。
這篇系統性文獻綜述探索了在預測和異常檢測背景下迅速發展的大型語言模型(LLMs)領域,提供了當前方法論、挑戰和未來方向的全面概覽。正如我們所見,LLMs擁有巨大的潛力來轉變這些領域,提供了能夠解析龐大數據集以預測未來事件和以顯著準確性識別偏離常規的復雜工具。然而,這一旅程充滿挑戰,包括依賴廣泛的歷史數據集、泛化問題、幻覺現象、知識邊界,以及對計算效率的需求。
盡管存在這些障礙,前進的道路被有希望的解決方案和創新所照亮。多模態數據源的整合、轉移和元學習的進步、對可解釋性和可信度的關注、推向實時處理和邊緣計算的推動、跨學科合作,以及對可持續建模實踐的承諾,都代表了將塑造LLMs在預測和異常檢測未來的關鍵趨勢。
本綜述強調了在這一領域繼續研究和發展的重要性,突出了對不僅強大和準確,而且透明、適應性強和易于獲取的模型的需求。隨著技術的進步,我們對倫理考慮的方法也必須進步,確保LLMs的部署對社會產生積極貢獻,并且不會加劇現有的不平等或環境問題。
總之,LLMs革新預測和異常檢測的潛力是明確的,但實現這一潛力需要科學界、行業利益相關者和政策制定者的共同努力。通過解決本綜述中概述的挑戰并利用新興趨勢所提供的機會,我們可以期待一個LLMs在引導我們理解現代世界的復雜性、推動對全社會有益的見解和創新中發揮關鍵作用的未來。
推薦系統(RS)已顯著推進了在線內容發現和個性化決策制定。然而,RS中出現的脆弱性促使人們轉向可信賴推薦系統(TRS)。盡管TRS取得了許多進展,但大多數研究側重于數據相關性,而忽視了推薦中的基本因果關系。這一缺陷阻礙了TRS在解決可信賴性問題時識別原因,導致公平性、魯棒性和可解釋性受限。為了彌補這一差距,因果學習作為一類有前途的方法出現,以增強TRS。這些方法基于可靠的因果關系,在減輕各種偏差和噪聲的同時,為TRS提供有洞察力的解釋。然而,這一充滿活力的領域缺乏及時的綜述。本文從因果學習的角度創建了TRS的概述。我們首先介紹面向因果性的TRS(CTRS)的優勢和常見程序。然后,我們識別每個階段的潛在可信賴性挑戰,并將它們與可行的因果解決方案聯系起來,隨后分類CTRS方法。最后,我們討論了推進這一領域的幾個未來方向。
高效的分子建模和設計對于新分子的發現和探索至關重要,深度學習方法的引入已經徹底改革了這一領域。特別是,大型語言模型(LLMs)提供了一種全新的方法來從自然語言處理(NLP)的角度解決科學問題,引入了一種稱為科學語言建模(SLM)的研究范式。然而,仍有兩個關鍵問題:如何量化模型與數據模態之間的匹配度以及如何識別模型的知識學習偏好。為了應對這些挑戰,我們提出了一個多模態基準,命名為ChEBI-20-MM,并進行了1263次實驗來評估模型與數據模態和知識獲取的兼容性。通過模態轉換概率矩陣,我們提供了關于任務最適合的模態的見解。此外,我們引入了一種統計上可解釋的方法,通過局部特征過濾發現特定上下文的知識映射。我們的先驅性分析提供了對學習機制的探索,并為推進分子科學中的SLM鋪平了道路。 Transformers[8]以其強大的文本編碼和生成能力提供了優勢。這些模型可以通過最小的任務特定調整進行微調,使它們在分子建模和設計中更加多才多藝和高效。此外,自從ChatGPT[9]和GPT-4[10]的出現以來,大型語言模型(LLMs)已成為尤其在分子科學中的一種突破性趨勢。LLMs憑借其在處理和生成類人文本的先進能力,提出了一個理解和設計分子結構的新范式。它們吸收和分析大量文本數據的能力可以提供前所未有的洞察,克服了傳統AI方法的一些限制。這種新能力結合了準確性和新穎性,以改善結果,被稱為化學知識。其有效性取決于輸入數據、模型架構和訓練策略等因素。然而,對這一能力的當前綜述和基準評估并不全面。 分子科學中現有的綜述,如分子生成綜述[11],通常缺乏全面的模型比較,并且任務范圍有限。知識驅動的綜述[12]對分子學習進行了分類,但缺少詳細的方法比較和數據集討論。而最近的基準測試,如測試ChatGPT的[13],涵蓋了八個化學任務,每個任務都提供了獨特的化學洞察。Mol-Instructions[14]提供了一個用于微調的數據集,包含各種分子和蛋白質指令,增強了LLMs中的生物分子理解。然而,這些綜述和基準測試缺乏多模態內容,也沒有充分探索模型的化學知識。 總結來說,本研究全面回顧了Transformers和LLMs在分子建模與設計中的應用。我們將六個常見的分子任務分類為三個不同的目標:描述、嵌入和生成,如圖1所生動描繪。此外,我們建立了一個統一的多模態基準ChEBI-20-MM,并進行實驗評估數據模態、模型架構和不同任務類型的兼容性,考察它們對任務性能的影響。此外,我們的端到端可視化方法展示了嵌入化學知識的建模洞察的發現。總體來說,我們的主要貢獻包括: ? 本工作分析了LLMs在分子建模中的應用,分類現有模型,并提出了一個多模態基準(ChEBI-20-MM)進行性能評估,支持1263次實驗。 ? 我們分析了模態轉換概率矩陣,并確定了不同數據模態和模型架構之間的最佳匹配。 ? 我們引入了一種統計上可解釋的方法,通過局部特征過濾展示了知識獲取。 本文的其余部分如下組織。第2節介紹相關定義和背景。然后,我們探討分子建模和設計中的六個關鍵任務。第3節展示了我們的基準測試和洞察。第4節討論了關鍵結果和限制,第5節總結了我們的貢獻和未來研究方向。
擴散模型(DMs)在不需要對抗訓練的情況下展示了最先進的內容生成性能。這些模型使用兩步過程進行訓練。首先,前向擴散過程逐漸向數據(通常是圖像)添加噪聲。然后,反向擴散過程逐步去除噪聲,將其轉化為被建模目標分布的樣本。DMs的靈感來源于非平衡態熱力學,具有固有的高計算復雜度。由于在高維空間中頻繁的函數計算和梯度計算,這些模型在訓練和推理階段都會產生大量的計算開銷。這不僅阻礙了擴散模型的民主化,而且阻礙了擴散模型在實際應用中的適應性。更不用說,由于過度的能源消耗和對環境的擔憂,計算模型的效率正在迅速成為一個重要的問題。這些因素導致了文獻中對設計計算高效的DM的多項貢獻。在這篇綜述中,我們介紹了視覺擴散模型的最新進展,特別關注影響DMs計算效率的重要設計方面。我們特別強調最近提出的設計選擇,這些設計選擇導致了更高效的DM。不像最近的其他評論,從廣泛的角度討論擴散模型,本綜述旨在通過強調文獻中的設計策略,推動這一研究方向向前發展,為更廣泛的研究社區帶來了可實施的模型。從計算效率的角度展望了視覺中擴散模型的發展前景。深度生成模型(DGMs)——已經成為人工智能中最令人興奮的模型之一,它挑戰了人類的創造力[1]。變分自編碼器、生成對抗神經網絡、歸一化流和擴散模型的發展在人工創造力方面引起了轟動,特別是在圖像嵌入任務方面。圖像合成和文本到圖像的生成。由于生成對抗網絡(GANs)輸出的高質量,近年來受到了廣泛關注。然而,擴散模型最近成為最強大的生成模型,在生成質量[2]、[3]、[4]方面挑戰了GANs的統治地位。擴散模型正變得越來越受歡迎,因為它們提供訓練穩定性以及高質量的圖像和音頻生成結果。這些模型試圖解決GANs的固有局限性,如由于梯度消失而導致的生成器訓練可能失敗、對抗性學習的開銷以及其收斂失敗[5]。另一方面,擴散模型使用了一種不同的策略,它涉及到用高斯噪聲污染訓練數據,然后學習通過反轉這個噪聲過程來恢復數據。擴散模型提供了額外的可伸縮性和并行性的特性,這增加了它們的吸引力。此外,隨著討論模型經過去噪的迭代和迭代,偏離現實太遠的可能性也就更小。生成步驟經過每個檢查點,在每個步驟中,可以向圖像添加越來越多的細節。因此,最近所有超級強大的圖像模型,如DALLE、Imagen或Midjourney和stable Diffusion都是基于擴散模型[6]、[7]的。
擴散模型有各種各樣的應用,包括圖像去噪、圖像生成、時間序列生成、語義分割、圖像超分辨率、大工作臺機器學習、圖像嵌入、決策和圖像間翻譯[4]。因此,自降噪擴散概率模型[8]引入以來,關于該主題的研究論文數量持續上升,每天都有新的模型被提出。然而,最近的熱潮是在穩定擴散(Diffusion)引入后興起的,這是一種機器學習、文本到圖像模型,可以從自然語言描述生成數字圖像。圖1提供了關于擴散模型的文獻的統計數據和時間軸概述,以顯示它們最近在視覺界的流行程度。DMs屬于概率模型的范疇,需要過多的計算資源來建模未觀察到的數據細節。他們訓練和評估模型,需要迭代估計(和梯度計算)的RGB圖像在高維空間[9]。例如,最強大的DM訓練通常需要數百個GPU天(例如150-1000 V100天),重新估計輸入空間的噪聲版本可能導致昂貴的推斷,因此每個模型生成50,000個樣本大約需要5天A100 GPU。這對研究界和一般用戶有兩個影響:第一,訓練這樣的模型需要大量的計算資源,只適用于領域的一小部分,并留下巨大的碳足跡。其次,評估一個已經訓練好的模型在時間和內存方面也很昂貴,因為相同的模型架構需要連續運行大量的步驟(例如25 - 1000步)[10]。早期關于擴散模型的工作只關注于高質量的樣本生成,而不考慮計算成本[8],[11],[12]。然而,在達到這一里程碑后,最近的工作集中在效率上。因此,為了解決生成過程緩慢的真正缺點,新的趨勢是許多增強的工作集中于效率的提高。我們稱這些模型的增強類別為有效擴散模型。在這篇綜述文章中,我們基于效率的標準來評價現有的方法,而不犧牲樣本的高質量。此外,我們討論了模型速度和采樣質量之間的權衡。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能相當昂貴。已經提出了新的方法,使該過程大大加快,但采樣速度仍慢于GAN[13],[14]。
為什么模型效率如此重要?人工智能是能量密集型的,對人工智能的需求越高,我們使用的能源就越多。訓練一個復雜的AI模型需要時間、金錢和高質量的數據[15],[16]。它也消耗能量。當我們使用能源時,它會產生二氧化碳。二氧化碳等溫室氣體將地球表面附近的熱量困在大氣中,導致全球氣溫升高,破壞脆弱的生態系統。OpenAI在45 tb的數據上訓練了GPT-3模型[17]。英偉達使用512 V100 gpu對MegatronLM的最終版本進行了9天的訓練,MegatronLM是一種與GPT-3相當但小于GPT-3的語言模型。單個V100 GPU的功耗可能高達300瓦。如果我們估計功耗為250瓦,512 V100 gpu使用128000瓦或128千瓦[18]。對MegatronLM來說,9天的跑步訓練是27648千瓦時。根據美國能源情報署(US Energy Information Administration)的數據,普通家庭每年的耗電量為10649千瓦時。因此,訓練最終版本的MegatronLM所需的能源幾乎相當于三個房子一年的消耗。數據中心對環境的影響是最大的。
這篇綜述的動機是深入探索擴散方法的設計,并強調設計選擇可以提供對修正模型效率的洞察。與以往對擴散模型進行一般分類的工作不同,本文將對導致有效擴散模型和無效擴散模型的設計選擇進行精確分類。這將指導未來計算機視覺任務計算效率擴散模型的研究。論文的其余部分組織如下:第二節提供了擴散模型的概述,簡要說明了三個代表性的架構,第三節提供了設計選擇的描述,并討論了這些選擇如何導致計算效率的設計,第四節比較了代表性的作品w.r.t質量和效率權衡。第五部分討論了未來的工作方向,然后是結論和參考文獻。
**擴散模型概述 **概率擴散模型的原始思想是從隨機噪聲中模擬特定的分布。因此,生成的樣本的分布應該接近原始樣本的分布。它包括一個正向過程(或擴散過程),其中復雜數據(通常是圖像)被逐步噪聲化,和一個反向過程(或反向擴散過程),其中噪聲從目標分布轉換回樣本。在這里,由于它們對有效擴散體系結構的影響,我們特別描述了三個模型。它包括去噪擴散概率模型(DDPM)[8]、潛在擴散模型(LDM)[10]和特征金字塔潛在擴散模型[19]。
有效擴散模型的有效策略
擴散模型需要重構需要采樣的數據分布。有效擴散模型的主要障礙是采樣過程的低效,因為從DDPM生成樣本非常慢。擴散模型依賴于擴散步驟的長馬爾可夫鏈來生成樣本,因此在時間和計算方面可能相當昂貴。近年來,為加快抽樣程序作出了重大努力。我們將這些影響策略分為兩類:有效設計策略(EDS)和有效過程策略(EPS),前者建議對基線擴散模型的設計進行修改,后者建議如何提高擴散模型的效率或加快采樣過程。然而,這些策略是通過修改文獻推斷出來的,未來的工作可能會包括一些下文未提及的新策略。
為了追求精度,深度學習模型框架的結構越來越復雜,網絡越來越深。參數量的增加意味著訓練模型需要更多的數據。然而人工標注數據的成本是高昂的,且受客觀原因所限,實際應用時可能難以獲得特定領域的數據,數據不足問題非常常見。數據增強通過人為地生成新的數據增加數據量來緩解這一問題。數據增強方法在計算機視覺領域大放異彩,讓人們開始關注類似方法能否應用在序列數據上。除了翻轉、裁剪等在時間域進行增強的方法外,也描述了在頻率域實現數據增強的方法;除了人們基于經驗或知識而設計的方法以外,對一系列基于GAN的通過機器學習模型自動生成數據的方法也進行了詳細的論述。介紹了應用在自然語言文本、音頻信號和時間序列等多種序列數據上的數據增強方法,亦有涉及它們在醫療診斷、情緒判斷等問題上的表現。盡管數據類型不同,但總結了應用在這些類型上的數據增強方法背后的相似的設計思路。以這一思路為線索,梳理應用在各類序列數據類型上的多種數據增強方法,并進行了一定的討論和展望。
目前的圖表示(GR)算法在超參數調優方面需要大量的人工專家,這極大地限制了其實際應用,促使人們迫切需要無需人工干預的自動圖表示。雖然自動機器學習(AutoML)是自動超參數調優的一個很好的候選對象,但關于自動圖表示學習的文獻報道很少,現有的工作只有使用黑盒策略,缺乏解釋不同超參數的相對重要性的見解。為了解決這一問題,本文研究了具有超參數重要性的可解釋自動圖表示。我們提出了一種可解釋的AutoML圖表示方法(e-AutoGR),該方法在性能估計過程中利用可解釋的圖特征,并通過非線性去相關加權回歸學習不同超參數的去相關重要權重,以影響模型性能。這些學習到的重要權重在超參數搜索過程中可以反過來幫助提供更多的洞察力。我們從理論上證明了去相關加權算法的正確性。在真實數據集上的大量實驗表明,我們提出的e-AutoGR模型在模型性能和超參數重要性解釋方面優于最新方法。
在多源知識圖譜(KGs)中尋找等價實體是KGs集成的關鍵步驟,也稱為實體對齊(EA)。然而,現有的EA方法大多效率低下,伸縮性差。最近的總結指出,其中一些甚至需要幾天的時間來處理包含20萬個節點(DWY100K)的數據集。我們認為過于復雜的圖編碼器和低效的負采樣策略是造成這種現象的兩個主要原因。本文提出了一種新的KG編碼器-雙注意匹配網絡(Dual- AMN),該網絡不僅能對圖內和圖間信息進行智能建模,而且大大降低了計算復雜度。此外,我們提出了歸一化的硬樣本挖掘損失來平滑選擇硬負樣本,減少了損失偏移。在廣泛應用的公共數據集上的實驗結果表明,該方法具有較高的精度和效率。在DWY100K上,我們的方法的整個運行過程可以在1100秒內完成,比之前的工作至少快10倍。我們的方法在所有數據集上的性能也優于之前的工作,其中????????@1和??????從6%提高到13%。
//www.zhuanzhi.ai/paper/3d0a0bf7905b28afbdffaa48e0d640c3