數學推理是人類智能的一個基本方面,可應用于科學、工程、金融和日常生活等各個領域。能夠解決數學問題和證明定理的人工智能系統的發展引起了機器學習和自然語言處理領域的重大興趣。例如,數學是對強大的深度學習模型具有挑戰性的推理方面的測試平臺,推動新的算法和建模的進步。另一方面,大規模神經語言模型的最新進展為使用深度學習進行數學推理開辟了新的基準和機會。本文回顧了過去十年數學推理和深度學習交叉點的關鍵任務、數據集和方法。對現有的基準和方法進行了評估,并討論了該領域未來的研究方向。
1. 引言
數學推理是人類智能的一個關鍵方面,它使我們能夠根據數字數據和語言來理解和做出決定。它適用于科學、工程、金融和日常生活等各個領域,涵蓋了從模式識別和數值運算等基本技能到解決問題、邏輯推理和抽象思維等高級技能的一系列能力。能夠解決數學問題和證明定理的人工智能(AI)系統的發展一直是機器學習和自然語言處理(NLP)領域的一個長期研究重點,可以追溯到20世紀60年代(Feigenbaum et al., 1963;Bobrow, 1964)。近年來,人們對這一領域的興趣激增,如圖1所示。
深度學習在各種自然語言處理任務中表現出巨大的成功,如問答和機器翻譯(Sutskever等人,2014;Devlin等人,2018)。類似地,研究人員開發了各種用于數學推理的神經網絡方法,已被證明在解決數學應用題解決、定理證明和幾何問題解決等復雜任務方面是有效的。例如,基于深度學習的數學應用題解決者采用了一種帶有注意力機制的序列到序列框架來生成數學表達式作為中間步驟(Wang et al., 2018a;Chiang and Chen, 2019)。此外,通過大規模語料庫和Transformer模型(Vaswani et al., 2017),預訓練語言模型在各種數學任務上取得了有希望的結果。最近,像GPT-3 (Brown et al., 2020)這樣的大型語言模型(LLM)在復雜推理和上下文學習方面表現出了令人印象深刻的能力,進一步推進了數學推理領域。
最近在數學推理研究方面的進展令人印象深刻和鼓舞人心。本文綜述了深度學習在數學推理中的進展。本文討論了各種任務和數據集(第2節),并研究了神經網絡(第3節)和預訓練語言模型(第4節)在數學領域的進展。本文還探索了基于大型語言模型的上下文學習的快速進展(第5節),用于數學推理。進一步分析了現有的基準,發現對多模態和低資源設置的關注較少(第6.1節)。循證研究表明,當前的數值表示是不夠的,深度學習方法對于數學推理不一致(第6.2節)。從泛化和魯棒性、可信推理、從反饋中學習和多模態數學推理等方面改進當前的工作是有益的(第7節)。
2 任務和數據集
在本節中,我們將研究目前用于使用深度學習方法進行數學推理研究的各種任務和數據集。表2列出了該領域常用的數據集。
2.1 數學應用題解決
幾十年來,開發自動解決數學應用題(MWPs)的算法一直是NLP研究人員的興趣(Feigenbaum et al., 1963;Bobrow, 1964)。數學應用題(也稱為代數或算術應用題)描述了一個簡短的敘述,涉及字符、實體和數量。MWP的數學關系可以用一組方程來建模,這些方程的解揭示了問題的最終答案。一個典型的例子如表1所示。作題涉及加、減、乘、除四種基本算術運算,有一個或多個運算步驟。NLP系統中MWPs的挑戰在于對語言理解、語義解析和多種數學推理技能的需求。
2.2 定理證明
自動化定理證明是人工智能領域長期以來的挑戰(Newell等人,1957;Feigenbaum et al., 1963)。問題是要通過一系列邏輯論證(證明)來證明一個數學主張(定理)的真實性。定理證明測試了各種技能,例如選擇有效的多步策略,使用背景知識和執行符號操作(例如算術或推導)。
2.3 幾何解題
自動幾何問題求解(GPS)也是數學推理研究中一個長期存在的人工智能任務(Gelernter et al., 1960; Wen-Tsun, 1986; Chou et al., 1996; Ye et al., 2008),近年來備受關注。與數學應用題不同,幾何問題由自然語言的文本描述和幾何圖形組成。如圖2所示,多模態輸入描述了幾何元素的實體、屬性和關系,目標是找到未知變量的數值解。GPS對于深度學習方法來說是一項具有挑戰性的任務,因為它需要復雜的技能。它涉及到解析多模態信息、進行符號抽象、利用定理知識和進行定量推理的能力。
2.4 數學問答
數值推理是人類智能中的核心能力,在許多自然語言處理任務中發揮著重要作用。除了定理證明和年級數學應用題解決,還有廣泛的以數學推理為中心的問答(QA)基準。本文將這些任務稱為數學問答(MathQA)。近年來出現了大量的數據集。例如,QuaRel (Tafjord et al., 2019)是一個包含不同故事問題的數據集,涉及19種不同類型的數量。McTaco (Zhou et al., 2019)研究的是時間常識問題,而Fermi (Kalyan et al., 2021)研究的是費米問題,其答案只能近似估計。
3 用于數學推理的神經網絡
3.1 數學的Seq2Seq網絡
序列到序列(Seq2Seq) (Sutskever et al., 2014)神經網絡已成功應用于數學推理任務,如數學應用題解決(Wang et al., 2017)、定理證明(Yang and Deng, 2019)、幾何問題解決(Robaidek et al., 2018)和數學問答(Tafjord et al., 2019)。Seq2Seq模型使用編碼器-解碼器架構,通常將數學推理形式化為序列生成任務。這種方法背后的基本思想是將輸入序列(例如數學問題)映射到輸出序列(例如方程、程序和證明)。常見的編碼器和解碼器包括長短期記憶網絡(LSTM) (Hochreiter和Schmidhuber, 1997)、門控循環單元(GRU) (Cho等人,2014)以及它們的雙向變體:BiLSTM和BiGRU。DNS (Wang et al., 2017)是第一項使用Seq2Seq模型將應用題中的句子轉換為數學方程的工作。大量工作表明,Seq2Seq模型比之前的統計學習方法具有性能優勢(Ling et al., 2017; Wang et al., 2018a; Huang et al., 2018; Chiang and Chen, 2019; Wang et al., 2019; Li et al., 2019)。
3.2基于圖的數學網絡
Seq2Seq方法在生成數學表達式和不依賴手工特征方面表現出優勢。數學表達式可以被轉換成一種基于樹的結構,例如抽象語法樹(AST)和一種基于圖的結構,它描述了表達式中的結構化信息。然而,Seq2Seq方法沒有顯式地對這些重要信息進行建模。為了解決這個問題,基于圖的神經網絡被開發出來顯式地建模表達式中的結構。 序列到樹(Seq2Tree)模型在編碼輸出序列時顯式建模樹結構(Liu et al., 2019a; Xie and Sun, 2019; Wu et al., 2020; Zhang et al., 2020a; Zaporojets et al., 2021; Qin et al., 2021; Wu et al., 2021b; Lin et al., 2021; Hong et al., 2021a)。例如,(Liu et al., 2019a)設計了一個Seq2Tree模型,以更好地利用來自方程的AST的信息。相反,Seq2DAG (Cao et al., 2021),在生成方程時應用了序列圖(Seq2Graph)框架,因為圖解碼器能夠提取多個變量之間的復雜關系。在編碼輸入的數學序列時,也可以嵌入基于圖的信息(Zhang et al., 2020b; Shen and Jin, 2020; Li et al., 2020b; Wu et al., 2021a)。例如,ASTactic (Yang and Deng, 2019)在ast上應用TreeLSTM (Tai et al., 2015)來表示定理證明的輸入目標和前提。 3.3基于注意力的數學網絡
注意力機制已成功應用于自然語言處理(Bahdanau等人,2014)和計算機視覺問題(Xu等人,2015;Woo等人,2018),在解碼過程中考慮了輸入的隱藏向量。最近,研究人員一直在探索它在數學推理任務中的有用性,因為它可以用來識別數學概念之間最重要的關系。例如,Math-EN (Wang et al., 2018a)是一個數學應用題解決程序,受益于通過自注意力學習到的長距離依賴信息。基于注意力的方法也被應用于其他數學推理任務,如幾何問題求解(Robaidek等人,2018;Chen et al., 2021a)和定理證明(Yang and Deng, 2019)。人們對各種注意力機制進行了研究,以提取更好的表示,例如Group-ATT (Li et al., 2019),它使用不同的多頭注意力來提取各種類型的MWP特征,以及圖注意力,用于提取知識感知信息(Wu et al., 2020)。
4 預訓練的數學推理語言模型
預訓練語言模型(例如,Devlin等人(2018);Radford et al. (2020);Brown等人(2020))在廣泛的NLP任務上證明了顯著的性能提升(Qiu等人,2020)。通過在大型文本語料庫上進行預訓練,模型學習有價值的世界知識(Guu等人,2020),這些知識可應用于下游任務,如問題回答(Khashabi等人,2020)、文本分類(Minaee等人,2021)和對話生成(Zhang等人,2019;Qiu等,2022a,b)。類似的想法可以應用于與數學相關的問題,之前的工作表明,預先訓練的語言模型在回答數學應用題時表現良好(Kim et al., 2020; Shen et al., 2021; Yu et al., 2021b; Cobbe et al., 2021; Li et al., 2022b; Jie et al., 2022; Ni et al., 2022),協助定理證明(Polu and Sutskever, 2020; Han et al., 2022; Wu et al., 2022b; Jiang et al., 2022b; Welleck et al., 2022a),以及其他數學任務(Lu et al., 2021a; Chen et al., 2022a; Cao and Xiao, 2022; Clark et al., 2020; Chen et al., 2021c; Zhu et al., 2021; Hendrycks et al., 2021; Zhao et al., 2022; Nye et al., 2021; Charton, 2021)。
**然而,盡管大型語言模型在建模自然語言方面表現出色,但將其用于數學推理存在一些挑戰。**首先,預訓練語言模型沒有專門在數學數據上進行訓練。這可能導致與自然語言任務相比,他們對數學相關任務的熟練程度較低。與文本數據相比,用于大規模預訓練的數學或科學數據也較少。其次,預訓練模型的規模繼續增長,使得為特定的下游任務從頭訓練整個模型的成本很高。此外,下游任務可能處理不同的輸入格式或模態,如結構化表(Zhao et al., 2022; Chen et al., 2021c; Zhu et al., 2021)或圖表(Lu et al., 2021a; Chen et al., 2022a; Lu et al., 2021b)。為了應對這些挑戰,研究人員必須通過對下游任務進行微調或適應神經架構來調整預訓練模型。最后,盡管預訓練語言模型可以編碼大量的語言信息,但模型僅從語言建模目標中學習數值表示或高級推理技能可能是困難的(Lin et al., 2020;Kalyan等人,2021年)。考慮到這一點,最近有研究調研了從基礎課程開始注入數學相關技能(Geva et al., 2020; Feng et al., 2021; Wu et al., 2021d)。
5 .基于上下文的數學推理學習
大型語言模型(LLM),如GPT3 (Brown et al., 2020),最近徹底改變了自然語言處理(NLP)領域,特別是由于其強大的少樣本上下文學習能力(Brown et al., 2020)。上下文學習(ICL)使LLM能夠通過在推理時提供一些任務示例作為條件來執行目標任務,而無需更新模型參數(Radford et al., 2020; Brown et al., 2020)。ICL允許用戶快速為新用例構建模型,而無需擔心為每個任務進行微調和存儲大量新參數,因此現在被廣泛用于少樣本設置(Min等人,2022)。一個上下文中的例子通常包含一個輸入-輸出對和一些提示詞,例如,請從列表中選擇最大的數字。輸入:[2,4,1,5,8]。輸出:8,而few-shot通過給出多個示例來工作,然后是一個最終輸入示例,模型預計將預測輸出。然而,這種標準的少次提示(在測試時示例前給LLM提供輸入-輸出對的上下文示例)尚未被證明足以在數學推理等具有挑戰性的任務上取得高性能(Rae等人,2021)。
結論:
本文對數學推理的深度學習進行了全面的綜述。回顧了已經使用的各種任務和數據集,并討論了已經采取的各種方法,包括早期的神經網絡,后來的預訓練語言模型和最近的大型語言模型。還確定了現有數據集和方法中的幾個差距,包括對低資源設置的關注有限、計算能力表示不足和推理能力不一致。最后,對未來的研究方向進行了展望,并指出了該領域進一步探索的潛力。本文的目標是為對發展數學推理深度學習感興趣的讀者提供一個全面而有用的資源。為了幫助我們完成這項工作,我們創建了一個閱讀列表,并將在//github.com/lupantech/dl4math的GitHub存儲庫中不斷更新
摘要: 近年來,預訓練語言模型發展迅速,將自然語言處理推到了一個全新的發展階段。文中的綜述旨在幫助研究人員了解強大的預訓練語言模型在何處以及如何應用于自然語言處理。具體來講,首先簡要回顧了典型的預訓練模型,包括單語言預訓練模型、多語言預訓練模型以及中文預訓練模型;然后討論了這些預訓練模型對5個不同的自然語言處理任務的貢獻,即信息提取、情感分析、問答系統、文本摘要和機器翻譯;最后討論了預訓練模型的應用所面臨的一些挑戰。
//www.jsjkx.com/CN/10.11896/jsjkx.220800223
在早期的自然語言 處 理(NaturalLanguageProcessing, NLP)任務中,人們通常利用各種深度神經網絡[1],使用低維 密集向量來表示語言的句法或語義特征.然而,由于深度神 經網絡參數量大,并且是在有限的數據集上進行訓練的,往往 會導致過度擬合.因此,Vaswanid等[2]提出了深度學習模型 Transformer,用于解決循環神經網絡(RecurrentNeuralNetG work,RNN)訓 練 緩 慢、效 率 低 下 和 過 度 擬 合 的 問 題[3].同 時,將 Transformer與自我注意力機制相結合,實現了快速并 行的 效 果. 從 此,預 訓 練 語 言 模 型 (Pretrained Language Model,PLM)進入了蓬勃發展的階段.各種大規模的單語言 PLM(如 BERT [4]和 GPT [5])在各種 NLP任務中獲得了巨大 成功,并催生了許多不同的改進模型和多語言 PLM. 近兩年來,PLM 在 NLP 領 域 應 用 得 非 常 廣 泛,原 因 是 PLM 可以將各種困難復雜的 NLP任務簡化為簡單的微調問 題.PLM 通過自我監督學習在大規模文本語料庫上進行預 訓練,預訓練過程包括從大型語料庫中學習常識(與特定的下 游 NLP任務無關),以防止模型在小數據上過度擬合[6].在 預訓練之后,PLM 需要針對具體的下游任務進行微調. 由于 PLM 對 NLP至關重要,為了幫助研究人員快速掌 握 PLM 的應用現狀,本文綜述了 PLM 在 NLP 領域5個最 熱門的任務中的應用:信息提取(InformationExtraction,IE)、 情感分析(SentimentAnalysis,SA)、文本摘要(TextSummaGrization,TS)、問題回答(QuestionAnswering,QA)和機器翻 譯(MachineTranslation,MT).此 外,我 們 還 討 論 了 當 前 PLM 應用中的重要挑戰. 其他研究人員也綜述了 PLM,但本文的綜述與他們的不 同.2020年,Qiu等[7]對 PLM 在 NLP領域的應用進行了調 查,但只進行了簡單的概述.2020年,Zaib等[8]對 PLM 的對 話式人工智能做了一個簡短的綜述,但未涉及 PLM 在其他 領域的應用.2021年,Luo等[9]調查了 PLM 在跨語言SA 中 的應用.2021年,Kalyan等[10]回顧了基于轉換的生物醫學 PLM.然而,他們的 PLM 只涉及生物醫學領域,這些綜述都 沒有包含最新的進展,且所做的綜述單一或者不夠詳盡.本 文不僅討論了 PLM 在 NLP領域的最新應用,而且詳細地介 紹了這個主題,涵蓋了信息提取、情感分析、自動問答、文本摘 要和機器翻譯5個 NLP熱門領域. 本文第2節簡要介紹了一些典型的 PLM,包括國內外的 單語和多語 PLM;第3節總結了一些基于 PLM 的信息提取 方法;第4節回顧了一些基于 PLM 的情感分析技術;第5節 考察了用于問答系統的 PLM 模型;第6節討論了基于 PLM 的文本摘要方法;第7節評論了一些關于PLM 的機器翻譯的 研究;第8節討論了未來工作的挑戰;最后總結全文.
多人工智能任務的改進。隱變量模型提供了一個優雅的框架,以新的功能來增強生成算法。然而,在自然語言處理領域,尚不清楚如何最好地將潛變量與強大且無處不在的語言模型相結合。
本文探索先進的優化方法和潛變量模型的設計,以完成自然語言處理任務。全文共分為三個部分。在第一部分中,我們提出了隱變量語言模型的三種結構。本文討論了結構化的潛空間,可以結構化為大型知識庫(如維基百科)或以潛文本生成過程為特征。在第二部分中,我們深入研究變分推理和優化的主題。本文提出一種新的離散潛變量梯度估計器OVIS。我們發現,即使使用OVIS,優化深度潛變量模型仍然具有挑戰性。本文根據經驗數據表明,Rényi散度變分推理可以應用于規避一些學習問題。在第三部分中,我們重點解決醫療問答和信息檢索任務。實驗提示預訓練大型語言模型(GPT-3)生成逐步的問題解決方案。本文報告稱,在許多情況下,GPT-3可以推理具有挑戰性的醫學問題。提出了一個新的框架VOD,用于用變分推理學習檢索增強語言模型。本文應用VOD來優化由大量維基百科增強的問答系統,并報告了在醫療問答基準上的最先進性能。最后,將得到的模型應用于罕見病診斷領域的信息檢索任務。
時間序列異常檢測在廣泛的研究領域和應用中有著廣泛的應用,包括制造業和醫療健康。異常的出現可能表明出現了新的或意料之外的事件,例如生產故障、系統缺陷或心臟跳動,因此特別值得關注。時間序列的巨大規模和復雜模式促使研究人員開發專門的深度學習模型來檢測異常模式。本綜述的重點是通過使用深度學習來提供結構化的、全面的、最先進的時間序列異常檢測模型。它提供了基于因素的分類法,將異常檢測模型劃分為不同的類別。除了描述每種類型的基本異常檢測技術外,還討論了其優點和局限性。此外,本研究包含了近年來跨不同應用領域的時間序列深度異常檢測實例。最后總結了在采用深度異常檢測模型時研究中存在的問題和面臨的挑戰。
1. 概述
異常檢測又稱異常值檢測和新穎性檢測,自60年代以來一直是眾多研究領域的一個蓬勃發展的研究領域[74]。隨著計算過程的發展,大數據和人工智能(AI)受到了積極的影響,有助于時間序列分析,包括異常檢測。隨著可獲得的數據越來越多,算法越來越高效,計算能力越來越強,時間序列分析越來越多地被用于通過預測、分類和異常檢測[59]、[26]來解決業務問題。時間序列異常檢測在城市管理、入侵檢測、醫療風險、自然災害等多個領域的需求日益增長,其重要性也日益提高。
隨著深度學習在過去幾年的顯著進步,它已經越來越有能力學習復雜時間序列的表達表示,比如同時具有空間(度量間)和時間特征的多維數據。在深度異常檢測中,利用神經網絡學習特征表示或異常評分來檢測異常。許多深度異常檢測模型已經被開發出來,在不同的現實應用中,對時間序列檢測任務提供了明顯高于傳統異常檢測的性能。雖然Chandola等人在[29]中對深度學習異常檢測模型進行了廣泛的綜述,但本研究的目的是對深度異常檢測模型進行全面的綜述,重點關注時間序列數據。考慮到多變量時間序列分析比單變量時間序列分析更具挑戰性,目前提出的模型主要用于處理多變量時間序列。
雖然在異常檢測領域已有多篇文獻綜述[140],[27]、[20]、[23]和一些評價綜述論文存在[154]、[102],但對時間序列數據[41]的深度異常檢測方法的研究僅一篇。然而,這一綜述并沒有涵蓋近年來出現的大量時間序列異常檢測方法,如DAEMON[37]、TranAD[171]、DCT-GAN[116]和Interfusion[119]。因此,有必要進行一項涵蓋該領域當前技術現狀的調研,以幫助研究人員確定:1)時間序列異常檢測的重要未來研究方向是什么;2)在特定的應用環境下,哪些方法適合應用。具體而言,本文有以下幾點貢獻:
提出了一種新的時間序列深度異常檢測模型分類方法。深度異常檢測模型一般分為三類:基于預測的、基于重構的和混合方法。每個類別被劃分為子類別,根據模型中使用的深度神經網絡架構定義子類別。模型的特征是各種不同的結構特征,這有助于其檢測能力。
本研究提供了對當前技術狀態的全面回顧。這一領域的發展方向和趨勢已經十分清晰。
描述了該領域目前使用的主要基準和數據集,并提供了超鏈接。
對可能導致時間序列中不同異常發生的基本原理的討論
本文的其余部分組織如下。在第二節中,我們從時間序列的初步定義開始。然后概述了時間序列數據異常分類的分類法。第3節討論了深度異常檢測模型如何應用于時間序列數據。然后,根據深度神經網絡的主要方法(基于預測的、基于重構的、混合的)和主要架構,介紹了不同的深度模型及其功能。對于所考慮的異常檢測模型,可以在第4節中找到公開可用的和常用的數據集的概述。此外,第5節探討了時間序列深度異常檢測模型在不同領域的應用領域。最后,第6節提供了該領域的幾個挑戰,可以作為未來的機會。
2. 深度異常檢測方法
在具有復雜結構的數據中,深度神經網絡是建模依賴關系的強大方法。許多學者對其在異常檢測中的應用非常著迷,它使用了許多深度學習架構,如圖3所示。在實踐中,訓練數據往往只有極少數被標記的異常。因此,大多數模型試圖學習正常數據的表示或特征。然后根據異常定義檢測異常,這意味著他們發現了與正常數據不同的數據。在最近的深度異常檢測模型中,有四種學習方案:無監督、有監督、半監督和自監督。這是基于標簽數據點的可用性(或缺乏)。監督方法采用一種獨特的方法來學習異常數據和正常數據之間的邊界,該方法基于在訓練集中發現的所有標簽。它可以確定一個適當的閾值,如果分配給這些時間戳的異常評分(第3.1節)超過閾值,則該閾值將用于將所有時間戳分類為異常。這種方法的問題是它不適用于現實世界中的應用程序,因為異常通常是未知的或標記不正確的。相反,在無監督異常檢測方法中,不區分訓練集和測試集。這些技術是最靈活的,因為它們完全依賴于數據的內在特征。它們在流應用程序中很有用,因為它們不需要標簽進行培訓和測試。盡管有這些優點,研究人員可能會遇到困難,評估異常檢測模型使用非監督方法。異常檢測問題通常被視為無監督學習問題,因為歷史數據固有的無標記性質和異常的不可預測性質。在數據集只包含正常點且不存在異常的情況下,可以使用半監督方法。然后,訓練一個模型來擬合時間序列分布,并檢測任何偏離該分布的點作為異常。通過充分利用未標記數據本身(例如,通過設計文本前任務),訓練自監督方法從其可觀察部分預測輸入的任何未觀察部分(或屬性)。在自監督學習中,只需要從無監督問題中自動生成少量的標記,因此將無監督問題轉換為有監督問題。
由于信息和錯誤信息在現代媒體生態系統中的傳播速度,事實核查變得越來越重要。因此,研究人員一直在探索如何實現事實核查的自動化,使用基于自然語言處理、機器學習、知識表示和數據庫的技術來自動預測聲明的準確性。在本文中,我們對自然語言處理產生的自動事實檢查進行了綜述,并討論了它與相關任務和學科的聯系。在這個過程中,我們概述了現有的數據集和模型,旨在統一各種定義,并確定共同的概念。最后,我們強調了未來研究的挑戰。
//www.zhuanzhi.ai/paper/c9ad2ec91cd86cc9c8598a6917ecd942
事實核查是評估書面或口頭聲明是否屬實的任務。這是新聞業的一項基本任務,通常由PolitiFact等專門組織手工完成。報紙、雜志、書籍的出版商在出版前,除了進行外部事實核查外,還進行內部事實核查,以促進報道的真實性。圖1顯示了來自PolitiFact的一個示例,以及證據(總結)和結論。
事實核查是一項耗時的任務。為了評估圖1中的說法,記者需要搜索潛在的許多來源,以找到在特朗普和奧巴馬執政期間的就業增長情況,評估每個來源的可靠性,并進行比較。這個過程可能需要專業的事實核查員幾個小時或幾天(Hassan et al., 2015;Adair等人,2017)。更糟糕的是,事實核查員經常在嚴格和緊迫的期限下工作,特別是在內部流程的情況下(Borel, 2016;戈德勒和賴克,2017),一些研究表明,在所有發表的文章中,只有不到一半的文章經過了驗證(Lewis et al., 2008)。考慮到出現的新信息的數量和傳播速度,手工驗證是不夠的。
自動化事實核查過程已經在計算新聞的背景下進行了討論(Flew et al., 2010; Cohen et al., 2011; Graves, 2018),并在人工智能領域得到了極大的關注。Vlachos和Riedel(2014)提出將其構建為一個組件序列——識別需要檢查的聲明,找到合適的證據,得出結論——可以建模為自然語言處理(NLP)任務。這推動了自動化管道的開發,這些自動化管道由子任務組成,可以映射到NLP社區中充分探索的任務。數據集的發展使進展成為可能,這些數據集包括從事實核查網站收集的聲明,如Liar(王,2017),或專門為研究而設計的聲明,如FEVER(Thorne et al., 2018a)。
越來越多的研究機構正在探索事實核查自動化所必需的各種任務和子任務,并滿足應對新出現挑戰的新方法的需要。早期的發展在Thorne和Vlachos(2018)進行了調研,這仍然是最接近該主題的詳盡概述。然而,他們提出的框架不包括確定哪些聲明要求需要驗證的工作(即聲明檢測)的幾篇論文調研了這項任務的各個組成部分。ZZubiaga et al. (2018) 和 Islam et al. (2020)關注識別謠言在社交媒體上,Kucuk(2020)和Hardalov et al。(2021)檢測的立場對聲明證據,Kotonya和托尼(2020)為factchecks生產解釋和理由。雖然這些調研對了解事實核查技術的各個方面非常有用,但它們是碎片化的,并集中于具體的子任務和組件;我們的目標是提供一個全面和詳盡的主題作為一個整體。
一些論文對相關課題進行了調查。Lazer et al. (2018) 和 Zhou 和 Zafarani (2020) 調研了假新聞方面的工作,包括對這個問題的描述性工作,以及試圖通過計算手段打擊假新聞的工作。Oshikawa等人(2020)也對用于假新聞檢測的NLP方法進行了全面綜述。然而,假新聞檢測與事實核查的范圍不同,前者側重于評估新聞文章,包括基于與真實性無關的方面的標簽項目,如諷刺檢測(Oshikawa et al., 2020; Zhou 和 Zafarani, 2020)。此外,還經常考慮其他因素,如索賠要求所觸及的受眾,以及索賠要求的意圖和形式。Da San Martino等人(2020b)最近進行的一項調研顯示,這些因素在宣傳檢測中也很重要。與這些努力不同,本綜述中討論的工作集中于評估一般領域聲明的準確性。最后,Shu et al.(2017)和da Silva et al.(2019)以社交媒體數據為重點,對假新聞檢測和事實核查的研究進行了調研,而這項調研涵蓋了跨領域和來源的事實核查,包括新聞通訊社、科學等。
在這個綜述中,我們提出了一個全面和最新的調研自動化事實核查,統一了各種組成部分和定義,在以前的研究發展成一個共同的框架。首先,我們定義了事實核查框架的三個階段——聲明檢測、證據檢索和聲明驗證,后者包括判決預測和理由生成。然后,我們給出現有數據集和建模策略的概述,根據我們的框架對它們進行分類和上下文化。最后,我們討論了已經解決的關鍵研究挑戰,并給出了我們認為未來研究應該解決的挑戰的方向。我們伴隨調研而來的是一個資料庫,它提供資源和研究進展的及時更新。
自然語言處理(NLP)幫助智能機器更好地理解人類語言,實現基于語言的人機交流。計算能力的最新發展和大量語言數據的出現,增加了使用數據驅動方法自動進行語義分析的需求。由于深度學習方法在計算機視覺、自動語音識別,特別是NLP等領域的應用取得了顯著的進步,數據驅動策略的應用已經非常普遍。本調查對得益于深度學習的NLP的不同方面和應用進行了分類和討論。它涵蓋了核心的NLP任務和應用,并描述了深度學習方法和模型如何推進這些領域。我們進一步分析和比較不同的方法和最先進的模型。
【導讀】辭九迎零,我們迎來2020,到下一個十年。在2019年機器學習領域繼續快速發展,元學習、遷移學習、小樣本學習、深度學習理論等取得很多進展。在此,專知小編整理這一年這些研究熱點主題的綜述進展,共十篇,了解當下,方能向前。
1、A guide to deep learning in healthcare(醫療深度學習技術指南)
斯坦福&谷歌Jeff Dean最新Nature論文:醫療深度學習技術指南(29頁綜述)
Google 斯坦福 Nature Medicine
作者:Andre Esteva, Alexandre Robicquet, Bharath Ramsundar, Volodymyr Kuleshov, Mark DePristo, Katherine Chou, Claire Cui, Greg Corrado, Sebastian Thrun & Jeff Dean
摘要:我們介紹了醫療保健的深度學習技術,重點討論了計算機視覺、自然語言處理、強化學習和廣義方法的深度學習。我們將描述這些計算技術如何影響醫學的幾個關鍵領域,并探討如何構建端到端系統。我們對計算機視覺的討論主要集中在醫學成像上,我們描述了自然語言處理在電子健康記錄數據等領域的應用。同樣,在機器人輔助手術的背景下討論了強化學習,并綜述了基因組學的廣義深度學習方法。
網址:
//www.nature.com/articles/s41591-018-0316-z
2、Multimodal Machine Learning: A Survey and Taxonomy(多模態機器學習)
人工智能頂刊TPAMI2019最新《多模態機器學習綜述》
CMU TPAMI
作者:Tadas Baltru?aitis,Chaitanya Ahuja,Louis-Philippe Morency
摘要:我們對世界的體驗是多模態的 - 我們看到物體,聽到聲音,感覺質地,聞到異味和味道。情態是指某種事物發生或經歷的方式,并且當研究問題包括多種這樣的形式時,研究問題被描述為多模式。為了使人工智能在理解我們周圍的世界方面取得進展,它需要能夠將這種多模態信號一起解釋。多模態機器學習旨在構建可以處理和關聯來自多種模態的信息的模型。這是一個充滿活力的多學科領域,具有越來越重要的意義和非凡的潛力。本文不是關注特定的多模態應用,而是研究多模態機器學習本身的最新進展。我們超越了典型的早期和晚期融合分類,并確定了多模式機器學習所面臨的更廣泛的挑戰,即:表示,翻譯,對齊,融合和共同學習。這種新的分類法將使研究人員能夠更好地了解該領域的狀況,并確定未來研究的方向。
網址:
3、Few-shot Learning: A Survey(小樣本學習)
《小樣本學習(Few-shot learning)》最新41頁綜述論文,來自港科大和第四范式
香港科大 第四范式
作者:Yaqing Wang,Quanming Yao
摘要:“機器會思考嗎”和“機器能做人類做的事情嗎”是推動人工智能發展的任務。盡管最近的人工智能在許多數據密集型應用中取得了成功,但它仍然缺乏從有限的數據示例學習和對新任務的快速泛化的能力。為了解決這個問題,我們必須求助于機器學習,它支持人工智能的科學研究。特別地,在這種情況下,有一個機器學習問題稱為小樣本學習(Few-Shot Learning,FSL)。該方法利用先驗知識,可以快速地推廣到有限監督經驗的新任務中,通過推廣和類比,模擬人類從少數例子中獲取知識的能力。它被視為真正人工智能,是一種減少繁重的數據收集和計算成本高昂的培訓的方法,也是罕見案例學習有效方式。隨著FSL研究的廣泛開展,我們對其進行了全面的綜述。我們首先給出了FSL的正式定義。然后指出了FSL的核心問題,將問題從“如何解決FSL”轉變為“如何處理核心問題”。因此,從FSL誕生到最近發表的作品都被歸為一個統一的類別,并對不同類別的優缺點進行了深入的討論。最后,我們從問題設置、技術、應用和理論等方面展望了FSL未來可能的發展方向,希望為初學者和有經驗的研究者提供一些見解。
網址:
4、meta Learning: A Survey(元學習)
元學習(Meta-Learning) 綜述及五篇頂會論文推薦
作者:Joaquin Vanschoren
摘要:元學習,或學習學習,是一門系統地觀察不同機器學習方法如何在廣泛的學習任務中執行的科學,然后從這種經驗或元數據中學習,以比其他方法更快的速度學習新任務。這不僅極大地加快和改進了機器學習管道或神經體系結構的設計,還允許我們用以數據驅動方式學習的新方法取代手工設計的算法。在本文中,我們將概述這一迷人且不斷發展的領域的最新進展。
網址:
5、A Comprehensive Survey on Transfer Learning(遷移學習)
中科院發布最新遷移學習綜述論文,帶你全面了解40種遷移學習方法
作者:Fuzhen Zhuang, Zhiyuan Qi, Keyu Duan, Dongbo Xi, Yongchun Zhu, Hengshu Zhu, Senior Member, IEEE, Hui Xiong, Senior Member, IEEE, and Qing He
摘要:遷移學習的目的是通過遷移包含在不同但相關的源域中的知識來提高目標學習者在目標域上的學習表現。這樣,可以減少對大量目標域數據的依賴,以構建目標學習者。由于其廣泛的應用前景,遷移學習已經成為機器學習中一個熱門和有前途的領域。雖然已經有一些關于遷移學習的有價值的和令人印象深刻的綜述,但這些綜述介紹的方法相對孤立,缺乏遷移學習的最新進展。隨著遷移學習領域的迅速擴大,對相關研究進行全面的回顧既有必要也有挑戰。本文試圖將已有的遷移學習研究進行梳理使其系統化,并對遷移學習的機制和策略進行全面的歸納和解讀,幫助讀者更好地了解當前的研究現狀和思路。與以往的文章不同,本文從數據和模型的角度對40多種具有代表性的遷移學習方法進行了綜述。還簡要介紹了遷移學習的應用。為了展示不同遷移學習模型的性能,我們使用了20種有代表性的遷移學習模型進行實驗。這些模型是在三個不同的數據集上執行的,即Amazon Reviews,Reuters-21578和Office-31。實驗結果表明,在實際應用中選擇合適的遷移學習模型是非常重要的。。
網址:
6、Multimodal Intelligence: Representation Learning, Information Fusion, and Applications(多模態智能論文綜述:表示學習,信息融合與應用) 【IEEE Fellow何曉東&鄧力】多模態智能論文綜述:表示學習,信息融合與應用,259篇文獻帶你了解AI熱點技術
京東
作者:Chao Zhang,Zichao Yang,Xiaodong He,Li Deng
【摘要】自2010年以來,深度學習已經使語音識別、圖像識別和自然語言處理發生了革命性的變化,每種方法在輸入信號中都只涉及一種模態。然而,人工智能的許多應用涉及到多種模態。因此,研究跨多種模態的建模和學習的更困難和更復雜的問題具有廣泛的意義。本文對多模態智能的模型和學習方法進行了技術綜述。視覺與自然語言的結合已成為計算機視覺和自然語言處理研究的一個重要領域。本文從學習多模態表示、多模態信號在不同層次上的融合以及多模態應用三個新角度對多模態深度學習的最新研究成果進行了綜合分析。在多模態表示學習中,我們回顧了嵌入的關鍵概念,將多模態信號統一到同一個向量空間中,從而實現了多模態信號的交叉處理。我們還回顧了許多類型的嵌入的性質,構造和學習的一般下游任務。在多模態融合方面,本文著重介紹了用于集成單模態信號表示的特殊結構。在應用方面,涵蓋了當前文獻中廣泛關注的選定領域,包括標題生成、文本到圖像生成和可視化問題回答。我們相信這項綜述可促進未來多模態智能的研究。
網址:
7、Object Detection in 20 Years: A Survey(目標檢測)
密歇根大學40頁《20年目標檢測綜述》最新論文,帶你全面了解目標檢測方法
作者:Zhengxia Zou (1), Zhenwei Shi (2), Yuhong Guo (3 and 4), Jieping Ye
摘要:目標檢測作為計算機視覺中最基本、最具挑戰性的問題之一,近年來受到了廣泛的關注。它在過去二十年的發展可以說是計算機視覺歷史的縮影。如果我們把今天的目標檢測看作是深度學習力量下的一種技術美學,那么讓時光倒流20年,我們將見證冷兵器時代的智慧。本文從目標檢測技術發展的角度,對近四分之一世紀(20世紀90年代至2019年)的400余篇論文進行了廣泛的回顧。本文涵蓋了許多主題,包括歷史上的里程碑檢測器、檢測數據集、度量、檢測系統的基本構建模塊、加速技術以及最新的檢測方法。本文還綜述了行人檢測、人臉檢測、文本檢測等重要的檢測應用,并對其面臨的挑戰以及近年來的技術進步進行了深入分析。
網址:
8、A Survey of Techniques for Constructing Chinese Knowledge Graphs and Their Applications(中文知識圖譜)
作者:Tianxing Wu, Guilin Qi ,*, Cheng Li and Meng Wang
摘要:隨著智能技術的不斷發展,作為人工智能支柱的知識圖譜以其強大的知識表示和推理能力受到了學術界和產業界的廣泛關注。近年來,知識圖譜在語義搜索、問答、知識管理等領域得到了廣泛的應用。構建中文知識圖譜的技術也在迅速發展,不同的中文知識圖譜以支持不同的應用。同時,我國在知識圖譜開發方面積累的經驗對非英語知識圖譜的開發也有很好的借鑒意義。本文旨在介紹中文知識圖譜的構建技術及其應用,然后介紹了典型的中文知識圖譜,此外我們介紹了構建中文知識圖譜的技術細節,并介紹了了中文知識圖譜的幾種應用。
網址:
9、Advances and Open Problems in Federated Learning(聯邦學習)
【重磅】聯邦學習FL進展與開放問題萬字綜述論文,58位學者25家機構聯合出品,105頁pdf438篇文獻
摘要:聯邦學習(FL)是一種機器學習設置,在這種設置中,許多客戶(例如移動設備或整個組織)在中央服務器(例如服務提供商)的協調下協作地訓練模型,同時保持訓練數據分散。FL體現了集中數據收集和最小化的原則,可以減輕由于傳統的、集中的機器學習和數據科學方法所帶來的許多系統隱私風險和成本。在FL研究爆炸性增長的推動下,本文討論了近年來的進展,并提出了大量的開放問題和挑戰。
網址:
10、Optimization for deep learning: theory and algorithms(深度學習優化理論算法)
【2019年末硬貨】深度學習的最優化:理論和算法綜述論文,60頁pdf257篇文獻
摘要:什么時候以及為什么能夠成功地訓練神經網絡?本文概述了神經網絡的優化算法和訓練理論。首先,我們討論了梯度爆炸/消失問題和更一般的不期望譜問題,然后討論了實際的解決方案,包括仔細的初始化和歸一化方法。其次,我們回顧了用于訓練神經網絡的一般優化方法,如SGD、自適應梯度方法和分布式方法,以及這些算法的現有理論結果。第三,我們回顧了現有的關于神經網絡訓練的全局問題的研究,包括局部極值的結果、模式連接、彩票假設和無限寬度分析。
網址: