深度學習已經成功應用于許多應用領域,但其在時間序列預測方面的優勢顯現較慢。例如,在著名的 Makridakis(M)競賽中,傳統統計或機器學習技術的混合應用直到最近才開始表現突出。隨著深度學習的最新架構進展(例如,帶有注意力機制的編碼器-解碼器、變換器和圖神經網絡)被應用于時間序列預測,深度學習開始展現顯著優勢。然而,在大流行病預測領域,深度學習模型仍面臨挑戰:時間序列長度不足以進行有效訓練、對累積的科學知識缺乏認識、以及模型的可解釋性問題。為此,基礎模型(具有廣泛預訓練的大型深度學習模型)的開發使得模型能夠理解模式和獲得知識,這些知識可以在廣泛訓練數據變得可用之前應用于新的相關問題。此外,深度學習模型還可以利用包括知識圖譜和用科學領域知識微調的大型語言模型等大量知識。目前,正在研究如何將這些知識利用或注入到深度學習模型中。在這篇綜述中,我們回顧了幾種最新的建模技術,并提出了進一步工作的建議。1 引言
過去四年對 COVID-19 的經歷向像國家科學基金會(NSF)和疾病控制與預防中心(CDC)這樣的組織清楚地表明,我們需要為下一次大流行做更好的準備。截至 2024 年 1 月 13 日星期六,僅在美國,COVID-19 就造成了 6,727,163 例住院和 1,169,666 例死亡(美國首例 1/15/2020,美國首次死亡 2/29/2020)。下一次大流行可能會更具傳染性,帶來更大的影響。有一些顯著的成功,例如能夠比以往方法更快開發的信使 RNA 疫苗。然而,檢測大流行開始和預測其軌跡的記錄還有改進的空間。 大流行病準備包括持續監測的需求。在復雜的隨機系統中預測罕見事件非常困難。從出現前到流行病再到大流行的過渡,只有在事后才能清楚地看到。使用模型進行大流行預測也非常重要。由于其高影響和可能造成的生命損失,復雜的模型被用于預測颶風的未來。大流行的影響可能會更大。與天氣預報一樣,準確的大流行預測需要三件事:(1)模型的收集,(2)準確的數據收集,以及(3)數據同化。如果這三者中的任何一個出現問題,準確性就會下降。準確性下降時,干預和控制機制無法最優化地應用,導致公眾的挫敗感。 在 COVID-19 大流行期間,數據每天都在收集,但如圖 1 所示,存在一個非常強烈的每周模式,主導了新增死亡曲線,這是報告流程的人為影響。另外,注意住院人數和重癥監護病房(ICU)患者數量似乎是很好的領先指標。 由于每日死亡人數的鋸齒形模式,一些建模研究發現使用每周數據更好。在 COVID-19 后期,日報停止,只剩下每周報告。不幸的是,這意味著用于訓練深度學習模型的數據大大減少。應用的建模技術是統計的、機器學習的或基于理論的腔室模型,這些模型是對易感-感染-康復(SIR)或易感-暴露-感染-康復(SEIR)模型的擴展。這些狀態之間的轉換由微分方程控制,其速率常數可以從數據中估計。不幸的是,估計例如處于暴露狀態的個體的人口可能非常困難。另外兩個類別,統計和機器學習(包括深度學習和基礎模型),可以說更適應可用數據,因為它們尋找重復的模式、依賴過去和領先指標。兩者都可以被構建為多變量時間序列(MTS)預測問題,盡管 MTS 分類和異常檢測的相關問題也非常重要。然而,與理論的聯系是可取的,可能會導致更好的長期預測,以及對現象的更深入理解。這導致了對理論指導的數據科學(TGDS)[52, 82]和物理信息神經網絡(PINN)[51]的研究。統計和機器學習技術相互補充。例如,建模研究應該有可靠的基線模型,根據我們的研究,應該包括隨機游走(RW)、自回歸(AR)和季節性、自回歸、整合、移動平均帶外部變量(SARIMAX)。當訓練數據有限時,SARIMAX 通常與深度學習模型競爭。如果使用每周數據,那么在大流行的早期階段,訓練數據將是有限的,正是準確預測最需要的時候。像 SARIMAX 這樣的基線也可以幫助進行超參數調整,因為有足夠的數據,人們會期望深度學習模型表現良好;SARIMAX 的結果可以幫助衡量這一點。此外,SARIMAX 已被用于數據增強,以幫助訓練深度學習模型[42]。 展望未來,這篇擴展了 [80] 的綜述論文提出了一個問題:人工智能(AI),特別是深度學習,如何被用于提高大流行病準備和預測,以便更好地深度學習模型、更可解釋的模型、使用大型語言模型(LLM)訪問科學文獻、開發和使用知識庫和知識圖譜,以及更好和持續的評估大流行干預和控制。
本文的其余部分組織如下:第 2 節提供了 MTS 預測的兩波改進的概述。第 3 節重點關注了最近在 MTS 預測方面的進展,著眼于變換器和相關建模技術。這些建模技術越來越努力更好地捕捉時間動態,并傾向于成為國家級 COVID-19 預測的頂尖表現者。第 4 節重點關注了最近在空間-時間域中的 MTS 預測進展,各種類型的圖神經網絡在這里有自然的吸引力。這些建模技術傾向于應用于州級 COVID-19 數據。第 5 節討論了用于時間序列預測的基礎模型,即大型預訓練深度學習模型。第 6 節討論了各種形式的知識,如知識圖譜,它是預測模型的自然補充。這些知識可以用于提高預測準確性,檢查預測的合理性(特別是長期預測的問題),指導建模過程,并幫助解釋建模結果。第 7 節給出了當前文獻中發現的幾種建模技術的有效性比較的元研究。最后,第 8 節給出了總結,包括展望未來 MTS 可能的發展方向。
高效的分子建模和設計對于新分子的發現和探索至關重要,深度學習方法的引入已經徹底改革了這一領域。特別是,大型語言模型(LLMs)提供了一種全新的方法來從自然語言處理(NLP)的角度解決科學問題,引入了一種稱為科學語言建模(SLM)的研究范式。然而,仍有兩個關鍵問題:如何量化模型與數據模態之間的匹配度以及如何識別模型的知識學習偏好。為了應對這些挑戰,我們提出了一個多模態基準,命名為ChEBI-20-MM,并進行了1263次實驗來評估模型與數據模態和知識獲取的兼容性。通過模態轉換概率矩陣,我們提供了關于任務最適合的模態的見解。此外,我們引入了一種統計上可解釋的方法,通過局部特征過濾發現特定上下文的知識映射。我們的先驅性分析提供了對學習機制的探索,并為推進分子科學中的SLM鋪平了道路。 Transformers[8]以其強大的文本編碼和生成能力提供了優勢。這些模型可以通過最小的任務特定調整進行微調,使它們在分子建模和設計中更加多才多藝和高效。此外,自從ChatGPT[9]和GPT-4[10]的出現以來,大型語言模型(LLMs)已成為尤其在分子科學中的一種突破性趨勢。LLMs憑借其在處理和生成類人文本的先進能力,提出了一個理解和設計分子結構的新范式。它們吸收和分析大量文本數據的能力可以提供前所未有的洞察,克服了傳統AI方法的一些限制。這種新能力結合了準確性和新穎性,以改善結果,被稱為化學知識。其有效性取決于輸入數據、模型架構和訓練策略等因素。然而,對這一能力的當前綜述和基準評估并不全面。 分子科學中現有的綜述,如分子生成綜述[11],通常缺乏全面的模型比較,并且任務范圍有限。知識驅動的綜述[12]對分子學習進行了分類,但缺少詳細的方法比較和數據集討論。而最近的基準測試,如測試ChatGPT的[13],涵蓋了八個化學任務,每個任務都提供了獨特的化學洞察。Mol-Instructions[14]提供了一個用于微調的數據集,包含各種分子和蛋白質指令,增強了LLMs中的生物分子理解。然而,這些綜述和基準測試缺乏多模態內容,也沒有充分探索模型的化學知識。 總結來說,本研究全面回顧了Transformers和LLMs在分子建模與設計中的應用。我們將六個常見的分子任務分類為三個不同的目標:描述、嵌入和生成,如圖1所生動描繪。此外,我們建立了一個統一的多模態基準ChEBI-20-MM,并進行實驗評估數據模態、模型架構和不同任務類型的兼容性,考察它們對任務性能的影響。此外,我們的端到端可視化方法展示了嵌入化學知識的建模洞察的發現。總體來說,我們的主要貢獻包括: ? 本工作分析了LLMs在分子建模中的應用,分類現有模型,并提出了一個多模態基準(ChEBI-20-MM)進行性能評估,支持1263次實驗。 ? 我們分析了模態轉換概率矩陣,并確定了不同數據模態和模型架構之間的最佳匹配。 ? 我們引入了一種統計上可解釋的方法,通過局部特征過濾展示了知識獲取。 本文的其余部分如下組織。第2節介紹相關定義和背景。然后,我們探討分子建模和設計中的六個關鍵任務。第3節展示了我們的基準測試和洞察。第4節討論了關鍵結果和限制,第5節總結了我們的貢獻和未來研究方向。
終身學習(LLL)作為一種新興方法打破了傳統機器學習的局限性,并賦予了模型能夠像人類一樣在學習 過程中不斷積累、優化并轉移知識的能力。近年來,隨著深度學習的廣泛應用,越來越多的研究致力于解決深度神經 網絡中出現的災難性遺忘問題和擺脫穩定性-可塑性困境,并將LLL方法應用于各種各樣的實際場景中,以推進人工 智能由弱向強的發展。針對計算機視覺領域,首先,在圖像分類任務中將LLL方法歸納為四大類型:基于數據驅動的 方法、基于優化過程的方法、基于網絡結構的方法和基于知識組合的方法;然后,介紹了 LLL方法在其他視覺任務中 的典型應用和相關評估指標;最后,針對現階段LLL方法的不足之處進行討論并提出了LLL方法未來發展的方向。
傳統的機器學習總是被限制在一個封閉的靜態環境中, 通常被稱為孤立學習,這種學習方式不考慮任務以外的信 息,即針對一個任務,模型的訓練和推理只在符合獨立同分 布假設的數據上進行;然而這樣的學習方式是低效的,畢竟 現實場景顯然是一個開放的動態環境,人類在這種環境下會 不斷地積累知識并優化形成經驗,用于幫助解決出現的 問題[1] 。 終身學習(LifeLong Learning, LLL)范式是通過模仿人類 的學習過程抽象而來。人類擁有強大的獲取、調整和遷移知 識的能力,例如會騎自行車的人能夠很快學會騎摩托車,在 遇到新任務或者新問題時會很快產生聯想并無縫地將這些 知識遷移,然后根據特定的問題進行特別的學習。這樣的學 習方式是高效且自然的,這也是終身學習過程中最為重要的 一環。
在計算機視覺領域,以深度學習為代表的學習框架尚未 達到終身學習范式的要求。例如要單獨訓練一個過參數化 的深度模型,就必須為每個任務收集大量的數據和進行繁瑣 的人工預處理等,這使得學習成本隨著任務量大幅增加,這 無疑是耗時且低效的方式,尤其是在一些對時間和性能有特 殊要求的應用場景下甚至是不被允許的。深度學習獨特的 訓練和推理模式使得深度學習模型還遠遠達不到人類的學 習效果,例如要融入終身學習范式目前還存在著兩個嚴峻的挑戰:1)災難性遺忘,即網絡在學習了新的知識之后,可能會 徹底遺忘在先前任務上學到的知識[2] ;2)概念漂移,即網絡 對屬于同類但是不同分布的新數據表現效果差[3] 。因此要 求深度學習模型既要滿足一定的可塑性以適應新數據的輸 入,又要具備一定的穩定性以避免在整合新知識的同時產生 大量的遺忘,即擺脫穩定性-可塑性困境[4] 。 此外,一個簡單的思路是融合所有的數據訓練一個大規 模模型,即聯合訓練或者多任務學習,但這并不在本文定義 的終身學習范式內;因為把時間線拉長,無休止地存儲所有 數據必然無法實現,所以需要對它進行一定程度的限制,其 次每當接受新任務時就要重新訓練所有的數據也不符合人 類的學習方式。針對深度學習的框架,直觀上聯合訓練或許 是終身學習方法的一個上界,因為深度學習是一個優化問 題,聯合訓練更有可能找到所有任務的全局最優解。 為滿足對模型存儲上的限制要求,大量的研究者從深度 學習的框架入手,從多個角度探索終身學習的解決方式,并 在多個應用方向展現了它的可行性。本文調研并跟蹤了近 年來的終身學習相關文獻,相較于文獻[5-6],本文增加了評 估終身學習模型性能的相關指標,不僅考慮了模型在終身學 習過程中識別的能力,同時考慮了存儲即資源利用的能力; 相較于文獻[7-8],本文不僅在圖像分類中詳細調研了終身 學習的相關應用,還介紹了終身學習在其他計算機視覺如目 標檢測等中的應用。終身學習不僅要解決實際應用環境中 的成本問題,更有可能是現階段弱人工智能邁向未來強人工 智能的重要一步。
1 終身學習的定義
終身學習是一個連續學習的過程。假設在時間點 t模型 Mt 已經完成了 N 個學習任務 T1,T2,?,TN,其中每個任務都 有對應的數據集 D1,D2,?,DN,任務之間沒有嚴格的約束并 且此時模型積累了源自這 N 個任務的知識并存儲于知識庫 中。當面對新的任務 TN + 1 及其數據 DN + 1 時,Mt 可以利用知 識庫中積累的先驗知識幫助學習 TN + 1,并且在學習 TN + 1 后, Mt能夠根據從 TN + 1中學到的知識進行同步更新為 Mt + 1以供 未來繼續使用,同時 Mt + 1 能最大限度地保留在先前 N 個任 務上的性能。由此可見,終身學習的關鍵是持續地學習和不 斷積累知識,即 Mt 如何利用先驗知識學習 TN + 1 和如何存儲 新知識演化為 Mt + 1。在這個定義下,還額外需增加一個存儲 限制,即知識庫不能保留所有的訓練數據,否則將會與多任 務學習無異,違背終身學習的初衷。
2 終身學習方法的分類
計算機視覺作為深度學習最為成功的應用,框架一般可 以拆解為輸入、優化和結構這 3 個部分,用于積累和再應用 的知識就可以以這 3 個部分作為切入點,同時也可以組合使 用它們。本文將從知識的角度對終身學習方法進行分類與 歸納,如表 1所示。
3 終身學習的其他應用
終身學習不僅在解決基礎問題中開闊了研究空間,也逐 漸 助 力 于 目 標 檢 測(Object Detection)[77-81] 、語 義 分 割 (Semantic Segmentation)[77-81] 、圖像生成[90-95] 和其他[96-102] 等各 類計算機視覺的研究方向。
4 結語 本文主要回顧了終身學習在圖像分類任務上的基本方 法,介紹了在其他計算機視覺任務上的成功應用,最后簡要 探討了在未來可以進一步推動終身學習發展的方向。終身 學習給予了模型在動態環境中更多更強大的學習能力,雖然 目前仍處于起步階段,但不可置疑這是人工智能發展的重要 一環,無論是理論上的研究,還是工業界的落地都具有非常 大的意義。
最優控制是一個強大的控制器設計范式,因為它可以用相對簡單的成本函數來隱含地編碼復雜的穩定行為。然而,維度災難和非凸優化的存在可能使得為復雜的高維系統可靠地獲得穩定的控制器變得具有挑戰性。近期,基于采樣的強化學習方法使機器人學家能夠為高維系統獲得近似最優的反饋控制器,即使動力學未知。然而,這些方法在許多應用領域的實際部署仍然不夠可靠。
這篇博士論文主張,可靠的基于優化的控制器合成的關鍵是深入理解我們寫下的成本函數和我們設計的算法如何與控制系統的基礎反饋幾何結構相互作用。首先,我們將研究如何通過嵌入控制Lyapunov函數(這是系統的能量類函數)來加速無模型的強化學習。接下來,我們將介紹一種新的基于數據的策略優化框架,該框架將來自近似動力學模型和低級反饋控制器家族的結構信息嵌入到更新方案中。然后,我們轉向動態規劃的視角,研究系統的幾何結構如何在計算或學習穩定控制器所需的計算量上施加根本性的限制。最后,我們研究基于導數的搜索算法,并研究如何設計用于模型預測控制方案的“好”成本函數,以確保即使使用基于梯度的方法在非凸目標上搜索,這些方法也能穩定系統。在整個過程中,我們將重點關注如何從簡單的分析模型中獲得的結構性洞見指導我們的設計決策,并將討論其在動態行走、飛行控制和自動駕駛等應用中的用途。
圖像融合技術旨在將不同源圖像中的互補信息整合到單幅融合圖像中以全面表征成像場景,并促進后續的視覺任務。隨著深度學習的興起,基于深度學習的圖像融合算法如雨后春筍般涌現,特別是自編碼器、生成對抗網絡以及Transformer等技術的出現使圖像融合性能產生了質的飛躍。本文對不同融合任務場景下的前沿深度融合算法進行全面論述和分析。首先,介紹圖像融合的基本概念以及不同融合場景的定義。針對多模圖像融合、數字攝影圖像融合以及遙感影像融合等不同的融合場景,從網絡架構和監督范式等角度全面闡述各類方法的基本思想,并討論各類方法的特點。其次,總結各類算法的局限性,并給出進一步的改進方向。再次,簡要介紹不同融合場景中常用的數據集,并給出各種評估指標的具體定義。對于每一種融合任務,從定性評估、定量評估和運行效率等多角度全面比較其中代表性算法的性能。本文提及的算法、數據集和評估指標已匯總至//github.com/Linfeng-Tang/Image-Fusion。最后,給出了本文結論以及圖像融合研究中存在的一些嚴峻挑戰,并對未來可能的研究方向進行了展望。
數學推理是人類智能的一個基本方面,可應用于科學、工程、金融和日常生活等各個領域。能夠解決數學問題和證明定理的人工智能系統的發展引起了機器學習和自然語言處理領域的重大興趣。例如,數學是對強大的深度學習模型具有挑戰性的推理方面的測試平臺,推動新的算法和建模的進步。另一方面,大規模神經語言模型的最新進展為使用深度學習進行數學推理開辟了新的基準和機會。本文回顧了過去十年數學推理和深度學習交叉點的關鍵任務、數據集和方法。對現有的基準和方法進行了評估,并討論了該領域未來的研究方向。
1. 引言
數學推理是人類智能的一個關鍵方面,它使我們能夠根據數字數據和語言來理解和做出決定。它適用于科學、工程、金融和日常生活等各個領域,涵蓋了從模式識別和數值運算等基本技能到解決問題、邏輯推理和抽象思維等高級技能的一系列能力。能夠解決數學問題和證明定理的人工智能(AI)系統的發展一直是機器學習和自然語言處理(NLP)領域的一個長期研究重點,可以追溯到20世紀60年代(Feigenbaum et al., 1963;Bobrow, 1964)。近年來,人們對這一領域的興趣激增,如圖1所示。
深度學習在各種自然語言處理任務中表現出巨大的成功,如問答和機器翻譯(Sutskever等人,2014;Devlin等人,2018)。類似地,研究人員開發了各種用于數學推理的神經網絡方法,已被證明在解決數學應用題解決、定理證明和幾何問題解決等復雜任務方面是有效的。例如,基于深度學習的數學應用題解決者采用了一種帶有注意力機制的序列到序列框架來生成數學表達式作為中間步驟(Wang et al., 2018a;Chiang and Chen, 2019)。此外,通過大規模語料庫和Transformer模型(Vaswani et al., 2017),預訓練語言模型在各種數學任務上取得了有希望的結果。最近,像GPT-3 (Brown et al., 2020)這樣的大型語言模型(LLM)在復雜推理和上下文學習方面表現出了令人印象深刻的能力,進一步推進了數學推理領域。
最近在數學推理研究方面的進展令人印象深刻和鼓舞人心。本文綜述了深度學習在數學推理中的進展。本文討論了各種任務和數據集(第2節),并研究了神經網絡(第3節)和預訓練語言模型(第4節)在數學領域的進展。本文還探索了基于大型語言模型的上下文學習的快速進展(第5節),用于數學推理。進一步分析了現有的基準,發現對多模態和低資源設置的關注較少(第6.1節)。循證研究表明,當前的數值表示是不夠的,深度學習方法對于數學推理不一致(第6.2節)。從泛化和魯棒性、可信推理、從反饋中學習和多模態數學推理等方面改進當前的工作是有益的(第7節)。
2 任務和數據集
在本節中,我們將研究目前用于使用深度學習方法進行數學推理研究的各種任務和數據集。表2列出了該領域常用的數據集。
2.1 數學應用題解決
幾十年來,開發自動解決數學應用題(MWPs)的算法一直是NLP研究人員的興趣(Feigenbaum et al., 1963;Bobrow, 1964)。數學應用題(也稱為代數或算術應用題)描述了一個簡短的敘述,涉及字符、實體和數量。MWP的數學關系可以用一組方程來建模,這些方程的解揭示了問題的最終答案。一個典型的例子如表1所示。作題涉及加、減、乘、除四種基本算術運算,有一個或多個運算步驟。NLP系統中MWPs的挑戰在于對語言理解、語義解析和多種數學推理技能的需求。
2.2 定理證明
自動化定理證明是人工智能領域長期以來的挑戰(Newell等人,1957;Feigenbaum et al., 1963)。問題是要通過一系列邏輯論證(證明)來證明一個數學主張(定理)的真實性。定理證明測試了各種技能,例如選擇有效的多步策略,使用背景知識和執行符號操作(例如算術或推導)。
2.3 幾何解題
自動幾何問題求解(GPS)也是數學推理研究中一個長期存在的人工智能任務(Gelernter et al., 1960; Wen-Tsun, 1986; Chou et al., 1996; Ye et al., 2008),近年來備受關注。與數學應用題不同,幾何問題由自然語言的文本描述和幾何圖形組成。如圖2所示,多模態輸入描述了幾何元素的實體、屬性和關系,目標是找到未知變量的數值解。GPS對于深度學習方法來說是一項具有挑戰性的任務,因為它需要復雜的技能。它涉及到解析多模態信息、進行符號抽象、利用定理知識和進行定量推理的能力。
2.4 數學問答
數值推理是人類智能中的核心能力,在許多自然語言處理任務中發揮著重要作用。除了定理證明和年級數學應用題解決,還有廣泛的以數學推理為中心的問答(QA)基準。本文將這些任務稱為數學問答(MathQA)。近年來出現了大量的數據集。例如,QuaRel (Tafjord et al., 2019)是一個包含不同故事問題的數據集,涉及19種不同類型的數量。McTaco (Zhou et al., 2019)研究的是時間常識問題,而Fermi (Kalyan et al., 2021)研究的是費米問題,其答案只能近似估計。
3 用于數學推理的神經網絡
3.1 數學的Seq2Seq網絡
序列到序列(Seq2Seq) (Sutskever et al., 2014)神經網絡已成功應用于數學推理任務,如數學應用題解決(Wang et al., 2017)、定理證明(Yang and Deng, 2019)、幾何問題解決(Robaidek et al., 2018)和數學問答(Tafjord et al., 2019)。Seq2Seq模型使用編碼器-解碼器架構,通常將數學推理形式化為序列生成任務。這種方法背后的基本思想是將輸入序列(例如數學問題)映射到輸出序列(例如方程、程序和證明)。常見的編碼器和解碼器包括長短期記憶網絡(LSTM) (Hochreiter和Schmidhuber, 1997)、門控循環單元(GRU) (Cho等人,2014)以及它們的雙向變體:BiLSTM和BiGRU。DNS (Wang et al., 2017)是第一項使用Seq2Seq模型將應用題中的句子轉換為數學方程的工作。大量工作表明,Seq2Seq模型比之前的統計學習方法具有性能優勢(Ling et al., 2017; Wang et al., 2018a; Huang et al., 2018; Chiang and Chen, 2019; Wang et al., 2019; Li et al., 2019)。
3.2基于圖的數學網絡
Seq2Seq方法在生成數學表達式和不依賴手工特征方面表現出優勢。數學表達式可以被轉換成一種基于樹的結構,例如抽象語法樹(AST)和一種基于圖的結構,它描述了表達式中的結構化信息。然而,Seq2Seq方法沒有顯式地對這些重要信息進行建模。為了解決這個問題,基于圖的神經網絡被開發出來顯式地建模表達式中的結構。 序列到樹(Seq2Tree)模型在編碼輸出序列時顯式建模樹結構(Liu et al., 2019a; Xie and Sun, 2019; Wu et al., 2020; Zhang et al., 2020a; Zaporojets et al., 2021; Qin et al., 2021; Wu et al., 2021b; Lin et al., 2021; Hong et al., 2021a)。例如,(Liu et al., 2019a)設計了一個Seq2Tree模型,以更好地利用來自方程的AST的信息。相反,Seq2DAG (Cao et al., 2021),在生成方程時應用了序列圖(Seq2Graph)框架,因為圖解碼器能夠提取多個變量之間的復雜關系。在編碼輸入的數學序列時,也可以嵌入基于圖的信息(Zhang et al., 2020b; Shen and Jin, 2020; Li et al., 2020b; Wu et al., 2021a)。例如,ASTactic (Yang and Deng, 2019)在ast上應用TreeLSTM (Tai et al., 2015)來表示定理證明的輸入目標和前提。 3.3基于注意力的數學網絡
注意力機制已成功應用于自然語言處理(Bahdanau等人,2014)和計算機視覺問題(Xu等人,2015;Woo等人,2018),在解碼過程中考慮了輸入的隱藏向量。最近,研究人員一直在探索它在數學推理任務中的有用性,因為它可以用來識別數學概念之間最重要的關系。例如,Math-EN (Wang et al., 2018a)是一個數學應用題解決程序,受益于通過自注意力學習到的長距離依賴信息。基于注意力的方法也被應用于其他數學推理任務,如幾何問題求解(Robaidek等人,2018;Chen et al., 2021a)和定理證明(Yang and Deng, 2019)。人們對各種注意力機制進行了研究,以提取更好的表示,例如Group-ATT (Li et al., 2019),它使用不同的多頭注意力來提取各種類型的MWP特征,以及圖注意力,用于提取知識感知信息(Wu et al., 2020)。
4 預訓練的數學推理語言模型
預訓練語言模型(例如,Devlin等人(2018);Radford et al. (2020);Brown等人(2020))在廣泛的NLP任務上證明了顯著的性能提升(Qiu等人,2020)。通過在大型文本語料庫上進行預訓練,模型學習有價值的世界知識(Guu等人,2020),這些知識可應用于下游任務,如問題回答(Khashabi等人,2020)、文本分類(Minaee等人,2021)和對話生成(Zhang等人,2019;Qiu等,2022a,b)。類似的想法可以應用于與數學相關的問題,之前的工作表明,預先訓練的語言模型在回答數學應用題時表現良好(Kim et al., 2020; Shen et al., 2021; Yu et al., 2021b; Cobbe et al., 2021; Li et al., 2022b; Jie et al., 2022; Ni et al., 2022),協助定理證明(Polu and Sutskever, 2020; Han et al., 2022; Wu et al., 2022b; Jiang et al., 2022b; Welleck et al., 2022a),以及其他數學任務(Lu et al., 2021a; Chen et al., 2022a; Cao and Xiao, 2022; Clark et al., 2020; Chen et al., 2021c; Zhu et al., 2021; Hendrycks et al., 2021; Zhao et al., 2022; Nye et al., 2021; Charton, 2021)。
**然而,盡管大型語言模型在建模自然語言方面表現出色,但將其用于數學推理存在一些挑戰。**首先,預訓練語言模型沒有專門在數學數據上進行訓練。這可能導致與自然語言任務相比,他們對數學相關任務的熟練程度較低。與文本數據相比,用于大規模預訓練的數學或科學數據也較少。其次,預訓練模型的規模繼續增長,使得為特定的下游任務從頭訓練整個模型的成本很高。此外,下游任務可能處理不同的輸入格式或模態,如結構化表(Zhao et al., 2022; Chen et al., 2021c; Zhu et al., 2021)或圖表(Lu et al., 2021a; Chen et al., 2022a; Lu et al., 2021b)。為了應對這些挑戰,研究人員必須通過對下游任務進行微調或適應神經架構來調整預訓練模型。最后,盡管預訓練語言模型可以編碼大量的語言信息,但模型僅從語言建模目標中學習數值表示或高級推理技能可能是困難的(Lin et al., 2020;Kalyan等人,2021年)。考慮到這一點,最近有研究調研了從基礎課程開始注入數學相關技能(Geva et al., 2020; Feng et al., 2021; Wu et al., 2021d)。
5 .基于上下文的數學推理學習
大型語言模型(LLM),如GPT3 (Brown et al., 2020),最近徹底改變了自然語言處理(NLP)領域,特別是由于其強大的少樣本上下文學習能力(Brown et al., 2020)。上下文學習(ICL)使LLM能夠通過在推理時提供一些任務示例作為條件來執行目標任務,而無需更新模型參數(Radford et al., 2020; Brown et al., 2020)。ICL允許用戶快速為新用例構建模型,而無需擔心為每個任務進行微調和存儲大量新參數,因此現在被廣泛用于少樣本設置(Min等人,2022)。一個上下文中的例子通常包含一個輸入-輸出對和一些提示詞,例如,請從列表中選擇最大的數字。輸入:[2,4,1,5,8]。輸出:8,而few-shot通過給出多個示例來工作,然后是一個最終輸入示例,模型預計將預測輸出。然而,這種標準的少次提示(在測試時示例前給LLM提供輸入-輸出對的上下文示例)尚未被證明足以在數學推理等具有挑戰性的任務上取得高性能(Rae等人,2021)。
結論:
本文對數學推理的深度學習進行了全面的綜述。回顧了已經使用的各種任務和數據集,并討論了已經采取的各種方法,包括早期的神經網絡,后來的預訓練語言模型和最近的大型語言模型。還確定了現有數據集和方法中的幾個差距,包括對低資源設置的關注有限、計算能力表示不足和推理能力不一致。最后,對未來的研究方向進行了展望,并指出了該領域進一步探索的潛力。本文的目標是為對發展數學推理深度學習感興趣的讀者提供一個全面而有用的資源。為了幫助我們完成這項工作,我們創建了一個閱讀列表,并將在//github.com/lupantech/dl4math的GitHub存儲庫中不斷更新
以語音為中心的機器學習系統徹底改變了許多領先領域,從交通和醫療保健到教育和國防,深刻改變了人們的生活、工作和相互互動的方式。然而,最近的研究表明,許多以語音為中心的機器學習系統可能需要被認為更值得信任,以便更廣泛地部署。具體來說,在機器學習研究領域,人們都發現了對隱私泄露、判別性能和對抗性攻擊脆弱性的擔憂。為了應對上述挑戰和風險,人們做出了大量努力,以確保這些機器學習系統是值得信任的,特別是隱私、安全和公平。本文首次對與隱私、安全和公平相關的、以語音為中心的可信機器學習主題進行了全面的調研。除了作為研究界的總結報告外,本文指出了幾個有希望的未來研究方向,以激勵希望在該領域進一步探索的研究人員。 引言
在過去的幾年中,機器學習(ML),特別是深度學習,在各種研究領域和應用中取得了巨大的突破,包括自然語言處理(Devlin等人,2018)、圖像分類(He等人,2016)、視頻推薦(Davidson等人,2010)、醫療保健分析(Miotto等人,2018),甚至掌握國際象棋游戲(Silver等人,2016)。深度學習模型通常由多個處理層組成,并結合了線性和非線性操作。盡管訓練具有多層架構的深度學習模型需要積累大型數據集和訪問強大的計算基礎設施(Bengio等人,2021),但與傳統的建模方法相比,訓練后的模型通常達到最先進的(SOTA)性能。深度學習的廣泛成功還允許更深入地了解人類狀況(狀態、特征、行為、交互)和革命性的技術,以支持和增強人類體驗。除了ML在上述領域取得的成功,以語音為中心的ML也取得了重大進展。 言語是人類之間一種自然而突出的交流形式。它存在于人類生活的幾乎每一個層面,無論是與朋友聊天、與同事討論,還是與家人遠程通話。以語音為中心的機器學習的進步使Siri、谷歌Voice和Alexa等智能助手的普遍使用成為可能。此外,以語音為中心的建模在人類行為理解、人機界面(HCI) (Clark等人,2019)和社交媒體分析方面創造了許多研究主題。例如,一些廣泛研究的語音建模領域包括自動語音識別(Malik et al., 2021)、語音情感識別(Ak?ay和O?uz, 2020)、自動說話人確認(Irum和Salman, 2019)和關鍵詞識別(Warden, 2018)。
盡管ML系統有在廣泛的以語音為中心的應用中廣泛部署的前景,但在大多數這些系統中,兩個交織在一起的挑戰仍然沒有解決:理解和闡明跨人和環境的豐富多樣性,同時創建可信的ML技術,在所有環境中適用于每個人。信任是人類生活的基礎,無論是信任朋友、同事、家庭成員,還是像人工智能服務這樣的人工制品。傳統上,機器學習從業者,如研究人員和決策者,使用系統性能(如F1分數)來評估機器學習系統。雖然大量的研究都集中在提高機器學習模型的系統性能上,但確保機器學習應用是可信的仍然是一個具有挑戰性的課題。在過去的幾年中,我們見證了大量針對可信人工智能和機器學習的研究工作,本文的目標是對相關研究活動進行全面的回顧,重點以語音為中心的機器學習。
**ML中的可信性在不同的文獻中有不同的定義。**例如,Huang等人(2020)基于涉及認證過程和解釋過程實施的行業生產實踐規范描述了術語可信性。認證過程包括測試和驗證模塊,以檢測輸入數據中潛在的偽造或干擾。解釋是解釋機器學習為什么根據輸入數據做出特定決策的能力。此外,歐盟發布的《可信人工智能倫理準則》(Smuha, 2019)承認,要被認為是可信的人工智能系統,必須遵守法律和法規,堅持道德原則,并強大地運行。最近,Liu等人(2022b)從安全性、公平性、可解釋性、隱私、可問責性和環境友好方面總結了可信人工智能。同樣,我們的審查認為,可信的核心設計元素是魯棒性、可靠性、安全性、安全性、包容性和公平性。基于這些標準,本文從隱私、安全和公平的角度綜述了關于以語音為中心的可信機器學習的文獻,如圖1.1所示:
**隱私: **以語音為中心的ML系統嚴重依賴于收集來自、關于和針對潛在敏感環境和上下文中的人的語音數據,例如家庭、工作場所、醫院和學校。語音數據的收集經常引起人們對侵犯用戶隱私的嚴重擔憂,例如泄露人們可能希望保密的敏感信息(Liu等人,2021)。至關重要的是,要確保由個人共享或由ML系統收集的語音數據受到保護,免受任何不合理和未經授權的使用。
安全性: 在過去幾年中,研究人員發現機器學習系統普遍容易受到對抗性攻擊,這些攻擊旨在利用模型預測函數中的漏洞進行惡意的目的(Goodfellow等人,2014)。例如,通過對語音數據引入足夠小的擾動,惡意行為者可以導致關鍵詞檢測模型對所需的輸入語音命令進行錯誤分類。因此,一個可信的機器學習系統必須對惡意攻擊者可能故意更改的相同輸入輸出一致。
**公平性:**最近人們知道機器學習系統的行為可能不公平。機器學習系統為什么會虐待人是多方面的(Mehrabi等人,2021)。一個因素是社會方面,由于訓練數據或整個機器學習開發過程中的假設/決策中的社會偏見,機器學習系統產生有偏的輸出。導致人工智能不公平的另一個原因是數據集特征的不平衡,某些群體的數據樣本有限。因此,模型需要考慮某些人群的需求。同樣重要的是要注意,部署不公平的機器學習系統可能會放大社會偏見和數據不平衡問題。為了評估以語音為中心的機器學習系統的可信性,機器學習從業者需要評估機器學習模型是否對個人或群體表現出區分性。
**本文的其余部分組織如下。**第2節簡要總結了流行的以語音為中心的任務、數據集和SOTA建模框架。第3節全面討論了以語音為中心的機器學習系統中的安全考慮。第4節討論了語音建模中的隱私風險和防御。第5節回顧了語音建模任務中出現的公平性問題。第6節闡述了以語音為中心的可信機器學習的潛在發展和未來的挑戰。最后,第7節總結了本文的主要觀點。
具體而言,我們的貢獻總結如下:
據我們所知,這是第一個對設計可信的、以語音為中心建模的機器學習進行全面回顧的綜述工作。我們調研了大部分已經發表和預印本的工作,包括自動語音識別、語音情感識別、關鍵詞識別和自動說話人驗證。
創建了分類法,以系統地審查與以語音為中心的機器學習系統可信性相關的設計支柱。我們進一步比較了關于每個關鍵因素的各種文獻。
3.本文討論了設計以語音為中心的機器學習系統面臨的突出挑戰,這些系統面臨著與隱私、安全和公平相關的可信性考慮。在文獻綜述的基礎上,討論了有待解決的挑戰,并提出了幾個有希望的未來方向。
時間序列異常檢測在廣泛的研究領域和應用中有著廣泛的應用,包括制造業和醫療健康。異常的出現可能表明出現了新的或意料之外的事件,例如生產故障、系統缺陷或心臟跳動,因此特別值得關注。時間序列的巨大規模和復雜模式促使研究人員開發專門的深度學習模型來檢測異常模式。本綜述的重點是通過使用深度學習來提供結構化的、全面的、最先進的時間序列異常檢測模型。它提供了基于因素的分類法,將異常檢測模型劃分為不同的類別。除了描述每種類型的基本異常檢測技術外,還討論了其優點和局限性。此外,本研究包含了近年來跨不同應用領域的時間序列深度異常檢測實例。最后總結了在采用深度異常檢測模型時研究中存在的問題和面臨的挑戰。
1. 概述
異常檢測又稱異常值檢測和新穎性檢測,自60年代以來一直是眾多研究領域的一個蓬勃發展的研究領域[74]。隨著計算過程的發展,大數據和人工智能(AI)受到了積極的影響,有助于時間序列分析,包括異常檢測。隨著可獲得的數據越來越多,算法越來越高效,計算能力越來越強,時間序列分析越來越多地被用于通過預測、分類和異常檢測[59]、[26]來解決業務問題。時間序列異常檢測在城市管理、入侵檢測、醫療風險、自然災害等多個領域的需求日益增長,其重要性也日益提高。
隨著深度學習在過去幾年的顯著進步,它已經越來越有能力學習復雜時間序列的表達表示,比如同時具有空間(度量間)和時間特征的多維數據。在深度異常檢測中,利用神經網絡學習特征表示或異常評分來檢測異常。許多深度異常檢測模型已經被開發出來,在不同的現實應用中,對時間序列檢測任務提供了明顯高于傳統異常檢測的性能。雖然Chandola等人在[29]中對深度學習異常檢測模型進行了廣泛的綜述,但本研究的目的是對深度異常檢測模型進行全面的綜述,重點關注時間序列數據。考慮到多變量時間序列分析比單變量時間序列分析更具挑戰性,目前提出的模型主要用于處理多變量時間序列。
雖然在異常檢測領域已有多篇文獻綜述[140],[27]、[20]、[23]和一些評價綜述論文存在[154]、[102],但對時間序列數據[41]的深度異常檢測方法的研究僅一篇。然而,這一綜述并沒有涵蓋近年來出現的大量時間序列異常檢測方法,如DAEMON[37]、TranAD[171]、DCT-GAN[116]和Interfusion[119]。因此,有必要進行一項涵蓋該領域當前技術現狀的調研,以幫助研究人員確定:1)時間序列異常檢測的重要未來研究方向是什么;2)在特定的應用環境下,哪些方法適合應用。具體而言,本文有以下幾點貢獻:
提出了一種新的時間序列深度異常檢測模型分類方法。深度異常檢測模型一般分為三類:基于預測的、基于重構的和混合方法。每個類別被劃分為子類別,根據模型中使用的深度神經網絡架構定義子類別。模型的特征是各種不同的結構特征,這有助于其檢測能力。
本研究提供了對當前技術狀態的全面回顧。這一領域的發展方向和趨勢已經十分清晰。
描述了該領域目前使用的主要基準和數據集,并提供了超鏈接。
對可能導致時間序列中不同異常發生的基本原理的討論
本文的其余部分組織如下。在第二節中,我們從時間序列的初步定義開始。然后概述了時間序列數據異常分類的分類法。第3節討論了深度異常檢測模型如何應用于時間序列數據。然后,根據深度神經網絡的主要方法(基于預測的、基于重構的、混合的)和主要架構,介紹了不同的深度模型及其功能。對于所考慮的異常檢測模型,可以在第4節中找到公開可用的和常用的數據集的概述。此外,第5節探討了時間序列深度異常檢測模型在不同領域的應用領域。最后,第6節提供了該領域的幾個挑戰,可以作為未來的機會。
2. 深度異常檢測方法
在具有復雜結構的數據中,深度神經網絡是建模依賴關系的強大方法。許多學者對其在異常檢測中的應用非常著迷,它使用了許多深度學習架構,如圖3所示。在實踐中,訓練數據往往只有極少數被標記的異常。因此,大多數模型試圖學習正常數據的表示或特征。然后根據異常定義檢測異常,這意味著他們發現了與正常數據不同的數據。在最近的深度異常檢測模型中,有四種學習方案:無監督、有監督、半監督和自監督。這是基于標簽數據點的可用性(或缺乏)。監督方法采用一種獨特的方法來學習異常數據和正常數據之間的邊界,該方法基于在訓練集中發現的所有標簽。它可以確定一個適當的閾值,如果分配給這些時間戳的異常評分(第3.1節)超過閾值,則該閾值將用于將所有時間戳分類為異常。這種方法的問題是它不適用于現實世界中的應用程序,因為異常通常是未知的或標記不正確的。相反,在無監督異常檢測方法中,不區分訓練集和測試集。這些技術是最靈活的,因為它們完全依賴于數據的內在特征。它們在流應用程序中很有用,因為它們不需要標簽進行培訓和測試。盡管有這些優點,研究人員可能會遇到困難,評估異常檢測模型使用非監督方法。異常檢測問題通常被視為無監督學習問題,因為歷史數據固有的無標記性質和異常的不可預測性質。在數據集只包含正常點且不存在異常的情況下,可以使用半監督方法。然后,訓練一個模型來擬合時間序列分布,并檢測任何偏離該分布的點作為異常。通過充分利用未標記數據本身(例如,通過設計文本前任務),訓練自監督方法從其可觀察部分預測輸入的任何未觀察部分(或屬性)。在自監督學習中,只需要從無監督問題中自動生成少量的標記,因此將無監督問題轉換為有監督問題。
在過去的幾年里,機器學習得到了迅猛的發展,并在各個領域得到了廣泛的應用。這股熱潮始于2009年,當時出現了一種新的模型,即深度人工神經網絡,它開始在一些重要的基準上超越其他已建立的成熟模型。后來,它被廣泛應用于學術界和工業界。從圖像分析到自然語言處理,它充分發揮了它的魔力,現在已經成為最先進的機器學習模型。深度神經網絡在醫學影像技術、醫療數據分析、醫療診斷等醫療保健問題上具有巨大的潛力,并在臨床前甚至臨床階段得到推廣。在這篇綜述中,我們概述了機器學習在醫學圖像分析中的應用的一些新進展和挑戰,特別是在光聲成像中的深度學習。
這篇綜述的目的有三個:(i)介紹了深度學習的一些重要基礎知識,(ii)回顧了近年來在光聲成像的整個生態鏈中應用深度學習的工作,從圖像重建到疾病診斷,(iii)為有興趣將深度學習應用于光聲成像的研究人員提供一些開源材料和其他資源。
隨著深度學習的不斷發展,目標檢測技術逐步從基于傳統的手工檢測方法向基于深度神經網絡的檢測方法轉變。在眾多基于深度學習的目標檢測算法中,基于深度學習的單階段目標檢測算法因其網絡結構較簡單、運行速度較快以及具有更高的檢測效率而被廣泛運用。但現有的基于深度學習的單階段目標檢測方法由于小目標物體包含的特征信息較少、分辨率較低、背景信息較復雜、細節信息不明顯以及定位精度要求較高等原因,導致在檢測過程中對小目標物體的檢測效果不理想,使得模型檢測精度降低。針對目前基于深度學習的單階段目標檢測算法存在的問題,研究了大量基于深度學習的單階段小目標檢測技術。首先從單階段目標檢測方法的Anchor Box、網絡結構、交并比函數以及損失函數等幾個方面,系統地總結了針對小目標檢測的優化方法;其次列舉了常用的小目標檢測數據集及其應用領域,并給出在各小目標檢測數據集上的檢測結果圖;最后探討了基于深度學習的單階段小目標檢測方法的未來研究方向。