摘要: 近年來,隨著信息技術的不斷發展,各種數據呈現爆炸式的增長,傳統的機器學習算法只有當測試數據與訓練數據分布類似時,學習算法才能取得較好的性能,換句話說,它們不能在動態環境中連續自適應地學習,然而,這種自適應學習的能力卻是任何智能系統都具備的特性.深度神經網絡在許多應用中顯示出最好的學習能力,然而,使用該方法對數據進行增量更新學習時,會面臨災難性的干擾或遺忘問題,導致模型在學習新任務之后忘記如何解決舊任務. 連續學習(continual learning, CL)的研究使這一問題得到緩解.連續學習是模擬大腦學習的過程,按照一定的順序對連續非獨立同分布的(independently and identically distributed, IID)流數據進行學習,進而根據任務的執行結果對模型進行增量式更新. 連續學習的意義在于高效地轉化和利用已經學過的知識來完成新任務的學習,并且能夠極大程度地降低遺忘帶來的問題.連續學習研究對智能計算系統自適應地適應環境改變具有重要的意義. 基于此,系統綜述了連續學習的研究進展,首先概述了連續學習的定義,介紹了無遺忘學習、彈性權重整合和梯度情景記憶3種典型的連續學習模型,并對連續學習存在的關鍵問題及解決方法進行了介紹,之后又對基于正則化、動態結構和記憶回放互補學習系統的3類連續學習模型進行了分類和闡述,并在最后指明了連續學習進一步研究中需要解決的問題以及未來可能的發展方向.
//crad.ict.ac.cn/CN/10.7544/issn1000-1239.20201058#1
近年來,隨著機器學習(machinelearning,ML) 領域的快速發展,機器學習在自然圖像分類、人臉識 別等領域取得了一定的成果,深度學習的成功使機 器學習的發展達到了另一個新的高度.然而,在現實 世界中,機器學習系統總是會遇到連續任務學習問 題,因此,如何對連續任務進行有效學習是當前研究 的重點之一.現有的機器學習方法雖然可以在任務 上取得較高的性能,但只有當測試數據與訓練數據 概率分布類似時,機器學習才能取得較好的性能.換 句話說,目前的機器學習算法不能在動態環境中持 續自適應地學習,因為在動態環境中,任務可能會發 生顯著變化,然而,這種自適應的學習能力卻是任何 智能系統都具有的能力,也是實現智能生物系統學 習的重要標志.
目前,深度神經網絡在許多應用中顯示出非凡 的預測和推理能力,然而,當通過基于梯度更新的方 法對模型進行增量更新時,模型會出現災難性的干 擾或遺忘問題,這一問題將直接導致模型性能的迅 速下降,即模型在學習新任務之后,由于參數更新對 模型引起的干擾,將使得學習的模型忘記如何解決 舊任務.人類和動物似乎學到了很多不同的知識,并 且總是能不遺忘過去學到的知識,并將其應用在未 來的學習任務中,受人和動物這種學習方式的啟發, 很自然地將這種想法運用到機器學習領域,即隨著 時間的推移,模型能夠不斷學習新知識,同時保留以 前學到的知識,這種不斷學習的能力被稱為連續學 習.連續學習最主要的目的是高效地轉化和利用已 經學過的知識來完成新任務的學習,并且能夠極大 程度地降低災難性遺忘帶來的問題.近年來,隨著深度學習的不斷發展,連續學習的研究已經受到極大 的關注,
因為連續學習主要有2點優勢: **1)不需要保存之前任務上學習過的訓練數據, 從而實現節約內存,同時解決了由于物理設備(例如 機器內存)或學習策略(例如隱私保護)的限制,導致 數據不能被長期存儲這一問題. **
2)模型能夠保存之前任務所學習的知識,并且 能夠極大程度地將之前任務學習到的知識運用到未 來任務的學習中,提高學習效率。
**
****1 連續學習概述 **
**1.1 連續學習的形成與發展 **
在現實世界中,機器學習系統處于連續的信息 流中,因此需要從不斷改變的概率分布中學習和記 住多個任務.隨著時間的推移,不斷學習新知識,同 時保留以前學到知識,具備這種不斷學習的能力稱 為連續學習或終身學習.因此,使智能學習系統具備 連續學 習 的 能 力 一 直 是 人 工 智 能 系 統 面 臨 的 挑 戰[1G2].災難性遺忘或災難性干擾一直是連續學習所 研究的重點,即當模型對新任務進行學習時會遺忘 之前任務所學習的知識,這種現象通常會導致模型 性能的突然下降,或者在最壞的情況下,導致新知識 完全覆蓋舊知識.因此,克服災難性遺忘是人工智能 系統邁向更加智能化的重要一步. 早期學者們曾嘗試為系統增加一個存儲模塊來 保存以前的數據,并定期對之前所學的知識與新樣 本的交叉數據進行回放來緩解災難性遺忘這一問 題[3],這類方法一直延續至今[4G5].然而,基于存儲模塊連續學習方法的一個普遍缺點是它們需要顯式存 儲舊任務信息,這將導致較大的工作內存需求,此 外,在計算和存儲資源固定的情況下,應設計專門的 機制保護和鞏固舊的知識不被新學習的知識所覆 蓋.在此基 礎 上,Rusu 等 人[6G7]嘗 試 在 新 任 務 到 來 時,分配額外的資源來緩解災難性遺忘.然而,這種 方法隨著任務數量的不斷增加,神經網絡架構將不 斷增加,進而直接降低模型的可伸縮性.由于連續學 習場景中不能預先知道任務數量和樣本大小,因此, 在沒有對輸入訓練樣本的概率分布做出很強的假設 情況下,預先定義足夠的存儲資源是不可避免的.在 這種情況下,Richardson等人[8]提出了針對連續學 習模型避免災難性遺忘的3個關鍵方面:1)為新知 識分配額外的神經元;2)如果資源是固定的,則使用 新舊知識的非重疊表示;3)把舊的知識疊加到新的 知識上作為新的信息.在此基礎上,受神經科學理論 的啟發,基于正則化策略、動態結構策略以及記憶策 略等一系列連續學習的方法相繼被提出.
如圖1所示,在連續學習過程中,智能體逐個對 每個連續的非獨立均勻分布流數據示例進行學習, 并且該智能體對每個示例只進行一次訪問.這種學 習方式與動物學習過程更為接近.如果我們忽略各 個任務的先后次序問題,單獨訓練每個任務,這將導 致災難性遺忘,這也是連續學習一直以來所面臨的 最大問題.因此,連續學習的本質,是通過各種手段 高效地轉化和利用已經學過的知識來完成新任務的 學習,并且能夠極大程度地降低遺忘帶來的問題。
**1.2 連續學習場景 **
連續學習的問題是指模型能夠連續學習一系列 任務,其中,在訓練期間,只有當前任務數據可用,并 且假設任務間是有明顯的分界[9].近年來,對這一問 題,研究者們已展開積極的研究,提出了許多緩解連 續學習過程中災難性遺忘的方法.然而,由于各實驗 方案的不同,因此直接對各方法進行比較評估顯然 不可行.尤其是模型任務標識不可用等問題,這將直 接影響模型實現的難易程度.因此,為了使評價更加 標準化,并且也為了使實驗結果比較更具意義,在此 首先對連續學習過程中的3個學習場景進行簡要概 括[10],如表1所示:
在第1個學習場景中,模型總是被告知需要執 行哪些任務,這也是最簡單的連續學習場景,將其稱 為任務增量學習(taskGincrementallearning,TaskG IL).近年來,提出的大部分連續學習方法在此場景都是適用的,且都具有較好的實驗效果,例如正則化 方法和動態結構方法等. 在第2個學習場景中,通常將其稱之為域增量 學 習 (domainGincrementallearning,DomainGIL), 任務標識不可用,模型只需要解決手頭的任務,模型 也不需要推斷這是哪個任務.文獻[11]的實驗結果 證明,基于情景記憶的方法在該場景下有較好的實 驗結果,例如 GER,DGR,RtF 等,然而基于正則化 方法,例如 EWC,LwF,SI等,模型學習的準確率相 對較差. 在第3個學習場景中,模型必須能夠解決到目 前為止所看到的每個任務,并且還能夠推斷出它們 所面臨 的 任 務,將 此 場 景 稱 為 類 增 量 學 習 (classG incrementallearning,ClassGIL),在 該 場 景 中 包 含 一個很常見的實際問題,即增量地學習對象的新類. 此場景是這3個場景中最為復雜的,也是最接近現 實中的學習場景,近年來,針對此場景下的連續學習 方法也相繼提出.例如,通過存儲之前任務數據的樣 本,緩解系統遺忘方法:文獻[5]提出一種iCarl的 連續學習方法,該方法通過在每個類中找出 m 個最 具代表性的樣本,那么其平均特征空間將最接近類 的整個特征空間,最后的分類任務是通過最接近樣 本均值的分類器來完成的;文獻[12]介紹了對遺忘 和不妥協量化的度量方法,進而提出一種稱為 RWalk 方法,完成類增量場景下的學習;文獻[13]提出一種 動態網絡擴展機制,通過由所學習的二進制掩碼動 態確定網絡所需增加的容量,以確保足夠的模型容 量來適應不斷傳入的任務.
**1.3 連續學習相關領域研究 **
連續學習相關的領域研究主要包括多任務學習 和遷移學習. 1) 多任務學習.多任務學習的目的是能夠結合 所有任務的共同知識,同時改進所有單個任務的學 習性能,因此,多任務學習要求每個任務與其他任務 共享模型參數,或每個任務有帶約束的模型參數,別 的任務能夠給當前學習任務提供額外的訓練數據, 以此來作為其他任務的正則化形式.也就是說,多任 務學習的良好效果依賴于單個函數的共享參數化以 及對多個損失同時進行估計和求平均.當同時訓練 多個任務的共享層時,必須學習一個公共表示,從而 有效地對每個任務進行交叉正則化,約束單個任務 的模型. 對于神經網絡而言,Caruana [14]對多任務學習 進行了詳細的研究,指出網絡的底層是共享的,而頂層是針對于特定任務的,多任務學習需要所有任務 的數據,此外,多任務學習隨著時間的推移,不會積 累任何知識,也就是說沒有持續學習的概念,這也是 多任務學習的關鍵問題所在. 2)遷移學習.遷移學習是使用源域來幫助另一 個任務完成目標域學習的一種學習方式[15].它假設 源域S 中有大量的標記訓練數據,而目標域T 只有 很少或沒有標記的訓練數據,但有大量未標記的數 據.遷移學習可以利用被標記的數據來幫助完成目 標域中的學習.然而遷移學習與連續學習,主要有 4個不同:①遷移學習不是連續的,它僅僅是使用了 源域來幫助完成目標域學習;②遷移學習并沒有將 過去所學的知識進行積累;③遷移學習是單向進行 的,也就是說,遷移學習僅可使用源域來幫助完成目 標域的學習,然而,連續學習是可以在任何方向上進 行學習的;④遷移學習假設源域與目標域非常相似, 且這種相似性是人為決定的,然而在連續學習中并 沒有做出這樣一個很強的限制性假設.
2 連續學習的典型模型
**
**
**2.1 無遺忘學習 **
Li等人[16]在2017年提出了一種由卷積神經網 絡(convolutionalneuralnetwork,CNN)組成的無 遺忘學習(learningwithoutforgetting,LwF)方法, 該方法將知識蒸餾(knowledgedistillation,KD)[17] 與細調方法[18]相結合,其中,利用知識蒸餾策略來 避免對之前知識的遺忘.
**2.2 彈性權重整合 **
Kirkpatrick等人[19]在2017年提出了一種結合 監督學習和強化學習方法,即彈性權重整合(elastic weightconsolidation,EWC)方法.在提出的模型目 標函數中,包括了對新舊任務之間模型參數的懲罰 項,從而有效緩解對先前學習的知識中與當下任務 相關知識遺忘.彈性權重整合示意圖如圖3所示:
**2.3 梯度情景記憶 **
LopezGPaz等人[20]在2017年提出梯度情景記憶 模型(gradientepisodicmemory,GEM),該模型能 夠實現知識正向遷移到先前任務的功能,以及將先 前任務學習的知識正向地遷移到當前任務上。
**2.4 分析比較 **
LwF方法僅需要使用新任務的數據,對新任務 進行優化,以提高新任務上模型預測的準確性,并保 持神經網絡對以前任務的預測性能.這種方法類似 于聯合訓練方法,但是該學習方法不使用舊任務的 數據和標簽數據.實驗表明,LwF 方法可以極大地 提高算法的分類性能以及計算效率,簡化了學習過 程,一旦學習了一個新的任務,訓練過的數據將不需 要再被保存或者回放.然而,這種方法的缺點是學習 的性能高度依賴于任務的相關性,并且單個任務的 訓練時間隨著學習任務的個數線性增加.雖然蒸餾 方法為多任務學習提供了一個潛在的解決方案,但 它需要為每個學習任務持久存儲數據.另外需要注 意,LwF方法不能被直接運用到強化學習場景中; EWC方法通過使用 FIM 對網絡參數進行約束,降 低模型對以前所學知識的遺忘程度,此外,該方法在 訓練過程 中 不 增 加 任 何 計 算 負 擔,但 這 是 以 計 算 FIM 為代價的,需存儲FIM 的值以及以前學習模型 參數 的 副 本;LopezGPaz 等 人[20]的 實 驗 結 果 表 明 GEM 模型,相較于 LwF 和 EWC 方法具有較好的 實驗效果,但是,該方法在訓練時,由于對于每個任 務都需要進行情景記憶,因此需要更多的內存空間, 所需的內 存 是 EWC 用 于 保 存 過 去 信 息 大 小 的 2 倍,與其他方法相比內存開銷較大,并且隨著學習任 務數量的增加,訓練成本急劇增加,此外該方法也不 能增量地對新的類別進行學習;同時提高性能也將 加大計算負擔.
**3 連續學習的關鍵問題 **
3.1 災難性遺忘
災難性遺忘是連續學習面臨的最大挑戰.避免 災難性遺忘的問題,也就是說,在不斷完成有序到達 的新任務學習的同時,也能夠在之前學習過的任務 中表現得足夠好. Venkatesan等人[21]在2017年設計了一種結合 生成式模型和知識蒸餾技術的全新采樣策略,用其來產生 來 自 過 去 學 習 任 務 概 率 分 布 上 的 “幻 覺 數 據”,使模型在不訪問歷史數據的前提下,緩解連續 學習過程中的災難性遺忘問題;文獻[22]從序列貝 葉斯學習規則出發,假定數據序列到達時,用前一個 任務模型參數的后驗概率分布作為新任務模型參數 的先驗概率分布,為緩解連續學習過程中的災難性 遺忘問題提供一種解決方案;文獻[19]提出的正則 化方法在模型參數更新時增加約束,以此在保持已 有知識的前提下,實現對新任務的學習,來緩解災難 性遺忘等.
3.2 知識的正向遷移
連續學習過程中的知識正向遷移,即連續學習 應該能夠在學習新任務的同時,利用以前的任務中 學習到的知識來幫助新任務的學習,從而提高學習 的效率和質量. 文獻[23]實驗證明簡單的細調可以實現知識的 正向遷移;文獻[24]提出保留訓練好的模型基類信 息編碼,可將其知識遷移到模型要學習的新類中;文 獻[16]提出的 LwF方法中,使用蒸餾損失來保存 基類信息,進而使用保存的基類信息用于新數據的 訓練;文獻[6]通過繼承之前任務所學的知識,完成 對新任務的學習;LGM 模型是基于學生 教師的雙 重體系結構[25],教師的角色是保存過去的知識并幫 助學生學習未來的知識,該模型通過優化一個增廣 的 ELBO 目標函數很好地幫助完成師生知識的正 向遷移;文獻[26]提出一種符號程序生成(symbolic programsynthesis,SPS)的方法,來實現知識的正 向遷移等.
3.3 知識的正向和反向遷移
知識在反向傳播過程中的正向遷移,即如何利 用當前任務所學到的知識來幫助之前任務的學習是 連續學習模型研究的重點之一. 在連續學習場景中提出的 LwF模型或者具有 更為復雜正則化項的 EWC 模型,雖然可以在一定 程度上緩解災難性遺忘這一問題,然而卻無法實現 利用當前 任 務 知 識 來 幫 助 之 前 任 務 的 學 習.Li等 人[27]在2019年提出一種連續結構學習框架,當網 絡進行結構搜索時,l層被選擇“重用”,即第l層能 夠學習到一個與先前的某個任務非常相似的表示, 這要求l層的2個學習任務之間存在語義相關,因 此,在第l層上使用正則化項對模型進行相應的約 束來幫助之前任務的學習,該模型的提出為解決利 用當前任務知識來幫助之前任務的學習提供了思 路;LopezGPaz等人[20]提出梯度情景記憶模型,實現知識正向遷移到先前任務功能,進而提高模型對之 前任務學習的學習能力.
3.4 可伸縮性能力
連續學習方法應該具有可伸縮性或擴展能力, 也就是說,該方法既能完成小規模數據任務的訓練, 也能夠可伸縮地實現大規模任務上的訓練學習,同時 需要能夠保持足夠的能力來應付不斷增加的任務. Schwarz等人[28]在2018年提出一種進步和壓 縮框架(progressandcompressframework,P&C) 的連續學習模型,P&C模型是由知識庫(knowledge base)和活動列(activecolumn)兩部分組成,這個由 快速學習和整合組成的循環結構,使模型不需要結 構的增長,也不需要訪問和存儲以前的任務或數據, 也不需要特定的任務參數來完成對新任務的學習, 此外,由于 P&C模型使用了2個固定大小的列,所 以可以擴展到大規模任務上;文獻[9]提出一種動態 生成記憶模型(dynamicgenerativememory,DGM), 在 DGM 模型中,利用一個生成對抗結構來替代之 前模型的記憶模塊,來緩解災難性遺忘問題.其中, 該模型中還結合一個動態網絡擴展機制,以確保有足夠的模型容量來適應不斷傳入 的 新 任 務;Yoon 等人[29]在2018年提出了一種新型的面向終身連 續學 習 的 深 度 網 絡 結 構,稱 為 動 態 可 擴 展 網 絡 (dynamicallyexpandablenetwork,DEN),它 可 以 在對一系列任務進行訓練的同時動態地確定其網絡 容量,從而學習任務之間緊密重疊的知識共享結構, 進而有效地對各任務間的共享和私有知識進行學 習,不斷學習新任務的同時有效地緩解災難性遺忘.
4 連續學習方法研究進展
本節將具體介紹多個代表性的連續學習方法, 本文將把目前的連續學習分為基于正則化方法、基 于動態結構方法和基于情景記憶方法三大類,并闡 明不同方法之間的關系,還比較了這些方法在減輕 災難性遺忘性能的差異性.圖4是對近年來提出的 一些流行的連續學習策略韋恩圖總結. 連續學習中各個子類的分類圖如圖5~7所示. 圖中從模型引出到下一模型的箭頭,代表了下一模 型是在上一模型的基礎上發展演變得來.
目前為緩解連續學習過程中的災難性遺忘問 題,主要集中在引入正則化策略、動態結構策略和基 于情景記憶策略這3個方向進行研究.正則化方法 在模型更新時,通過對權重進行約束,實現在保持已 有知識的前提下,完成對新任務的學習,從而緩解災 難性遺忘這一問題,此外,這類方法通常不需要保存 任何以前的數據,只需要對每個任務進行一次訓練. 然而,該類方法克服災難性遺忘的能力是有限的,例 如在類增量學習(classGincrementallearning,ClassG IL)場景下性能不佳,此外,隨著任務數目的不斷增 加,對過去任務進行正則化處理,可能導致特征漂 移.動態地改變模型結構以便在不干擾之前任務的 學習知識的情況下學習新的任務,該類方法也可以 成功地緩解災難性遺忘這一問題,然而,該類方法不 能從任務之間的正向遷移中獲益,另外模型的大小 隨著觀察到的任務數量的增加而急劇增長,這使得它在實際問題中往往不可行.基于情景記憶的方法, 通過保存一些以前任務的樣例進行記憶回放來緩解 對之前所學習知識的遺忘,該類方法在減輕災難性 遺忘方面顯示出了巨大優勢,然而,計算成本卻隨著 先前任務的數量增加而快速增長,并且該方法需要 保存之前樣例,不利于數據安全保護.在基于情景記 憶的方法中,為替代存儲所學任務的樣例數據,提出 使用深層生成模型來記憶以前見過的數據分布,然 而該類方法往往需要從頭開始重新訓練生成模型, 訓練效率低,此外,在每次生成以前任務的新的真實 樣本時,還極易造成“語義漂移”,且隨著時間推移, 模型訓練準確性逐漸下降.
6 連續學習的應用
作為機器學習領域中的一個極具潛力的研究方 向,連續學習方法已經受到學者的極大青睞.隨著人 工智能及機器學習不斷的發展,基于連續學習的方 法已經獲得了較多應用,例如圖像分類、目標識別以 及自然語言處理等.以下將對近年來連續學習在各 領域的主要應用進行介紹.
6.1 圖像分類
Li等人[16]在2017年提出了一種由卷積神經網 絡組成的無遺忘學習方法,該方法將知識蒸餾與細 調方法相結合,利用知識蒸餾的方法來加強與當前 學習任務相關的已經學習過的知識,提高分類的準 確性;Kim 等人[70]提出基于 DOS的最大熵正則化 增量學 習 模 型(),該 模型通過最大熵正則化來減少對不確定遷移知識的 優化,以及利用 DOS來通過從新任務中選擇性地刪 除樣例減少對舊類的遺忘,以此減少記憶樣例中類 的不平衡,有效地完成連續學習過程中的圖像分類; Smith等人[71]在2019年提出一種新穎的自學習聯想 記憶框架(selfGtaughtassociativememory,STAM), 有效解決在連續學習過程中的無監督學習分類問 題;Aljundi等人[37]提出一種基于稀疏編碼的正則 化方法,實現利用具有固定容量的網絡進行有序學 習問題,在 CIFAR100和 MNIST 數據集上進行分 類的結果表明,該模型能夠有效地提高模型的分類 能力;Rostami等人[72]考慮到基于自編碼器的生成 模型能夠很好地對輸入樣例進行編碼,獲得較好的 隱特征表示,同時受并行分布式處理學習和互補學 習系統理論的啟發,提出一種新穎的計算模型,該模 型能夠將新學習的概念與之前模型學習的概念經過 統一編碼,進而形成一個統一的嵌入空間表示,實現 了利用之前學習的概念知識來有效地幫助只有少量 標簽樣例的新領域知識的學習,從而完成在連續學 習背景下的樣例分類.
6.2 目標識別
****Siam 等人[73]提出一種新穎的教師 學生自適 應框架,在無需人工標注的情況下,完成人機交互)背景下的視頻 目標對象分割(videoobjectsegmentation);Parisi等 人[7]提出了一種適用于終身學習場景的雙記憶自組 織體系結構,該模型結構主要包括一個深度卷積特 征提取模塊和2個分層排列的遞歸自組織網絡,進而 實現在終身學習場景下的視頻序列中的目標對象的 識別;Tessler等人[74]提出一種新穎的分層深度強化 學習網絡(hierarchicaldeepreinforcementlearning network,HGDRLN)框架,該模型在 Minecraft游戲 場景中,通過重用在之前任務中學習到的知識,進而 完成對未來任務場景的目標對象學習,提高效率,同 時,該模型的實驗結果也展示了在不需要額外學習 的情況下在相關 Minecraft任務之間遷移知識的潛 力;Michiel等人[10]將當前的基于任務標識已知的 序列學習方法推向了在線無任務標識的連續學習場 景中,首先,假設有一個無限輸入的數據流,其中該 數據流中包含現實場景中常見的逐漸或者突然的變 化.文獻[10]中提出一種基于重要權重正則化的連續 學習方法,與傳統的任務標識已知場景中不同,在該 場景中,該模型需要有效地檢測何時、如何以及在哪 些數據上執行重要性權重更新,進而有效地在無任 務標識場景下進行在線連續學習.該文中在監督學 習和自監督學習過程中都成功地驗證了該方法的有 效性.其中,具體而言,相較于基準學習方法,在電視 劇人臉識別和機器人碰撞等具體應用中,該方法的穩 定性和學習性能都有所提高.Tahir等人[75]考慮到 當下最先進的有關食物識別的深度學習模型不能實 現數據的增量學習,經常在增量學習場景中出現災難 性遺忘問題.因此,提出一種新的自適應簡化類增量 核極值學習機方法(adaptivereducedclassincremental kernelextremelearning machine,ARCIKELM), 進而完成目標食物對象的識別,其中在多個標準的 食物數據集的最終分類準確性證明了該模型可以有 效地進行增量學習.
6.3 自然語言處理
d??Autume等人[76]介紹了一種連續學習背景下 的自然語言學習模型,該模型實現了對在線文本數據 的有效學習.在文獻[76]中介紹了一種基于稀疏經 驗回放的方法有效地防止災難性遺忘,具體而言,對 于每10000個新的樣本隨機均勻選擇100個樣本在 固定的時間間隔進行稀疏經驗回放,實驗表明,該模 型在文本分類和問答系統等自然語言領域可以實現 較好的應用.Li等人[77]考慮到現有的方法大多集中 在對輸入和輸出大小固定的標簽預測連續學習任務上,因此,提出了一個新的連續學習場景,它處理自 然語言學習中常見的序列到序列的學習任務.實驗 結果表明,該方法比現有方法有明顯的改進,它能有 效地促進知識正向遷移,防止災難性遺忘.Kruszewski 等人[78]提出一種基于多語言和多領域背景下的語 言建模基準,該基準可以將任何明確的訓練樣例劃 分為不同的任務.與此同時,提出一種基于產品專家 (productofexperts,PoE)的多語言連續學習方法, Kruszewski等人的實驗結果證明,在進行多語言連 續學習時,該模型可以有效地緩解災難性遺忘.Hu 等人[79]對個性化在線語言學習 問 題 (personalized onlinelanguagelearning,POLL)進行研究,涉及到 適應個性化的語言模型以適應隨著時間發展的用戶 群體.為了有效地對 POLL問題進行研究,文獻[79] 的作者收集了大量的微博帖子作為訓練數據集,進 而對近年來流行的連續學習算法進行了嚴格評估, 并在此基礎上提出一種簡單的連續梯度下降算法 (continualgradientdescent,ConGraD),實驗結果 表明,該算法在 Firehose數據集和早期基準測試數 據集的實驗結果優于之前的連續學習方法.
**7 未來的研究方向 **
作為機器學習領域中的一個新興方向,連續學 習近幾年受到研究者們的極大關注,目前來看,連續 學習在未來的研究中有10個潛在的方向: 1) 基于經驗回放(experiencereplay)的模型相 較于其他連續學習模型有較好的性能,然而,容量的 飽和是該類模型中所面臨的重要挑戰,因此如何在 保持原有知識的同時,不斷提高模型的能力是未來 重要的研究方向. 2)對于任務不可知場景下的連續學習算法尚 需進一步研究.目前,大多連續學習算法要求在任務 邊界(taskboundaries)已知的場景中來進行訓練和 預測,即當需要學習一個新的任務時,模型需要被告 知有新的學習任務,例如,改變損失函數中的參數 等,以便系統能夠采取某些行動.然而,在任務之間 沒有明顯邊界,即任務的轉變是逐漸的或者連續的, 這些模型將不再適用.然而,在實際應用中,往往需 面對的是任務邊界不可知場景學習問題.文獻[9]從 貝葉斯的角度提出一種貝葉斯梯度下降算法(Bayes gradientdesent,BGD),對沒有明確定義的任務邊 界的連續學習問題提供一種解決思路,然而,基于此 場景的連續學習算法仍相對缺乏,尚需進一步研究. 3)利用多模態信息.現有的連續學習方法通常 使用來自單一模態(如圖像或文本)的知識進行建 模,然而,雖然當下訓練集有一些當前模態的樣例, 但是,樣例可能還存在另一個模態.因此,來自多模 態的知識可以為連續學習提供較為豐富的樣例信 息,進而提高模型的建模能力.因此如何有效地利用 這些多模態信息也是未來研究的重要方向. 4)在未來可以對當下連續學習模型應用的靈 活性進行進一步擴展研究,例如多感知領域的擴展. 文獻[80]可以從視聽流中不斷學習任務的特征,使 得連續學習的方法向更加廣泛的應用邁進一步.因 此,可以通過將連續學習方法部署在具體的代理中, 通過與環境的主動交互,在持續的時間內可以增量 地獲取和提取知識,以此來更好地完成對對象的識 別等任務. 5)數據集太小也是連續學習過程所面臨的挑 戰之一.例如,目前存在的iCubGT 和 CORe50數據 集,只包含幾十個常見的家庭對象類,缺乏大規模和 多樣性數據集.因此,創建一個更大的和更多樣化的 數據集,即可以包括數百個或數千個類,也可以包括 不同類型的識別,如人臉、場景以及活動等,對未來 的研究工作是至關重要的. 6)在實際分類問題中,數據的不平衡時常發生,易于導致數據的錯誤分類,因此如何從不平衡的 數據集中進行正確分類,也是未來連續學習研究的 一個重要方向. 7)在線學習.當前的連續學習方法多集中于對 每個單獨的任務進行離線訓練,然而,在實際應用中 數據往往以數據流的形式存在[81].因此,如何對連 續的數據流進行學習是未來的一個重要的研究方向. 8)正向遷移.在連續學習方法中,正向遷移即 知識的正向遷移能力,也就是對新任務進行學習時, 如何有效地利用之前所學習的知識來有效地加快對 當前任務的學習.近年來,元學習方法的出現,為進 一步提高知識的正向遷移提供了前景.因此,如何有 效地利用元學習技術來盡可能地加快對當前任務的 學習是未來的一個重要的研究方向. 9)權衡 模 型 的 穩 定 性 與 可 塑 性.模 型 的 可 塑 性,即模型對學習新知識的能力.模型的穩定性,即 模型對已經學習知識的保留能力.在連續學習過程 中,如何有效地對模型的穩定性和可塑性進行權衡 是一個值得研究的問題. 10)應用領域擴展.大多實際應用場景都涉及 連續學習的問題,計算機視覺中圖像分類是連續學習最常用的實驗平臺之一.連續學習最近在許多其他 應用中也引起了廣泛關注,如機器人技術、自然語言 處理和視頻信號處理.總之,連續學習還有很多值得 探索的領域和應用.
南京大學最新《基于模型的強化學習》綜述論文,值得關注!
強化學習(RL)通過與環境交互的試錯過程來解決順序決策問題。雖然RL在允許大量試錯的復雜電子游戲中取得了杰出的成功,但在現實世界中犯錯總是不希望的。為了提高樣本效率從而減少誤差,基于模型的強化學習(MBRL)被認為是一個有前途的方向,它建立的環境模型中可以進行試錯,而不需要實際成本。本文對MBRL的研究現狀進行了綜述,并著重介紹了近年來研究的進展。對于非表格環境,學習到的環境模型與實際環境之間存在泛化誤差。因此,分析環境模型中策略訓練與實際環境中策略訓練的差異,對算法設計、模型使用和策略訓練具有重要的指導意義。此外,我們還討論了離線在線學習、目標條件在線學習、多智能體在線學習和元在線學習等基于模型的在線學習技術的最新進展。此外,我們還討論了MBRL在實際任務中的適用性和優勢。最后,我們討論了MBRL未來的發展前景。我們認為MBRL在實際應用中具有巨大的潛力和優勢,但這些優勢往往被忽視,希望本文的綜述能夠吸引更多關于MBRL的研究。
強化學習(Reinforcement learning, RL)研究了提高自主智能體序列決策性能的方法[Sutton and Barto, 2018]。由于深度RL在圍棋和電子游戲中的成功展示了超越人類的決策能力,因此將其應用范圍擴展到現實任務中是非常有意義的。通常,深度RL算法需要大量的訓練樣本,導致樣本復雜度很高。在一般的RL任務中,特定算法的樣本復雜度是指學習一個近似最優策略所需的樣本量。特別地,與監督學習范式從歷史標記數據中學習不同,典型的RL算法需要通過在環境中運行最新的策略來獲得交互數據。一旦策略更新,基礎數據分布(正式的入住率測量[Syed et al., 2008])就會發生變化,必須通過運行策略再次收集數據。因此,具有高樣本復雜度的RL算法很難直接應用于現實世界的任務中,因為在這些任務中,試錯代價很高。
因此,近年來深度強化學習(deep reinforcement learning, DRL)研究的一個主要重點是提高樣本效率[Yu, 2018]。在不同的研究分支中,基于模型的強化學習(MBRL)是最重要的方向之一,人們普遍認為它具有極大的潛力使RL算法顯著提高樣本效率[Wang et al., 2019]。這種信念直觀地來自于對人類智慧的類比。人類能夠在頭腦中擁有一個想象的世界,在這個世界中,隨著不同的行動,事情會如何發生可以被預測。通過這種方式,可以根據想象選擇適當的行動,這樣就可以降低反復試驗的成本。MBRL中的短語模型是期望扮演與想象相同角色的環境模型。
在MBRL中,環境模型(或簡稱為模型)指的是學習智能體與之交互的環境動態的抽象。RL中的動態環境通常被表述為一個馬爾可夫決策過程(MDP),用元組(S, A, M, R, γ)表示,其中S, A和γ分別表示狀態空間、行動空間和未來獎勵的折扣因子,M: S × A→S表示狀態轉移動力學,R: S × A→R表示獎勵函數。通常情況下,給定狀態和行為空間以及折扣因子,環境模型的關鍵組成部分是狀態轉移動力學和獎勵函數。因此,學習模型對應于恢復狀態轉移動力學M和獎勵函數r。在許多情況下,獎勵函數也被明確定義,因此模型學習的主要任務是學習狀態轉移動力學[Luo et al., 2018, Janner et al., 2019]。
有了環境模型,智能體就有了想象的能力。它可以與模型進行交互,以便對交互數據進行采樣,也稱為仿真數據。理想情況下,如果模型足夠準確,可以在模型中學習到一個好的策略。與無模型強化學習(model-free reinforcement learning, MFRL)方法相比,智能體只能使用從與真實環境的交互中采樣的數據,稱為經驗數據,MBRL方法使智能體能夠充分利用學習模型中的經驗數據。值得注意的是,除了MBRL,還有其他一些方法試圖更好地利用經驗數據,如off-policy算法(使用重放緩沖區記錄舊數據)和actor-critic算法(通過學習評論家來促進策略更新)。圖1描述了不同類型的RL結構。圖1(a)是最簡單的on-policy RL,其中智能體使用最新的數據來更新策略。在off-policy中,如圖1(b)所示,代理在重放緩沖區中收集歷史數據,在重放緩沖區中學習策略。在行動者-評論者RL中,如1(c)所示,智能體學習評論者,其是長期回報的價值函數,然后學習批評者輔助的策略(行動者)。如圖1(d)所示,MBRL顯式地學習一個模型。與策略外RL相比,MBRL重構了狀態轉移的動態過程,而策略外RL只是簡單地使用重放緩沖區來更穩健地估計值。雖然價值函數或批評的計算涉及到轉移動力學的信息,但MBRL中的學習模型與策略解耦,因此可以用于評估其他策略,而價值函數與抽樣策略綁定。此外,請注意,非策略、演員-評論者和基于模型是三個并行的結構,圖1(e)顯示了它們的可能組合。
RL算法的體系結構。圖中顯示了RL的訓練迭代,重點是如何利用交互數據。
通過足夠準確的模型,可以直觀地看到MBRL比MFRL產生更高的樣本效率,這一點在最近的理論研究[Sun el.,2019年]和經驗研究[Janner et al.,2019年,Wang et al.,2019年]的視角都表明了這一點。然而,在大量具有相對復雜環境的DRL任務中,要學習一個理想的模型并非易事。因此,我們需要仔細考慮模型學習和模型使用的方法。
在這一綜述中,我們對基于模型的強化學習方法進行了全面的綜述。首先,我們關注模型是如何在基本設置中學習和使用的,如第3節的模型學習和第4節的模型使用。對于模型學習,我們從經典的表格表示模型開始,然后使用神經網絡等近似模型,我們回顧了在面對復雜環境時的理論和關鍵挑戰,以及減少模型誤差的進展。對于模型的使用,我們將文獻分為兩部分,即用于軌跡采樣的黑箱模型rollout和用于梯度傳播的白箱模型。將模型使用作為模型學習的后續任務,我們還討論了在模型學習和模型使用之間建立橋梁的嘗試,即價值感知模型學習和策略感知模型學習。此外,我們簡要回顧了基于模型的方法在其他形式的強化學習中的組合,包括離線強化學習、目標條件強化學習、多智能體強化學習和元強化學習。我們還討論了MBRL在現實任務中的適用性和優勢。最后,我們對MBRL的研究前景和未來發展趨勢進行了展望。
摘要
與批量學習不同的是,在批量學習中所有的訓練數據都是一次性可用的,而持續學習代表了一組方法,這些方法可以積累知識,并使用序列可用的數據連續學習。與人類的學習過程一樣,不斷學習具有學習、融合和積累不同時間步的新知識的能力,被認為具有很高的現實意義。因此,持續學習在各種人工智能任務中得到了研究。本文綜述了計算機視覺中持續學習的最新進展。特別地,這些作品是根據它們的代表性技術進行分組的,包括正則化、知識蒸餾、記憶、生成重放、參數隔離以及上述技術的組合。針對每一類技術,分別介紹了其特點及其在計算機視覺中的應用。在概述的最后,討論了幾個子領域,在這些子領域中,持續的知識積累可能會有幫助,而持續學習還沒有得到很好的研究。
//www.zhuanzhi.ai/paper/a13ad85605ab12d401a6b2e74bc01d8a
引言
人類的學習是一個漸進的過程。在人類的一生中,人類不斷地接受和學習新知識。新知識在發揮自身積累作用的同時,也對原有知識進行補充和修正。相比之下,傳統的機器學習和深度學習范式通常區分知識訓練和知識推理的過程,模型需要在有限的時間內在預先準備好的數據集上完成訓練,然后使用這些數據集進行推理。隨著相機和手機的廣泛普及,每天都有大量新的圖片和視頻被捕捉和分享。這就產生了新的需求,特別是在計算機視覺領域,模型在推理過程中要連續不斷地學習和更新自己,因為從頭開始訓練模型以適應每天新生成的數據是非常耗時和低效的。
由于神經網絡與人腦的結構不同,神經網絡訓練不易從原來的批量學習模式轉變為新的連續學習模式。特別是存在兩個主要問題。首先,按照序列學習多個類別的數據容易導致災難性遺忘的問題[1,2]。這意味著,在從新類別的數據更新模型參數后,模型在先前學習類別上的性能通常會急劇下降。其次,當按順序從同一類別的新數據中學習時,也會導致概念漂移問題[3,4,5],因為新數據可能會以不可預見的方式改變該類別的數據分布[6]。因此,持續學習的總體任務是解決穩定性-可塑性困境[7,8],這就要求神經網絡在保持學習新知識的能力的同時,防止遺忘之前學習過的知識。
近年來,在計算機視覺的各個子領域中提出了越來越多的持續學習方法,如圖1所示。此外,2020年和2021年還舉辦了若干與計算機視覺中的持續學習有關的比賽[9,10]。因此,本文綜述了計算機視覺中持續學習的最新進展。我們將這一概述的主要貢獻總結如下。(1)系統地綜述了計算機視覺中持續學習的最新進展。(2)介紹了用于不同計算機視覺任務的各種持續學習技術,包括正則化、知識提取、基于記憶、生成重放和參數隔離。(3)討論了計算機視覺中持續學習可能有所幫助但仍未得到充分研究的子領域。
本文的其余部分組織如下。第二節給出了持續學習的定義。第3節介紹了這一領域常用的評估指標。第4節討論了各種類型的持續學習方法及其在計算機視覺中的應用。在第5節中討論了計算機視覺中沒有很好地利用持續學習的子領域。最后,第六部分對全文進行總結。
人和高級動物在整個生命中不斷獲取、微調和轉讓知識和技能。這種能力,稱為lifelong learning,是由一系列神經認知機制協調的過程,這些機制共同促進了sensorimotor技能的發展以及對長期記憶的鞏固和檢索。因此對于計算系統和自動化智體,lifelong learning能力,對能否在現實世界進行交互并處理連續信息,至關重要。
但是,長期來看,lifelong/continual learning仍然是機器學習和神經網絡模型的挑戰,因為從非平穩數據分布中不斷遞增地獲取可用信息通常會導致catastrophic forgetting或者interference問題,即用新信息訓練模型的時候會干擾先前學習的知識。這種現象通常會導致性能突然下降,或者最壞的情況下導致舊知識被新知識完全overwrite。對于拿固定訓練數據來學習的深度神經網絡模型,其隨時間遞增的信息無法可用這一點,會成為一個主要缺陷。
在這篇綜述中,總結了與人工學習系統的continual/lifelong learning相關挑戰,并比較了現有那些在不同程度上減輕catastrophic forgetting的NN方法。盡管NN在特定領域學習方面已取得了重大進展,但要在自動化智體和機器人上開發強大的lifelong learning,還需要進行大量研究。為此作者討論了由生物系統中的lifelong learning因素所激發的各種研究,如structural plasticity、memory replay、curriculum & transfer learning、intrinsic motivation和multisensory integration等。
深度學習在大量領域取得優異成果,但仍然存在著魯棒性和泛化性較差、難以學習和適應未觀測任務、極其依賴大規模數據等問題.近兩年元學習在深度學習上的發展,為解決上述問題提供了新的視野.元學習是一種模仿生物利用先前已有的知識,從而快速學習新的未見事物能力的一種學習定式.元學習的目標是利用已學習的信息,快速適應未學習的新任務.這與實現通用人工智能的目標相契合,對元學習問題的研究也是提高模型的魯棒性和泛化性的關鍵.近年來隨著深度學習的發展,元學習再度成為熱點,目前元學習的研究百家爭鳴、百花齊放. 本文從元學習的起源出發,系統地介紹元學習的發展歷史,包括元學習的由來和原始定義,然后給出當前元學習的通用定義,同時總結當前元學習一些不同方向的研究成果,包括基于度量的元學習方法、基于強泛化新的初始化參數的元學習方法、基于梯度優化器的元學習方法、基于外部記憶單元的元學方法、基于數據增強的元學方法等. 總結其共有的思想和存在的問題,對元學習的研究思想進行分類,并敘述不同方法和其相應的算法.最后論述了元學習研究中常用數據集和評判標準,并從元學習的自適應性、進化性、可解釋性、連續性、可擴展性展望其未來發展趨勢.
引言
隨著計算設備并行計算性能的大幅度 進步,以及近些年深度神經網絡在各個領域 不斷取得重大突破,由深度神經網絡模型衍 生而來的多個機器學習新領域也逐漸成型, 如強化學習、深度強化學習[1] [2] 、深度監督 學習等。在大量訓練數據的加持下,深度神 經網絡技術已經在機器翻譯、機器人控制、 大數據分析、智能推送、模式識別等方面取 得巨大成果[3] [4] [5] 。
實際上在機器學習與其他行業結合的 過程中,并不是所有領域都擁有足夠可以讓 深度神經網絡微調參數至收斂的海量數據, 相當多領域要求快速反應、快速學習,如新 興領域之一的仿人機器人領域,其面臨的現 實環境往往極為復雜且難以預測,若按照傳 統機器學習方法進行訓練則需要模擬所有 可能遇到的環境,工作量極大同時訓練成本 極高,嚴重制約了機器學習在其他領域的擴 展,因此在深度學習取得大量成果后,具有 自我學習能力與強泛化性能的元學習便成 為通用人工智能的關鍵。
元學習(Meta-learning)提出的目的是 針對傳統神經網絡模型泛化性能不足、對新 種類任務適應性較差的特點。在元學習介紹 中往往將元學習的訓練和測試過程類比為 人類在掌握一些基礎技能后可以快速學習并適應新任務,如兒童階段的人類也可以快 速通過一張某動物照片學會認出該動物,即 機 器 學 習 中 的 小 樣 本 學 習 ( Few-shot Learning)[6] [7] ,甚至不需要圖像,僅憑描 述就可學會認識新種類,對應機器學習領域 中的(Zero-shot Learning)[8] ,而不需要大 量該動物的不同照片。人類在幼兒階段掌握 的對世界的大量基礎知識和對行為模式的 認知基礎便對應元學習中的“元”概念,即一 個泛化性能強的初始網絡加上對新任務的 快速適應學習能力,元學習的遠期目標為通 過類似人類的學習能力實現強人工智能,當 前階段體現在對新數據集的快速適應帶來 較好的準確度,因此目前元學習主要表現為 提高泛化性能、獲取好的初始參數、通過少 量計算和新訓練數據即可在模型上實現和 海量訓練數據一樣的識別準確度,近些年基 于元學習,在小樣本學習領域做出了大量研 究[9] [10] [11] [12] [13] [14] [15] [16] [17] ,同時為模擬 人類認知,在 Zero-shot Learning 方向也進行 了大量探索[18] [19] [20] [21] [22] 。
在機器學習盛行之前,就已產生了元學習的相關概念。當時的元學習還停留在認知 教育科學相關領域,用于探討更加合理的教 學方法。Gene V. Glass 在 1976 年首次提出 了“元分析”這一概念[23] ,對大量的分析結 果進行統計分析,這是一種二次分析辦法。G Powell 使用“元分析”的方法對詞匯記憶 進行了研究[24] ,指出“強制”和“誘導”意象有 助于詞匯記憶。Donald B.Maudsley 在 1979 年首次提出了“元學習”這一概念,將其描述 為“學習者意識到并越來越多地控制他們已 經內化的感知、探究、學習和成長習慣的過 程”,Maudsley 將元學習做為在假設、結構、 變化、過程和發展這 5 個方面下的綜合,并 闡述了相關基本原則[25] 。BIGGS J.B 將元學 習描述為“意識到并控制自己的學習的狀 態” [26] ,即學習者對學習環境的感知。P Adey 將元學習的策略用在物理教學上[27] , Vanlehn K 探討了輔導教學中的元學習方法 [28] 。從元分析到元學習,研究人員主要關 注人是如何意識和控制自己學習的。一個具 有高度元學習觀念的學生,能夠從自己采用 的學習方法所產生的結果中獲得反饋信息,進一步評價自己的學習方法,更好地達到學 習目標[29] 。隨后元學習這一概念慢慢滲透 到機器學習領域。P.Chan 提出的元學習是一 種整合多種學習過程的技術,利用元學習的 策略組合多個不同算法設計的分類器,其整 體的準確度優于任何個別的學習算法[30] [31] [32] 。HilanBensusan 提出了基于元學習的決 策樹框架[33] 。Vilalta R 則認為元學習是通 過積累元知識動態地通過經驗來改善偏倚 的一種學習算法[34] 。
Meta-Learning 目前還沒有確切的定義, 一般認為一個元學習系統需結合三個要求:系統必須包含一個學習子系統;利用以前學 習中提取的元知識來獲得經驗,這些元知識 來自單個數據集或不同領域;動態選擇學習偏差。
元學習的目的就是為了設計一種機器學習模型,這種模型有類似上面提到的人的 學習特性,即使用少量樣本數據,快速學習 新的概念或技能。經過不同任務的訓練后, 元學習模型能很好的適應和泛化到一個新任務,也就學會了“Learning to learn”。
【導讀】2020注定是寫入到歷史的一年,新冠變成主題詞。在2019年機器學習領域繼續快速發展,深度學習理論、對比學習、自監督學習、元學習、持續學習、小樣本學習等取得很多進展。在此,專知小編整理這一年這些研究熱點主題的綜述進展,共十篇,了解當下,方能向前。
1、Recent advances in deep learning theory(深度學習理論)
陶大程院士等最新《深度學習理論進展》綜述論文,41頁pdf255篇文獻闡述六大方面進展
作者:Fengxiang He,Dacheng Tao
摘要:深度學習通常被描述為一個實驗驅動的領域,并不斷受到缺乏理論基礎的批評。這個問題已經部分地被大量的文獻解決了,這些文獻至今沒有被很好地組織起來。本文對深度學習理論的最新進展進行了綜述和整理。文獻可分為六類: (1)基于模型復雜度和容量的深度學習泛化; (2)用于建模隨機梯度下降及其變量的隨機微分方程及其動力學系統,其特征是深度學習的優化和泛化,部分受到貝葉斯推理啟發; (3)驅動動力系統軌跡的損失的幾何結構; (4)深度神經網絡的過參數化從積極和消極兩個方面的作用; (5)網絡架構中幾種特殊結構的理論基礎; (6)對倫理和安全及其與泛化性的關系的日益關注。
網址: //www.zhuanzhi.ai/paper/b5ac0f259b59817b890b6c253123ee84
2、Learning from Very Few Samples: A Survey(少樣本學習)
清華大學張長水等最新《少樣本學習FSL》2020綜述論文,30頁pdf414篇參考文獻
作者:Jiang Lu,Pinghua Gong,Jieping Ye,Changshui Zhang
摘要:少樣本學習(FSL)在機器學習領域具有重要意義和挑戰性。成功地從很少的樣本中學習和歸納的能力是區分人工智能和人類智能的一個明顯的界限,因為人類可以很容易地從一個或幾個例子中建立他們對新穎性的認知,而機器學習算法通常需要數百或數千個監督樣本來保證泛化能力。盡管FSL的悠久歷史可以追溯到21世紀初,近年來隨著深度學習技術的蓬勃發展也引起了廣泛關注,但迄今為止,有關FSL的調研或評論還很少。在此背景下,我們廣泛回顧了2000年至2019年FSL的200多篇論文,為FSL提供了及時而全面的調研。在本綜述中,我們回顧了FSL的發展歷史和目前的進展,原則上將FSL方法分為基于生成模型和基于判別模型的兩大類,并特別強調了基于元學習的FSL方法。我們還總結了FSL中最近出現的幾個擴展主題,并回顧了這些主題的最新進展。此外,我們重點介紹了FSL在計算機視覺、自然語言處理、音頻和語音、強化學習和機器人、數據分析等領域的重要應用。最后,我們對調查進行了總結,并對未來的發展趨勢進行了討論,希望對后續研究提供指導和見解。
網址:
3、A Survey on Knowledge Graphs: Representation, Acquisition and Applications(知識圖譜研究綜述論文)
最新!知識圖譜研究綜述論文: 表示學習、知識獲取與應用,25頁pdf詳述Knowledge Graphs技術趨勢
作者:Shaoxiong Ji, Shirui Pan, Erik Cambria, Pekka Marttinen, Philip S. Yu
摘要:人類知識提供了對世界的認知理解。表征實體間結構關系的知識圖譜已經成為認知和人類智能研究的一個日益流行的方向。在本次綜述論文中,我們對知識圖譜進行了全面的綜述,涵蓋了知識圖譜表示學習、知識獲取與補全、時序知識圖譜、知識感知應用等方面的研究課題,并總結了最近的突破和未來的研究方向。我們提出對這些主題進行全視角分類和新的分類法。知識圖譜嵌入從表示空間、得分函數、編碼模型和輔助信息四個方面進行組織。對知識獲取,特別是知識圖譜的補全、嵌入方法、路徑推理和邏輯規則推理進行了綜述。我們進一步探討了幾個新興的主題,包括元關系學習、常識推理和時序知識圖譜。為了方便未來對知識圖的研究,我們還提供了不同任務的數據集和開源庫的集合。最后,我們對幾個有前景的研究方向進行了深入的展望。
網址:
4、A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications(生成式對抗網絡綜述論文)
密歇根大學28頁最新《GANs生成式對抗網絡綜述:算法、理論與應用》最新論文,帶你全面了解GAN技術趨勢
作者:Jie Gui,Zhenan Sun,Yonggang Wen,Dacheng Tao,Jieping Ye
摘要:生成對抗網絡(GANs)是最近的熱門研究主題。自2014年以來,人們對GAN進行了廣泛的研究,并且提出了許多算法。但是,很少有全面的研究來解釋不同GANs變體之間的聯系以及它們是如何演變的。在本文中,我們嘗試從算法,理論和應用的角度對各種GANs方法進行敘述。首先,詳細介紹了大多數GANs算法的動機,數學表示形式和結構。此外,GANs已與其他機器學習算法結合用于特定應用,例如半監督學習,遷移學習和強化學習。本文比較了這些GANs方法的共性和差異。其次,研究了與GANs相關的理論問題。第三,說明了GANs在圖像處理和計算機視覺,自然語言處理,音樂,語音和音頻,醫學領域以及數據科學中的典型應用。最后,指出了GANs未來的開放性研究問題。
網址:
5、A Survey on Causal Inference(因果推斷綜述論文)
最新「因果推斷Causal Inference」綜述論文38頁pdf,阿里巴巴、Buffalo、Georgia、Virginia
作者:Liuyi Yao,Zhixuan Chu,Sheng Li,Yaliang Li,Jing Gao,Aidong Zhang
摘要:數十年來,因果推理是一個跨統計、計算機科學、教育、公共政策和經濟學等多個領域的重要研究課題。目前,與隨機對照試驗相比,利用觀測數據進行因果關系估計已經成為一個有吸引力的研究方向,因為有大量的可用數據和較低的預算要求。隨著機器學習領域的迅速發展,各種針對觀測數據的因果關系估計方法層出不窮。在這項綜述中,我們提供了一個全面的綜述因果推理方法下的潛在結果框架,一個眾所周知的因果推理框架。這些方法根據是否需要潛在結果框架的所有三個假設分為兩類。對于每一類,分別對傳統的統計方法和最近的機器學習增強方法進行了討論和比較。并介紹了這些方法的合理應用,包括在廣告、推薦、醫藥等方面的應用。此外,還總結了常用的基準數據集和開放源代碼,便于研究者和實踐者探索、評價和應用因果推理方法。
網址:
6、Pre-trained Models for Natural Language Processing: A Survey(預訓練語言模型)
【復旦大學】最新《預訓練語言模型》2020綜述論文大全,50+PTMs分類體系,25頁pdf205篇參考文獻
作者:Xipeng Qiu,Tianxiang Sun,Yige Xu,Yunfan Shao,Ning Dai,Xuanjing Huang
摘要:近年來,預訓練模型(PTMs)的出現將自然語言處理(NLP)帶入了一個新的時代。在這項綜述中,我們提供了一個全面的PTMs調研。首先簡要介紹了語言表示學習及其研究進展。然后,我們根據四種觀點對現有的PTMs進行了系統的分類。接下來,我們將描述如何將PTMs的知識應用于下游任務。最后,我們概述了未來PTMs研究的一些潛在方向。本調查旨在為理解、使用和開發各種NLP任務的PTMs提供實際指導。
網址:
7、A Survey on Heterogeneous Graph Embedding: Methods, Techniques, Applications and Sources(異質圖網絡嵌入)
異質圖嵌入綜述: 方法、技術、應用和資源, 23頁pdf
作者:Xiao Wang, Deyu Bo, Chuan Shi, Shaohua Fan, Yanfang Ye, Philip S. Yu
摘要:
異質圖(Heterogeneous Graph, HG)也稱為異質信息網絡(Heterogeneous Information Network, HIN),在現實世界中已經無處不在。異質圖嵌入(Heterogeneous Graph Embedding, HGE),旨在在低維的空間中學習節點表示,同時保留異質結構和語義用于下游任務(例如,節點/圖分類,節點聚類,鏈接預測),在近年來受到了廣泛的關注。在綜述中,我們對異質圖嵌入的方法和技術的最新進展進行了全面回顧,探索了異質圖嵌入的問題和挑戰,并預測了該領域的未來研究方向。
該論文的主要貢獻如下:
討論了與同質圖相比,異質圖的異質性帶來的獨特挑戰 。該論文對現有的異質圖嵌入方法進行了全面的調研,并基于它們在學習過程中使用的信息進行分類,以解決異質性帶來的特定的挑戰。 對于每類代表性的異質圖嵌入方法和技術,提供詳細的介紹并進一步分析了其優缺點。此外,該論文首次探索了異質圖嵌入方法在現實工業環境中的可轉換性和適用性。 總結了開源代碼和基準數據集,并對現有的圖學習平臺進行了詳細介紹,以促進該領域的未來研究和應用。 探討異質圖嵌入的其他問題和挑戰,并預測該領域的未來研究方向。
網址:
8、Graph Neural Networks: Taxonomy, Advances and Trends(圖神經網絡)
太原理工最新《圖神經網絡:分類,進展,趨勢》綜述論文,50頁pdf400篇文獻
作者:Yu Zhou,Haixia Zheng,Xin Huang
摘要:圖神經網絡為根據特定任務將真實世界的圖嵌入低維空間提供了一個強大的工具包。到目前為止,已經有一些關于這個主題的綜述。然而,它們往往側重于不同的角度,使讀者看不到圖神經網絡的全貌。本論文旨在克服這一局限性,并對圖神經網絡進行了全面的綜述。首先,我們提出了一種新的圖神經網絡分類方法,然后參考了近400篇相關文獻,全面展示了圖神經網絡的全貌。它們都被分類到相應的類別中。為了推動圖神經網絡進入一個新的階段,我們總結了未來的四個研究方向,以克服所面臨的挑戰。希望有越來越多的學者能夠理解和開發圖神經網絡,并將其應用到自己的研究領域。
網址:
9、Efficient Transformers: A Survey(高效Transformer)
【Google】最新《高效Transformers》綜述大全,Efficient Transformers: A Survey
作者:Yi Tay, Mostafa Dehghani, Dara Bahri, Donald Metzler
摘要:Transformer模型架構最近引起了極大的興趣,因為它們在語言、視覺和強化學習等領域的有效性。例如,在自然語言處理領域,Transformer已經成為現代深度學習堆棧中不可缺少的主要部分。最近,提出的令人眼花繚亂的X-former模型如Linformer, Performer, Longformer等這些都改進了原始Transformer架構的X-former模型,其中許多改進了計算和內存效率。為了幫助熱心的研究人員在這一混亂中給予指導,本文描述了大量經過深思熟慮的最新高效X-former模型的選擇,提供了一個跨多個領域的現有工作和模型的有組織和全面的概述。
圖片
網址:
10、Self-supervised Learning: Generative or Contrastive(自監督學習)
作者:Xiao Liu, Fanjin Zhang, Zhenyu Hou, Zhaoyu Wang, Li Mian, Jing Zhang, Jie Tang
摘要:深度監督學習在過去的十年中取得了巨大的成功。然而,它依賴于手工標簽的缺陷和易受攻擊的弱點促使人們探索更好的解決方案。作為另一種學習方式,自監督學習以其在表征學習領域的飛速發展吸引了眾多研究者的關注。自監督表示學習利用輸入數據本身作為監督,并使得幾乎所有類型的下游任務從中受益。在這項綜述中,我們著眼于新的自監督學習方法,用于計算機視覺、自然語言處理和圖學習。我們全面回顧了現有的實證方法,并根據它們的目的將它們歸納為三大類:生成型、對比型和生成-對比型(對抗型)。我們進一步研究了相關的理論分析工作,以提供對自監督學習如何工作的更深層次的思考。最后,我們簡要討論了自監督學習有待解決的問題和未來的發展方向。
網址:
在計算機視覺領域,全景分割是一個新穎且重要的研究問題,它是機器感知、自動駕駛等新興前沿技術的基石,有著十分重要的研究意義. 本文綜述了基于深度學習的全景分割研究的最新進展,總結了全景分割任務的基本處理流程,并對已發表的全景分割工作基于其網絡結構特點進行分類,并作了全面的介紹與分析,最后對全景分割任務目前面臨的問題以及未來的發展趨勢做出了分析,并針對所面臨的問題提出了一些切實可行的解決思路.
全景分割[1]是將圖像劃分為語義區域(stuff)和 對象實例(things)的任務,是近年來新興起的一個研 究方向,也是計算機視覺中一個重要的研究問題. 隨著圖像處理技術的發展,數字圖像已經成為日常 生活中不可缺少的媒介,每時每刻都在產生圖像數 據. 對圖像中的物體進行快速準確的分割變得愈發重要.
全景分割包含語義分割和實例分割兩大任務. 語義分割是將類別標簽按圖像中物體類別分配給 每個像素,即將輸入圖像中的像素分為不同的語義 類別. 傳統的語義分割方法多數基于模型驅動,模 型驅動方法可分為生成式和判別式[2] . 生成式模型 首先學習圖像的特征和標簽概率,然后計算輸入圖 像特征時各個標簽的后驗概率,依據此概率對圖像 進行標注. 馬爾科夫隨機場(Markov Random Field, MRF)是一種應用廣泛的生成式模型[3],它利用先驗上下文信息和訓練得到的結果,提高分割性能. 但 是當圖像較大時,分割速度和精度會大幅下降. 判 別式模型假設圖像特征與標簽之間存在某種映射 關系,然后從歷史數據學習該映射關系的相關參數 [2] . 典型的判別式模型包括支持向量機(Support Vector Machine, SVM)、條件隨機場(Conditional Random Field, CRF)等. SVM 因其可處理非線性且 具有良好的泛化能力,在語義分割研究中得到了廣 泛應用[3]. CRF 不僅可以利用圖像上下文信息,還 可學習從局部到全局的上下文信息,已經成功應用 于圖像標記[4] . 然而,判別式模型存在收斂速度慢無法解決存在隱變量的情況等不容忽視的問題.
近年來,隨著硬件計算能力的提高,語義分割 得到快速發展. 隨著全卷積網絡(fully convolutional network, FCN)的出現[5],深度學習推動語義分割任 務快速發展,并且在自動駕駛、人臉識別等領域得 到應用.
實例分割實質上是目標檢測和語義分割的結合,目的是將輸入圖像中的目標檢測出來,并且對 每個像素分配類別標簽. 實例分割能夠對前景語義 類別相同的不同實例進行區分,這是它與語義分割 的最大區別. 相比語義分割,實例分割發展較晚, 因此實例分割模型主要基于深度學習技術,但它也 是圖像分割一個重要的組成部分. 隨著深度學習的 發展,實例分割相繼出現了 SDS [6]、DeepMask [7]、 MultiPath Network [8]等方法,分割精度和效率逐漸 得到提升.
全景分割是語義分割和實例分割的綜合. 全景 分割任務不僅要求區分輸入圖像中的背景語義類 別和前景語義類別,還要將同一類別前景語義中的 不同實例分割出來,因此全景分割任務比語義分 割、實例分割任務的難度更高. 全景分割由 Kirillov 等人[1]于 2018 年提出,已經得到計算機視覺學界的 高度重視,涌現出 JSIS-Net[9]、TASCNet[10]、AUNet[11] 等方法,顯著推動了全景分割的發展. 但是在真實 環境下,全景分割經常遇到以下挑戰:
(1) 分支融合沖突 全景分割任務是語義分割與實例分割兩個任務的綜合,在網絡結構方面,現有大部分方法將輸 入圖像的特征輸入到語義分支與實例分支,然后融 合兩個分支的輸出,得到全景輸出. 但是在融合時 會出現像素分配沖突,影響全景預測質量.
(2) 小物體檢測分割 數據集中的圖像會出現大小、距離不一的許多 物體,對于大物體,諸多全景分割方法能夠對其進 行準確分割,當小物體出現時,經常伴隨被忽略或 者分割不準確的問題,這導致全景分割精度較低, 直接增加了全景分割的難度.
(3) 分割對象交疊 在圖像采集過程中,會因為季節、天氣、光照、 距離等條件的變化,出現不同的場景,圖像中物體 會出現遮擋交疊等情況,這使得分割方法無法準確 判斷像素的歸屬,導致分割不精確. 為了克服上述挑戰,已經出現了一些全景分割 方法,它們在分支融合、小物體檢測、遮擋處理方 面提出了不同的應對策略,在一定程度上解決了這 些問題.
本文首先介紹全景分割的流程,然后重點 介紹深度學習在全景分割領域的研究進展. 本文內容安排如下:第 1 節介紹全景分割的基 本流程;第 2 節對語義分割、實例分割等相關知識 以及全景分割數據集進行介紹;第 3 節介紹深度學 習在全景分割領域的研究進展;第 4 節討論全景分 割研究面臨的挑戰,并對今后的發展趨勢進行展 望;第 5 節對本文進行總結.
小樣本學習旨在通過少量樣本學習到解決問題的模型.近年來在大數據訓練模型的趨勢下,機器學習和深度學習在許多領域中取得了成功.但是在現實世界中的很多應用場景中,樣本量很少或者標注樣本很少,而對大量無標簽樣本進行標注工作將會耗費很大的人力.所以,如何用少量樣本進行學習就成為了目前人們需要關注的問題.本文系統梳理了當前小樣本學習的相關工作,具體介紹了基于模型微調、基于數據增強和基于遷移學習三大類小樣本學習模型與算法的研究進展;本文將基于數據增強的方法細分為基于無標簽數據、基于數據合成和基于特征增強三類,將基于遷移學習的方法細分為基于度量學習、基于元學習和基于圖神經網絡三類.本文還總結了目前常用的小樣本數據集,以及代表性的小樣本學習模型在這些數據集上的實驗結果,隨后對小樣本學習的現狀和挑戰進行了概述,最后展望了小樣本學習的未來發展方向.
//www.jos.org.cn/jos/ch/reader/create_pdf.aspx?file_no=6138&journal_id=jos
隨著大數據時代的到來,深度學習模型已經在圖像分類、文本分類等任務中取得了先進成果.但深度學習模型的成功很大程度 上依賴于大量訓練數據,而在現實世界的真實場景中某些類別只有少量數據或少量標注數據,而對無標簽數據進行標注將會消耗 大量的時間和人力.與此相反,人類只需要通過少量數據就能做到快速學習.例如一個五六歲的小孩子從未見過企鵝,但如果給他看 過一張企鵝的圖像,當他進入動物園看到真正的企鵝時,就會馬上認出這是自己曾經在圖像上見過的“企鵝”,這就是機器學習和人類學習之間存在的差距.受到人類學習觀點的啟發[1],小樣本學習[2] [3](few-shot learning)的概念被提出,使得機器學習更加靠近人類思維.
早在 20 世紀八九十年代,就有一些研究人員注意到了單樣本學習(one-shot learning)的問題,直到 2003 年 Li 等[4]才正式提出了 單樣本學習的概念.他們認為當新的類別只有一個或幾個帶標簽的樣本時,已經學習到的舊類別可以幫助預測新類別[5].小樣本學 習也叫作少樣本學習(low-shot learning) [7],其目標是從少量樣本中學習到解決問題的方法.與小樣本學習相關的概念還有零樣本學 習(zero-shot learning)等.零樣本學習是指在沒有訓練數據的情況下,利用類別的屬性等信息訓練模型,從而識別新類別.
小樣本學習的概念最早從計算機視覺(Computer Vision) [8]領域興起,近幾年受到廣泛關注,在圖像分類任務中已有很多性能優 異的算法模型[34][37][45].但是在自然語言處理領域(Natural Language Processing) [9]的發展較為緩慢,原因在于圖像和語言特性不同.圖 像相比文本更為客觀,所以當樣本數量較少時,圖像的特征提取比文本更加容易[87].不過近年來小樣本學習在自然語言處理領域也 有了一些研究和發展[10][46][48].根據所采用方法的不同,本文將小樣本學習分為基于模型微調、基于數據增強和基于遷移學習三種. 基于模型微調的方法首先在含有大量數據的源數據集上訓練一個分類模型,然后在含有少量數據的目標數據集上對模型進行微 調.但這種做法可能導致模型過擬合,因為少量數據并不能很好地反映大量數據的真實分布情況.為解決上述過擬合的問題,基于數 據增強和基于遷移學習的小樣本學習方法被提出.基于數據增強的方法是利用輔助數據集或者輔助信息增強目標數據集中樣本的 特征或擴充對目標數據集,使模型能更好地提取特征.本文根據學習方法不同,將基于數據增強的小樣本學習方法進一步細分為基 于無標簽數據、基于數據合成和基于特征增強三類方法.基于遷移學習的方法是目前比較前沿的方法,是指將已經學會的知識遷移 到一個新的領域中.本文根據學習框架將基于遷移學習的方法細分為基于度量學習、基于元學習和基于圖神經網絡(Graph Neural Networks)的方法.在度量學習的框架下目前已有許多性能較好的小樣本學習模型,例如比較著名的原型網絡(Prototypical Networks) [34]和匹配網絡(Matching Networks) [31]等.基于元學習的方法不僅在目標任務上訓練模型,而是從許多不同的任務中學習 元知識,當一個新的任務到來時,利用元知識調整模型參數,使模型能夠快速收斂.近年來隨著圖神經網絡的興起,研究者將圖神經網 絡也應用到小樣本學習中,取得了先進的結果.
除了圖像分類和文本分類這兩個主要任務,許多其他任務也面臨著小樣本問題.在計算機視覺應用中,利用小樣本學習進行人臉識別[8][60][82]、食品識別[61]、表情識別[66]、手寫字體識別[70][79]以及其他的圖像識別[65]. 在自然語言處理應用中,使用小樣本方法 實現對話系統[67]、口語理解[62],或者完成 NLP 的基本任務,例如 word embedding[63].在多媒體領域應用中,可以使用小樣本方法實現 影像提取[73]和聲紋識別[80]等.在生物與醫學領域,可以應用于疾病診斷[71][72]、臨床實驗[84]、護士能力評價[75]、農作物病害識別[69][81]、 水量分析[76]等.在經濟領域,可應用于產品銷量預測[77]等.在工業與軍事領域,可應用于齒輪泵壽命預測[78]、軍事目標識別[74]和目標 威脅評估[83]等.
本文首先從基于模型微調、基于數據增強和基于遷移學習三種方法介紹小樣本學習的研究進展,總結小樣本學習的幾個著名數據集以及已有模型在這些數據集上的實驗結果;接下來,本文對小樣本學習的研究現狀和主要挑戰進行總結;最后展望了未來的 發展趨勢.