亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

雖然深度強化學習(RL)在機器學習領域取得了多項引人注目的成功,但由于其通常較差的數據效率和所產生的策略的有限通用性,它未能得到更廣泛的采用。緩解這些限制的一個有希望的方法是,在稱為元強化學習的過程中,將更好的強化學習算法的開發本身視為一個機器學習問題。元強化學習最常在問題環境中進行研究,在給定任務分布的情況下,目標是學習一種策略,該策略能夠從盡可能少的數據的任務分布中適應任何新任務。**本文詳細描述了元強化學習問題的設置及其主要變化。**本文討論了如何在高層次上基于任務分布的存在和每個單獨任務的可用學習預算對元強化學習研究進行聚類。使用這些聚類,綜述了元強化學習算法和應用。最后,提出了使元強化學習成為深度強化學習從業者標準工具箱一部分的道路上的開放問題。

//www.zhuanzhi.ai/paper/bbd26798bcb89638b3308c8dfc2a8e20

**1. 引言****元強化學習(Meta-reinforcement learning, meta-RL)是一種學習強化學習的機器學習(machine learning, ML)方法。**也就是說,元強化學習使用樣本效率低的機器學習來學習樣本效率高的強化學習算法或其組件。因此,元強化學習是元學習[225,91,94]的特殊情況,其學習算法是強化學習算法。元強化學習作為一個機器學習問題已經被研究了很長一段時間[197,199,224,198]。有趣的是,研究也顯示大腦中存在meta-RL的類似物[238]。Meta-RL有潛力克服現有人類設計的RL算法的一些限制。雖然在過去幾年中,深度強化學習取得了重大進展,例如掌握圍棋游戲[209]、平流層氣球導航[21]或機器人在挑戰性地形中的運動[148]等成功故事。RL的采樣效率仍然很低,這限制了它的實際應用。元強化學習可以產生比現有強化學習方法更有效的強化學習算法(組件),甚至可以為以前難以解決的問題提供解決方案。與此同時,提高樣本效率的承諾伴隨著兩個成本。首先,元學習需要比標準學習多得多的數據,因為它訓練整個學習算法(通常跨多個任務)。其次,元學習使學習算法適應元訓練數據,這可能會降低其對其他數據的泛化能力。因此,元學習提供的權衡是提高測試時的樣本效率,代價是訓練時的樣本效率和測試時的通用性。示例應用程序考慮使用機器人廚師進行自動化烹飪的任務。當這樣的機器人部署在某人的廚房時,它必須學習一個特定于廚房的策略,因為每個廚房都有不同的布局和設備。由于在訓練早期的隨機行為,直接在一個新的廚房中從頭開始訓練機器人太耗時,并且有潛在的危險。一種選擇是在單個訓練廚房中對機器人進行預訓練,然后在新的廚房中對其進行微調。然而,這種方法沒有考慮到后續的微調過程。相比之下,元強化學習將在訓練廚房的分布上訓練機器人,以便它可以適應該分布中的任何新廚房。這可能需要學習一些參數以實現更好的微調,或者學習將部署在新廚房中的整個強化學習算法。通過這種方式訓練的機器人既可以更好地利用收集的數據,也可以收集更好的數據,例如,通過關注新廚房的不尋常或具有挑戰性的特征。這種元學習過程需要比簡單的微調方法更多的樣本,但它只需要發生一次,當部署在新的測試廚房時,由此產生的適應過程可以顯著提高樣本效率。這個例子說明,通常情況下,當需要頻繁地進行有效的自適應時,元強化學習可能特別有用,因此元訓練的成本相對較小。這包括但不限于安全關鍵的強化學習領域,在這些領域中,有效的數據收集是必要的,探索新行為的成本過高或危險。在許多情況下,大量的樣本投資低效的前期學習(在監督下,在實驗室中,或在模擬中)是值得的,以實現后續改進的適應行為。

本綜述的目的是提供一個元強化學習的入口,以及對該領域和開放研究領域的現狀的反思。在第2節中,我們定義了元強化學習和它可以應用的不同問題設置,以及兩個示例算法。在第3節中,我們考慮了元強化學習中最普遍的問題設置:少樣本元強化學習。本文的目標是學習能夠快速自適應的RL算法,即在少量的情節中學習任務。這些算法通常是在給定的任務分布上進行訓練的,并且元學習如何有效地適應該分布中的任何任務。圖1展示了一個簡單的例子來說明這個設置。在這里,智能體經過元訓練,以學習如何導航到2D平面上不同的(最初未知的)目標位置。在元測試時,該智能體能夠有效地適應目標位置未知的新任務。在第4節中,我們考慮多樣本的設置。這里的目標是學習通用的RL算法,而不是特定于狹窄的任務分布,類似于目前在實踐中使用的算法。有兩種方式:如上所述的對任務分布進行訓練,或者對單個任務進行訓練,但同時進行元學習和標準強化學習訓練。接下來,第5節介紹了元強化學習的一些應用,如機器人。最后,我們在第6節討論開放問題。這些包括對少樣本元強化學習的更廣泛任務分布的泛化,多樣本元強化學習中的優化挑戰,以及元訓練成本的減少。

付費5元查看完整內容

相關內容

Meta RL(Meta Reinforcement Learning)是Meta Learning應用到Reinforcement Learning的一個研究方向,核心的想法就是希望AI在學習大量的RL任務中獲取足夠的先驗知識Prior Knowledge然后在面對新的RL任務時能夠 學的更快,學的更好,能夠自適應新環境!

摘要: 近年來,隨著信息技術的不斷發展,各種數據呈現爆炸式的增長,傳統的機器學習算法只有當測試數據與訓練數據分布類似時,學習算法才能取得較好的性能,換句話說,它們不能在動態環境中連續自適應地學習,然而,這種自適應學習的能力卻是任何智能系統都具備的特性.深度神經網絡在許多應用中顯示出最好的學習能力,然而,使用該方法對數據進行增量更新學習時,會面臨災難性的干擾或遺忘問題,導致模型在學習新任務之后忘記如何解決舊任務. 連續學習(continual learning, CL)的研究使這一問題得到緩解.連續學習是模擬大腦學習的過程,按照一定的順序對連續非獨立同分布的(independently and identically distributed, IID)流數據進行學習,進而根據任務的執行結果對模型進行增量式更新. 連續學習的意義在于高效地轉化和利用已經學過的知識來完成新任務的學習,并且能夠極大程度地降低遺忘帶來的問題.連續學習研究對智能計算系統自適應地適應環境改變具有重要的意義. 基于此,系統綜述了連續學習的研究進展,首先概述了連續學習的定義,介紹了無遺忘學習、彈性權重整合和梯度情景記憶3種典型的連續學習模型,并對連續學習存在的關鍵問題及解決方法進行了介紹,之后又對基于正則化、動態結構和記憶回放互補學習系統的3類連續學習模型進行了分類和闡述,并在最后指明了連續學習進一步研究中需要解決的問題以及未來可能的發展方向.

//crad.ict.ac.cn/CN/10.7544/issn1000-1239.20201058#1

近年來,隨著機器學習(machinelearning,ML) 領域的快速發展,機器學習在自然圖像分類、人臉識 別等領域取得了一定的成果,深度學習的成功使機 器學習的發展達到了另一個新的高度.然而,在現實 世界中,機器學習系統總是會遇到連續任務學習問 題,因此,如何對連續任務進行有效學習是當前研究 的重點之一.現有的機器學習方法雖然可以在任務 上取得較高的性能,但只有當測試數據與訓練數據 概率分布類似時,機器學習才能取得較好的性能.換 句話說,目前的機器學習算法不能在動態環境中持 續自適應地學習,因為在動態環境中,任務可能會發 生顯著變化,然而,這種自適應的學習能力卻是任何 智能系統都具有的能力,也是實現智能生物系統學 習的重要標志.

目前,深度神經網絡在許多應用中顯示出非凡 的預測和推理能力,然而,當通過基于梯度更新的方 法對模型進行增量更新時,模型會出現災難性的干 擾或遺忘問題,這一問題將直接導致模型性能的迅 速下降,即模型在學習新任務之后,由于參數更新對 模型引起的干擾,將使得學習的模型忘記如何解決 舊任務.人類和動物似乎學到了很多不同的知識,并 且總是能不遺忘過去學到的知識,并將其應用在未 來的學習任務中,受人和動物這種學習方式的啟發, 很自然地將這種想法運用到機器學習領域,即隨著 時間的推移,模型能夠不斷學習新知識,同時保留以 前學到的知識,這種不斷學習的能力被稱為連續學 習.連續學習最主要的目的是高效地轉化和利用已 經學過的知識來完成新任務的學習,并且能夠極大 程度地降低災難性遺忘帶來的問題.近年來,隨著深度學習的不斷發展,連續學習的研究已經受到極大 的關注,

因為連續學習主要有2點優勢: **1)不需要保存之前任務上學習過的訓練數據, 從而實現節約內存,同時解決了由于物理設備(例如 機器內存)或學習策略(例如隱私保護)的限制,導致 數據不能被長期存儲這一問題. **

2)模型能夠保存之前任務所學習的知識,并且 能夠極大程度地將之前任務學習到的知識運用到未 來任務的學習中,提高學習效率。

**

****1 連續學習概述 **

**1.1 連續學習的形成與發展 **

在現實世界中,機器學習系統處于連續的信息 流中,因此需要從不斷改變的概率分布中學習和記 住多個任務.隨著時間的推移,不斷學習新知識,同 時保留以前學到知識,具備這種不斷學習的能力稱 為連續學習或終身學習.因此,使智能學習系統具備 連續學 習 的 能 力 一 直 是 人 工 智 能 系 統 面 臨 的 挑 戰[1G2].災難性遺忘或災難性干擾一直是連續學習所 研究的重點,即當模型對新任務進行學習時會遺忘 之前任務所學習的知識,這種現象通常會導致模型 性能的突然下降,或者在最壞的情況下,導致新知識 完全覆蓋舊知識.因此,克服災難性遺忘是人工智能 系統邁向更加智能化的重要一步. 早期學者們曾嘗試為系統增加一個存儲模塊來 保存以前的數據,并定期對之前所學的知識與新樣 本的交叉數據進行回放來緩解災難性遺忘這一問 題[3],這類方法一直延續至今[4G5].然而,基于存儲模塊連續學習方法的一個普遍缺點是它們需要顯式存 儲舊任務信息,這將導致較大的工作內存需求,此 外,在計算和存儲資源固定的情況下,應設計專門的 機制保護和鞏固舊的知識不被新學習的知識所覆 蓋.在此基 礎 上,Rusu 等 人[6G7]嘗 試 在 新 任 務 到 來 時,分配額外的資源來緩解災難性遺忘.然而,這種 方法隨著任務數量的不斷增加,神經網絡架構將不 斷增加,進而直接降低模型的可伸縮性.由于連續學 習場景中不能預先知道任務數量和樣本大小,因此, 在沒有對輸入訓練樣本的概率分布做出很強的假設 情況下,預先定義足夠的存儲資源是不可避免的.在 這種情況下,Richardson等人[8]提出了針對連續學 習模型避免災難性遺忘的3個關鍵方面:1)為新知 識分配額外的神經元;2)如果資源是固定的,則使用 新舊知識的非重疊表示;3)把舊的知識疊加到新的 知識上作為新的信息.在此基礎上,受神經科學理論 的啟發,基于正則化策略、動態結構策略以及記憶策 略等一系列連續學習的方法相繼被提出.

如圖1所示,在連續學習過程中,智能體逐個對 每個連續的非獨立均勻分布流數據示例進行學習, 并且該智能體對每個示例只進行一次訪問.這種學 習方式與動物學習過程更為接近.如果我們忽略各 個任務的先后次序問題,單獨訓練每個任務,這將導 致災難性遺忘,這也是連續學習一直以來所面臨的 最大問題.因此,連續學習的本質,是通過各種手段 高效地轉化和利用已經學過的知識來完成新任務的 學習,并且能夠極大程度地降低遺忘帶來的問題。

**1.2 連續學習場景 **

連續學習的問題是指模型能夠連續學習一系列 任務,其中,在訓練期間,只有當前任務數據可用,并 且假設任務間是有明顯的分界[9].近年來,對這一問 題,研究者們已展開積極的研究,提出了許多緩解連 續學習過程中災難性遺忘的方法.然而,由于各實驗 方案的不同,因此直接對各方法進行比較評估顯然 不可行.尤其是模型任務標識不可用等問題,這將直 接影響模型實現的難易程度.因此,為了使評價更加 標準化,并且也為了使實驗結果比較更具意義,在此 首先對連續學習過程中的3個學習場景進行簡要概 括[10],如表1所示:

在第1個學習場景中,模型總是被告知需要執 行哪些任務,這也是最簡單的連續學習場景,將其稱 為任務增量學習(taskGincrementallearning,TaskG IL).近年來,提出的大部分連續學習方法在此場景都是適用的,且都具有較好的實驗效果,例如正則化 方法和動態結構方法等. 在第2個學習場景中,通常將其稱之為域增量 學 習 (domainGincrementallearning,DomainGIL), 任務標識不可用,模型只需要解決手頭的任務,模型 也不需要推斷這是哪個任務.文獻[11]的實驗結果 證明,基于情景記憶的方法在該場景下有較好的實 驗結果,例如 GER,DGR,RtF 等,然而基于正則化 方法,例如 EWC,LwF,SI等,模型學習的準確率相 對較差. 在第3個學習場景中,模型必須能夠解決到目 前為止所看到的每個任務,并且還能夠推斷出它們 所面臨 的 任 務,將 此 場 景 稱 為 類 增 量 學 習 (classG incrementallearning,ClassGIL),在 該 場 景 中 包 含 一個很常見的實際問題,即增量地學習對象的新類. 此場景是這3個場景中最為復雜的,也是最接近現 實中的學習場景,近年來,針對此場景下的連續學習 方法也相繼提出.例如,通過存儲之前任務數據的樣 本,緩解系統遺忘方法:文獻[5]提出一種iCarl的 連續學習方法,該方法通過在每個類中找出 m 個最 具代表性的樣本,那么其平均特征空間將最接近類 的整個特征空間,最后的分類任務是通過最接近樣 本均值的分類器來完成的;文獻[12]介紹了對遺忘 和不妥協量化的度量方法,進而提出一種稱為 RWalk 方法,完成類增量場景下的學習;文獻[13]提出一種 動態網絡擴展機制,通過由所學習的二進制掩碼動 態確定網絡所需增加的容量,以確保足夠的模型容 量來適應不斷傳入的任務.

**1.3 連續學習相關領域研究 **

連續學習相關的領域研究主要包括多任務學習 和遷移學習. 1) 多任務學習.多任務學習的目的是能夠結合 所有任務的共同知識,同時改進所有單個任務的學 習性能,因此,多任務學習要求每個任務與其他任務 共享模型參數,或每個任務有帶約束的模型參數,別 的任務能夠給當前學習任務提供額外的訓練數據, 以此來作為其他任務的正則化形式.也就是說,多任 務學習的良好效果依賴于單個函數的共享參數化以 及對多個損失同時進行估計和求平均.當同時訓練 多個任務的共享層時,必須學習一個公共表示,從而 有效地對每個任務進行交叉正則化,約束單個任務 的模型. 對于神經網絡而言,Caruana [14]對多任務學習 進行了詳細的研究,指出網絡的底層是共享的,而頂層是針對于特定任務的,多任務學習需要所有任務 的數據,此外,多任務學習隨著時間的推移,不會積 累任何知識,也就是說沒有持續學習的概念,這也是 多任務學習的關鍵問題所在. 2)遷移學習.遷移學習是使用源域來幫助另一 個任務完成目標域學習的一種學習方式[15].它假設 源域S 中有大量的標記訓練數據,而目標域T 只有 很少或沒有標記的訓練數據,但有大量未標記的數 據.遷移學習可以利用被標記的數據來幫助完成目 標域中的學習.然而遷移學習與連續學習,主要有 4個不同:①遷移學習不是連續的,它僅僅是使用了 源域來幫助完成目標域學習;②遷移學習并沒有將 過去所學的知識進行積累;③遷移學習是單向進行 的,也就是說,遷移學習僅可使用源域來幫助完成目 標域的學習,然而,連續學習是可以在任何方向上進 行學習的;④遷移學習假設源域與目標域非常相似, 且這種相似性是人為決定的,然而在連續學習中并 沒有做出這樣一個很強的限制性假設.

2 連續學習的典型模型

**

**

**2.1 無遺忘學習 **

Li等人[16]在2017年提出了一種由卷積神經網 絡(convolutionalneuralnetwork,CNN)組成的無 遺忘學習(learningwithoutforgetting,LwF)方法, 該方法將知識蒸餾(knowledgedistillation,KD)[17] 與細調方法[18]相結合,其中,利用知識蒸餾策略來 避免對之前知識的遺忘.

**2.2 彈性權重整合 **

Kirkpatrick等人[19]在2017年提出了一種結合 監督學習和強化學習方法,即彈性權重整合(elastic weightconsolidation,EWC)方法.在提出的模型目 標函數中,包括了對新舊任務之間模型參數的懲罰 項,從而有效緩解對先前學習的知識中與當下任務 相關知識遺忘.彈性權重整合示意圖如圖3所示:

**2.3 梯度情景記憶 **

LopezGPaz等人[20]在2017年提出梯度情景記憶 模型(gradientepisodicmemory,GEM),該模型能 夠實現知識正向遷移到先前任務的功能,以及將先 前任務學習的知識正向地遷移到當前任務上。

**2.4 分析比較 **

LwF方法僅需要使用新任務的數據,對新任務 進行優化,以提高新任務上模型預測的準確性,并保 持神經網絡對以前任務的預測性能.這種方法類似 于聯合訓練方法,但是該學習方法不使用舊任務的 數據和標簽數據.實驗表明,LwF 方法可以極大地 提高算法的分類性能以及計算效率,簡化了學習過 程,一旦學習了一個新的任務,訓練過的數據將不需 要再被保存或者回放.然而,這種方法的缺點是學習 的性能高度依賴于任務的相關性,并且單個任務的 訓練時間隨著學習任務的個數線性增加.雖然蒸餾 方法為多任務學習提供了一個潛在的解決方案,但 它需要為每個學習任務持久存儲數據.另外需要注 意,LwF方法不能被直接運用到強化學習場景中; EWC方法通過使用 FIM 對網絡參數進行約束,降 低模型對以前所學知識的遺忘程度,此外,該方法在 訓練過程 中 不 增 加 任 何 計 算 負 擔,但 這 是 以 計 算 FIM 為代價的,需存儲FIM 的值以及以前學習模型 參數 的 副 本;LopezGPaz 等 人[20]的 實 驗 結 果 表 明 GEM 模型,相較于 LwF 和 EWC 方法具有較好的 實驗效果,但是,該方法在訓練時,由于對于每個任 務都需要進行情景記憶,因此需要更多的內存空間, 所需的內 存 是 EWC 用 于 保 存 過 去 信 息 大 小 的 2 倍,與其他方法相比內存開銷較大,并且隨著學習任 務數量的增加,訓練成本急劇增加,此外該方法也不 能增量地對新的類別進行學習;同時提高性能也將 加大計算負擔.

**3 連續學習的關鍵問題 **

3.1 災難性遺忘

災難性遺忘是連續學習面臨的最大挑戰.避免 災難性遺忘的問題,也就是說,在不斷完成有序到達 的新任務學習的同時,也能夠在之前學習過的任務 中表現得足夠好. Venkatesan等人[21]在2017年設計了一種結合 生成式模型和知識蒸餾技術的全新采樣策略,用其來產生 來 自 過 去 學 習 任 務 概 率 分 布 上 的 “幻 覺 數 據”,使模型在不訪問歷史數據的前提下,緩解連續 學習過程中的災難性遺忘問題;文獻[22]從序列貝 葉斯學習規則出發,假定數據序列到達時,用前一個 任務模型參數的后驗概率分布作為新任務模型參數 的先驗概率分布,為緩解連續學習過程中的災難性 遺忘問題提供一種解決方案;文獻[19]提出的正則 化方法在模型參數更新時增加約束,以此在保持已 有知識的前提下,實現對新任務的學習,來緩解災難 性遺忘等.

3.2 知識的正向遷移

連續學習過程中的知識正向遷移,即連續學習 應該能夠在學習新任務的同時,利用以前的任務中 學習到的知識來幫助新任務的學習,從而提高學習 的效率和質量. 文獻[23]實驗證明簡單的細調可以實現知識的 正向遷移;文獻[24]提出保留訓練好的模型基類信 息編碼,可將其知識遷移到模型要學習的新類中;文 獻[16]提出的 LwF方法中,使用蒸餾損失來保存 基類信息,進而使用保存的基類信息用于新數據的 訓練;文獻[6]通過繼承之前任務所學的知識,完成 對新任務的學習;LGM 模型是基于學生 教師的雙 重體系結構[25],教師的角色是保存過去的知識并幫 助學生學習未來的知識,該模型通過優化一個增廣 的 ELBO 目標函數很好地幫助完成師生知識的正 向遷移;文獻[26]提出一種符號程序生成(symbolic programsynthesis,SPS)的方法,來實現知識的正 向遷移等.

3.3 知識的正向和反向遷移

知識在反向傳播過程中的正向遷移,即如何利 用當前任務所學到的知識來幫助之前任務的學習是 連續學習模型研究的重點之一. 在連續學習場景中提出的 LwF模型或者具有 更為復雜正則化項的 EWC 模型,雖然可以在一定 程度上緩解災難性遺忘這一問題,然而卻無法實現 利用當前 任 務 知 識 來 幫 助 之 前 任 務 的 學 習.Li等 人[27]在2019年提出一種連續結構學習框架,當網 絡進行結構搜索時,l層被選擇“重用”,即第l層能 夠學習到一個與先前的某個任務非常相似的表示, 這要求l層的2個學習任務之間存在語義相關,因 此,在第l層上使用正則化項對模型進行相應的約 束來幫助之前任務的學習,該模型的提出為解決利 用當前任務知識來幫助之前任務的學習提供了思 路;LopezGPaz等人[20]提出梯度情景記憶模型,實現知識正向遷移到先前任務功能,進而提高模型對之 前任務學習的學習能力.

3.4 可伸縮性能力

連續學習方法應該具有可伸縮性或擴展能力, 也就是說,該方法既能完成小規模數據任務的訓練, 也能夠可伸縮地實現大規模任務上的訓練學習,同時 需要能夠保持足夠的能力來應付不斷增加的任務. Schwarz等人[28]在2018年提出一種進步和壓 縮框架(progressandcompressframework,P&C) 的連續學習模型,P&C模型是由知識庫(knowledge base)和活動列(activecolumn)兩部分組成,這個由 快速學習和整合組成的循環結構,使模型不需要結 構的增長,也不需要訪問和存儲以前的任務或數據, 也不需要特定的任務參數來完成對新任務的學習, 此外,由于 P&C模型使用了2個固定大小的列,所 以可以擴展到大規模任務上;文獻[9]提出一種動態 生成記憶模型(dynamicgenerativememory,DGM), 在 DGM 模型中,利用一個生成對抗結構來替代之 前模型的記憶模塊,來緩解災難性遺忘問題.其中, 該模型中還結合一個動態網絡擴展機制,以確保有足夠的模型容量來適應不斷傳入 的 新 任 務;Yoon 等人[29]在2018年提出了一種新型的面向終身連 續學 習 的 深 度 網 絡 結 構,稱 為 動 態 可 擴 展 網 絡 (dynamicallyexpandablenetwork,DEN),它 可 以 在對一系列任務進行訓練的同時動態地確定其網絡 容量,從而學習任務之間緊密重疊的知識共享結構, 進而有效地對各任務間的共享和私有知識進行學 習,不斷學習新任務的同時有效地緩解災難性遺忘.

4 連續學習方法研究進展

本節將具體介紹多個代表性的連續學習方法, 本文將把目前的連續學習分為基于正則化方法、基 于動態結構方法和基于情景記憶方法三大類,并闡 明不同方法之間的關系,還比較了這些方法在減輕 災難性遺忘性能的差異性.圖4是對近年來提出的 一些流行的連續學習策略韋恩圖總結. 連續學習中各個子類的分類圖如圖5~7所示. 圖中從模型引出到下一模型的箭頭,代表了下一模 型是在上一模型的基礎上發展演變得來.

目前為緩解連續學習過程中的災難性遺忘問 題,主要集中在引入正則化策略、動態結構策略和基 于情景記憶策略這3個方向進行研究.正則化方法 在模型更新時,通過對權重進行約束,實現在保持已 有知識的前提下,完成對新任務的學習,從而緩解災 難性遺忘這一問題,此外,這類方法通常不需要保存 任何以前的數據,只需要對每個任務進行一次訓練. 然而,該類方法克服災難性遺忘的能力是有限的,例 如在類增量學習(classGincrementallearning,ClassG IL)場景下性能不佳,此外,隨著任務數目的不斷增 加,對過去任務進行正則化處理,可能導致特征漂 移.動態地改變模型結構以便在不干擾之前任務的 學習知識的情況下學習新的任務,該類方法也可以 成功地緩解災難性遺忘這一問題,然而,該類方法不 能從任務之間的正向遷移中獲益,另外模型的大小 隨著觀察到的任務數量的增加而急劇增長,這使得它在實際問題中往往不可行.基于情景記憶的方法, 通過保存一些以前任務的樣例進行記憶回放來緩解 對之前所學習知識的遺忘,該類方法在減輕災難性 遺忘方面顯示出了巨大優勢,然而,計算成本卻隨著 先前任務的數量增加而快速增長,并且該方法需要 保存之前樣例,不利于數據安全保護.在基于情景記 憶的方法中,為替代存儲所學任務的樣例數據,提出 使用深層生成模型來記憶以前見過的數據分布,然 而該類方法往往需要從頭開始重新訓練生成模型, 訓練效率低,此外,在每次生成以前任務的新的真實 樣本時,還極易造成“語義漂移”,且隨著時間推移, 模型訓練準確性逐漸下降.

6 連續學習的應用

作為機器學習領域中的一個極具潛力的研究方 向,連續學習方法已經受到學者的極大青睞.隨著人 工智能及機器學習不斷的發展,基于連續學習的方 法已經獲得了較多應用,例如圖像分類、目標識別以 及自然語言處理等.以下將對近年來連續學習在各 領域的主要應用進行介紹.

6.1 圖像分類

Li等人[16]在2017年提出了一種由卷積神經網 絡組成的無遺忘學習方法,該方法將知識蒸餾與細 調方法相結合,利用知識蒸餾的方法來加強與當前 學習任務相關的已經學習過的知識,提高分類的準 確性;Kim 等人[70]提出基于 DOS的最大熵正則化 增量學 習 模 型(),該 模型通過最大熵正則化來減少對不確定遷移知識的 優化,以及利用 DOS來通過從新任務中選擇性地刪 除樣例減少對舊類的遺忘,以此減少記憶樣例中類 的不平衡,有效地完成連續學習過程中的圖像分類; Smith等人[71]在2019年提出一種新穎的自學習聯想 記憶框架(selfGtaughtassociativememory,STAM), 有效解決在連續學習過程中的無監督學習分類問 題;Aljundi等人[37]提出一種基于稀疏編碼的正則 化方法,實現利用具有固定容量的網絡進行有序學 習問題,在 CIFAR100和 MNIST 數據集上進行分 類的結果表明,該模型能夠有效地提高模型的分類 能力;Rostami等人[72]考慮到基于自編碼器的生成 模型能夠很好地對輸入樣例進行編碼,獲得較好的 隱特征表示,同時受并行分布式處理學習和互補學 習系統理論的啟發,提出一種新穎的計算模型,該模 型能夠將新學習的概念與之前模型學習的概念經過 統一編碼,進而形成一個統一的嵌入空間表示,實現 了利用之前學習的概念知識來有效地幫助只有少量 標簽樣例的新領域知識的學習,從而完成在連續學 習背景下的樣例分類.

6.2 目標識別

****Siam 等人[73]提出一種新穎的教師 學生自適 應框架,在無需人工標注的情況下,完成人機交互)背景下的視頻 目標對象分割(videoobjectsegmentation);Parisi等 人[7]提出了一種適用于終身學習場景的雙記憶自組 織體系結構,該模型結構主要包括一個深度卷積特 征提取模塊和2個分層排列的遞歸自組織網絡,進而 實現在終身學習場景下的視頻序列中的目標對象的 識別;Tessler等人[74]提出一種新穎的分層深度強化 學習網絡(hierarchicaldeepreinforcementlearning network,HGDRLN)框架,該模型在 Minecraft游戲 場景中,通過重用在之前任務中學習到的知識,進而 完成對未來任務場景的目標對象學習,提高效率,同 時,該模型的實驗結果也展示了在不需要額外學習 的情況下在相關 Minecraft任務之間遷移知識的潛 力;Michiel等人[10]將當前的基于任務標識已知的 序列學習方法推向了在線無任務標識的連續學習場 景中,首先,假設有一個無限輸入的數據流,其中該 數據流中包含現實場景中常見的逐漸或者突然的變 化.文獻[10]中提出一種基于重要權重正則化的連續 學習方法,與傳統的任務標識已知場景中不同,在該 場景中,該模型需要有效地檢測何時、如何以及在哪 些數據上執行重要性權重更新,進而有效地在無任 務標識場景下進行在線連續學習.該文中在監督學 習和自監督學習過程中都成功地驗證了該方法的有 效性.其中,具體而言,相較于基準學習方法,在電視 劇人臉識別和機器人碰撞等具體應用中,該方法的穩 定性和學習性能都有所提高.Tahir等人[75]考慮到 當下最先進的有關食物識別的深度學習模型不能實 現數據的增量學習,經常在增量學習場景中出現災難 性遺忘問題.因此,提出一種新的自適應簡化類增量 核極值學習機方法(adaptivereducedclassincremental kernelextremelearning machine,ARCIKELM), 進而完成目標食物對象的識別,其中在多個標準的 食物數據集的最終分類準確性證明了該模型可以有 效地進行增量學習.

6.3 自然語言處理

d??Autume等人[76]介紹了一種連續學習背景下 的自然語言學習模型,該模型實現了對在線文本數據 的有效學習.在文獻[76]中介紹了一種基于稀疏經 驗回放的方法有效地防止災難性遺忘,具體而言,對 于每10000個新的樣本隨機均勻選擇100個樣本在 固定的時間間隔進行稀疏經驗回放,實驗表明,該模 型在文本分類和問答系統等自然語言領域可以實現 較好的應用.Li等人[77]考慮到現有的方法大多集中 在對輸入和輸出大小固定的標簽預測連續學習任務上,因此,提出了一個新的連續學習場景,它處理自 然語言學習中常見的序列到序列的學習任務.實驗 結果表明,該方法比現有方法有明顯的改進,它能有 效地促進知識正向遷移,防止災難性遺忘.Kruszewski 等人[78]提出一種基于多語言和多領域背景下的語 言建模基準,該基準可以將任何明確的訓練樣例劃 分為不同的任務.與此同時,提出一種基于產品專家 (productofexperts,PoE)的多語言連續學習方法, Kruszewski等人的實驗結果證明,在進行多語言連 續學習時,該模型可以有效地緩解災難性遺忘.Hu 等人[79]對個性化在線語言學習 問 題 (personalized onlinelanguagelearning,POLL)進行研究,涉及到 適應個性化的語言模型以適應隨著時間發展的用戶 群體.為了有效地對 POLL問題進行研究,文獻[79] 的作者收集了大量的微博帖子作為訓練數據集,進 而對近年來流行的連續學習算法進行了嚴格評估, 并在此基礎上提出一種簡單的連續梯度下降算法 (continualgradientdescent,ConGraD),實驗結果 表明,該算法在 Firehose數據集和早期基準測試數 據集的實驗結果優于之前的連續學習方法.

**7 未來的研究方向 **

作為機器學習領域中的一個新興方向,連續學 習近幾年受到研究者們的極大關注,目前來看,連續 學習在未來的研究中有10個潛在的方向: 1) 基于經驗回放(experiencereplay)的模型相 較于其他連續學習模型有較好的性能,然而,容量的 飽和是該類模型中所面臨的重要挑戰,因此如何在 保持原有知識的同時,不斷提高模型的能力是未來 重要的研究方向. 2)對于任務不可知場景下的連續學習算法尚 需進一步研究.目前,大多連續學習算法要求在任務 邊界(taskboundaries)已知的場景中來進行訓練和 預測,即當需要學習一個新的任務時,模型需要被告 知有新的學習任務,例如,改變損失函數中的參數 等,以便系統能夠采取某些行動.然而,在任務之間 沒有明顯邊界,即任務的轉變是逐漸的或者連續的, 這些模型將不再適用.然而,在實際應用中,往往需 面對的是任務邊界不可知場景學習問題.文獻[9]從 貝葉斯的角度提出一種貝葉斯梯度下降算法(Bayes gradientdesent,BGD),對沒有明確定義的任務邊 界的連續學習問題提供一種解決思路,然而,基于此 場景的連續學習算法仍相對缺乏,尚需進一步研究. 3)利用多模態信息.現有的連續學習方法通常 使用來自單一模態(如圖像或文本)的知識進行建 模,然而,雖然當下訓練集有一些當前模態的樣例, 但是,樣例可能還存在另一個模態.因此,來自多模 態的知識可以為連續學習提供較為豐富的樣例信 息,進而提高模型的建模能力.因此如何有效地利用 這些多模態信息也是未來研究的重要方向. 4)在未來可以對當下連續學習模型應用的靈 活性進行進一步擴展研究,例如多感知領域的擴展. 文獻[80]可以從視聽流中不斷學習任務的特征,使 得連續學習的方法向更加廣泛的應用邁進一步.因 此,可以通過將連續學習方法部署在具體的代理中, 通過與環境的主動交互,在持續的時間內可以增量 地獲取和提取知識,以此來更好地完成對對象的識 別等任務. 5)數據集太小也是連續學習過程所面臨的挑 戰之一.例如,目前存在的iCubGT 和 CORe50數據 集,只包含幾十個常見的家庭對象類,缺乏大規模和 多樣性數據集.因此,創建一個更大的和更多樣化的 數據集,即可以包括數百個或數千個類,也可以包括 不同類型的識別,如人臉、場景以及活動等,對未來 的研究工作是至關重要的. 6)在實際分類問題中,數據的不平衡時常發生,易于導致數據的錯誤分類,因此如何從不平衡的 數據集中進行正確分類,也是未來連續學習研究的 一個重要方向. 7)在線學習.當前的連續學習方法多集中于對 每個單獨的任務進行離線訓練,然而,在實際應用中 數據往往以數據流的形式存在[81].因此,如何對連 續的數據流進行學習是未來的一個重要的研究方向. 8)正向遷移.在連續學習方法中,正向遷移即 知識的正向遷移能力,也就是對新任務進行學習時, 如何有效地利用之前所學習的知識來有效地加快對 當前任務的學習.近年來,元學習方法的出現,為進 一步提高知識的正向遷移提供了前景.因此,如何有 效地利用元學習技術來盡可能地加快對當前任務的 學習是未來的一個重要的研究方向. 9)權衡 模 型 的 穩 定 性 與 可 塑 性.模 型 的 可 塑 性,即模型對學習新知識的能力.模型的穩定性,即 模型對已經學習知識的保留能力.在連續學習過程 中,如何有效地對模型的穩定性和可塑性進行權衡 是一個值得研究的問題. 10)應用領域擴展.大多實際應用場景都涉及 連續學習的問題,計算機視覺中圖像分類是連續學習最常用的實驗平臺之一.連續學習最近在許多其他 應用中也引起了廣泛關注,如機器人技術、自然語言 處理和視頻信號處理.總之,連續學習還有很多值得 探索的領域和應用.

付費5元查看完整內容

現代深度強化學習(RL)算法,盡管處于人工智能能力的最前沿,但通常需要大量的訓練樣本才能達到與人類相當的性能水平。這種嚴重的數據效率低下是深度RL實際應用的主要障礙:在沒有模擬器的情況下,深度RL幾乎不可能應用于任何領域。為了解決這種關鍵數據效率低下的問題,在本論文中,我們致力于設計能夠快速適應新環境的元學習智能體。與標準的強化學習相比,元學習在特定的環境分布上進行學習,從這些環境中采樣特定的任務,并直接優化元學習器,以提高策略改進的速度。通過利用與感興趣任務具有共同子結構的任務分布,元學習器可以調整自己的歸納偏見,使其能夠在測試時快速適應。

本論文的重點是設計元學習算法,利用記憶作為驅動快速適應新環境的主要機制。具有情景間記憶的元學習是一類元學習方法,利用基于特定環境的整個交互歷史的記憶架構來產生策略。因此,在特定任務中驅動策略改進的學習動態被包含在序列模型的計算過程中,本質上把學習算法的設計交給了體系結構。雖然概念簡單,但使用情景間記憶的元學習非常有效,仍然是最先進的方法。我們提出并討論了幾種通過記憶進行元學習的技術。

論文的第一部分集中在“具身”類環境,其中一個主體在一個類似自然世界的環境中有物理表現。我們利用這種高度結構化的環境集來設計具有快速記憶、規劃和狀態推斷能力的整體嵌入式代理體系結構。在論文的第二部分,我們將重點放在沒有強公共子結構的一般環境中應用的方法。首先,我們重新檢查元學習代理與環境的交互模式:提出用一個并行執行框架來取代典型的順序處理交互歷史,其中多個智能體并行地在環境中行動。接下來,我們討論了一個通用的和強大的序列模型的使用片段間存儲器,門控transformer,展示了性能和數據效率的巨大改進。最后,我們開發了一種方法,可以顯著降低(元)強化學習設置中transformer模型的訓練成本和作用延遲,目的是(1)使它們在研究社區中更廣泛地使用,(2)解鎖它們在實時和延遲受限的應用中使用,如機器人。

//www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf

付費5元查看完整內容

近年來,Transformer架構和變體在許多機器學習任務中取得了顯著的成功。這種成功本質上與處理長序列的能力以及注意力機制中上下文相關的權重的存在有關。我們認為這些能力符合元強化學習算法的核心作用。事實上,元強化學習代理需要從一系列軌跡推斷任務。此外,它需要一個快速適應策略來適應新的任務,這可以通過使用自我注意機制來實現。在這項工作中,我們提出了TrMRL(transformer 元強化學習),一個元強化學習l代理,模仿記憶恢復機制使用transformer 架構。它將最近過去的工作記憶聯系起來,遞歸地通過transformer層建立情景記憶。我們展示了自注意力計算出一種共識表示,在每一層將貝葉斯風險降到最低,并提供了有意義的特征來計算最佳行動。我們在運動和靈巧操作的高維連續控制環境中進行了實驗。結果表明,在這些環境中,與基線相比,TrMRL具有可比或更好的漸近性能、樣本效率和分布外泛化。

//www.zhuanzhi.ai/paper/1a6668cdd5003fa2b3f7803489661a0d

付費5元查看完整內容

盡管現代深度強化學習(RL)算法處于人工智能能力的前沿,但通常需要大量的訓練樣本才能達到與人類相當的性能水平。這種嚴重的數據效率低下是深度RL實際應用的主要障礙: 在沒有模擬器的情況下,幾乎不可能將深度RL應用到任何領域。為了解決這一關鍵的數據低效問題,在本文中,我們致力于設計能夠快速適應新環境的元學習智能體。與標準的強化學習相比,元學習在環境分布上進行學習,從環境中抽樣特定任務,并直接優化元學習者,以提高策略改進的速度。通過利用與感興趣任務共享子結構的任務分布,元學習者可以調整自己的歸納偏差,從而在測試時快速適應。本文主要研究元學習算法的設計,該算法利用記憶作為驅動在新環境中快速適應的主要機制。情景間記憶的元學習是一種利用基于特定環境的整個互動歷史的記憶架構來產生策略的元學習方法。因此,在特定任務中的學習動態驅動策略改進被包含在序列模型的計算過程中,本質上把學習算法的設計交給了體系結構。雖然概念上簡單明了,但使用情景間記憶的元學習非常有效,仍然是一種最先進的方法。我們提出并討論了一些通過記憶進行元學習的技巧。論文的第一部分集中在“具身”環境類,其中智能體人在一個類似于自然世界的環境中有一個物理表現。我們利用這種高度結構化的環境集,致力于設計具有快速記憶、規劃和狀態推斷能力的單片嵌入式代理體系結構。在論文的第二部分,我們將重點放在那些沒有強公共子結構的一般環境中應用的方法。首先,我們重新研究了元學習主體與環境的交互模式:提出用并發執行框架取代傳統的順序處理交互歷史,其中多個主體在環境中并行操作。接下來,我們將討論一種通用且功能強大的跨情景記憶序列模型——門控transformer的使用,它在性能和數據效率方面有了很大的改進。最后,我們開發一種方法,顯著降低訓練成本和代理延遲transformer 模型(元)強化學習設置,目的是對(1)在研究社區,使其使用更加廣泛,(2)解鎖使用實時和latency-constrained應用,如機器人。

//www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf

付費5元查看完整內容

深度學習在大量領域取得優異成果,但仍然存在著魯棒性和泛化性較差、難以學習和適應未觀測任務、極其依賴大規模數據等問題.近兩年元學習在深度學習上的發展,為解決上述問題提供了新的視野.元學習是一種模仿生物利用先前已有的知識,從而快速學習新的未見事物能力的一種學習定式.元學習的目標是利用已學習的信息,快速適應未學習的新任務.這與實現通用人工智能的目標相契合,對元學習問題的研究也是提高模型的魯棒性和泛化性的關鍵.近年來隨著深度學習的發展,元學習再度成為熱點,目前元學習的研究百家爭鳴、百花齊放. 本文從元學習的起源出發,系統地介紹元學習的發展歷史,包括元學習的由來和原始定義,然后給出當前元學習的通用定義,同時總結當前元學習一些不同方向的研究成果,包括基于度量的元學習方法、基于強泛化新的初始化參數的元學習方法、基于梯度優化器的元學習方法、基于外部記憶單元的元學方法、基于數據增強的元學方法等. 總結其共有的思想和存在的問題,對元學習的研究思想進行分類,并敘述不同方法和其相應的算法.最后論述了元學習研究中常用數據集和評判標準,并從元學習的自適應性、進化性、可解釋性、連續性、可擴展性展望其未來發展趨勢.

引言

隨著計算設備并行計算性能的大幅度 進步,以及近些年深度神經網絡在各個領域 不斷取得重大突破,由深度神經網絡模型衍 生而來的多個機器學習新領域也逐漸成型, 如強化學習、深度強化學習[1] [2] 、深度監督 學習等。在大量訓練數據的加持下,深度神 經網絡技術已經在機器翻譯、機器人控制、 大數據分析、智能推送、模式識別等方面取 得巨大成果[3] [4] [5] 。

實際上在機器學習與其他行業結合的 過程中,并不是所有領域都擁有足夠可以讓 深度神經網絡微調參數至收斂的海量數據, 相當多領域要求快速反應、快速學習,如新 興領域之一的仿人機器人領域,其面臨的現 實環境往往極為復雜且難以預測,若按照傳 統機器學習方法進行訓練則需要模擬所有 可能遇到的環境,工作量極大同時訓練成本 極高,嚴重制約了機器學習在其他領域的擴 展,因此在深度學習取得大量成果后,具有 自我學習能力與強泛化性能的元學習便成 為通用人工智能的關鍵。

元學習(Meta-learning)提出的目的是 針對傳統神經網絡模型泛化性能不足、對新 種類任務適應性較差的特點。在元學習介紹 中往往將元學習的訓練和測試過程類比為 人類在掌握一些基礎技能后可以快速學習并適應新任務,如兒童階段的人類也可以快 速通過一張某動物照片學會認出該動物,即 機 器 學 習 中 的 小 樣 本 學 習 ( Few-shot Learning)[6] [7] ,甚至不需要圖像,僅憑描 述就可學會認識新種類,對應機器學習領域 中的(Zero-shot Learning)[8] ,而不需要大 量該動物的不同照片。人類在幼兒階段掌握 的對世界的大量基礎知識和對行為模式的 認知基礎便對應元學習中的“元”概念,即一 個泛化性能強的初始網絡加上對新任務的 快速適應學習能力,元學習的遠期目標為通 過類似人類的學習能力實現強人工智能,當 前階段體現在對新數據集的快速適應帶來 較好的準確度,因此目前元學習主要表現為 提高泛化性能、獲取好的初始參數、通過少 量計算和新訓練數據即可在模型上實現和 海量訓練數據一樣的識別準確度,近些年基 于元學習,在小樣本學習領域做出了大量研 究[9] [10] [11] [12] [13] [14] [15] [16] [17] ,同時為模擬 人類認知,在 Zero-shot Learning 方向也進行 了大量探索[18] [19] [20] [21] [22] 。

在機器學習盛行之前,就已產生了元學習的相關概念。當時的元學習還停留在認知 教育科學相關領域,用于探討更加合理的教 學方法。Gene V. Glass 在 1976 年首次提出 了“元分析”這一概念[23] ,對大量的分析結 果進行統計分析,這是一種二次分析辦法。G Powell 使用“元分析”的方法對詞匯記憶 進行了研究[24] ,指出“強制”和“誘導”意象有 助于詞匯記憶。Donald B.Maudsley 在 1979 年首次提出了“元學習”這一概念,將其描述 為“學習者意識到并越來越多地控制他們已 經內化的感知、探究、學習和成長習慣的過 程”,Maudsley 將元學習做為在假設、結構、 變化、過程和發展這 5 個方面下的綜合,并 闡述了相關基本原則[25] 。BIGGS J.B 將元學 習描述為“意識到并控制自己的學習的狀 態” [26] ,即學習者對學習環境的感知。P Adey 將元學習的策略用在物理教學上[27] , Vanlehn K 探討了輔導教學中的元學習方法 [28] 。從元分析到元學習,研究人員主要關 注人是如何意識和控制自己學習的。一個具 有高度元學習觀念的學生,能夠從自己采用 的學習方法所產生的結果中獲得反饋信息,進一步評價自己的學習方法,更好地達到學 習目標[29] 。隨后元學習這一概念慢慢滲透 到機器學習領域。P.Chan 提出的元學習是一 種整合多種學習過程的技術,利用元學習的 策略組合多個不同算法設計的分類器,其整 體的準確度優于任何個別的學習算法[30] [31] [32] 。HilanBensusan 提出了基于元學習的決 策樹框架[33] 。Vilalta R 則認為元學習是通 過積累元知識動態地通過經驗來改善偏倚 的一種學習算法[34] 。

Meta-Learning 目前還沒有確切的定義, 一般認為一個元學習系統需結合三個要求:系統必須包含一個學習子系統;利用以前學 習中提取的元知識來獲得經驗,這些元知識 來自單個數據集或不同領域;動態選擇學習偏差。

元學習的目的就是為了設計一種機器學習模型,這種模型有類似上面提到的人的 學習特性,即使用少量樣本數據,快速學習 新的概念或技能。經過不同任務的訓練后, 元學習模型能很好的適應和泛化到一個新任務,也就學會了“Learning to learn”。

付費5元查看完整內容
北京阿比特科技有限公司