亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

因果推理提供了一套原則和工具,使人們能夠結合有關環境的數據和知識,推理出具有反事實性質的問題--即如果現實情況不同,會發生什么--即使目前沒有這種未實現現實的數據。強化學習提供了一系列方法,當智能體被部署在一個環境中,并采用探索性的試錯方法時,可以學習一種能優化特定衡量標準(如獎勵、遺憾)的策略。這兩門學科各自獨立發展,彼此之間幾乎沒有互動。我們注意到,它們在同一構件(即反事實關系)的不同方面進行操作,這使得它們之間有著千絲萬縷的聯系。基于這些觀察,我們進一步認識到,當這種聯系被明確承認、理解和數學化時,各種新的學習機會就會自然而然地產生。為了實現這一潛能,我們進一步指出,任何部署有智能體的環境都可以分解為一系列自主機制,這些自主機制會導致不同的因果不變性,并可被簡化為一個結構因果模型;今天的任何標準智能體設置都隱含地編碼了其中的一個模型。這種自然的形式化反過來又允許我們將不同的學習模式(包括在線學習、非策略學習和因果微積分學習)置于統一的處理之下,而這些模式在文獻中似乎并不相關。人們可能會猜測,這三種標準學習模式是詳盡無遺的,因為所有可能的反事實關系都可以通過它們的連續實施來學習。我們通過介紹幾類相當自然且普遍存在的學習環境,證明事實并非如此,這些學習環境并不符合這些模式,而是包含了新的分析維度和類型。具體來說,我們將通過因果視角介紹和討論離線到在線學習、在何處干預、模仿學習和反事實學習等問題。這一系列新任務和新理解將為反事實學習帶來更廣闊的視角,并表明因果推理和強化學習并行研究的巨大潛力,我們稱之為因果強化學習(CRL)。

關鍵詞 結構因果模型、干預、反事實、強化學習、可識別性、穩健性、策略外評估、模仿學習。

本文其余部分的組織結構如圖 2 所示。在第 2 節中,我們提供了理解本文其余部分所必需的背景和因果推斷的邏輯基礎。我們回顧了結構因果模型的定義(第 2.1 節)、觀察和干預分布的評估(第 2.2 節)以及在單片機中構建表示定性知識的因果圖(第 2.3 節)。本文提供了大量實例來說明這些概念。

第 3 章是基礎性章節,將 RL 中的不同學習模式與本章介紹的因果語言聯系起來。特別是,第 3 章使用單片機語義語言(稱為因果決策模型)將策略學習問題形式化(第 3.1 節)。基于這個框架,我們引入了因果強化學習任務,這些任務考慮了學習智能體的交互能力和智能體可獲取的環境先驗知識(第 3.2 節)。我們將 CRL 形式與馬爾可夫決策過程標準模型假設下的強化學習進行比較,強調這里不存在自由裁量權,因果知識是解決 CRL 任務不可或缺的。

第 4 節通過 CRL 框架研究強化學習和因果推理的經典學習任務,包括非策略學習(第 4.1 節)、在線學習(第 4.2 節)和因果識別(第 4.3 節)。具體而言,我們討論了針對上述各項任務進行策略學習的若干條件和算法程序。在最后一節中,我們介紹了一種圖形標準,它將非策略學習方法擴展到了結構因果關系語言中,在這種語言中,未觀察到的混雜因素并沒有被先驗地排除。

第 5 節考慮了因果離線到在線學習(COOL)問題,智能體試圖首先從離線數據中預先訓練最優策略的信息表征,然后通過進行在線實驗來微調策略估計值。第 5.1 節介紹了在強盜模型中轉移觀測數據的混雜穩健程序。第 5.2 和 5.3 節將這種轉移策略擴展到智能體必須決定一系列行動以最大化主要結果的順序決策環境(例如動態治療制度)。

第 6 節引入了一項新任務,稱為混合策略學習。這項任務關注的是智能體是否應該對系統進行干預,如果干預,干預的目標應該是哪里。第 6.1 節研究了具有原子干預的混合策略空間的內在結構特性,這些特性可以幫助智能體更高效、更有效地探索該空間。第 6.2 節進一步研究了智能體可以進行軟干預的場景,即選擇觀察哪些變量來執行軟干預。

第 7 節拓寬了策略的范圍,并引入了一種新穎的反事實決策標準,該標準適用于智能體自身存在偏見并在對抗性環境中運行的情況。第 7.1 節正式提出了反事實策略的概念,使智能體能夠通過考慮其最初的預期行動來進行反事實推理。第 7.2 節介紹了一種新型反事實隨機化策略,它支持反事實決策標準的實現,并有助于學習最優反事實策略。在最后一節,我們正式提出了反事實決策標準下最優性與自主性之間的權衡,并提供了一種實用的規劃算法來解決這一權衡問題。

第 8 節研究了在不完全了解衡量智能體績效的獎勵函數的情況下,從觀測數據中學習策略的問題--稱為模仿學習。第 8.1 節提出了學習模仿策略的完整圖形條件,利用行為克隆達到專家的性能。第 8.2 節對這一條件進行了擴展,通過逆 RL 利用有關未知獎勵函數的參數知識,生成了一種可以持續支配專家的策略。我們還開發了一種算法方法,可以在提供環境因果圖的更廣義單片機系列中應用逆 RL。

最后,第 9 節總結了前幾節中研究的工作和算法,并給出了結束語。我們還討論了其他基本的 CRL 任務,包括可遷移性、可泛化性和模型歸納,并概述了設計 CRL 智能體的未來挑戰。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

多智能體強化學習(MARL)近年來大受歡迎。雖然已開發出許多方法,但它們大致可分為三大類:集中式訓練和執行(CTE)、分布式執行的集中式訓練(CTDE)以及分布式訓練和執行(DTE)。

CTE 方法假定在訓練和執行期間是集中的(例如,具有快速、自由和完美的通信),并且在執行期間擁有最多的信息。也就是說,每個智能體的行動可以依賴于所有智能體的信息。因此,通過使用具有集中行動和觀測空間的單智能體 RL 方法(在部分可觀測的情況下保持集中的行動觀測歷史),可以實現一種簡單形式的 CTE。CTE 方法有可能優于分散執行方法(因為它們允許集中控制),但可擴展性較差,因為(集中的)行動和觀察空間會隨著智能體數量的增加而呈指數級擴展。CTE 通常只用于合作式 MARL 情況,因為集中控制意味著要協調每個智能體將選擇哪些行動。

CTDE 方法是最常見的方法,因為它們在訓練過程中利用集中信息,同時實現分散執行--在執行過程中只使用該智能體可用的信息。CTDE 是唯一一種需要單獨訓練階段的模式,在訓練階段可以使用任何可用信息(如其他智能體策略、底層狀態)。因此,它們比 CTE 方法更具可擴展性,不需要在執行過程中進行通信,而且通常性能良好。CTDE 最自然地適用于合作情況,但也適用于競爭或混合情況,這取決于假定觀察到哪些信息。

分布式訓練和執行方法所做的假設最少,通常也很容易實現。事實上,只要讓每個智能體分別學習,任何單智能體 RL 方法都可以用于 DTE。當然,這些方法各有利弊,下面將對此進行討論。值得注意的是,如果沒有集中訓練階段(如通過集中模擬器),就需要 DTE,要求所有智能體在沒有事先協調的情況下在在線交互過程中學習。DTE 方法可用于合作、競爭或混合情況。MARL 方法可進一步分為基于價值的方法和策略梯度方法。基于價值的方法(如 Q-learning)學習一個價值函數,然后根據這些價值選擇行動。策略梯度法學習明確的策略表示,并試圖沿著梯度方向改進策略。這兩類方法在 MARL 中都得到了廣泛應用。

本文介紹的是合作 MARL-MARL,其中所有智能體共享一個單一的聯合獎勵。它旨在解釋 CTE、CTDE 和 DTE 設置的設置、基本概念和常用方法。它并不涵蓋合作 MARL 的所有工作,因為該領域相當廣泛。

付費5元查看完整內容

人類能夠通過規劃、推理和預測行動結果,執行具有長期目標的復雜任務。為了讓具身智能體(如機器人)實現類似的能力,它們必須獲得可以遷移到新情境中的環境知識,并在有限的試錯預算下學習。基于學習的方法,如深度強化學習,可以從數據中發現并利用應用領域的內在規律和特征,并不斷提高其性能,但這通常需要大量的訓練數據。本論文探討了用于空間推理與規劃任務的數據驅動技術的發展,重點在于提高學習效率、可解釋性以及在新場景中的可遷移性。

本論文的主要貢獻包括四個方面:

  1. CALVIN:一種微分規劃器,能夠學習可解釋的世界模型用于長期規劃。CALVIN成功地在部分可觀測的三維環境中(如迷宮和室內房間)導航,通過從專家示范中學習獎勵(目標和障礙)以及狀態轉換(機器人動力學)。

  2. SOAP:一種強化學習算法,用于無監督地發現長遠任務的宏動作(選項)。選項將任務劃分為子任務,并實現子任務的穩定執行。SOAP在基于歷史條件的走廊任務以及經典基準(如Atari游戲)中表現出穩健的性能。

  3. LangProp:一個使用大型語言模型(LLM)進行代碼優化的框架,通過將代碼視為可學習的策略,解決具身智能體問題。該框架在CARLA自動駕駛基準中成功生成了具有可解釋性的代碼,其性能與人類專家編寫的代碼相當甚至更優。

  4. Voggite:一種具有視覺到動作的Transformer后臺的具身智能體,它解決了Minecraft中的復雜任務。在MineRL BASALT競賽中,Voggite通過識別動作觸發點,將任務分割成多個階段,獲得了第三名。 這些進展為基于學習的方法在復雜的空間推理與規劃挑戰中的應用提供了新的途徑。關鍵詞:機器學習、神經網絡、深度強化學習、模仿學習、層次化強化學習、策略優化、機器人技術、自動駕駛、具身智能體、選項發現、技能學習、導航、規劃、計算機視覺、大型語言模型、多模態基礎模型。1.1 動機人類具有在新環境中進行規劃、推理和預測行動結果的能力,這是執行具有長期目標的復雜任務的顯著能力。無論我們遇到的是新游戲、新運動還是新地點,盡管我們從未有過類似的具體經歷,但我們仍然能夠通過從先前的經驗中推斷出策略,利用可遷移的知識和技能。通過現代規劃算法,如果環境動態(尤其是狀態轉換和獎勵動態)是完全已知的,狀態和動作是可枚舉的,并且計算資源是無限的,那么找到接近最優的規劃解決方案是可能的。然而,現實中這三個假設通常都不成立。智能體通常只能訪問環境的局部或部分觀測結果,必須根據這些結果來估計環境的狀態和動態。狀態和動作通常是連續的而非離散的,因此需要一個估計器將連續輸入映射為有意義的表示,能夠泛化到新輸入。最后,由于計算資源有限,狀態和動作的枚舉通常是不可行的,因此需要一種高效的策略,在有限的計算資源和智能體生命周期內探索狀態-動作空間。許多涉及戰略決策的現實問題要求智能體學習到可以應用于新場景的環境知識,并在有限的試錯預算下學習。設計一個能像人類一樣在開放領域中達到同樣水平的性能和效率的算法仍是一個未解的問題。例如,自動駕駛[251]仍然是一個正在進行的、未解決的研究領域,因為在多智能體問題環境中,動態環境的復雜性極高,同時存在信息不完美和傳感器輸入噪聲的挑戰。這與工業機器人形成鮮明對比,工業機器人已在可控、可預測且在很多情況下是完全已知的環境中有效運行了幾十年。加上任務的重復性,這使得人類可以硬編碼系統來處理常見的預期場景。馬爾可夫決策過程(MDP)和強化學習(RL)是強大的框架,它們將決策過程形式化為一個可以通過數學定義的目標進行學習的問題[213]。這些框架捕捉了與環境交互的序列性和時間演化特性。神經網絡的進展及其與RL的成功整合[138, 139, 201]改變了計算機視覺和機器人技術領域,催生了基于學習的方法來解決傳統上通過人類手工實現的專家系統解決的問題。基于學習的方法有兩個主要優勢。首先,隨著數據的增加,基于學習的算法可以不斷改進和適應應用領域,而手動實現的方法是固定的,無法適應變化。其次,基于學習的方法能夠自動發現應用領域的內在規律和特征,并利用它們來提高性能,而無需對這些策略進行硬編碼。雖然RL在解決復雜戰略問題方面非常有效[10, 12, 138, 202, 229],但樣本效率和可泛化性仍然是需要解決的挑戰。當前最先進的RL算法在已訓練的任務或可以通過反應策略解決的任務中表現出色,但并沒有顯式學習易于遷移的技能[145, 162, 163, 174, 198]。與可以輕松獲取樣本的游戲或模擬任務不同,在現實世界中收集樣本可能是昂貴的,甚至是不安全的。人類能夠通過學習可遷移的知識和技能來繞過這些問題,從而通過更少的試錯提高成功的幾率,并避免災難性失敗(如從懸崖上掉下或被車撞)。本研究旨在提出獲取技能的方法,使智能體能夠更有效、更高效地執行任務。


1.2 研究目標本研究致力于解決涉及空間推理、規劃和決策任務的挑戰,以數據驅動的方式,同時提高學習的效率、可解釋性和可遷移性。本研究目標可以進一步細分為五個具體的研究目標,詳細描述如下。1.2.1 學習一個具有可泛化性的規劃器本研究的核心目標之一是開發能夠泛化到新場景的可學習規劃器。反應性馬爾可夫策略與具備計劃的策略之間的區別在于,反應性策略根據當前狀態或局部觀測結果作出即時決策,而規劃則涉及對給定情境的長期分析,以提出空間和時間上一致的解決方案。兩種方法的區別類似于[106]中提出的系統1(快速、無意識、自動的決策)和系統2(緩慢、有意識、嚴格的決策)思維。兩種決策過程都很重要,因為反應性策略對于實時決策非常有用,而規劃對于確保所作決策的一致性和連貫性非常重要。例如,基于蒙特卡羅樹搜索(MCTS)的算法[201, 202]在學習反應策略和長期規劃之間交替進行;通過模擬蒙特卡羅樹的回合[40]并反向傳播返回值估計,反應性策略根據回合結果進行更新。盡管像圍棋和模擬環境的動態是已知的,但對于許多現實世界問題卻并非如此。基于模型的RL方法[75, 79, 190]通過學習環境模型來進行模擬回合,解決了這個問題。第3章探討了相關的替代途徑,學習一個可微分規劃器,以解決在新環境中無法通過反應策略有效解決的導航任務。第5章提出了一種新的學習算法決策的范式,通過將代碼視為可學習的策略,利用大型語言模型(LLMs)從數據中進行學習。通過使算法可學習,RL智能體之前難以掌握的高級和長期計劃現在可以通過模仿學習(IL)和RL技術學習。此外,第4章和第6章展示了如何使用選項[166, 214]的時間抽象來幫助智能體做出明智的長期決策,這將在1.2.2節和1.2.3節中討論。


1.2.2 發現可重復使用的技能技能學習是高效探索、決策和任務解決的另一個重要組成部分。通過技能,可以構思一個高層次的計劃,將低層次的技能策略結合起來并協調執行。這些技能專門解決任務的子集,因此智能體可以通過組合這些技能,從更少的訓練樣本中學習解決復雜的新任務。在第4章中探討了這些技能如何通過無監督方式學習,使用來自環境的獎勵作為學習信號。智能體軌跡被分割為與技能相關的子策略選項[166, 214]。


1.2.3 使用帶有記憶增強的策略解決POMDP環境與1.2.2節相關,選項不僅可以用來學習技能,還可以用于學習時間一致的行為。它作為一個離散的潛變量攜帶前進的記憶,使得智能體能夠在部分可觀測馬爾可夫決策過程(POMDP)環境中執行任務,在這種環境中,僅通過當前的觀測結果無法確定環境的底層狀態。通過維護智能體軌跡的歷史,可以更好地確定真實的環境狀態,因為過去的觀測結果通常與未來的觀測結果通過隱藏變量相關聯。第4章檢驗了不同訓練目標的算法發現選項的有效性和魯棒性,展示了所提出的解決方案相對于經典的遞歸策略和Option-Critic策略[9, 111]的優勢。在第6章中,技能和軌跡分割的概念被用于使智能體在任務完成的不同階段改變其策略。將復雜任務分解為子任務并按階段執行,使智能體能夠執行與高層計劃一致的時間一致行為。


1.2.4 解釋專家和智能體的行為本研究的另一個主題是解釋所學習的策略。上面討論的技能學習是確保更好解釋性的一種方法,因為選項以語義上可解釋的方式對智能體軌跡進行分割。第3章探討了可解釋性的另一種方法:一個可微分的規劃器通過專家演示的機器人導航軌跡學習目標、障礙物和運動動力學。它還在決策過程中計算獎勵圖和價值圖,類似于逆強化學習(IRL)[6, 148, 260, 261]。在第5章中,提出了一種將策略明確表示為人類可讀代碼的更顯式方法。策略性能問題可以直接通過閱讀代碼進行診斷,使這種方法成為解釋性人工智能(AI)研究中的有價值技術。


1.2.5 訓練具身智能體執行復雜任務最后,本研究的目標是將所開發的技術應用于具身智能體相關的問題,例如機器人技術。在第3章、第5章和第6章中,分別解決了機器人導航、自動駕駛以及在虛擬世界Minecraft[208]中的任務執行的挑戰。這些挑戰都有導航和空間推理作為完成任務的關鍵要素。導航是一個傳統上通過專家設計的系統解決的現實問題,但可以通過利用數據驅動的學習來提高效率。例如,車道變換和與其他車輛合作是自動駕駛車輛的任務,要求復雜的規劃。由于人類合作行為難以建模,特別是在存在多重因素和微妙線索的情況下,這個問題變得尤為復雜,而且并不總是有確定的策略可遵循。從現實世界數據中學習合作行為可以有助于優化這些任務。


1.3 主要貢獻本論文的貢獻可以總結如下:

  1. 開發了一個名為CALVIN的可微分規劃器(Collision Avoidance Long-term Value Iteration Network),通過執行可微分的值迭代來學習在未知的3D環境中導航。狀態轉換和獎勵模型是從專家演示中學習的,類似于值迭代網絡(VIN)。然而,VIN難以懲罰導致與障礙物和墻體碰撞的無效動作,導致值估計不準確。CALVIN通過學習動作承受度來約束智能體的轉換和獎勵,從而解決了這個問題。CALVIN能夠在新穎的2D和3D環境中導航,并顯著優于其他基于VIN的可學習規劃器。該工作已在2022年IEEE/CVF計算機視覺與模式識別會議(CVPR)上發表[97]。詳細內容見第3章。
  2. 基于對選項框架和前向-后向算法[14]的分析,開發了算法來學習時間一致的選項及其相關的子策略,以解決需要長期記憶的POMDP任務。提出并研究了兩種無監督選項發現的學習目標:通過期望最大化的近端策略優化(PPOEM)和順序選項優勢傳播(SOAP)。PPOEM應用前向-后向算法[14]優化選項增強策略的期望回報。然而,研究表明,在沒有未來軌跡知識的情況下,這種學習方法在學習因果策略時是不穩定的,因為選項分配是針對整個回合進行優化的。作為一種替代方法,SOAP評估了最優選項分配的策略梯度。它擴展了廣義優勢估計(GAE)的概念,通過時間傳播選項的優勢,相當于對選項策略梯度執行時間反向傳播。使用這種方法,選項策略僅依賴于智能體的歷史記錄。與競爭基準相比,SOAP表現出最強的魯棒性,正確發現了POMDP走廊環境中的選項,以及標準基準中的Atari[16]和MuJoCo[222]。該論文已在arXiv上發表[98]。詳情見第4章。
  3. 提出了LangProp框架,用于迭代優化由LLMs生成的代碼。LangProp自動評估代碼在輸入-輸出數據集上的表現,捕獲任何異常,并將結果反饋給LLM訓練循環,使LLM能夠迭代改進其生成的代碼。LangProp訓練模塊可以在監督學習和強化學習設置中使用。LangProp成功解決了Sudoku和CartPole問題,并生成了駕駛代碼,其性能與CARLA駕駛基準[48]中的人類實現的專家系統相當或更優。LangProp能夠生成可解釋且透明的策略,可以通過度量和數據驅動的方式進行驗證和改進。該工作已在2024年國際學習表征會議(ICLR)LLM智能體研討會上接受[100]。該工作是在Wayve Technologies實習期間進行的。詳情見第5章。
  4. 開發了Voggite,一個在Minecraft開放式虛擬世界中執行任務的具身智能體。Voggite以OpenAI的視頻預訓練(VPT)[12]為主干,一個基于Transformer的智能體,經過在線視頻的監督逆動力學模型(IDM)標注進行預訓練。VPT策略接受128幀的過去觀測結果,相當于6.4秒的歷史。雖然VPT智能體在許多反應性任務中表現有效,但在任務執行的不同階段上難以區分。Voggite通過將任務分為不同階段解決了這一問題。Voggite在2022年NeurIPS MineRL BASALT競賽中的63支隊伍中獲得了第三名。競賽要求智能體在Minecraft中尋找洞穴并建造瀑布、農場和建筑物。合作撰寫的比賽回顧文章已在arXiv上發布[136]。詳情見第6章。 未包含在本論文中的工作:“你吃什么就是什么?給基礎模型喂食來自全球各地菜肴的區域性多樣食品數據集”[132]。

付費5元查看完整內容

加固網絡物理資產既重要又耗費人力。最近,機器學習(ML)和強化學習(RL)在自動化任務方面顯示出巨大的前景,否則這些任務將需要大量的人類洞察力/智能。在RL的情況下,智能體根據其觀察結果采取行動(進攻/紅方智能體或防御/藍方智能體)。這些行動導致狀態發生變化,智能體獲得獎勵(包括正獎勵和負獎勵)。這種方法需要一個訓練環境,在這個環境中,智能體通過試錯學習有希望的行動方案。在這項工作中,我們將微軟的CyberBattleSim作為我們的訓練環境,并增加了訓練藍方智能體的功能。報告描述了我們對CBS的擴展,并介紹了單獨或與紅方智能體聯合訓練藍方智能體時獲得的結果。我們的結果表明,訓練藍方智能體確實可以增強對攻擊的防御能力。特別是,將藍方智能體與紅方智能體聯合訓練可提高藍方智能體挫敗復雜紅方智能體的能力。

問題描述

由于網絡威脅不斷演變,任何網絡安全解決方案都無法保證提供全面保護。因此,我們希望通過機器學習來幫助創建可擴展的解決方案。在強化學習的幫助下,我們可以開發出能夠分析和學習攻擊的解決方案,從而在未來防范類似威脅,而不是像商業網絡安全解決方案那樣簡單地識別威脅。

工程描述

我們的項目名為MARLon,探索將多智能體強化學習(MARL)添加到名為CyberBattleSim的模擬抽象網絡環境中。這種多智能體強化學習將攻擊智能體和可學習防御智能體的擴展版本結合在一起進行訓練。

要在CyberBattleSim中添加MARL,有幾個先決條件。第一個先決條件是了解CyberBattleSim環境是如何運行的,并有能力模擬智能體在做什么。為了實現這一點,該項目的第一個目標是實現一個用戶界面,讓用戶看到環境在一個事件中的樣子。

第二個先決條件是為CyberBattleSim添加MARL算法。目前CyberBattleSim的表Q學習和深Q學習實現在結構上無法處理這個問題。這是因為CyberBattleSim實現的表Q學習和深Q學習不符合適當的OpenAI Gym標準。因此,需要添加新的強化學習算法。

當前的防御者沒有學習能力,這意味著要啟用多智能體學習,防御者需要添加以下功能:添加使用所有可用行動的能力,將這些行動收集到行動空間,實現新的觀察空間,并實現獎勵函數。

最后,為了增加MARL,新創建的攻擊者算法和新的可學習防御者必須在同一環境中組合。這樣,兩個智能體就可以在相互競爭的同時進行訓練。

付費5元查看完整內容

在生物學習中,數據不僅被用來提高當前任務的性能,也被用來提高以前遇到的和尚未遇到的任務的性能。與此相反,經典的機器學習,我們定義為從一張白紙開始,只使用手頭的單一任務的數據。雖然典型的遷移學習算法可以提高未來任務的性能,但在學習新任務時,它們在先前任務上的性能會下降(稱為遺忘)。最近許多持續或終身學習的方法都試圖在新任務中保持性能。但是,努力避免遺忘將目標定得過低:終身學習的目標,無論是生物還是人工,都應該是提高過去任務(后向轉移)和未來任務的前向轉移與任何新數據的性能。我們的關鍵見解是,即使在其他任務上訓練的學習者往往不能對當前的任務做出有用的決定,但他們可能已經學會了對這項任務有用的表征。因此,盡管集合決策是不可能的,但只要跨任務的分布足夠相似,集合表征就會有好處。此外,我們可以在準線性空間和時間內將不同任務獨立學習的表征集合起來。因此,我們提出了兩種算法:(1)樹和(2)網絡的表示集合。這兩種算法都在各種模擬和真實的數據場景中展示了前向和后向轉移,包括表格、圖像和口語,以及對抗性任務。這與我們所比較的參考算法形成了鮮明的對比,所有這些算法都不能向前或向后轉移,或者兩者都不能,盡管其中許多算法需要二次空間或時間的復雜性。

付費5元查看完整內容

機器學習是關于基于數據學習、推理和行動的。這是通過構建計算機程序來完成的,這些程序處理數據,提取有用的信息,對未知屬性進行預測,并建議采取行動或做出決定。將數據分析轉化為機器學習的原因是,這個過程是自動化的,計算機程序是從數據中學習的。這意味著使用通用的計算機程序,這些程序根據觀察到的所謂的訓練數據自動調整程序的設置,以適應應用程序特定的情況。因此,可以說機器學習是一種示例編程方式。機器學習的美妙之處在于數據表示的是非常任意的,我們可以設計出適用于不同領域的廣泛實際應用的通用方法。我們通過下面的一系列例子來說明這一點。 本書旨在傳達監督式機器學習的精神,而不要求讀者具備該領域的任何經驗。我們的重點是基礎數學和實踐方面。這本書是教科書;它不是參考工作或編程手冊。因此,它只包含仔細(但全面)選擇的有監督機器學習方法,而沒有編程代碼。到目前為止,已經有許多編寫良好、文檔齊全的代碼包可用。我們堅信,只要讀者對數學及其方法的內部工作有很好的理解,就能將本書與他/她最喜歡的編程語言中的代碼包聯系起來。 本書從統計學的角度出發,從統計特性的角度來討論方法。因此,它需要一些統計學和概率論的知識,以及微積分和線性代數。我們希望從頭到尾閱讀本書,能讓讀者成為機器學習工程師和/或在該主題中進行進一步研究的良好起點。這本書是這樣寫的,可以連續讀。然而,本書還有多種可能的閱讀路徑,根據讀者的興趣有更多的選擇。圖1 - 6說明了這兩章之間的主要依賴關系。特別是,第2章、第3章和第4章討論了最基本的主題。我們建議讀者在閱讀后續章節(第5章至第9章)之前,先閱讀這些章節。第10章將超越機器學習的監督式設置,第11章將重點放在設計一個成功的機器學習解決方案的一些更實際的方面,與前幾章相比技術性較低。最后,第12章(由David Sumpter撰寫)討論了現代機器學習中的一些倫理問題。

付費5元查看完整內容

強化學習是解決不確定序貫決策問題的一種重要方法。盡管近幾十年來取得了許多顯著的成就,但在現實世界中應用強化學習方法仍然具有挑戰性。其中一個主要障礙是強化學習智能體缺乏對世界的共同知識,因此必須通過大量的交互從頭開始學習。他們也可能很難解釋他們的決策和泛化學到的知識。另一方面,因果關系在形式化知識和利用結構不變性進行有效的知識轉移方面具有明顯的優勢。這導致了因果強化學習的出現,這是強化學習的一個子領域,旨在使用數據生成過程的結構化和可解釋表示來改進現有算法**。本文全面回顧了因果強化學習的文獻。首先介紹因果關系和強化學習的基本概念,然后解釋因果建模如何解決非因果強化學習中的核心挑戰。本文根據現有因果強化學習方法的目標問題和方法,對其進行了分類和系統回顧。**最后,對該新興領域存在的問題和未來發展方向進行了展望。

//openreview.net/forum?id=iATMbh8mhD&referrer=%5BTMLR%5D(%2Fgroup%3Fid%3DTMLR)

**1. 引言****人類從小就有一種與生俱來的能力來理解因果關系(Wellman, 1992;Inagaki & Hatano, 1993;Koslowski & Masnick, 2002;Sobel & Sommerville, 2010)。**這種程度的理解讓我們意識到改變某些事情可以導致其他事情的發生;因此,我們可以積極地干預我們的環境,以實現預期的目標或獲取新知識。理解因果關系使我們能夠解釋行為(Schult & Wellman, 1997),預測未來(Shultz, 1982),甚至可以進行反事實推理來反思過去的事件(Harris et al., 1996)。這些能力是人類智力發展所必需的,是現代社會和文明的基礎,也是推動科學技術進步的基礎。例如,考慮人類與壞血病斗爭的故事,如圖1所示(Pearl & Mackenzie, 2018年)。壞血病曾經阻礙了人類對世界的探索,奪走了大約200萬水手的生命。經過長期的探索,人類發現食用柑橘類水果可以預防這種可怕的疾病。今天,我們知道壞血病的真正原因是缺乏維生素C,但在當時,這種因果機制尚不清楚。人們最初認為酸性可以治愈這種疾病。然而,加熱果汁凈化破壞了維生素C的含量,使它對壞血病無效。當時人們認為酸性只是一種安慰劑,而腐爛的肉才是致病的原因。這個錯誤的判斷給斯科特的南極探險造成了重大損失。只有當人們完全了解了壞血病的因果關系后,才發現了對抗這種疾病的有效方法。這個例子展示了在決策中理解因果關系的重要性以及忽略它的潛在災難性后果。

**數據本身不能回答因果問題。理解因果關系涉及對數據生成過程進行假設和測試。**數據驅動的機器學習可以有效地捕捉柑橘類水果和壞血病之間的相關性,但無法處理因果關系。例如,如果在壞血病預測問題中,我們將柑橘類水果替換為動物肝臟(也富含維生素C),由于外觀和味道的顯著差異,算法可能會給出錯誤的預測。因果機器學習(Sch?lkopf et al., 2021;Kaddour et al., 2022)是為了解決這一缺陷而開發的。近年來,因果關系與機器學習的結合受到了廣泛關注,并被應用于各個領域,包括計算機視覺(Lopez-Paz et al., 2017;沈等,2018;Tang等人,2020;Wang et al., 2020b),自然語言處理(Wu et al., 2021;Jin等人,2021;Feder等人,2022)和推薦系統(Zheng等人,2021;Zhang et al., 2021b;Gao等人,2022年)。這些結果表明,因果建模顯著提高了學習系統的分布魯棒性和知識遷移能力。

**與其他機器學習范式不同,強化學習(RL) (Sutton & Barto, 2018)涉及對環境進行干預,以主動收集訓練數據;從這個意義上說,RL與因果關系自然相關。**然而,在大多數研究中,智能體只允許干預行動變量,很難完全理解因果關系。這種困難在離線和離線設置中進一步加劇。在強化學習中,智能體旨在獲得高回報的數據;因此,他們通過試錯不斷改進他們的策略。在這個動態過程中,環境通過從當前狀態轉移到新狀態并返回標量獎勵(或懲罰)來響應智能體的行動。狀態轉移和獎勵分配都是因果關系;例如,維生素C缺乏(當前狀態)會導致壞血病(下一狀態),反之則不會。其他環境因素,如食物的味道和外觀,不影響這種轉變。為了避免受到非因果相關性的困擾,智能體必須捕獲驅動底層數據生成過程的因果關系;否則,它將學習效率低下,甚至陷入次優策略。

**許多研究人員研究了將因果知識與強化學習結合的原則性方法。最流行的是使用因果圖(Glymour et al., 2016),這是因果知識的一種定性形式。**因果圖可用于表示不區分每個維度含義的高層、粗粒度數據生成過程,例如標準的馬爾可夫決策過程(MDP)。同時,因果圖還可以傳達低層次、細粒度的因果知識,如根據因果關系將狀態分解為多個變量。此外,因果知識可以根據結構因果模型(SCM)框架進行定量表示(Pearl, 2009a;b),我們將在第2節中進一步解釋。SCM認為數據生成過程是一個有序的方程集合,這些方程以結構化的方式生成數據。正如我們稍后在第4節中演示的那樣,配備SCM的強化學習智能體可以直接生成數據,而不與實際環境交互,實現反事實數據增強和策略評估。

**本文對因果強化學習的綜述提出了該領域的全面概述,在SCM框架內與現有研究保持一致。**本文通過回答三個基本問題來介紹因果強化學習:什么是因果強化學習?為什么需要研究它?因果模型如何改進現有的強化學習方法?本文還對因果關系研究和強化學習的基本概念進行了清晰和簡潔的概述。據我們所知,這是現有強化學習文獻中第一次對因果強化學習的全面綜述。

**確定了強化學習中的瓶頸問題,這些問題可以通過因果建模的方式解決或改進。**進一步提出了一種面向問題的分類方法。這種分類法將幫助強化學習研究人員更深入地了解因果建模的優勢和進一步研究的機會。另一方面,強化學習實踐者也可以通過確定他們面臨的挑戰的解決方案,從這項綜述中受益。根據現有的技術和設置,對現有的因果強化學習研究進行了比較和分析。

**強調了因果強化學習中未解決的主要問題和有希望的研究方向,如理論進展、基準和特定的學習范式。**這些研究主題在未來幾年將變得越來越重要,并將有助于推進RL在現實世界應用中的使用。因此,在這一新興領域中,有一個共同的基礎來討論這些有價值的想法是至關重要的,并將促進其持續發展和成功。

付費5元查看完整內容

為了應對現實世界的動態變化,智能體需要在其生命周期中增量地獲取、更新、積累和利用知識。這種能力被稱為持續學習,為人工智能系統自適應發展提供了基礎

在一般意義上,持續學習明顯受到災難性遺忘的限制,學習新任務通常會導致舊任務的性能急劇下降。除此之外,近年來出現了越來越多的進展,在很大程度上擴展了持續學習的理解和應用。人們對這一方向日益增長和廣泛的興趣表明了它的現實意義和復雜性。本文對持續學習進行了全面的調研,試圖在基本設置、理論基礎、代表性方法和實際應用之間建立聯系。基于現有的理論和實證結果,將持續學習的一般目標總結為:在資源效率的背景下,確保適當的穩定性-可塑性權衡,以及充分的任務內/任務間泛化能力。提供了最先進的和詳細的分類法,廣泛分析了有代表性的策略如何解決持續學習,以及它們如何適應各種應用中的特定挑戰。通過對持續學習當前趨勢、跨方向前景和與神經科學的跨學科聯系的深入討論,相信這種整體的視角可以極大地促進該領域和其他領域的后續探索。

1. 引言

學習是智能系統適應環境的基礎。為了應對外界的變化,進化使人類和其他生物具有很強的適應性,能夠不斷地獲取、更新、積累和利用知識[148]、[227]、[322]。自然,我們期望人工智能(AI)系統以類似的方式適應。這激發了持續學習的研究,其中典型的設置是逐一學習一系列內容,并表現得就像同時觀察到的一樣(圖1,a)。這些內容可以是新技能、舊技能的新示例、不同的環境、不同的背景等,并包含特定的現實挑戰[322],[413]。由于內容是在一生中逐步提供的,因此在許多文獻中,持續學習也被稱為增量學習或終身學習,但沒有嚴格的區分[70],[227]。

與傳統的基于靜態數據分布的機器學習模型不同,持續學習的特點是從動態數據分布中學習。**一個主要的挑戰被稱為災難性遺忘[291],[292],對新分布的適應通常會導致捕獲舊分布的能力大大降低。**這種困境是學習可塑性和記憶穩定性權衡的一個方面:前者過多會干擾后者,反之亦然。除了簡單地平衡這兩方面的“比例”外,持續學習的理想解決方案應該獲得強大的泛化能力,以適應任務內部和任務之間的分布差異(圖1,b)。作為一個樸素的基線,重新訓練所有舊的訓練樣本(如果允許)可以輕松解決上述挑戰,但會產生巨大的計算和存儲開銷(以及潛在的隱私問題)。事實上,持續學習的主要目的是確保模型更新的資源效率,最好接近只學習新的訓練樣本。

**許多努力致力于解決上述挑戰,可以在概念上分為五組(圖1,c):**參考舊模型添加正則化項(基于正則化的方法);逼近和恢復舊數據分布(基于回放的方法);顯式操作優化程序(基于優化的方法);學習魯棒和良好泛化的表示(基于表示的方法);以及使用正確設計的體系結構構建任務自適應參數(基于體系結構的方法)。該分類法擴展了常用分類法的最新進展,并為每個類別提供了細化的子方向。總結了這些方法是如何實現所提出的一般目標的,并對其理論基礎和典型實現進行了廣泛的分析。特別是,這些方法是緊密聯系的,例如正則化和重放最終糾正優化中的梯度方向,并且具有高度的協同性,例如,重放的效果可以通過從舊模型中提取知識來提高。 現實應用對持續學習提出了特殊的挑戰,可以分為場景復雜性和任務特異性。對于前者,例如,在訓練和測試中可能缺少任務oracle(即執行哪個任務),訓練樣本可能是小批量甚至一次引入的。由于數據標記的成本和稀缺性,持續學習需要在少樣本、半監督甚至無監督的場景中有效。對于后者,雖然目前的進展主要集中在視覺分類,但其他視覺領域(如目標檢測、語義分割和圖像生成)以及其他相關領域(如強化學習(RL)、自然語言處理(NLP)和倫理考慮)正在受到越來越多的關注,其機遇和挑戰。

**考慮到持續學習的興趣顯著增長,我們相信這項最新和全面的調研可以為后續的工作提供一個整體的視角。**盡管有一些關于持續學習的早期調研,覆蓋面相對較廣[70],[322],但近年來的重要進展并未被納入其中。相比之下,最新的調研通常只整理持續學習的局部方面,關于其生物學基礎[148],[156],[186],[227],視覺分類的專門設置[85],[283],[289],[346],以及NLP[37],[206]或RL[214]中的擴展。據我們所知,這是第一個系統總結持續學習的最新進展的調研。基于這些優勢,我們就當前趨勢、跨方向前景(如擴散模型、大規模預訓練、視覺轉換器、具體AI、神經壓縮等)以及與神經科學的跨學科聯系,深入討論了持續學習。

主要貢獻包括:

(1) 對持續學習進行了最新而全面的綜述,以連接理論、方法和應用的進步;

(2) 根據現有的理論和實證結果,總結了持續學習的一般目標,并對具有代表性的策略進行了詳細的分類; (3) 將現實應用的特殊挑戰分為場景復雜性和任務特殊性,并廣泛分析了持續學習策略如何適應這些挑戰; (4)深入探討了當前研究趨勢和發展方向,以期為相關領域后續工作提供參考本文的組織如下: 在第2節中,我們介紹了持續學習的設置,包括其基本公式,典型場景和評估指標。在第3節中,我們總結了一些針對其一般目標的持續學習的理論努力。在第4節中,我們對具有代表性的策略進行了最新的和詳細的分類,分析了它們的動機和典型的實現。在第5節和第6節中,我們描述了這些策略如何適應場景復雜性和任務特異性的現實挑戰。在第7節中,我們提供了當前趨勢的討論,交叉方向的前景和神經科學的跨學科聯系。

在本節中,我們詳細介紹了代表性持續學習方法的分類(參見圖3和圖1,c),并廣泛分析了它們的主要動機、典型實現和經驗屬性。

Regularization-based 方法

該方向的特點是添加顯式正則項來平衡新舊任務,這通常需要存儲舊模型的凍結副本以供參考(見圖4)。根據正則化的目標,這類方法可以分為兩類。

Replay-based 方法

將近似和恢復舊數據分布的方法分組到這個方向(見圖5)。根據回放的內容,這些方法可以進一步分為三個子方向,每個子方向都有自己的挑戰。

Optimization-based 方法

持續學習不僅可以通過向損失函數添加額外的項(例如正則化和重放)來實現,還可以通過顯式地設計和操作優化程序來實現。

Representation-based 方法

將創建和利用持續學習表示優勢的方法歸為這一類。除了早期通過元訓練[185]獲得稀疏表示的工作外,最近的工作試圖結合自監督學習(SSL)[125]、[281]、[335]和大規模預訓練[295]、[380]、[456]的優勢,以改進初始化和持續學習中的表示。請注意,這兩種策略密切相關,因為預訓練數據通常數量巨大且沒有明確的標簽,而SSL本身的性能主要通過對(一系列)下游任務進行微調來評估。下面,我們將討論具有代表性的子方向。

Architecture-based 方法

上述策略主要集中在學習所有具有共享參數集的增量任務(即單個模型和一個參數空間),這是導致任務間干擾的主要原因。相反,構造特定于任務的參數可以顯式地解決這個問題。以往的工作通常根據網絡體系結構是否固定,將該方向分為參數隔離和動態體系結構。本文專注于實現特定任務參數的方式,將上述概念擴展到參數分配、模型分解和模塊化網絡(圖8)。

付費5元查看完整內容

基于深度神經網絡的機器學習方法已經取得了長足的進步,并在許多具有挑戰性的應用領域中表現出最先進的水平,包括計算機視覺、自然語言處理、語音識別和強化學習等等。這些結果通常是通過使用非常深入的神經網絡訓練的大型標記數據集獲得的,這些網絡以分層的方式學習原始數據特征的高度非線性抽象。此外,這些方法經常通過神經結構設計的方式納入歸納偏見,以限制可能的解決方案的集合。例如,卷積神經網絡(CNN)廣泛使用具有小感受野的卷積,在一定程度上模仿靈長類動物視覺系統的神經結構。事實上,已經證明,通過CNN學習的表征與從靈長類視覺系統學習的表征相比更有優勢。由于這些成功,神經網絡方法常常被視為在這些領域建立模型時的事實上的方法。

即使在多個應用領域取得了這些進展,神經網絡方法應用于表格數據的可行性仍有一些不確定性。表格數據包括以(行,列)表格式存儲的數據,其中行包含獨立的實例,列包含不同的特征。此外,表中的每一列/特征可能有不同的可能數據類型(例如,二進制與連續與分類),代表了一種高度異質的數據格式。麥肯錫公司最近的一項研究,調查了19個不同行業的400多個應用領域,顯示這種類型的表格數據是工業中最常用的數據格式之一。在表格數據上建立機器學習分類模型的標準方法一般是以決策樹(DTs)的形式出現,這是一個有監督的機器學習模型系列,它建立了一個樹狀圖,節點代表我們挑選特征子集的地方,并根據這些特征提出決策規則/閾值(例如。如果性別=男性和年齡>40歲,對于一個包含性別和年齡特征的表格數據集);邊代表這個決策規則的結果;葉子代表輸出,可以是另一個具有另一組輸入特征的決策節點,也可以是預測的感興趣的類別標簽。

基于DT的方法有很多好處,包括它們的基本形式具有很強的可解釋性(例如,通過跟蹤決策節點的層次流),這在許多現實世界的應用中是一個重要的關注點,而且它們的訓練計算速度很快。然而,DT方法也有幾個缺點:1)它們容易過度擬合,導致泛化效果差;2)它們對輸入數據的微小擾動非常敏感(在不同的數據子集上訓練時,可能會學到非常不同的樹);3)它們很難對非常復雜、高度非線性的決策規則建模。這些缺點開啟了使用神經網絡方法的可能性,因為它們有能力對高度非線性關系進行建模,并且對輸入數據的微小偏差具有更好的魯棒性,這一點在其他幾個應用領域中得到了證明。然而,由于之前提出的神經網絡架構并不適合于表格數據,缺乏適當的歸納偏差往往導致它們無法為表格數據找到最佳解決方案。

在過去的幾年里,人們對構建用于表格數據的神經網絡方法的興趣越來越濃厚。特別是,最近的一項研究比較了幾種不同的神經網絡架構和基于DT的方法,發現在對40個不同的表格式數據集進行評估時,神經網絡方法與基于DT的方法具有競爭力,這些數據集具有不同數量的實例(690-418,000)和特征(5-2000)。在許多情況下,這些神經網絡方法的表現超過了基于DT的方法,這表明現在有可行的神經網絡方法可以應用于表格數據。

在這份報告中,我們描述了我們對表格神經網絡方法進行評估的初步結果,該方法使用可穿戴生理傳感器技術,如心電圖(ECG)和皮膚電化學反應(GSR)進行人類情感狀態分類(如壓力、喚醒)。情感狀態分類是人機交互(HCI)界日益關注的領域,因為模擬和預測人類情感狀態的能力開辟了新的研究方向,側重于改善人類與自主智能系統的互動和團隊。

情感狀態分類的最大挑戰之一是跨個體的穩健表現,在這個領域之前沒有多少工作。然而,在這一領域,由于需要進行人體測試,以及個體間潛在的情感狀態存在很大程度的變異,所以很難收集大量的標記數據集。我們假設,在低標簽數據制度下,對預先提取的特征進行訓練的表格神經網絡方法可能是一種可行的替代方法,可以完全替代傳統上需要大量標簽數據集才能有效訓練的深度神經網絡的端到端訓練(即沒有任何先驗的特征處理)。為了測試這一假設,我們使用了模型框架AutoGluon-Tabular,它是一個易于使用且高度準確的Python庫,用于構建表格數據的神經網絡。本報告總結了我們使用三個公開可用數據集的發現。認知負荷、情感和壓力 認知負荷、情感和壓力(CLAS)、ASCERTAIN和AMIGOS。 我們最初的分析集中在這三個數據集內部和之間的主體間分類,因為這仍然是情感狀態分類的關鍵挑戰之一。

付費5元查看完整內容

機器學習是關于基于數據的學習、推理和行動。這是通過構建計算機程序來完成的,這些程序可以處理數據,提取有用的信息,對未知屬性做出預測,并建議采取的行動或做出的決定。將數據分析變成機器學習的原因是,這個過程是自動化的,計算機程序是從數據中學習的。這意味著使用通用計算機程序,這些程序根據觀察到的所謂訓練數據自動調整程序的設置,以適應特定的應用程序環境。因此可以說,機器學習是一種通過實例編程的方式。機器學習的美妙之處在于,數據所代表的內容是非常隨意的,我們可以設計出適用于不同領域的廣泛實際應用的通用方法。我們通過下面的一系列例子來說明這一點。上述“通用計算機程序”是指數據的數學模型。也就是說,當我們開發和描述不同的機器學習方法時,我們使用的是數學語言。數學模型描述了與觀測數據對應的相關數量或變量與感興趣的屬性(如預測、動作等)之間的關系。因此,模型是數據的緊湊表示,以精確的數學形式捕捉我們正在研究的現象的關鍵屬性。使用哪個模型通常由機器學習工程師在查看可用數據時產生的見解和從業者對問題的總體理解來指導。在實踐中實現該方法時,將該數學模型轉換為可在計算機上執行的代碼。然而,要理解計算機程序的實際作用,了解其基礎數學也很重要。

這本書的目的是介紹監督機器學習,而不需要在該領域的任何經驗。我們既關注基礎的數學,也關注實踐方面。本書是教科書,不是參考書,也不是編程手冊。因此,它只包含一個仔細(但全面)的監督機器學習方法的選擇,而沒有編程代碼。現在有許多精彩和證據確鑿的代碼包可用,我們深信,在很好地理解數學和內部運行的方法。在這本書中,我們從統計學的角度來討論方法的統計特性。因此,它需要一些統計和概率論的知識,以及微積分和線性代數。我們希望,從頭到尾閱讀這本書將給讀者一個良好的起點,作為一個機器學習工程師工作和/或繼續在該學科的進一步研究。下圖說明了章節之間的主要依賴關系。特別是在第二、三、四章中討論了最基本的主題,我們建議讀者先閱讀這些章節,然后再閱讀后面包含更高級的主題的章節(第5-9章)。第10章超越了機器學習的監督設置,第11章關注于設計一個成功的機器學習解決方案的一些更實際的方面,比前幾章的技術性更少。最后,第十二章(由David Sumpter撰寫)討論了現代機器學習的某些倫理方面。

付費5元查看完整內容

人工神經網絡在解決特定剛性任務的分類問題時,通過不同訓練階段的廣義學習行為獲取知識。由此產生的網絡類似于一個靜態的知識實體,努力擴展這種知識而不針對最初的任務,從而導致災難性的遺忘。

持續學習將這種范式轉變為可以在不同任務上持續積累知識的網絡,而不需要從頭開始再訓練。我們關注任務增量分類,即任務按順序到達,并由清晰的邊界劃分。我們的主要貢獻包括:

(1) 對持續學習技術的分類和廣泛的概述;

(2) 一個持續學習器穩定性-可塑性權衡的新框架;

(3) 對11種最先進的持續學習方法和4條基準進行綜合實驗比較。

考慮到微型Imagenet和大規模不平衡的非自然主義者以及一系列識別數據集,我們以經驗的方式在三個基準上仔細檢查方法的優缺點。我們研究了模型容量、權重衰減和衰減正則化的影響,以及任務呈現的順序,并從所需內存、計算時間和存儲空間等方面定性比較了各種方法。

//www.zhuanzhi.ai/paper/c90f25024b2c2364ce63299b4dc4677f

引言

近年來,據報道,機器學習模型在個人任務上表現出甚至超過人類水平的表現,如雅達利游戲[1]或物體識別[2]。雖然這些結果令人印象深刻,但它們是在靜態模型無法適應其行為的情況下獲得的。因此,這需要在每次有新數據可用時重新啟動訓練過程。在我們的動態世界中,這種做法對于數據流來說很快就變得難以處理,或者可能由于存儲限制或隱私問題而只能暫時可用。這就需要不斷適應和不斷學習的系統。人類的認知就是這樣一個系統的例證,它具有順序學習概念的傾向。通過觀察例子來重新審視舊的概念可能會發生,但對保存這些知識來說并不是必要的,而且盡管人類可能會逐漸忘記舊的信息,但完全丟失以前的知識很少被證明是[3]。相比之下,人工神經網絡則不能以這種方式學習:在學習新概念時,它們會遭遇對舊概念的災難性遺忘。為了規避這一問題,人工神經網絡的研究主要集中在靜態任務上,通常通過重組數據來確保i.i.d.條件,并通過在多個時期重新訪問訓練數據來大幅提高性能。

持續學習研究從無窮無盡的數據流中學習的問題,其目標是逐步擴展已獲得的知識,并將其用于未來[4]的學習。數據可以來自于變化的輸入域(例如,不同的成像條件),也可以與不同的任務相關聯(例如,細粒度的分類問題)。持續學習也被稱為終身學習[18]0,[18]1,[18]2,[18]3,[18]5,[18]4,順序學習[10],[11],[12]或增量學習[13],[14],[15],[16],[17],[18],[19]。主要的標準是學習過程的順序性質,只有一小部分輸入數據來自一個或幾個任務,一次可用。主要的挑戰是在不發生災難性遺忘的情況下進行學習:當添加新的任務或域時,之前學習的任務或域的性能不會隨著時間的推移而顯著下降。這是神經網絡中一個更普遍的問題[20]的直接結果,即穩定性-可塑性困境,可塑性指的是整合新知識的能力,以及在編碼時保持原有知識的穩定性。這是一個具有挑戰性的問題,不斷學習的進展使得現實世界的應用開始出現[21]、[22]、[23]。

為了集中注意力,我們用兩種方式限制了我們的研究范圍。首先,我們只考慮任務增量設置,其中數據按順序分批到達,一個批對應一個任務,例如要學習的一組新類別。換句話說,我們假設對于一個給定的任務,所有的數據都可以同時用于離線訓練。這使得對所有訓練數據進行多個時期的學習成為可能,反復洗刷以確保i.i.d.的條件。重要的是,無法訪問以前或將來任務的數據。在此設置中優化新任務將導致災難性的遺忘,舊任務的性能將顯著下降,除非采取特殊措施。這些措施在不同情況下的有效性,正是本文所要探討的。此外,任務增量學習將范圍限制為一個多頭配置,每個任務都有一個獨占的輸出層或頭。這與所有任務共享一個頭的更有挑戰性的類增量設置相反。這在學習中引入了額外的干擾,增加了可供選擇的輸出節點的數量。相反,我們假設已知一個給定的樣本屬于哪個任務。

其次,我們只關注分類問題,因為分類可以說是人工神經網絡最既定的任務之一,使用相對簡單、標準和易于理解的網絡體系結構具有良好的性能。第2節對設置進行了更詳細的描述,第7節討論了處理更一般設置的開放問題。

付費5元查看完整內容
北京阿比特科技有限公司