近年來,人工學習系統在計算機視覺、自然語言處理和語音識別等許多具有挑戰性的領域取得了巨大的進展。這些最新進展的一個顯著特點是,將靈活的深度函數逼近器與為特定問題收集的大型數據集結合起來,這似乎是一個簡單的公式。然而,這些系統在泛化新輸入以獲取新功能時,很難利用其學習能力,通常需要在類似的大型數據集上從頭開始重新訓練。這與人類形成了鮮明的對比,人類有一種非凡的能力,可以在之前的經驗基礎上,從少數幾個例子中學習新概念。在本論文的第一部分,我們將研究如何構建系統來模擬這種快速適應新任務的能力。本文這一部分的核心原則之一是,利用大量以前的經驗/任務中的結構來實現快速適應和不確定性。首先,我們將研究獎勵規范的設置,這是強化學習中的一個常見挑戰,接下來,我們將研究元學習設置的概率框架如何能夠在不確定性下進行推理。
在本文的第二部分中,鑒于先前的任務數據集在加速學習方面發揮的潛在作用,我們將提出一個自然的問題:如何讓智能體完全自主地收集數據。這將消除人類為人工智能“管理”任務數據集的需要,并實現完全可擴展的、永無止境的具身學習。我們所采取的方法的中心主題將是考慮智能體必須解決的在線現實世界“任務”的本質,并通過它重新審視偶發性RL的基本假設。最后,我們將在現實世界靈巧操作領域展示這些想法,并為今后在這種更“自主”的強化學習設置方面的工作提供一些提示。
強化學習(Reinforcement Learning, RL)是一種訓練人工智能體自主與世界互動的方法。然而,在實踐中,強化學習仍然有局限性,禁止在許多現實世界環境中部署強化學習智能體。這是因為RL需要很長時間,通常需要人工監督,并產生在不熟悉的情況下可能表現出出乎意料的特殊智能體。本文的目標是使RL智能體在現實世界中部署時更加靈活、穩健和安全。我們開發具有快速適應能力的智能體,即能夠有效學習新任務的智能體。為此,我們使用元強化學習(Meta- RL),在這里我們不僅教智能體自主行動,而且教智能體自主學習。基于快速適應可以分為“任務推理”(理解任務)和“任務求解”(解決任務)的直覺,我們提出了四種新的元RL方法。我們假設這種分離可以簡化優化,從而提高性能,并且更適合下游任務。為了實現這一點,我們提出了一種基于上下文的方法,在這種方法中,智能體以表示其對任務的當前知識的上下文為條件。然后,智能體可以使用這一點來決定是進一步了解任務,還是嘗試解決它。在第5章中,我們使用確定性上下文,并確定這確實可以提高性能并充分捕獲任務。在接下來的章節中,我們將在上下文中引入貝葉斯推理,以實現在任務不確定性下的決策。通過結合元強化學習、基于上下文的學習和近似變分推理,開發了為單智能體設置(第6章)和多智能體設置(第7章)計算近似貝葉斯最優智能體的方法。最后,第8章解決了稀疏獎勵的元學習的挑戰,這是許多現實世界應用的重要設置。觀察到,如果獎勵稀疏,現有的元強化學習方法可能會完全失敗,并提出一種方法來克服這一問題,即鼓勵智能體在元訓練期間進行探索。我們以對當前發展背景下的工作的反思和對開放問題的討論來結束論文。綜上所述,本文的研究成果極大地推動了基于Meta-RL的快速適應領域的發展。本文開發的智能體可以比以前的任何方法更快地適應各種任務,并且可以為比以前可能的更復雜的任務分布計算近似貝葉斯最優策略。我們希望這有助于推動Meta-RL研究的發展,并從長遠來看,利用RL解決重要的現實世界挑戰。
最佳的飛行員-飛機互動一直被認為是實現有效操作性能的基石,同時在任務或使命中保持高水平的安全。隨著飛行任務越來越復雜,越來越多的信息到達機組成員手中。市場上有新的技術解決方案,任務中的表現是可以衡量的。當考慮到基于神經科學進步的人機互動時,就有可能衡量和評估任何人機接口(HMI)的有效性。為了支持空勤人員的表現,必須利用現有的創新,如數據融合或人工智能(AI)輔助決策和任務管理,以成功執行軍事任務。人工智能和大數據管理與機器學習相結合,是改善和運行現代作戰場景的關鍵因素。以網絡為中心的綜合武器系統為聯合部隊指揮官提供了靈活性,有助于當前和即將到來的聯合任務的成功。
在聯合行動中,當兩個或更多的國家使用所有可用的領域時,盡可能快速有效地利用所有的資產和能力,以獲得戰斗空間的最佳總體情況將是至關重要的。因此,解決和驗證為機組人員優化的下一代駕駛艙的創建是很重要的。先進的指揮和控制系統,為執行任務提供安全和可互操作的支持,將確保獲得一個綜合和同步的系統,并將實現戰場上的信息優勢。在未來,各級指揮官對戰場的可視化和理解方式,利用某些輔助手段來指導和引導他們的部隊,將成為勝利的決定因素。
根據JAPCC在2021年發布的聯合全域作戰傳單,全域作戰包括 "快速處理數據和管理情報,以及實現高效作戰所需的技術能力和政策,包括所有貢獻的資產"。其他北約出版物使用術語多域作戰(MDO),主要描述任務環境的相同挑戰。找到一個連貫的、共同使用的術語是不斷發展的,但它不會改變HMI定義背后的含義。此外,重要的是開發一個連接的、復雜的接口,能夠協助指揮官和他們的下屬軍事人員同時和毫不拖延地分享信息,并迅速做出決定和采取行動。
正如Todd Prouty在他的一篇文章中所認識到的,"聯合全域指揮與控制(JADC2)正在形成,成為連接行動的指導性概念","將使用人工智能和機器學習,通過以機器速度收集、處理和計算大量的數據來連接聯合部隊"。兩種類型的態勢感知(SA)都同樣重要,因為它們不僅可能影響任務的成功完成,甚至還可能影響戰略層面的意圖。定義SA的最簡單方法是對周圍環境的徹底了解。戰術上的SA意味著機組人員知道這個場景,知道自己在任務中的任務和角色,以及所有參與同一行動區域的部隊。他們知道如何飛行任務,也知道成功或失敗的目的和后果。飛行SA主要關注的是飛行的性能和參數,空間和時間上的位置,以及飛機的性能。這兩個SA是不同的,需要在飛行過程中不斷監測。通常情況下,兩者在任務的不同階段需要不同程度的關注,如果有能力的話,可以由機組成員共享。一些技術上的改進可以只提高一個SA,但最好是同時提高兩個SA,以滿足要求并提高整體SA。這些發展也必須支持戰略層面的意圖,并提供其在決策過程中需要的SA。
現代機體和駕駛艙應支持機組人員的機載工作量,戰斗飛行員需要這種支持以保持有效。這可以通過人工智能自動管理,使機組人員能夠將更多的精力放在他們的任務和使命上。可以說,用算法來增強機體的基本需要,以補充機組人員處理飛行期間增加的信息流的能力。
在開展行動期間,預計情況可能會迅速變化,指揮官必須立即采取行動,重新安排部隊的任務。在地面或飛行中,飛行員可能會在短時間內收到一個新的任務。這個新命令不應該被格式化為純粹的基本信息;當整個更新包也能被可視化時,支持將是最佳的。一個例子是數字移動地圖系統,它描述了關于友軍和敵軍的詳細信息,包括協調信息。當飛行員改變飛行計劃時,駕駛艙及其所有設置都將自動更新。正如《國防雜志》所指出的,"從無限的資源中收集、融合和分析數據,并將其轉化為可操作的情報傳遞到戰術邊緣的能力,需要前所未有的移動處理能力"。為了符合這些要求,推動下一代人機接口的整合應該在所有現代駕駛艙中實現標準化。
HMI-Cockpit的演變。左至右:Ramon Berk, Comando Aviazione dell'Eercito, Leonardo
值得注意的是,最近飛機駕駛艙的技術發展已經出現了巨大的轉變。在短短幾年內,駕駛艙已經從帶有模擬象限的 "經典飛行甲板 "過渡到現代的 "玻璃駕駛艙",其中經典的儀表通過復雜的多功能顯示器呈現。大多數信息在儀表、飛行管理系統和自動駕駛功能之間是相互聯系的。在現代駕駛艙中,傳統的 "旋鈕和表盤 "已經被拋棄,取而代之的是電子可重新配置的顯示器和多功能可重新配置的控制,即所謂的 "軟鍵"。
傳統上,駕駛艙設計和信息顯示方式的發展是由安全和性能提升驅動的,而現在似乎更多的是由效率和競爭力標準驅動。5例如,在全狀態操作和創新駕駛艙基礎設施(ALICIA)項目中,來自14個國家的41個合作伙伴正在合作進行研究和開發活動,旨在實現一個能夠提供全狀態操作的駕駛艙系統。考慮到在不久的將來商業航班數量的增加,該項目旨在通過使用新的操作概念和駕駛艙設計來實現更高水平的效率和競爭力。
ALICIA承諾新的解決方案能夠為機組人員提供更大的SA,同時減少機組人員的工作量并提高整個飛機的安全性。這是對HMI概念的徹底反思,尋求技術的整體整合。在設想的概念中,ALICIA利用多模態輸入/輸出設備,提供一個集成在增強的機組接口中的全條件操作應用程序。
改進軍用飛機的人機接口是一項更為復雜的任務。與商業飛行相比,需要分析的情況很多,也更復雜。在軍用駕駛艙中,與飛行本身相關的任務與完成戰斗任務所需的任務合并在一起,而且往往是在危險地區和退化的環境中飛行。此外,軍用飛機配備了更多的設備,旨在處理綜合戰斗任務和軍備系統管理。
軍事飛行的典型任務可分為兩類:
駕駛和導航:在整個飛行過程中執行。
戰斗任務:只在飛行任務的某些階段執行。
當戰斗任務發生時,它們必須與駕駛和導航任務同時進行,這是軍事和商業航空的主要區別。根據自己的經驗,軍事飛行員必須判斷在任何特定的飛行階段哪一個是優先的。因此,他們將大部分資源用于該任務,而將那些經常被誤認為不太重要的任務留給機載自動系統或利用他們的注意力的殘余部分來完成。
不幸的是,軍事飛行在任務、風險、威脅、持續時間、天氣條件等方面的復雜性和不可預測性,常常使機組人員很容易超過他們的個人極限。一旦發生這種情況,風險是任務無法完成,甚至可能被放棄。在最壞的情況下,飛機和機組人員可能會丟失,或者機組人員可能會在沒有適當或最佳SA的情況下采取行動,導致附帶損害的風險增加。
新興和顛覆性的技術可以改善未來軍用飛機上的人機接口。它們可以引入基于人工智能、深度學習或實時卷積神經網絡(RT/CNN)的新解決方案,以整合新的能力,如具有認知解決方案的系統。作為一個例子,認知人機接口和互動(CHMI2)的發展和演變,用于支持多個無人駕駛飛行器的一對多(OTM)概念中的自適應自動化,也可以被利用來支持完成 "軍事駕駛艙的多項任務 "的自適應自動化。
同樣地,研究和開發CHMI2來監測飛行員的認知工作量并提供適當的自動化來支持超負荷的機組。這些先進的系統應該能夠閱讀到達駕駛艙的命令,分析相關的威脅,并提出最 "適合任務 "的任務簡介和操作概念。同時,它們應該計算所有任務所需的數據,如燃料消耗、目標時間、"游戲時間"、路線、戰斗位置、敵人和友軍的部署、武器系統和彈藥的選擇、附帶損害估計以及適當的交戰規則等。然后,考慮到船員的認知狀態,將動態地選擇自動化水平和人機接口格式及功能。
在2009年的一項研究中,Cezary J. Szczepanski提出了一種不同的HMI優化方法,其依據是任務成功的關鍵因素是飛機操作員的工作量。如果工作量超過了一個特定的限度,任務就不能成功完成。因此,他提出了一種客觀衡量機組人員在執行任務期間的工作量的方法;具體來說,就是在設計人機接口時,要確保即使在最壞的情況下,工作量也不能超過人類操作員的極限。
將近11年后的2020年,北約科技組織成立了一個研究小組,以評估空勤人員是否有能力執行其分配的任務,并有足夠的備用能力來承擔額外的任務,以及進一步應對緊急情況的能力。該小組旨在確定和建立一種基于具體指標的實時客觀方法,以評估人機接口的有效性。
通過對神經生理參數的實時測量來評估認知狀態,有望支持新形式的適應性自動化的發展。這將實現一個增強的自主水平,類似于一個虛擬的機載飛行員,這將協助機組人員進行決策,并將他們從重復性的或分散注意力的任務中解放出來。自適應自動化似乎是實現最佳人機接口的一個重要組成部分。它有望支持高水平的自主性,以減少人類的工作量,同時保持足夠的系統控制水平。這在執行需要持續工作量的任務時可能特別重要。這預示著要全面分析與自主決策機相關的倫理和道德問題。然而,這已經超出了本文的范圍。
未來的戰斗將變得越來越快節奏和動態。新興的和顛覆性的技術有望徹底改變各級指揮官計劃和實施戰場行動的方式。人工智能、機器學習、增強的指揮和控制系統以及先進的大數據管理將大大有利于指揮官,改善SA,并極大地加快決策過程。現代軍隊設想未來的行動是完全集成的、連接的和同步的,這催生了MDO概念,以完善指揮官在多個領域快速和有效地分派/重新分派所有部隊的能力。
在概念和規劃階段的這種明顯的動態性也必須反映在執行階段。因此,必須假定,雖然指揮官能夠在很少或沒有事先通知的情況下重組和重新分配部隊任務,但機組人員也必須能夠快速、有效和安全地處理和執行這些新命令,很少或沒有時間進行預先計劃或排練。
這些新要求無疑將影響下一代軍用飛機駕駛艙的設計和開發。有必要采用一種新的方式來構思下一代人機接口,更加關注飛行員的真正認知能力。此外,需要新的解決方案來為機組人員提供更大的安全空間,同時將他們的工作量減少到可以接受的最大水平,使他們保持高效。他們應該結合任務優先級原則,審慎地考慮機組人員可以將哪些任務交給自主程序或系統。
本文重點討論了空中力量和飛行員在飛機上的工作量。可以預見,在現代情況下,所有平臺都將面臨同樣的挑戰。在行動的各個層面,所有的軍事人員都應該發展一種新的思維方式,以反映人機接口的更多整合和使用。要做到這一點,需要重新認識到人的因素的重要性。與民用航空類似,北約將需要制定和采用新的標準來指導未來軍用航空接口的設計。人機接口的改進必須包括所有的航空任務,并著重于實現實時規劃和執行。如果不仔細關注軍事飛行員所面臨的壓力,人機接口的改進只會讓飛行員更加安全,而在任務執行過程中的效率卻沒有類似的提高。開發通過實時測量神經生理參數來評估機組人員的認知狀態的方法,以及隨后開發新形式的適應性自動化,對于實現符合未來戰場要求的人機接口至關重要。
Imre Baldy,中校,于1988年加入匈牙利國防軍,并在匈牙利的'Szolnok'軍事航空學院開始了他的軍事教育。1992年,他作為武器操作員/副駕駛獲得了第一個少尉軍銜。1997年,他得到了他的第一個更高級別的任命,他加入了位于韋斯普雷姆的匈牙利空軍參謀部,在那里他獲得了國際關系和空軍防御規劃方面的經驗。2007年,他被調到塞克斯費厄爾,在那里建立了新的匈牙利聯合部隊司令部。除與直升機業務有關的其他職責外,他還負責空軍的短期規劃。他曾駕駛過米24、米8和AS-350直升機。從2018年7月開始,他成為JAPCC的載人空中/攻擊直升機的SME。
利維奧-羅塞蒂,中校,于1993年在意大利軍隊中被任命為步兵軍官。三年后,他轉入陸軍航空學校,并于1998年畢業,成為一名旋翼機飛行員。他曾擔任過排長、中隊指揮官和S3小組長。他曾駕駛過通用直升機。AB-206,AB-205,AB-212,AB-412,以及AW-129 Mangusta戰斗直升機。他曾多次作為機組成員或參謀被部署到巴爾干半島(阿爾巴尼亞,科索沃),中東(黎巴嫩,伊拉克)和中亞(阿富汗)。他還是一名合格的CBRN(化學、生物、輻射和核)專家,一名空中機動教官,他目前駐扎在JAPCC,擔任戰斗航空處的空地行動SME。
由于物理世界是復雜的、模糊的、不可預測的,自主的智能體必須被設計成表現出人類水平的靈活性和通用性——遠遠超出我們顯式編程的能力。這種自主的實現不僅能夠可靠地解決特定的問題,而且還能夠預測可能出現的錯誤,以便制定戰略、適應和持續學習。要想做出如此豐富而復雜的決策,就需要在自主學習生命周期的所有階段重新思考智能的基礎。
在本論文中,我們開發了新的基于學習的方法,以實現自主系統的動態、彈性和穩健決策。通過解決在所有階段出現的關鍵挑戰,從用于訓練的數據,到在這些數據上學習的模型,再到算法,以可靠地適應部署期間的意外事件,來推進野外的魯棒決策。我們首先探索如何通過計算設計豐富的合成環境,能夠模擬連續的難以收集的、分布外的邊緣情況,在訓練和評估期間易于使用。利用這個豐富的數據基礎,我們隨后創建了高效、富有表現力的學習模型,以及優化其表示的必要算法,并克服了代表性不足和具有挑戰性的數據中的不平衡。最后,使用經過訓練的模型,我們將轉向部署設置,在該設置中,我們仍然應該預期我們的系統將面臨在訓練中從未遇到過的全新場景。為此,我們開發了自適應和不確定性感知算法來估計模型的不確定性,并利用它的存在來實現一般化的決策,即使是在存在意外事件的情況下。
現代深度強化學習(RL)算法,盡管處于人工智能能力的最前沿,但通常需要大量的訓練樣本才能達到與人類相當的性能水平。這種嚴重的數據效率低下是深度RL實際應用的主要障礙:在沒有模擬器的情況下,深度RL幾乎不可能應用于任何領域。為了解決這種關鍵數據效率低下的問題,在本論文中,我們致力于設計能夠快速適應新環境的元學習智能體。與標準的強化學習相比,元學習在特定的環境分布上進行學習,從這些環境中采樣特定的任務,并直接優化元學習器,以提高策略改進的速度。通過利用與感興趣任務具有共同子結構的任務分布,元學習器可以調整自己的歸納偏見,使其能夠在測試時快速適應。
本論文的重點是設計元學習算法,利用記憶作為驅動快速適應新環境的主要機制。具有情景間記憶的元學習是一類元學習方法,利用基于特定環境的整個交互歷史的記憶架構來產生策略。因此,在特定任務中驅動策略改進的學習動態被包含在序列模型的計算過程中,本質上把學習算法的設計交給了體系結構。雖然概念簡單,但使用情景間記憶的元學習非常有效,仍然是最先進的方法。我們提出并討論了幾種通過記憶進行元學習的技術。
論文的第一部分集中在“具身”類環境,其中一個主體在一個類似自然世界的環境中有物理表現。我們利用這種高度結構化的環境集來設計具有快速記憶、規劃和狀態推斷能力的整體嵌入式代理體系結構。在論文的第二部分,我們將重點放在沒有強公共子結構的一般環境中應用的方法。首先,我們重新檢查元學習代理與環境的交互模式:提出用一個并行執行框架來取代典型的順序處理交互歷史,其中多個智能體并行地在環境中行動。接下來,我們討論了一個通用的和強大的序列模型的使用片段間存儲器,門控transformer,展示了性能和數據效率的巨大改進。最后,我們開發了一種方法,可以顯著降低(元)強化學習設置中transformer模型的訓練成本和作用延遲,目的是(1)使它們在研究社區中更廣泛地使用,(2)解鎖它們在實時和延遲受限的應用中使用,如機器人。
//www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf
盡管現代深度強化學習(RL)算法處于人工智能能力的前沿,但通常需要大量的訓練樣本才能達到與人類相當的性能水平。這種嚴重的數據效率低下是深度RL實際應用的主要障礙: 在沒有模擬器的情況下,幾乎不可能將深度RL應用到任何領域。為了解決這一關鍵的數據低效問題,在本文中,我們致力于設計能夠快速適應新環境的元學習智能體。與標準的強化學習相比,元學習在環境分布上進行學習,從環境中抽樣特定任務,并直接優化元學習者,以提高策略改進的速度。通過利用與感興趣任務共享子結構的任務分布,元學習者可以調整自己的歸納偏差,從而在測試時快速適應。本文主要研究元學習算法的設計,該算法利用記憶作為驅動在新環境中快速適應的主要機制。情景間記憶的元學習是一種利用基于特定環境的整個互動歷史的記憶架構來產生策略的元學習方法。因此,在特定任務中的學習動態驅動策略改進被包含在序列模型的計算過程中,本質上把學習算法的設計交給了體系結構。雖然概念上簡單明了,但使用情景間記憶的元學習非常有效,仍然是一種最先進的方法。我們提出并討論了一些通過記憶進行元學習的技巧。論文的第一部分集中在“具身”環境類,其中智能體人在一個類似于自然世界的環境中有一個物理表現。我們利用這種高度結構化的環境集,致力于設計具有快速記憶、規劃和狀態推斷能力的單片嵌入式代理體系結構。在論文的第二部分,我們將重點放在那些沒有強公共子結構的一般環境中應用的方法。首先,我們重新研究了元學習主體與環境的交互模式:提出用并發執行框架取代傳統的順序處理交互歷史,其中多個主體在環境中并行操作。接下來,我們將討論一種通用且功能強大的跨情景記憶序列模型——門控transformer的使用,它在性能和數據效率方面有了很大的改進。最后,我們開發一種方法,顯著降低訓練成本和代理延遲transformer 模型(元)強化學習設置,目的是對(1)在研究社區,使其使用更加廣泛,(2)解鎖使用實時和latency-constrained應用,如機器人。
//www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf
持續學習(CL)是一種特殊的機器學習范式,它的數據分布和學習目標會隨著時間的推移而改變,或者所有的訓練數據和客觀標準都不會立即可用。學習過程的演變是以一系列學習經驗為模型的,其中的目標是能夠在學習過程中一直學習新的技能,而不會忘記之前學過的知識。CL可以看作是一種在線學習,需要進行知識融合,以便從按順序及時呈現的數據流中學習。在學習過程中,不斷學習的目的還在于優化記憶、計算能力和速度。機器學習的一個重要挑戰不是必須找到在現實世界中有效的解決方案,而是找到可以在現實世界中學習的穩定算法。因此,理想的方法是在嵌入的平臺中處理現實世界:自治的代理。持續學習在自主代理或機器人中是有效的,它們將通過時間自主學習外部世界,并逐步發展一套復雜的技能和知識。機器人必須學會通過連續的觀察來適應環境并與之互動。一些最近的方法旨在解決機器人持續學習的問題,但最近關于持續學習的論文只是在模擬或靜態數據集的實驗方法。不幸的是,對這些算法的評估并不能說明它們的解決方案是否有助于在機器人技術的背景下持續學習。這篇論文的目的是回顧持續學習的現有狀態,總結現有的基準和度量標準,并提出一個框架來展示和評估機器人技術和非機器人技術的方法,使這兩個領域之間的轉換更加容易。我們在機器人技術的背景下強調持續學習,以建立各領域之間的聯系并規范方法。
//www.sciencedirect.com/science/article/pii/S07377#sec0001
概要:
機器學習(ML)方法通常從平穩數據分布中隨機采樣的數據流中學習。這通常是有效學習的必要條件。然而,在現實世界中,這種設置相當少見。持續學習(CL)[128]匯集了解決當數據分布隨時間變化時,以及在永無止境的數據流中需要考慮的知識融合的學習問題的工作和方法。因此,CL是處理災難性遺忘[47]的范式[102]。
為了方便起見,我們可以根據經驗將數據流分割成幾個子段,這些子段有時間邊界,我們稱之為任務。然后我們可以觀察在學習一項新任務時所學到或忘記了什么。即使對任務沒有強制約束,任務通常指的是一段特定的時間,其中數據分布可能(但不一定)是平穩的,并且目標函數是常量。就學習目標而言,任務可以是相互獨立的,也可以是相互關聯的,并且取決于設置。
持續學習的一個解決方案是保存所有數據,打亂它,然后回到傳統的機器學習設置。不幸的是,在這種情況下,這并不總是可能的,也不是最佳的。這里有幾個例子,其中持續學習是必要的:
你有一個訓練過的模型,你想用新的數據更新它,但是原來的訓練數據被丟棄了,或者你沒有權利再訪問它。
你想在一系列任務上訓練一個模型,但你不能存儲你的所有數據,或者你沒有計算能力從所有數據中重新訓練模型(例如,在嵌入式平臺中)。
您希望智能代理學習多種策略,但您不知道學習目標何時發生變化,如何變化。
您希望從持續的數據流中學習,這些數據可能會隨著時間而變化,但您不知道如何變化,何時變化。
為了處理這些設置,表示應該通過在線方式學習[87]。隨著數據被丟棄并且生命周期有限,忘記不重要的東西而保留對未來有意義的東西的能力是持續學習的主要目標和重點。
從機器人技術的角度來看,CL是發展機器人技術的機器學習答案[93]。發展機器人技術是一種交叉學科的方法,用于自主設計人工主體的行為和認知能力,直接從兒童自然認知系統中觀察到的發展原則和機制中獲得靈感。
在這種情況下,CL必須包含一個學習累積技能的過程,并能逐步提高所處理任務的復雜性和多樣性。
自主主體在這樣的環境中以開放式的[36]方式學習,但也以持續的方式學習。這種發展方法的關鍵組成部分包括學習自主產生目標和探索環境的能力,開發內在動機[113]和好奇心的計算模型[112]。
我們提出了一個框架來連接持續學習和機器人技術。這個框架也為持續學習提供了機會,以一個有框架的數學公式以清晰和系統的方式呈現方法。
首先,我們介紹了持續學習的背景和歷史。其次,我們的目標是在不斷學習的基礎上理清概念匯。第三,我們將介紹我們的框架作為一種標準的CL方法,以幫助在不同的持續學習領域之間進行轉換,特別是對于機器人技術。第四,我們提供了一組度量標準,它將有助于更好地理解每一類方法的質量和缺點。最后,我們提出了持續學習機器人技術的細節和機會,這使得CL變得如此重要。
對于機器人技術和非機器人技術領域,我們保持了定義、框架、策略和評估的一般性。盡管如此,最后一節,機器人持續學習(第6節)受益于前幾節的內容,以呈現機器人領域持續學習的特殊性。
深度神經網絡在擁有大量數據集和足夠的計算資源的情況下能夠取得巨大的成功。然而,他們快速學習新概念的能力相當有限。元學習是解決這一問題的一種方法,通過使網絡學會如何學習。令人興奮的深度元學習領域正在高速發展,但缺乏對當前技術的統一、深刻的概述。這項工作就是這樣。在為讀者提供理論基礎之后,我們研究和總結了主要的方法,這些方法被分為i)度量;ii)模型;和iii)基于優化的技術。此外,我們確定了主要的開放挑戰,如在異構基準上的性能評估,以及元學習計算成本的降低。
摘要:
近年來,深度學習技術在各種任務上取得了顯著的成功,包括游戲(Mnih et al., 2013; Silver et al., 2016),圖像識別(Krizhevsky et al., 2012; He et al., 2015)和機器翻譯(Wu et al., 2016)。盡管取得了這些進展,但仍有大量的挑戰有待解決,例如實現良好性能所需的大量數據和訓練。這些要求嚴重限制了深度神經網絡快速學習新概念的能力,這是人類智能的定義方面之一(Jankowski等人,2011;(Lake等,2017)。
元學習被認為是克服這一挑戰的一種策略(Naik and Mammone, 1992; Schmidhuber, 1987; Thrun, 1998)。其關鍵思想是元學習主體隨著時間的推移提高自己的學習能力,或者等價地說,學會學習。學習過程主要與任務(一組觀察)有關,并且發生在兩個不同的層次上:內部和外部。在內部層,一個新的任務被提出,代理試圖快速地從訓練觀察中學習相關的概念。這種快速的適應是通過在外部層次的早期任務中積累的知識來促進的。因此,內部層關注的是單個任務,而外部層關注的是多個任務。
從歷史上看,元學習這個術語的使用范圍很廣。從最廣泛的意義上說,它概括了所有利用之前的學習經驗以更快地學習新任務的系統(Vanschoren, 2018)。這個廣泛的概念包括更傳統的機器學習算法選擇和hyperparameter優化技術(Brazdil et al ., 2008)。然而,在這項工作中,我們專注于元學習領域的一個子集,該領域開發元學習程序來學習(深度)神經網絡的良好誘導偏差。1從今以后,我們使用術語深元學習指元學習的領域。
深度元學習領域正在快速發展,但它缺乏一個連貫、統一的概述,無法提供對關鍵技術的詳細洞察。Vanschoren(2018)對元學習技術進行了調查,其中元學習被廣泛使用,限制了對深度元學習技術的描述。此外,在調查發表后,深度元學習領域也出現了許多令人興奮的發展。Hospedales等人(2020)最近的一項調查采用了與我們相同的深度元學習概念,但目標是一個廣泛的概述,而忽略了各種技術的技術細節。
我們試圖通過提供當代深度元學習技術的詳細解釋來填補這一空白,使用統一的符號。此外,我們確定了當前的挑戰和未來工作的方向。更具體地說,我們覆蓋了監督和強化學習領域的現代技術,已經實現了最先進的性能,在該領域獲得了普及,并提出了新的想法。由于MAML (Finn et al., 2017)和相關技術對該領域的影響,我們給予了格外的關注。本研究可作為深度元學習領域的系統性介紹,并可作為該領域資深研究人員的參考資料。在整個過程中,我們將采用Vinyals(2017)所使用的分類法,該分類法確定了三種深度元學習方法:i)度量、ii)模型和iii)基于優化的元學習技術。