在 D3M 計劃下,本研究以在 DARPA Memex 計劃下開發的技術為基礎,開發了一系列領域發現 (DD)、數據收集和提取工具。
在 D3M 計劃啟動之初,最先進的領域發現系統仍然面臨著許多挑戰,其中許多挑戰是在 Memex 計劃工作期間遇到的。例如,在 Memex 項目下開發的系統中,沒有一個能在項目評估中針對地面實況數據集持續達到可接受的召回率。雖然精確度得分略有提高,但仍有很大的改進空間,這就需要解決從底層網絡爬行技術中繼承下來的一系列難題,如動態內容的可靠處理、驗證碼謎題等反僵尸機制,以及軟 404 錯誤、停放域名和頁面加載延遲等其他令人煩惱的問題。
我們在 D3M 項目下提出的工作目標是結合并擴展一系列現有功能,以提供一個易于重新訓練、與模型無關的數據發現、收集和提取系統,該系統可以集中提供并在多個項目中使用。
我們的計劃是將我們的技術集成到由 D3M 計劃中至少另外兩個團隊正在開發的 DataMart 系統中。DataMart 為特定領域的數據集編制索引,這些數據集由領域發現爬網程序整理,并通過復雜的 ETL 管道攝取到索引中,這些管道可提取元數據,并識別領域內和跨領域的不同數據集之間的潛在連接和聯合。根據我們在 Memex 計劃中積累的經驗和現有的工具套件,我們提議建立后臺發現爬蟲,DataMart 系統可利用這些爬蟲填充其索引。然而,由于長達一年的合同延遲,我們在項目啟動一年后才加入,因此 DataMart 團隊早已進入研究階段,而我們卻在努力尋找整合與合作的機會。整合需要 DataMart 團隊進行額外的、有時是追溯性的工作,雖然每個人都有最好的合作意愿,但最終證明這在技術上是不可行的。我們確實完成了數據集發現系統與紐約大學和 ISI Datamart 系統的概念驗證集成,但我們沒有繼續進行端到端測試。
盡管如此,仍繼續專注于構建離散領域發現工具和實用程序,供 DataMart 系統、其他執行者或潛在的過渡合作伙伴使用。我們繼續與 DARPA 合作,以確定我們可以幫助解決的計劃能力組合中的差距,并繼續尋找機會,以應對領域發現和數據集 ETL 領域中的新用例和挑戰問題。
無人駕駛飛行器(UAV)的結構由幾個關鍵組件組成,以優化其效率以及在空戰或空中監視應用等關鍵環境中的可操作性。本研究工作是在自主協作智能體中實施一種創新的人類專家評估策略,以確定無人飛行器的威脅等級。因此,目標是使用一種稱為 “策略捕捉 ”的認知工程技術,配置與人類認知相一致的作戰威脅評估能力。這包括以下兩個步驟。第一步是將認知建模系統集成到智能體中。該系統根據專家先前的決定,提供有關威脅等級評估的建議和警告。因此,它可以利用從人類推理中提取的真實決策模式,提供透明和可解釋的能力。換句話說,這種認知建模系統有助于將專家決策中的一些隱含要素顯性化。此外,還采用并部署了一種多模型方法,使用七種同步監督機器學習算法,通過模仿專家決策來預測威脅程度,而不會受到疲勞、壓力或分心的影響。這些算法基于經過增強和微調的 python scikit-learn 模塊: 邏輯回歸(LR)、決策樹(DT)、K-近鄰(KNN)、多層感知器神經網絡(MLPNN)、奈夫貝葉斯(NB)、支持向量分類器(SVC)以及隨機森林(RF)。第二步是將專家策略提供的響應傳送給智能體的態勢感知模塊。為此,我們將專家策略確定的威脅等級與自主代理已確定的初始威脅等級進行融合。為實現這一目標,我們利用模擬環境提供了一個關鍵資產保護用例。該使用案例由四個威脅等級組成,從犯罪意圖到毫無頭緒不等。該解決方案試圖通過根據威脅等級管理或優先處理要跟蹤和消除的目標無人機數量,最大限度地提高 “真實 ”威脅的消除率。換句話說,防御性無人機蜂群通過首先處理犯罪特征來確定其響應的優先級,目的是以最高優先級解除威脅,然后繼續處理粗心大意的特征,最后是無知的特征。防御蜂群采取 “看門狗 ”行為,適應威脅級別的突然變化,例如,當任何威脅過于接近保護區時。值得一提的是,在沒有專家策略的情況下,所有敵方無人機都被視為具有同等威脅,沒有優先級之分,從而導致無法消除實際威脅的更大風險。未來的工作方向包括研究如何通過在線學習和可解釋的人工智能方法實現相互理解和預測能力,從而改善人類-自動駕駛團隊合作。此外,通過這種方法實現的另一種潛在破壞性能力可能是讓無人機蜂群學會在線預測對手無人機的行為模式,以便在飛行中進行調整,實現認知空中優勢。
圖 1:SE-STAR 模擬展示了紅方和藍方力量以及地面控制站。
自主系統的發展被視為提高人類操作員效率和性能的工具,有助于減少人類的工作量、壓力和失誤[1]。自主協作智能體的興起引發了監視和偵察領域的重大轉變[2]。一個常見的誤解是,這種協作型智能體將取代人類或消除人為錯誤。自動化悖論指的是,事實上自動化會引發新類型的錯誤和新類型的問題,例如由于濫用自動化而導致人類技能和性能下降[3]。此外,能否信任自主系統通常也是一個問題,尤其是在國防和安全領域,在這些領域,通常必須讓人類參與其中。然而,這也引發了諸如 “環路中人類的虛假保證 ”等問題,在這種情況下,人類往往被賦予監督者的角色,對非常復雜的完全自主系統進行監控,但卻導致了態勢感知(SA)的缺失,甚至降低了人類的整體影響力,即使人類仍然需要對系統進行驗證或下達某些指令。態勢感知不僅對人類的表現至關重要,而且也是自主系統和人類-自主團隊合作中的一項挑戰。
團隊態勢感知(TSA)是團隊協作性能的關鍵組成部分。它可以被描述為 “知道你周圍發生了什么”,并知道如何理解、解釋和提取有關環境的信息[4]。當涉及到決策時,SA 還與人類的一些偏差有關,例如:i) 注意力狹窄/鈍化;ii) 記憶力不足;iii) 工作量、疲勞、壓力、反應時間;iv) 數據超載;v) 不適應的心理模型(例如,非邏輯推理或不當行為);vi) 不使用或濫用自動化系統 [5,6]。在此,我們尤其關注的是如何讓控制無人駕駛飛機的智能體進行有效的情況評估這一挑戰[5]。在這項研究中,我們開發了一種新的潛在方法,不僅能為人類提供決策支持,還能為自動系統提供決策支持,有助于在協作式自動無人機系統的應用中保持高水平的 SA。
人機協同(HAT)是指人類與自動化系統之間能夠相互依賴地協調合作,以完成共同的任務或目標[5]。人類和機器都缺乏 SA 會對團隊的表現產生不利影響。對無人系統在軍事上的使用進行的研究發現,33% 的事故是由人類直接造成的,67% 是由于機器的問題造成的[8]。美國國防部的其他統計數據稱,人為失誤造成的事故占軍方無人機系統事故的 20%- 70%[9]。這些指標因 HAT 而異,但人類常見的錯誤模式有:基于技能的錯誤、程序性錯誤、核對表錯誤、操作不當或對自主系統控制過度或不足,而機器則往往在設置、監控、檢測和診斷失敗等方面出現問題 [8]。研究人員證明,混合主動目標識別,即由一個智能體提供協助,在視覺搜索空間中定位潛在目標,實際上隨著時間的推移,性能持續惡化[10]。他們認為,接受過檢測特定刺激訓練的智能體,其表現可能不如機警的人類[10]。因此,在設計 HAT 框架時,必須根據每個智能體的局限性和優勢,探索降低風險、提高安全性和可靠性的方法。自主系統在可解釋性方面面臨著重大的信任挑戰,因為有時這類系統往往難以提供可靠、可理解的信息,以確保充分的合作與協作[11]。缺乏對智能體的認識和理解只會強化環外現象[12]。
提出了一個原型解決方案,旨在讓智能體向人類專家學習如何評估特定類型的情況。本研究選擇的用例包括在反無人機場景中進行威脅評估,以保護關鍵資產。這項概念驗證調查是認知系統工程(CSE)研究工作的第一步,旨在利用人在回路合成測試環境反復測試和改進 HAT 能力。認知系統工程方法側重于提高人類理解和控制系統的能力,通常在開發自適應/智能/學習框架方面發揮關鍵作用[13]。雖然過去的工作推進了用于人類與無人機協作的可調節自主方法[13, 14, 15, 16, 17],但適應性大多基于環境、使用案例和任務目標(例如,改變每個操作員的無人機數量)[14]。然而,還沒有研究通過使用專家建模將情況評估策略轉移到智能體以增強系統自主性和 HAT 協作能力來證明這種可調整性。本文第 2 節介紹了擬議框架,第 3 節介紹了威脅檢測應用案例,第 4 節介紹了方法,第 5 節介紹了結果,第 6 節介紹了結論。
本文研究的新解決方案結合使用了基于人工智能的決策支持系統 “認知陰影”(專家陰影和自動學習觀察到的決策/行為模式;[18, 19])和人工智能強化智商協同合作伙伴(SPARQ),后者是一個用于實施和優化協作自主系統的平臺。這兩個系統被合并成一個聯合能力框架,在這個框架中,人類操作員和智能體可以共同學習、協調和共享信息。這種 HAT 使智能體能夠為完成聯合任務而協作,并反映了具有高度自主性的任務管理互補自適應框架[17]。
SPARQ 是一種人工智能體解決方案,能夠與人類操作員協同工作,并創建復雜的多功能協作平臺。SPARQ 可實現多智能體用例的開發、部署和測試,其中其他智能體可以是人工的,也可以是人類的。通過使用其相關的組隊框架,它允許人類和智能體朝著共同的目標合作。SPARQ 的 “數字孿生 ”由三個主要部分組成:i) 感知能力,包括利用傳感器和仿真模型來表示和理解人工智能體的當前情況及其歷史;ii) 預測能力,包括根據假設情景預測當前情況可能如何發展的能力;iii) 決策能力,包括根據感知和預測模塊的輸入制定行動計劃的能力。該系統已利用無人機群、地面控制站和智能傳感器等真實硬件或操作系統進行了實施和測試。它能夠讓有組織的團隊組成蜂群。這些由人工智能驅動的系統具有實時適應和重新配置的能力,可以自主執行復雜多樣的任務。
Cognitive Shadow 使用最先進的策略捕捉方法,結合多種監督機器學習算法,實現了專家決策和行為模式的自動建模[20- 21]。這種源自專家的認知模型支持一種稱為 “判斷引導 ”的過程,在該過程中,模型往往比人類更可靠,因為這些模型不受疲勞、壓力、分心和精神超負荷的影響[22, 23]。使用認知影子技術多次觀察到這種效果,從而成功降低了 4% 到 36% 的錯誤率 [22-24]。將 Cognitive Shadow 集成到 SPARQ 中可實現決策支持系統的個性化,使團隊伙伴(智能體和人類飛行員或操作員)在優化任務性能的同時獲得實時建議。此外,它還能根據專家政策對信息進行優先排序,并提取上下文信息需求。它通過兩種方式讓人類參與到智能體的決策中:i) 使用經過人類專家訓練的人工智能算法;ii) 實時建議和互動[25]。這種方法支持可解釋性和透明度,因為每個決策都是基于人類的專業知識和理解。它不僅為人類在容易出錯的挑戰性條件下提供支持,也為無人機蜂群等自主協作智能體提供支持。
本次調查選擇的使用案例側重于利用無人機系統探測受保護設施周圍的威脅,從而加強國土安全。使用數字孿生無人機架構在情況監控和異常檢測方面邁出了重要一步,從而增強了安全性[27]。
威脅評估在很大程度上取決于環境和情況。在本研究中,我們將重點關注用于保護禁區的無人機對抗措施。重要的是要考慮環境中可能存在的不同類型的威脅,以便模仿和復制其發生的現實。威脅類型通常基于無人機的不同用途,如民用、恐怖主義、軍事或犯罪用途[26]。恐怖分子惡意使用無人機的例子可能是監視或自殺,而對平民的體貼使用可能是災難響應、旅游使用和電影拍攝、援助和供應,甚至是商業廣告[26]。然而,其他研究則側重于不同類型的威脅,如黑客攻擊、欺騙、干擾、惡意軟件感染、硬件攻擊等[26, 27]。對于本用例,我們依靠過去的威脅等級評估工作來確定威脅等級和因素[28]。
已研究出多種威脅評估和檢測技術。一種方法側重于非合作無人機監控的惡意意圖和最終目的地估計[29]。還有一些方法使用基于規則的入侵檢測,這種方法是通過定義所關注的攻擊類型并將其實施為 “魯莽攻擊”、“隨機攻擊”、“機會主義攻擊”,從而最大限度地減少檢測誤差,包括假陽性率和假陰性率。不過,這種方法往往過于簡單,無法識別未知類型的攻擊 [26]。根據某些傳感器(如聲學檢測、運動或攝像頭檢測、熱檢測和雷達探測)的優先級,方法可能會有所不同[8]。這些方法的威脅評估流程基本相同。它包括:i) 檢測階段,涉及識別實體的能力;ii) 鑒別能力,即接受某些輸入模式并拒絕其他模式的能力;iii) 基于飛機類型(戰斗機和轟炸機)的分類步驟;iv) 識別不同類型或級別威脅的步驟;以及 v) 確定需要采取的應對行動類型。
部署智能和 HAT 平臺可以改善國土安全和任務安全,其中 SA 被認為是多飛機任務的戰術優勢和戰術軌跡規劃的主要組成部分[28]。貝葉斯網絡模型是利用人工智能進行威脅評估的最常用方法之一。文獻[28]中的一個例子利用四個事件節點證明了這種方法的可行性:i) 識別類型(如雷達成像、電子、紅外或可見光成像偵察);ii) 地形特征(如敵方武器位置的地形和地貌特征數據);iii) 天氣類型(如天空能見度);iv) 電磁環境(EE),如輻射、被敵方設備探測到的概率。這些特征有助于評估威脅程度或探測到惡意無人機的概率。同樣,文獻[30]證明了在 HAT 場景中戰術無人機決策需要動態貝葉斯網絡和馬爾科夫決策過程。這項工作還強調了專家指揮官如何進行評估,如推理和決策如何/何處/何時部署可用資源,以提高生存能力和完成既定任務的概率[30]。這與目標類型、武器類型、所屬關系(敵、友、神經或未知)、與所關注實體的距離、探測半徑、武器射程、速度、方向和地形類型等特征相結合。他們將這些特征編碼到基于規則的模型中,以評估分類效果。文獻[31]中的其他工作展示了針對無人機威脅的輔助決策支持系統。該系統利用基于知識和基于傳感器的融合分類性能來劃分威脅等級。他們測試了三種策略:i) 基于速度的規則,純粹使用四個等級的加速度變化,其中加速度是風險指標;ii) 距離受保護設施的距離;iii) 速度和速度變化模式,分為 5 個等級。[32] 使用動態貝葉斯網絡模型,使用了類似的特征。不過,根據領域專家的知識,他們增加了飛行器的類型和特征:轟炸機需要俯沖到中等高度進行精確定位轟炸,電子干擾機和預警機通常處于高空[32]。最后,[33] 利用貝葉斯網絡使用了 EE 類型(軍用、民用、無發射)、雷達類型(民用、軍用)、干擾器(開與關)以及任務類型(偵察、輕型商用、非法飛行、其他)和速度(亞音速、跨音速、超音速、高超聲速)。
圖 3:認知陰影模型對四種可能類別的威脅檢測結果。
第一步是對四位專家進行訪談。我們采訪了來自泰雷茲陸地和航空系統公司的三位航空航天和導航領域專家,以及泰雷茲加拿大防務與安全公司和加拿大皇家騎警反無人機專家。第四位專家是一名戰斗機飛行員。這些專家幫助提供了對情景的反饋意見,并幫助驗證了專家政策建模的輸入。除專家反饋外,我們還借鑒了上述先前的研究成果,以確保概念驗證研究基于現實的假設。
這項研究涉及使用人工智能體和模擬敵方無人機,這些無人機需要根據定義的使用案例和專家反饋意見進行中和。每個模擬無人機都是由自主機器人航空(ARA)提供和開發的四旋翼無人機。為了訓練我們的 HAT,我們使用了 SE-STAR 模擬器[34],它使我們能夠開發反無人機模擬場景。這樣,我們就可以利用可定制的地形(具有特定尺寸的土地和保護區域)來模擬不同的威脅級別。模擬涉及藍色智能體(防御小組)、紅色無人機(需要評估的威脅)、地面控制站和雷達。通過將 SPARQ 與無人機模擬器連接,我們可以模擬無人機與環境之間的互動(即模擬傳感和物理)。這種設置為我們的 HAT 團隊框架和專家策略模型提供了一個測試平臺。通過這種實現方式,我們可以擁有一個動態環境,并有可能進行人機交互。它還允許生成培訓和測試數據、態勢感知指標和團隊協作性能。這種模擬測試有助于發現我們的框架和政策中潛在的差距、功能障礙和謬誤,需要在隨后的實地測試階段之前加以解決。
自動程序修復(APR)試圖修補軟件缺陷并減少手動調試的工作。最近,隨著大型語言模型(LLMs)的進步,提出了越來越多的APR技術,顯著地促進了軟件開發和維護,并展示了卓越的性能。然而,由于基于LLM的APR領域的持續探索,研究人員很難理解當前的成就、挑戰以及潛在的機會。本項工作提供了第一個系統的文獻綜述,總結了2020年至2024年間LLMs在APR中的應用。我們分析了127篇關于LLMs、APR及其整合視角的相關論文。首先,我們分類了現有的流行LLMs,這些模型被應用于支持APR,并概述了三種部署策略。此外,我們詳細描述了一些從LLMs受益的特定修復場景,例如,語義錯誤和安全漏洞。進一步地,我們討論了幾個將LLMs整合到APR研究中的關鍵方面,例如,輸入形式和開放科學。最后,我們強調了仍需研究的一系列挑戰和未來研究的潛在指南。總體而言,我們的論文為APR社區提供了一個系統的研究概覽,幫助研究者全面理解成就并推動未來的研究。我們的工具在GitHub倉庫公開可用://github.com/iSEngLab/AwesomeLLM4APR。
軟件缺陷被公認為不可避免且具有破壞性,為全球用戶帶來安全問題,并每年造成數十億美元的經濟損失【11, 156】。對開發者而言,手動修復檢測到的軟件缺陷既非小事也耗時【13】。自動程序修復(APR)在軟件開發和維護中扮演著至關重要的角色,旨在無需人工干預下修復軟件缺陷。自2009年基礎工作GenProg【80, 155】以來,過去幾十年中APR已被廣泛研究【43, 105】,研究者們提出了多種APR技術,包括基于啟發式的【64, 80, 98, 177】、基于約束的【31, 99, 169, 171】以及基于模式的【76, 91, 92】。最近,受到深度學習(DL)進步的啟發,越來越多基于學習的APR技術被提出,這些技術利用神經網絡模型自動學習修復缺陷的模式【18, 66, 84, 85, 96, 142, 174, 175, 199, 200】。得益于DL模型從大量代碼庫中學習隱藏修復模式的強大能力,基于學習的APR在過去幾年中取得了顯著的表現【182】,吸引了學術界和工業界的廣泛關注【69, 70, 73】。 最近,大型語言模型(LLMs)已成功應用于廣泛的源代碼相關任務【147, 184】,如代碼生成【82, 148, 150, 201】、代碼總結【132, 133, 146】和測試生成【4, 24, 57, 108, 128】。得益于龐大的模型參數和廣闊的訓練數據,LLMs展示了令人印象深刻的性能,并從根本上改變了軟件工程(SE)社區的研究范式。在APR領域,從先驅研究開始,例如TFix【7】、CIRCLE【176】和AlphaRepair【163】,社區已經見證了利用LLMs的修復研究的爆炸性增長,已經取得了相當的優勢,并進一步顯示了未來研究的重大潛力。然而,LLMs在APR中的整合是一個相當復雜的任務,使得有興趣的研究者難以理解現有工作。例如,現有基于LLM的APR研究涵蓋了不同的研究視角(例如,經驗性【162】、技術性【163】和基準研究【187】)、修復階段(例如,補丁生成【186】和正確性評估【183】)、修復場景(例如,靜態警告【69】和語法錯誤【70】)、模型架構(例如,僅編碼器【185】和僅解碼器【100】)以及模型使用范式(例如,微調【176】、少量樣本【108】和零樣本【186】)。盡管該領域的探索仍在進行中,目前的文獻中缺乏關于LLMs在APR中應用的詳盡和系統的綜述,這使得研究人員難以理解現有工作的多樣化設計選擇和進行后續研究。 本文。為了彌補這一差距,我們的工作提供了第一個系統的文獻綜述,關于迅速出現的基于LLM的APR研究的部署。基于此,社區可以全面了解現有基于LLM的APR技術的優勢、劣勢和空白。我們討論了在最先進的APR研究中廣泛采用的LLMs是哪些,以及它們如何被整合到修復工作流中。我們收集了127篇相關論文,并從LLMs、APR和整合視角進行了系統分析。通過我們的分析,我們揭示了當前的挑戰,并指出了基于LLM的APR研究可能的未來方向。總體來說,這項工作為LLM基于APR社區正在進行的進展提供了一個徹底的概覽,幫助研究者在這個迅速發展的領域中導航,并推動創新實踐。 貢獻。總結來說,本工作做出了以下貢獻: * 調查方法論。我們進行了第一個系統的文獻綜述,涵蓋了127篇高質量的APR論文,這些論文利用近期的LLMs應對2020年至2024年4月的修復挑戰。 * 趨勢分析。我們就發布趨勢、出版地點分布和貢獻類型對選定的APR研究進行了詳細分析。 * LLMs視角。我們總結了46種用于支持程序修復的LLMs,并提供了APR領域不同LLM類別的典型使用和趨勢的概述。 * APR視角。我們描述了LLMs應用的常見修復場景,涵蓋了18種錯誤類型,如安全漏洞和編程問題。 * 整合視角。我們討論了一些關鍵因素,包括數據集、輸入表現形式和開放科學,這些因素影響LLMs整合到APR中的性能。 * 挑戰與機遇。我們總結了在APR領域應用LLMs的一些關鍵挑戰,并指出了未來基于LLM的APR研究的一些潛在指南。
論文組織。第2節介紹了關于APR和LLMs的一些基本概念。然后,根據上述貢獻,第3節列出了我們的研究問題(RQs)和收集與我們工作相關論文的研究方法。第4節調查了基于LLM的APR研究的趨勢和分布。第5節總結了現有APR研究所使用的LLMs。第6節闡述了LLMs應用的主要修復場景,并對每項工作進行了簡要描述。第7節討論了LLMs與APR整合過程中的一些關鍵因素,包括數據集、輸入表現形式、補丁正確性和開放科學。第8節討論了一些挑戰和實用指南。第9節得出結論。 我們試圖通過總結相關研究并進一步提供后續研究的指南,提供近期LLMs在APR應用的全面概覽。為了實現這一點,這個系統的文獻綜述回答了以下研究問題(RQs): * RQ1:利用LLMs的APR研究的趨勢是什么?
(1) LLMs在修復軟件缺陷方面顯示出蓬勃的發展趨勢,從2020年到2024年間共有127篇論文。 (2) 在APR中使用LLMs的會議論文數量顯著超過期刊論文,其中ICSE和TOSEM分別是最受歡迎的會議和期刊場所。 (3) 基于LLM的APR論文發表在不同的研究領域,包括軟件工程(SE)、人工智能(AI)和安全性。 (4) 有18種編程語言已被基于LLM的APR應用,其中Java、Python、C和C++是最常被目標的。 (5) LLMs已被應用于一些代表性較低的編程語言,如Verilog和Rust。 (6) 收集的大多數研究主要集中于引入新技術和進行實證研究,而有兩篇論文執行了用戶研究,以了解從業者對利用各種LLMs解決修復缺陷任務的態度和經驗。 * RQ2:哪些受歡迎的LLMs已被應用于支持APR?
(1) 我們總結了46種不同的LLMs,這些模型已被用于修復缺陷,并且可以根據模型架構分為三類,即僅編碼器、編碼器-解碼器和僅解碼器。 (2) 僅解碼器的LLMs是最常使用的模型架構,其中四種最受歡迎的LLMs均為僅解碼器模型。 (3) ChatGPT、GPT-4、CodeT5和Codex是現有基于LLM的APR研究中最受歡迎的LLMs,分別被使用了37次、25次、23次和21次。 (4) 我們總結了三種典型的利用LLMs中封裝的廣泛知識來處理特定程序修復任務的方法,即微調、少量樣本和零樣本。 * RQ3:哪些修復場景已由LLMs促進?
總體來看,我們觀察到LLMs已在文獻中的廣泛修復場景中得到應用,涉及18種錯誤類型。在一些由傳統APR主導的常見場景中,例如語義錯誤,研究者繼續投入大量努力研究LLMs的應用。此外,由于LLMs從所有可能的互聯網數據中學到的通用知識,基于LLM的APR已擴展到一些以前未探索的罕見場景,如硬件缺陷和Web UI。 * RQ4:哪些關鍵因素有助于LLMs在APR中的整合?
(1) 我們總結了78種不同的數據集,這些數據集被用來基準測試LLMs在修復缺陷中的應用。 (2) 在基于LLM的APR中,Defects4J、QuixBugs、BFP、CVEfixes和Big-Vul是最常使用的。 (3) 我們將所有收集的論文中的輸入形式分類為五組:原始修復輸入、提示輸入、掩碼輸入、對話式輸入和結構感知輸入。 (4) 提示輸入是在應用LLMs進行程序修復時最常用的形式,這表明設計有效的提示對于利用LLMs的自然語言處理能力尤為重要。 (5) 我們總結了一些利用LLMs預測補丁正確性的研究。 (6) 所有收集的論文中有62.99%已經開源了其工具,而在頂級SE出版物中,這一比例增加到了86.84%。
大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。
近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):
在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。
組織結構
本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。
結論
在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。
本報告詳細介紹了在 DARPA LwLL 或 "少標簽學習 "項目中采用的方法和取得的成果。
本報告解決的關鍵問題是從小標簽數據集學習的問題。這是許多應用領域經常遇到的問題。尤其是在國防應用領域,標簽數據可能是分類數據,因此數量有限。不幸的是,現代深度學習系統需要大量的標注訓練示例,這使得它們在標注較少的情況下效果不佳。在本報告中,我們將介紹我們在開發新型學習機器方面所做的努力,這些機器可以有效地從少量標簽中學習。
我們對這一問題的主要見解是利用任務和領域中的結構。這種結構可以是關于所需不變性的領域知識。它也可能更無定形,難以具體化,但它可能決定了哪些分類器能在該領域發揮良好的作用。我們探索了三種納入這種領域結構思想的方法:
1.納入已知不變量: 我們探索了明確包含已知不變量的機器學習新架構。特別是,我們設計的識別架構允許特征在空間上移動,以納入姿勢不變性。
2.跨領域學習: 考慮到不同領域之間的相似性,我們探索了跨領域傳輸所學模型的新技術。
3.特定領域的學習算法: 我們還探索了兩個領域的專業學習技術:衛星圖像和自動駕駛汽車。對于這些領域,我們利用數據的特殊結構來學習無標簽模型。
使用標準基準和 DARPA 評估進行了實驗。普遍發現
1.在對領域一無所知的情況下,最佳策略是自我訓練,即使用經過適當過濾的網絡自身輸出作為 "地面實況 "標簽。在這里,我們發現了進行自我訓練的新方法,即使網絡是在完全不同的問題領域中訓練出來的。
2.如果我們了解我們正在處理的領域,我們甚至可以建立完全無監督的識別模型,其性能優于有監督的模型。關鍵是要利用底層數據生成過程的知識。我們在衛星圖像和自動駕駛汽車上都展示了結果。
該項目是為了支持美國國防部高級研究計劃局(DARPA)的 "開放世界新奇事物的人工智能與學習科學"(SAIL-ON)計劃。在第二階段基期工作中,我們推進了第一階段 TALONS 框架的理論和實施,并收集了智能體在新奇事物生成器生成的新奇事物上的基線性能的初步實證結果。在第二階段的選擇階段,我們將基礎階段的工作擴展到更廣泛的新奇事物生成和實施形式。
這項工作的主要成果包括:完成了新奇事物生成器的開發;對來自 3 個不同 SAIL-ON TA1 團隊的新奇事物進行了性能分析;開發了自動且可最大程度減少人為偏差的新奇事物生成與實施流程;將我們的新奇事物生成流程應用于 Monopoly、Vizdoom 和 Blocksworld 領域,從而證明我們的新奇事物生成器與領域無關;以及為 SAIL-ON 計劃提供支持。下面的項目總結和后續報告將更詳細地介紹這些成就。
目前最先進的人工智能可以在已知已知甚至未知的情況下穩健運行。然而,人工智能仍無法可靠地檢測、描述和適應開放世界中的新奇事物。隨著研究界不斷努力實現先進的自主性,我們需要有科學依據的方法來評估人工智能體在開放世界環境中的表現。
PacMar Technologies(PMT)和 Parallax 高級研究公司開發了一套獨立于領域的理論、原則性技術和軟件工具,用于生成、描述和評估新穎性。這些理論和技術涵蓋了與領域無關的新穎性。在合同基期內,我們開發了一個測試平臺,用于評估智能體在自動駕駛汽車領域對新奇事物的反應性能,我們還在南加州大學 SAIL-ON 團隊提供的大富翁領域中實施了由我們的軟件工具自動生成的新奇事物。
我們的新奇事物生成器方法使用原則性技術自動生成新奇場景。這些場景被加載到模擬環境中,與給定的第三方人工智能體對接,以收集該智能體的性能數據。然后評估智能體在各種不同情況下處理各類新奇事物的能力。
我們將新奇定義為環境中的變化。簡而言之,變化可以是過渡函數的變化,也可以是狀態空間的變化。我們的方法有能力在過渡函數(包括行動和事件)、狀態空間定義和觀察函數中生成新穎性。精確生成新穎性的計算方法可分為兩種類型的轉換,其方式與創造性系統框架(Wiggins,2006 年)一致。我們方法的關鍵在于從八個維度對新穎性進行表征,從而支持將情景生成的重點放在可能挑戰智能體魯棒性的情況上。
我們的方法目標如下
1.為新奇性的特征描述奠定科學基礎。 2.開發生成可用于評估智能體的新情景的技術。 3.確定這些技術的可行性及其在各領域的適用性。
本報告旨在清晰地描述我們的方法,包括新穎性生成、模擬和評估的方法。將我們的方法應用于 CARLA 的自動駕駛汽車領域、Monopoly、VizDoom 和海洋領域,有助于進一步發展理論和測試平臺軟件。最后,我們對本報告進行了總結,并提出了進一步研究的思考和啟示。
在第一階段的工作中,我們開發了一個基于新穎性多維表征的新穎情景生成框架。我們正式規定了這一多維表征、收集受測智能體數據的指標,以及評估智能體對不同類型新穎性的魯棒性的方法。在使用轉換生成新穎性的過程中,我們定義了 24 個函數簽名,并計算了應用這些簽名生成新穎性的上限復雜度。我們的研究表明,根據我們對新穎性的多維表征,使用這兩種類型的變換來改變場景生成,我們能夠顯著減少新穎場景的空間。為了支持新穎性的精確生成,我們構思了 TALONS 模擬器抽象語言(T-SAL)來描述環境和這些環境中的各個場景。我們利用這些概念來支持第三方智能體對新奇事物的魯棒性評估。
在第二階段基期工作中,我們推進了 TALONS 框架的理論和實施,并收集了智能體在新奇事物生成器生成的新奇事物上的基線性能的初步實證結果。我們制作了三個源代碼庫,詳見基礎階段最終報告,其中包含以下內容的實現:(1) TSAL 語言;(2) 新穎性生成器(實現 R 變換);(3) 使用 CARLA 自動駕駛汽車模擬器的評估框架。從理論角度來看,我們利用第一階段工作中開發的新穎性維度理論對新穎性進行了初步分析研究,并正式定義了 R 變換,然后利用這些定義正式定義了新穎性層次結構級別。
我們在第二階段選擇期內做出的獨特貢獻包括以下內容:
量子啟示的機器學習(QiML)是一個迅速發展的領域,由于其有潛力在經典計算框架內利用量子力學的原理,因此受到了全球研究者的關注。然而,當前的綜述文獻經常只是對QiML進行淺層次的探討,而更多地關注更為廣泛的量子機器學習(QML)領域。為了填補這一空白,這項綜述為QiML提供了一個整合的、全面的調研,探討了QiML的多種研究領域,包括張量網絡模擬、去量子化算法等,并展示了近期的進展、實際應用以及可能的未來研究方向。進一步地,通過分析該術語的各種先前解釋及其固有的模糊性,為QiML建立了一個具體的定義。隨著QiML的不斷發展,我們預期未來將從量子力學、量子計算和經典機器學習中汲取大量新的發展,進一步豐富該領域。這項調查旨在為研究者和實踐者提供指導,為他們提供對QiML當前狀況和未來方向的全面了解。
量子啟示的機器學習(QiML)領域已經取得了大量的增長,吸引了全球研究者的關注。作為量子機器學習(QML)的一個特定子集,QiML專注于在經典計算框架內開發受量子力學原理啟發的經典機器學習算法,這通常被稱為QML分類中的“經典-經典”象限,如圖1所示。QiML代表了一個多面的研究領域,其綜述旨在超越傳統的經典最先進的結果,或探索量子形式所提供的表現力。
為了在QML的背景下定位QiML,我們簡要地說明了后者。更廣泛地說,QML位于量子計算和機器學習的吸引人的交匯點。主導的研究領域關注“經典-量子”域,并探討使用量子硬件加速和增強機器學習策略。在此,經典機器學習中存在的兩大挑戰得到了回應。首先,很多領域中數據集的不斷增大和復雜化產生了計算挑戰,這些挑戰經典機器學習難以高效管理。其次,量子計算提供了解決目前用經典計算方法難以實現的復雜問題的潛力[1]。但是,目前在實際的量子硬件上評估QML算法受到一些因素的限制,例如量子位數有限、量子門中的高誤差率、維持量子狀態(失去相干性)的困難,以及與量子錯誤糾正相關的挑戰[2]。因此,QML的景觀主要受到理論考慮的影響,而噪聲中間規模量子(NISQ)設備的最近進展為全規模量子計算的潛力提供了一個初步的、經驗性的預覽[3]。因此,QML對機器學習領域的真正影響和范圍仍然是一個持續的研究話題。
QiML與QML研究并肩發展。經常被引用的研究領域包括張量網絡量子模擬和去量子化算法[4],[5]。然而,與QML相比,QiML中的發現通常都有數字證據支持,這得益于沒有量子硬件的要求,因此相對于其他QML子集,更容易進行定量評估。雖然QiML研究正在蓬勃發展,但當前的綜述文獻往往忽略了這一領域,更多的關注是放在整個QML上。通常,QiML只是被簡要提及或被淺層次地處理[5],[6],[7],[8],[9],[10]。QiML的實際應用案例、其應用以及與標準經典基準的比較分析通常都沒有被探索。這指出了對QiML作為一個獨立領域進行深入審查的迫切需求。為了回應這一文獻空白,我們的調查旨在為QiML的各個方面提供一個全面、綜合的討論。
我們的目標是提供一個關于QiML在實踐中如何被使用的可訪問和全面的概述,詳細描述其最近的進展,并使讀者了解該領域的進展。讀者應該注意,從量子力學的視角探索QiML方法,并基于啟示來源對方法進行分類將是有趣的,但這次調查是從應用的角度來看待這個領域的。這次調查的貢獻是提供了近年來QiML及其研究方向的進展概述,并確定了QiML研究的未來方向。具體來說,它們是:突出并分類現有的QiML方法; ? 為QiML建立一個具體的定義,考慮到其多方向的研究趨勢; ? 討論這些方法的實際應用,特別是確定當前已經應用QiML技術的任務; ? 討論QiML在實踐中的限制因素,以及; ? 探索和討論QiML研究的潛在未來方向。
由于多種因素的影響,自動機器學習(AutoML)這些年一直在快速發展,數據科學家需要創建機器學習管道原型來決定如何進行解決,并為非專業人士提供解決方案。已經創建了一些AutoML框架,但它們受到能解決的問題類型、機器學習原語的數量、管道表示語言和嚴格數據描述的限制。這些限制大多是由相當大的工程量造成的。D3M項目旨在擴大AutoML的范圍,提供創建AutoML系統所需的工具,使其能夠解決超出大部分框架的問題類型,并為用戶提供工具,使機器學習工具不需要太多的專業知識。此外,該項目還致力于實現AutoML組件的標準化,以便對不同的框架進行公平的比較,并通過開源共享該項目期間創建的基礎設施來幫助研發界改善該領域。
本文在D3M上的工作主要集中在兩個方面:在D3M小組內創建標準化AutoML工具,以及創建具有不同目的的AutoML系統和框架。在這份報告中,將介紹對該項目的主要貢獻以及AutoML系統的演變。在該項目中,創建了評估AutoML系統的工具,開發了三個AutoML系統,開發了被多個系統廣泛使用的原型,設計了測試原型的自動化框架,并通過創建AutoKeras對AutoML研發界產生了巨大影響。
細粒度視覺分析(FGVA)是計算機視覺和模式識別中一個長期存在的基本問題,它支撐著一系列真實世界的應用,如生物多樣性自動監測、氣候變化評估、智能零售、智能交通、在節約資源、促進經濟增長、提高社會運行效率等方面已取得了積極的社會經濟效果。FGVA任務的目標是分析從屬類別的視覺對象,例如鳥類的種類、汽車的模型、產品的庫存單位或體操的動作。由于其非常細粒度的特性,類間小而類內大變化使其成為一個具有挑戰性的問題。借助深度學習的蓬勃發展,近年來使用深度學習技術的FGVA取得了顯著進展。
本教程旨在促進研究基于細粒度可視化分析方法的研究人員之間的討論,并將尖端細粒度可視化技術部署到實際應用程序中。具體來說,我們將促進討論各種基于深度學習的細粒度視覺分析主題的最新進展、正在進行的發展和新應用,例如細粒度圖像檢索、細粒度圖像識別、長尾視覺識別、細粒度視頻理解等。
深度神經網絡在擁有大量數據集和足夠的計算資源的情況下能夠取得巨大的成功。然而,他們快速學習新概念的能力相當有限。元學習是解決這一問題的一種方法,通過使網絡學會如何學習。令人興奮的深度元學習領域正在高速發展,但缺乏對當前技術的統一、深刻的概述。這項工作就是這樣。在為讀者提供理論基礎之后,我們研究和總結了主要的方法,這些方法被分為i)度量;ii)模型;和iii)基于優化的技術。此外,我們確定了主要的開放挑戰,如在異構基準上的性能評估,以及元學習計算成本的降低。
摘要:
近年來,深度學習技術在各種任務上取得了顯著的成功,包括游戲(Mnih et al., 2013; Silver et al., 2016),圖像識別(Krizhevsky et al., 2012; He et al., 2015)和機器翻譯(Wu et al., 2016)。盡管取得了這些進展,但仍有大量的挑戰有待解決,例如實現良好性能所需的大量數據和訓練。這些要求嚴重限制了深度神經網絡快速學習新概念的能力,這是人類智能的定義方面之一(Jankowski等人,2011;(Lake等,2017)。
元學習被認為是克服這一挑戰的一種策略(Naik and Mammone, 1992; Schmidhuber, 1987; Thrun, 1998)。其關鍵思想是元學習主體隨著時間的推移提高自己的學習能力,或者等價地說,學會學習。學習過程主要與任務(一組觀察)有關,并且發生在兩個不同的層次上:內部和外部。在內部層,一個新的任務被提出,代理試圖快速地從訓練觀察中學習相關的概念。這種快速的適應是通過在外部層次的早期任務中積累的知識來促進的。因此,內部層關注的是單個任務,而外部層關注的是多個任務。
從歷史上看,元學習這個術語的使用范圍很廣。從最廣泛的意義上說,它概括了所有利用之前的學習經驗以更快地學習新任務的系統(Vanschoren, 2018)。這個廣泛的概念包括更傳統的機器學習算法選擇和hyperparameter優化技術(Brazdil et al ., 2008)。然而,在這項工作中,我們專注于元學習領域的一個子集,該領域開發元學習程序來學習(深度)神經網絡的良好誘導偏差。1從今以后,我們使用術語深元學習指元學習的領域。
深度元學習領域正在快速發展,但它缺乏一個連貫、統一的概述,無法提供對關鍵技術的詳細洞察。Vanschoren(2018)對元學習技術進行了調查,其中元學習被廣泛使用,限制了對深度元學習技術的描述。此外,在調查發表后,深度元學習領域也出現了許多令人興奮的發展。Hospedales等人(2020)最近的一項調查采用了與我們相同的深度元學習概念,但目標是一個廣泛的概述,而忽略了各種技術的技術細節。
我們試圖通過提供當代深度元學習技術的詳細解釋來填補這一空白,使用統一的符號。此外,我們確定了當前的挑戰和未來工作的方向。更具體地說,我們覆蓋了監督和強化學習領域的現代技術,已經實現了最先進的性能,在該領域獲得了普及,并提出了新的想法。由于MAML (Finn et al., 2017)和相關技術對該領域的影響,我們給予了格外的關注。本研究可作為深度元學習領域的系統性介紹,并可作為該領域資深研究人員的參考資料。在整個過程中,我們將采用Vinyals(2017)所使用的分類法,該分類法確定了三種深度元學習方法:i)度量、ii)模型和iii)基于優化的元學習技術。