構建能夠在任何環境中無縫操作、使用各種技能處理不同物體和完成多樣化任務的通用機器人,一直是人工智能領域的長期目標。然而,不幸的是,大多數現有的機器人系統受到限制——它們被設計用于特定任務、在特定數據集上進行訓練,并在特定環境中部署。這些系統通常需要大量標注數據,依賴于特定任務的模型,在現實世界場景中部署時存在諸多泛化問題,并且難以對分布變化保持魯棒性。受到網絡規模大容量預訓練模型(即基礎模型)在自然語言處理(NLP)和計算機視覺(CV)等研究領域開放集表現和內容生成能力印象深刻的啟發,我們將本綜述(survey)致力于探索(i)如何將現有的NLP和CV領域的基礎模型應用于機器人技術領域,以及(ii)專門針對機器人技術的基礎模型將會是什么樣子。我們首先概述了傳統機器人系統的構成及其普遍適用性的基本障礙。接著,我們建立了一個分類體系,討論了當前利用現有基礎模型進行機器人技術探索和開發針對機器人技術的模型的工作。最后,我們討論了使用基礎模型啟用通用機器人系統的關鍵挑戰和有前景的未來發展方向。我們鼓勵讀者查看我們的“活動”GitHub倉庫,其中包括本綜述中審閱的論文以及相關項目和用于開發機器人技術基礎模型的倉庫資源://robotics-fm-survey.github.io/。
我們在開發能夠適應不同環境并在其中運作的自治機器人系統方面仍面臨許多挑戰。以往的機器人感知系統利用傳統深度學習方法,通常需要大量標記數據來訓練監督學習模型[1-3];與此同時,為這些大型數據集構建眾包標記過程仍然相當昂貴。此外,由于傳統監督學習方法的泛化能力有限,訓練出的模型通常需要精心設計的領域適應技術才能將這些模型部署到特定場景或任務[4, 5],這往往需要進一步的數據收集和標記。類似地,傳統的機器人規劃和控制方法通常需要精確建模世界、自主體的動力學和/或其他代理的行為[6-8]。這些模型針對每個特定環境或任務建立,并且在發生變化時通常需要重新構建,暴露了它們的有限可遷移性[8];事實上,在許多情況下,構建有效模型要么太昂貴,要么不切實際。盡管基于深度(強化)學習的運動規劃[9, 10]和控制方法[11-14]可以幫助緩解這些問題,但它們也仍然受到分布變化和泛化能力降低的困擾[15, 16]。
在構建具有泛化能力的機器人系統所面臨的挑戰的同時,我們也注意到自然語言處理(NLP)和計算機視覺(CV)領域的顯著進步——引入了大型語言模型(LLMs)[17]用于NLP,使用擴散模型進行高保真圖像生成[18, 19],以及使用大容量視覺模型和視覺語言模型(VLMs)實現CV任務的零次/少次學習泛化[20-22]。這些被稱為“基礎模型”[23],或簡稱為大型預訓練模型(LPTMS),這些大容量視覺和語言模型也已應用于機器人技術領域[24-26],有潛力賦予機器人系統開放世界的感知、任務規劃甚至運動控制能力。除了直接應用現有的視覺和/或語言基礎模型于機器人任務之外,我們也看到了開發更多針對機器人的特定模型的相當潛力,例如用于操控的動作模型[27, 28]或用于導航的運動規劃模型[29]。這些機器人基礎模型在不同任務甚至不同實體上顯示出了極大的泛化能力。視覺/語言基礎模型也已直接應用于機器人任務[30, 31],顯示了將不同機器人模塊融合為單一統一模型的可能性。盡管我們看到將視覺和語言基礎模型應用于機器人任務以及開發新的機器人基礎模型的有前景的應用,但許多機器人技術的挑戰仍然難以企及。從實際部署的角度來看,模型通常無法復制,缺乏多實體泛化能力,或者無法準確捕捉環境中可行(或可接受)的情況。此外,大多數出版物利用基于Transformer的架構,專注于物體和場景的語義感知、任務級規劃或控制[28];其他可能受益于跨領域泛化能力的機器人系統組成部分尚未被充分探索——例如,用于世界動力學的基礎模型或可以進行符號推理的基礎模型。最后,我們想強調需要更多大規模實際數據以及具有多樣化機器人任務的高保真模擬器。
在本文中,我們調查了基礎模型在機器人技術中的應用,并旨在理解基礎模型如何幫助緩解核心機器人技術挑戰。我們使用“機器人技術基礎模型”一詞來包括兩個不同的方面:(1)將現有的(主要是)視覺和語言模型應用于機器人技術,主要通過零樣本學習和情境學習;以及(2)使用機器人生成的數據開發和利用專門針對機器人任務的機器人基礎模型。我們總結了機器人技術基礎模型論文的方法論,并對我們調查的論文的實驗結果進行了元分析。
本文的主要組成部分在圖1中進行了總結。本文的整體結構如圖2所述。在第2節中,我們簡要介紹了基礎模型時代之前的機器人研究,并討論了基礎模型的基礎知識。在第3節中,我們列舉了機器人研究中的挑戰,并討論了基礎模型可能如何緩解這些挑戰。在第4節中,我們總結了機器人技術中基礎模型的當前研究現狀。最后,在第6節中,我們提出了可能對這一研究交叉領域產生重大影響的潛在研究方向。
機器人技術中的挑戰
在本節中,我們總結了典型機器人系統中各種模塊面臨的五個核心挑戰,每個挑戰都在以下小節中詳細介紹。盡管類似的挑戰已在先前文獻中討論過(見第1.2節),但本節主要關注那些可能通過適當利用基礎模型來解決的挑戰,這一點從當前研究結果中得到了證據。我們還在本節中描述了分類法,以便在圖3中更容易回顧。
用于機器人技術的基礎模型
在本節中,我們重點討論在機器人技術中零次學習應用視覺和語言基礎模型。這主要包括用于機器人感知的VLMs的零樣本學習部署,在任務級別和運動級別規劃以及動作生成方面的LLMs的情境學習。我們在圖6中展示了一些代表性的工作。
機器人基礎模型(RFMs)
隨著包含真實機器人的狀態-動作對的機器人數據集數量的增加,機器人基礎模型(RFMs)的類別也變得越來越可行[28, 29, 176]。這些模型的特點是使用機器人數據來訓練,以解決機器人任務。在本小節中,我們總結并討論了不同類型的RFMs。我們首先介紹能夠在第2.1節中的一個機器人模塊內執行一組任務的RFMs,這被定義為單一目的的機器人基礎模型。例如,一個能夠生成用于控制機器人的低級動作的RFM,或一個能夠生成更高級別運動規劃的模型。之后,我們介紹能夠在多個機器人模塊中執行任務的RFMs,因此它們是能夠執行感知、控制甚至非機器人任務的通用模型[30, 31]。
**如何利用基礎模型解決機器人技術挑戰 **
在第3節中,我們列出了機器人技術中的五個主要挑戰。在本節中,我們總結了基礎模型——無論是視覺和語言模型還是機器人基礎模型——如何以更有組織的方式幫助解決這些挑戰。
所有與視覺信息相關的基礎模型,如VFMs、VLMs和VGMs,都用于機器人技術中的感知模塊。而LLMs則更加多功能,可以應用于規劃和控制領域。我們還在這里列出了RFMs,這些機器人基礎模型通常用于規劃和動作生成模塊。我們在表1中總結了基礎模型如何解決前述的機器人技術挑戰。從這個表中我們可以看出,所有基礎模型都擅長于各種機器人模塊任務的泛化。此外,LLMs尤其擅長于任務規范化。另一方面,RFMs擅長處理動力學模型的挑戰,因為大多數RFMs是無模型方法。
對于機器人感知,泛化能力和模型的挑戰是相互聯系的,因為,如果感知模型已經具有非常好的泛化能力,那么就沒有必要為了領域適應或額外的微調而獲取更多數據。此外,解決安全挑戰的呼聲在很大程度上缺失,我們將在第6節中討論這個特殊問題。用于泛化的基礎模型 零次泛化是當前基礎模型的最顯著特征之一。機器人技術幾乎在所有方面和模塊都受益于基礎模型的泛化能力。首先,VLM和VFM作為默認的機器人感知模型在感知方面的泛化能力是一個很好的選擇。第二方面是任務級規劃的泛化能力,由LLMs[24]生成任務計劃的細節。第三個方面是運動規劃和控制方面的泛化能力,通過利用RFMs的力量。
**用于數據稀缺的基礎模型 **基礎模型在解決機器人技術中的數據稀缺問題上至關重要。它們為使用最少的特定數據學習和適應新任務提供了堅實的基礎。例如,最近的方法利用基礎模型生成數據來幫助訓練機器人,如機器人軌跡[236]和仿真[237]。這些模型擅長從少量示例中學習,使機器人能夠使用有限的數據快速適應新任務。從這個角度來看,解決數據稀缺問題相當于解決機器人技術中的泛化能力問題。除此之外,基礎模型——尤其是LLMs和VGMs——可以生成用于訓練感知模塊[238](見上面的4.1.5節)和任務規范化[239]的機器人技術數據集。
用于減輕模型要求的基礎模型 正如第3.3節所討論的,建立或學習一個模型——無論是環境地圖、世界模型還是環境動力學模型——對于解決機器人技術問題至關重要,尤其是在運動規劃和控制方面。然而,基礎模型展現的強大的少/零次泛化能力可能會打破這一要求。這包括使用LLMs生成任務計劃[24],使用RFMs學習無模型的端到端控制策略[27, 256]等。
**用于任務規范化的基礎模型 **任務規范化作為語言提示[24, 27, 28],目標圖像[181, 272],展示任務的人類視頻[273, 274],獎勵[26, 182],軌跡粗略草圖[239],政策草圖[275]和手繪圖像[276],使目標規范化以一種更自然、類人的格式實現。多模態基礎模型允許用戶不僅指定目標,還可以通過對話解決歧義。最近在理解人機交互領域中的信任和意圖識別方面的工作開辟了我們理解人類如何使用顯式和隱式線索傳達任務規范化的新范式。雖然取得了顯著進展,但最近在LLMs提示工程方面的工作表明,即使只有一個模態,也很難生成相關輸出。視覺-語言模型被證明在任務規范化方面尤其擅長,顯示出解決機器人技術問題的潛力。擴展基于視覺-語言的任務規范化的理念,崔等人[181]探索了使用更自然的輸入,如從互聯網獲取的圖像,實現多模態任務規范化的方法。Brohan等人[27]進一步探索了從任務無關數據進行零次轉移的這一理念,提出了一個具有擴展模型屬性的新型模型類。該模型將高維輸入和輸出,包括攝像頭圖像、指令和馬達命令編碼成緊湊的令牌表示,以實現移動操縱器的實時控制。
**用于不確定性和安全的基礎模型 **盡管不確定性和安全是機器人技術中的關鍵問題,但使用機器人技術基礎模型解決這些問題仍然未被充分探索。現有的工作,如KNOWNO[187],提出了一種測量和對齊基于LLM的任務規劃器不確定性的框架。最近在鏈式思考提示[277]、開放詞匯學習[278]和LLMs中幻覺識別[279]方面的進展可能為解決這些挑戰開辟新途徑。
大型基礎模型,包括大型語言模型(LLMs)、視覺轉換器(ViTs)、擴散以及基于LLM的多模態模型,正在徹底改變整個機器學習生命周期,從訓練到部署。然而,這些模型在多功能性和性能上的顯著進步,卻以硬件資源的巨大成本為代價。為了以可擴展且環境可持續的方式支持這些大型模型的發展,開發資源高效的策略已成為重點。本綜述深入探討了此類研究的關鍵重要性,考察了算法和系統層面的方面。它提供了對現有文獻的全面分析和寶貴見解,涵蓋了從前沿模型架構和訓練/服務算法到實際系統設計和實現的廣泛主題。此綜述的目標是提供對當前方法如何應對大型基礎模型所帶來的資源挑戰的全面理解,并可能激發此領域未來的突破。
//www.zhuanzhi.ai/paper/92a73bb1c3daa8cff7f79eaa9c9c5053
在人工智能(AI)這一快速發展的領域中,一場范式轉變正在進行中。我們正在見證從專門化、碎片化的深度學習模型向通用、一體適用的基礎模型的過渡。這些先進的AI系統能夠在開放世界的背景下操作,與開放詞匯和圖像像素進行交互,應對未見的AI任務,即零樣本能力。這些模型的例子包括:(1)大型語言模型(LLMs),如GPTs [39],能夠以提示的形式處理幾乎所有NLP任務;(2)視覺變換器模型(ViTs),如掩蔽自編碼器 [133],能夠處理各種下游視覺任務;(3)潛在擴散模型(LDMs),如穩定擴散 [310],能夠用任意基于文本的提示生成高質量圖像;(4)多模態模型,如CLIP [296]和ImageBind [116],將不同模態數據映射到同一潛在空間,并廣泛用作跨模態任務(如圖像檢索/搜索和視覺問題回答)的支撐。這種靈活性和通用性標志著AI早期時代的顯著轉變,為AI與世界交互設定了新的標準。 這些基礎模型的成功深深植根于它們的可擴展性:與前代模型不同,這些模型的準確性和泛化能力可以隨著更多數據或參數的增加而持續擴展,而無需改變底層簡單的算法和架構。一個令人印象深刻的證據是擴展定律 [166]:它描述了基于變換器的模型性能如何可以預測地隨模型規模和數據量的增加而改善;直到今天,這一定律依然成立。這種可擴展性不僅是模型大小的問題;它還擴展到它們處理日益復雜任務的能力,使它們成為走向人工通用智能(AGI)之路的基石。
然而,可擴展性的代價是巨大的資源需求。基礎模型的本質是對訓練和部署的資源極度饑渴。這些資源不僅包括計算處理器,如GPU和TPU,還包括內存、能源和網絡帶寬。例如,LLaMa-2-70B的預訓練需要1.7×百萬GPU小時,并消耗2.5×1012焦耳的能量。估計的總排放量是291噸二氧化碳當量。超出訓練階段,數據處理、實驗和推理階段的電力消耗相當甚至更多,據Meta AI [388]稱。最近的一項分析 [77]揭示,為了滿足當前AI能力和采用的持續趨勢,英偉達需要在2027年前每年交付150萬AI服務器單元。這些服務器滿負荷運行將至少消耗85.4太瓦時的電力——超過許多國家,如新西蘭和奧地利,一整年的用電量,如圖1所示。隨著基礎模型在規模和復雜性上的持續增長,它們的資源需求通常呈指數級增長,這在它們的發展和部署中構成了重大挑戰。 大型基礎模型巨大的資源足跡也阻礙了其民主化。截至2023年底,只有少數主要參與者有能力訓練和部署最先進的基礎模型,從而對公眾擁有強大的控制權,有可能以他們偏好的方式操縱公眾。與許多輕量級DNN不同,這些模型是在云端而非設備上提供服務的 [403, 440];這使得數據隱私保護幾乎不可能。盡管最近,智能手機廠商一直在吹噓在本地運行大型基礎模型,一些先驅引擎也被開發出來用于設備上的LLMs [114, 11, 10],但展示的模型限于相對較小的規模(例如<10B),且尚未在現實世界中部署。 因此,大量研究致力于提高這些基礎模型的效率。這些努力涵蓋了從優化算法到系統級創新的廣泛方法,專注于在不損害性能的情況下減少這些模型的資源足跡。本綜述旨在深入探討這些研究工作,探索使基礎模型更高效的多樣化策略。我們將審視算法效率、系統優化、數據管理技術的進步,以及開發較少資源密集的新型架構。綜述還涵蓋了從云到邊緣和設備的范圍,大型基礎模型在這些領域也獲得了巨大關注。通過這一探索,我們旨在提供對基礎模型領域中資源高效算法和系統的當前狀態和未來方向的全面理解。 范圍和理念。本綜述的范圍主要由以下幾個方面定義。(i) 我們只調查算法和系統創新;我們排除了大量在硬件設計方面的工作,這同樣重要,但已被很好地總結 [174]。(ii) 本綜述中的資源定義主要限于物理資源,包括計算、內存、存儲、帶寬等;我們排除了可以被視為資源的訓練數據(標簽)和隱私。(iii) 我們主要調查在頂級計算機科學會議上發表的論文,即CSRankings包含的論文。我們還手動挑選了arXiv上相關且可能產生高影響的論文。(iv) 我們主要調查2020年之后發表的論文,因為AI的創新正在快速進行,舊知識和方法經常被推翻。 盡管如此,我們計劃將來擴展本綜述的范圍;我們也將積極維護和更新它。 組織。圖2展示了本綜述的組織結構。 全開源。本綜述的所有材料都可在以下網址免費獲取: https:github.com/UbiquitousLearning/Efficient_Foundation_Model_Survey
模型架構是資源高效的大型基礎模型(FMs)的核心,包括注意力機制、解碼器及其替代方案。主要目標是降低計算和內存開銷。圖8直觀地展示了這種資源高效架構的分類,考慮到了大型基礎模型的標準核心模塊和傳統分類。資源高效架構由高效注意力機制、動態神經網絡、特定于擴散的優化和特定于視覺變換器(ViT)的優化構成。
本節重點介紹在算法層面上的資源高效大型基礎模型(FMs)技術。與傳統的深度神經網絡(DNNs)相比,大型基礎模型表現出新的特征,如其龐大的參數集和自回歸推理。這種差異導致了大量資源高效算法的出現,這些算法根據基礎模型的生命周期進行分類:預訓練、微調、服務算法以及模型壓縮,如圖11所示。
本綜述為資源高效的大型基礎模型的最新文獻提供了全面、系統的概覽。我們首先介紹了流行基礎模型的初步背景和成本分析,包括大型、視覺和多模態模型。然后我們深入探討了模型架構、算法和系統設計,以實現更高效的大型基礎模型生命周期。未來,這一領域的研究將繼續(甚至更加)重要,因為擴展定律保證了更強大的AI與越來越大的模型的光明未來。這種研究也高度跨學科,涉及多個計算機科學社區,如機器學習、NLP/CV/語音、網絡、云計算、邊緣計算等。
資源高效的大型基礎模型研究機會極大,尤其值得關注的是: (1)云-邊緣混合部署。為了實現無處不在、隱私保護、高可用性的通用智能,許多基礎模型最終將沉入靠近用戶的設備 [406, 403, 404, 441]。已經進行了初步努力,將LLaMA-7B帶到智能手機和個人電腦上。關鍵應用包括個人助手/代理 [219, 383]、多模態信息檢索 [198] 等。未來,基礎模型在設備上運行的規模和速度將成為硬件供應商商業模式中的關鍵競爭力。 (2)利用模型稀疏性。隨著模型變大,對于給定任務的模型激活比率會變小。最近的文獻 [244] 發現,即使是密集訓練的非MoE模型也表現出運行時激活稀疏性,可以利用這一點來減少推理時間和內存占用。我們認為,利用模型和激活稀疏性將是實現可持續模型規模擴展的有前景的方向。可能會出現比MoE更高效的稀疏架構。 (3)大型基礎模型作為一種服務。在云端和設備上,大型基礎模型正在統一DNN生態系統 [427]。最終,它將成為像今天的Web和數據庫一樣的通用服務。一方面,它為高度硬件-算法協同設計和優化提供了機會;同時,它也在系統和基礎設施設計方面提出了新的挑戰,如調度、負載均衡和安全性&隔離。 (4)作為整體系統優化的代理。未來,尤其是LLMs將作為建立代理的關鍵構建塊 [219, 383]。其效率不應被視為獨立的LLM服務;相反,算法和系統設計需要適應特定的代理工作流。例如,一個代理系統可能需要多個基礎模型協同工作,在這個過程中存在內在的邏輯依賴性。在這個過程中,選擇適合每個任務的適當基礎模型,并在給定的硬件資源集上調度它們以最大化代理性能的設計空間是巨大的。 (5)實用的隱私保護FM。隨著用戶數據上傳到云端進行FM處理的數量持續增加,隱私問題的嚴重性相應升級。現有方法包括聯邦學習、同態加密和解糾纏學習。盡管在理論上是健全的,但這些方法仍然面臨顯著的性能挑戰,阻礙了它們的大規模野外部署。一個有前景的方向涉及為大型FMs專門設計的創新隱私保護技術的開發,或現有方法的改進,以有效地平衡隱私與性能。 (6)理解擴展定律。擴展定律推動了大型FMs的成功,同時它似乎也是輕量級FMs的一個基本限制 - 小規模模型不太可能比更大的模型具有更高級別的智能。理解擴展定律背后的機制和理論將有助于解釋(并希望打破)這一限制。同時,設計具有更好甚至最優擴展性能的新型模型架構將是一個值得廣泛研究的方向。
大型語言模型(LLMs)在各種自然語言任務上展現出卓越的性能,但它們容易受到過時數據和領域特定限制的影響。為了解決這些挑戰,研究人員主要采用了兩種策略:知識編輯和檢索增強,通過整合來自不同方面的外部信息來增強LLMs。然而,目前仍然缺乏一個全面的綜述。在本文中,我們提出一項回顧,討論知識與大型語言模型整合的趨勢,包括方法的分類、基準和應用。此外,我們對不同方法進行了深入分析,并指出了未來的潛在研究方向。我們希望這篇綜述能為社區提供快速訪問和對這一研究領域的全面概覽,旨在激發未來的研究努力。
大型語言模型(LLMs)已經展示了在其參數中編碼現實世界知識的令人印象深刻的能力,以及解決各種自然語言處理任務的顯著能力(Brown等,2020年;Hoffmann等,2022年;Zeng等,2022年;Chowdhery等,2022年;Touvron等,2023年;Zhao等,2023b年)。然而,它們在知識密集型任務上仍面臨嚴峻挑戰(Petroni等,2021年),這些任務需要大量的現實世界知識。最近的研究表明,LLMs難以學習長尾知識(Kandpal等,2023年;Mallen等,2023年),無法及時更新其參數以捕捉變化的世界(De Cao等,2021年;Kasai等,2022年)(例如,ChatGPT 1的參數只包含2021年9月之前的信息,對最新的世界知識完全不知情),并且受到幻覺的困擾(Zhang等,2023a;Rawte等,2023年;Huang等,2023a年)。為了緩解這些問題,人們越來越關注通過知識編輯或檢索增強來整合知識和大型語言模型。知識編輯(De Cao等,2021年;Sinitsin等,2020年)旨在使用一種有效的方法修改LLMs中過時的知識,該方法僅更新部分模型參數。檢索增強(Mallen等,2023年;Shi等,2023年;Trivedi等,2023年)采用現成的檢索模型從外部語料庫中獲取相關文檔,以幫助大型語言模型并保持其參數不變。已有許多工作提出整合知識和大型語言模型,專注于上述兩個方面。然而,這些努力仍然相對零散,缺乏全面和系統的綜述。
為了填補這一空白,本文提出了我們的綜述的具體組織,重點關注知識編輯和檢索增強,如圖1所示。我們首先系統地介紹了根據模型處理結構的知識編輯方法(§2),包括輸入編輯(§2.1),模型編輯(§2.2)以及評估知識編輯(§2.3),涵蓋了代表性方法和通用基準。此外,我們對檢索增強進行了詳細討論(§3),包括檢索判斷(§3.1),文檔檢索(§3.2),文檔利用(§3.3),知識沖突(§3.4)和基準(§3.5)。然后,我們總結了一些知識與大型語言模型整合的前沿應用(§4),例如新版Bing 2。最后,為了激發該領域的進一步研究,我們提供了對未來調查方向的洞見(§5)。
2 知識編輯
知識編輯是一種新興方法,通過整合新知識來糾正大型語言模型(LLMs)中的不準確性和更新過時信息。在這一部分,我們深入研究了關于知識編輯的當前工作,特別關注LLMs處理結構在不同方法中的應用。如圖2所示,我們將它們分為三類:輸入編輯(§2.1),模型編輯(§2.2),和評估知識編輯(§2.3)。
2.1 輸入編輯許多大型模型龐大的參數規模和“黑盒”形式常常阻礙它們進行常規的微調,以獲取新知識,例如ChatGPT、Bard3。因此,將知識注入LLMs最直接的方法涉及編輯輸入(Zheng等,2023;Luo等,2023),這既節省成本又減少資源需求。輸入編輯有兩個方面:包括外部信息以增強提示,以及基于反饋編輯提示。調整輸入不僅提供了一種直觀、易理解的新知識過程描述,而且保證了原始模型知識的保存。
2.2 模型編輯與編輯輸入不同,許多研究致力于以參數化方式進行細粒度的模型編輯,這可以確保注入知識的持久性。根據針對LLMs參數的不同操作,我們將它們分為三類,即知識插件、定位然后編輯和整體編輯。
2.3 評估知識編輯在編輯輸入和模型之后,可以通過審查輸出來評估知識整合的程度。這一小節主要介紹模型評估的特點,并提供表1中知識編輯的一般基準概覽。當前用于編輯知識的方法主要旨在整合三元事實知識,這些知識集中在問答(QA)任務上,即ZsRE(Levy等,2017年)。此外,CounterFact是一個專門為知識編輯任務構建的評估數據集,用于衡量與僅僅表面上改變目標詞匯相比顯著變化的有效性(Meng等,2022年)。評估知識編輯的三個主要屬性包括可靠性、通用性、局部性(Yao等,2023b;Huang等, 2023b)。
3 檢索增強如第2節所討論,知識編輯(De Cao等,2021年)是一種有效的方法,通過修改大型語言模型特定部分的參數來更新過時的知識。然而,知識編輯也面臨著一些其他問題。首先,目前還不完全清楚知識在大型語言模型中是如何以及在哪里存儲的。其次,知識與參數之間的映射關系非常復雜,修改與某些知識對應的參數可能會影響其他知識。在本節中,我們介紹了檢索增強,這是一種在保持參數不變的情況下整合知識和大型語言模型的另一種方法。
與主要將外部知識參數化以更新大型語言模型的知識編輯不同,檢索增強在推理階段使用非參數化形式的外部知識。檢索增強通常由一個檢索器和一個大型語言模型組成。給定輸入上下文后,檢索器首先從外部語料庫中獲取相關文檔。然后,我們可以在不同階段使用相關文檔來提高大型語言模型的性能。在本節中,我們專注于檢索增強的以下關鍵問題:
? 大型語言模型什么時候需要通過檢索來增強?(§3.1) ? 如何檢索相關文檔?(§3.2) ? 大型語言模型如何利用檢索到的文檔?(§3.3) ? 如何解決不同文檔中的知識沖突?(§3.4)"
檢索判斷對于檢索增強的大型語言模型,一個非常重要的問題是了解LLMs的知識邊界(Yin等,2023年)并確定何時檢索補充知識。當前的檢索判斷方法主要分為兩類:基于校準的判斷和基于模型的判斷。
文檔檢索如圖3所示,獲取相關文檔有兩種方法。一種方法是使用檢索器從外部語料庫(例如維基百科)中獲取相關文檔。另一種方法是使用大型語言模型生成相關文檔。文檔利用一旦我們擁有了相關文檔,我們如何使用它們來提升大型語言模型的能力?如圖4所示,我們將使用文檔的不同方式分為三類:輸入增強、推理驗證和答案驗證。
檢索增強LLMs中的知識沖突,在模型推理中有兩個知識來源,它們的分工模糊且不透明。第一個是通過預訓練和微調注入的隱含參數化知識(即它們學習到的權重)。第二個是上下文知識,通常作為文本段落從檢索器中獲取。知識沖突意味著所包含的信息是不一致和矛盾的。如圖5所示,知識沖突有兩種類型:內部沖突和外部沖突。內部沖突指的是大型語言模型中的知識與檢索文檔中的知識之間的不一致。外部沖突指的是檢索到的多個文檔之間的不一致。
結論
在本文中,我們對知識與大型語言模型的整合進行了綜述,并提供了其主要方向的廣泛視角,包括知識編輯和檢索增強。此外,我們總結了常用的基準和前沿應用,并指出了一些有希望的研究方向。我們希望這篇綜述能為讀者提供當前進展的清晰圖景,并激發更多的工作。
圖相關應用在學術界和工業界都有著顯著的增長,這主要是因為圖具有強大的表示能力。然而,高效地執行這些應用面臨多種挑戰,如負載不平衡、隨機內存訪問等。為解決這些挑戰,研究人員提出了各種加速系統,包括軟件框架和硬件加速器,所有這些系統都包含圖預處理(GPP)的步驟。GPP作為應用正式執行之前的準備步驟,涉及到諸如采樣、重新排序等技術。然而,GPP的執行常常被忽視,因為主要的關注點通常是增強圖應用本身。這種疏忽令人擔憂,特別是考慮到實際圖數據的爆炸性增長,其中GPP變得至關重要,甚至占據了系統運行開銷的主導地位。
此外,由于高度定制,GPP方法在不同設備和應用中表現出顯著的差異。不幸的是,還沒有全面的工作系統地總結了GPP。為了解決這一缺口,并促進對GPP更好的理解,我們呈現了一個專門針對這一領域的全面調查。我們提出了一個雙層GPP分類法,同時考慮到算法和硬件的視角。通過列出相關的工作,我們闡述了我們的分類法,并對不同的GPP技術進行。
//www.zhuanzhi.ai/paper/13520de2fddf1159cd8a72d80bc67e6d
圖處理應用因其從圖數據中提供有價值洞見的能力而受到了顯著關注。在各種實際應用場景中,數據可以使用圖結構進行有效表示,其中社交網絡是一個典型例子[103]。例如,圖1(a)描述了Facebook社交網絡的圖抽象。有兩種最廣泛使用的圖處理應用類型:傳統圖計算(TGC),包括廣度優先搜索(BFS)、頁面排名(PR)等算法;以及圖神經網絡(GNN),如圖卷積網絡(GCN)和圖注意力網絡(GAT)。這些圖處理算法在多種場景中得到了廣泛應用,包括社交網絡推薦[130]、知識圖分析[79]、蛋白質預測[37]、視覺推理[117]等。為了應對圖數據規模的指數級增長,這些算法日益受到歡迎,并廣泛部署在各種數據中心,如谷歌地圖[28]、微軟學術圖[46]、阿里巴巴電商平臺[112]、百度地圖[31]等。
圖處理算法的執行面臨著幾個挑戰,人們已經做出了許多努力來緩解這些問題。首先,在TGC算法中,執行行為,包括資源利用率和操作順序等因素,往往表現出不規則性。這些不規則性源于圖的不規則拓撲,導致不規則的工作負載、內存訪問和通信[13]。為了解決這些挑戰,提出了各種基于通用硬件平臺(CPU & GPU)的框架,如GraphChi [55]和CuSha [54]。此外,還開發了定制的架構以進一步加速,如基于ASIC(Application-Specific Integrated Circuit)的Graphicionado [42],基于FPGA(Field Programmable Gate Array)的ForeGraph [25],以及基于PIM(Processing-In-Memory)的GraphR [89]。其次,GNN算法表現出不規則和規則執行行為的結合[107, 110],因為增加了神經網絡(NNs)來轉換每個頂點的高維特征向量。為了解決GNN中的正則和不規則特性,已經提出了幾個專用的加速平臺,如基于ASIC的HyGCN[108]和基于FPGA的GraphACT[118]。
圖處理的執行嚴重依賴于一個關鍵操作——圖預處理(GPP)。例如,GraphChi [55]、Graphicionado [42]、GraphDynS [109]、FPGP [24]和HyGCN [108]利用重組技術將圖數據預分割為多個分片,以實現連續的內存訪問并提高性能。在Pregel [74]、GraphLab [70]、DistDGL [132]和PaGraph [63]等并行圖處理系統中,通過預先進行圖劃分,將大規模的圖數據劃分為多個子圖,并將其分配給多個處理器/機器,實現負載均衡并最小化通信開銷。為了促進GNN的并行高效訓練,PaGraph [63]和DistDGL [132]使用采樣技術創建小批量。GraphACT [118]和GCNInfer [120]預先合并共同鄰居,以減少后續的冗余操作。因此,GPP對于高效執行圖處理算法至關重要,有利于廣泛的圖處理系統,包括單機圖處理框架、分布式圖處理框架、圖處理加速器等。為了提供清晰性,我們將一個典型的圖處理系統抽象為兩個主要步驟:圖預處理(GPP)和圖形式處理(GFP),如圖2所示。在GPP步驟中,對原始圖數據進行各種操作,以準備輸入數據集,以便后續執行圖處理算法。在GFP步驟中,計算單元加載預處理的數據,并執行圖處理算法以獲得最終結果。值得注意的是,GPP方法的選擇取決于原始圖數據集的特征以及執行平臺。例如,在并行系統中,使用分區來管理大規模圖數據,如使用CPU集群的DistDGL [132]和使用多GPU的PaGraph [63]。GraphACT [118]使用重構方法來減少FPGA上的冗余計算,從而實現高性能和能效。總體而言,GPP提供了兩個主要好處:a)減少計算、存儲和通信開銷;b)滿足各種算法在資源有限的設備上的執行需求。
不幸的是,由于圖數據的爆炸性增長,GPP開銷變得越來越重要。接下來,我們給出以下示例,通過數值比較來可視化GPP的重要性。在Graph500比賽1中,百億級超級計算機Fugaku[81]展示了390秒的高GPP時間(C_TIME),與0.25秒的BFS執行時間相比,這是一個驚人的1560×。在Gorder [102]中,在一個大型Twitter數據集上進行圖重排需要1.5小時,而PageRank僅在13.65分鐘內完成了100次迭代。因此,如果輸入圖不經常重用,對于大型數據集來說,大量的GPP時間可能不是一個值得的投資。同樣,在Graphite [38]中,當執行GraphSAGE時,采樣時間占總訓練時間的80%以上。這些示例突出了減少GPP開銷以提高圖處理系統的整體執行效率的重要性。基于上述分析,出現了兩個重要結論,突顯了GPP調查的迫切需求。首先,GPP對于高效的圖處理至關重要。其次,GPP開銷變得越來越顯著和不可忽視,因此有必要降低GPP開銷。因此,GPP領域具有巨大的潛力,需要進行更深入的研究,以充分探索GPP提供的優化可能性。然而,盡管有一些研究分析了單個GPP方法[2, 3, 21, 66],但缺乏對整個領域的GPP技術的全面綜述。這一差距阻礙了對通過GPP實現的潛在優化的全面理解。在表1中,我們列出了圖處理領域相關調查的列表,這些調查涉及GPP方法。一些調查既探討了TGC加速技術,也探討了GNN加速技術,其中一些涉及GPP方法。例如,對基于GPU和FPGA的TGC的調查[11, 88]涉及處理大型圖的劃分技術。其他工作[40, 45, 76, 83]分析了分布式系統和基于內存的圖處理系統的靜態和動態圖劃分。最近的調查[1, 16, 59, 62, 67, 86, 87, 97, 127]廣泛地涵蓋了GNN加速,并描述了GPP步驟在GNN執行中的意義。然而,這些調查仍然集中在分析GFP步驟的優化上,而GPP并不是他們的主要關注點。
為了充分利用GPP在圖處理中的潛力,進行硬件和算法優化至關重要。然而,GPP中的硬件加速和算法優化之間存在差距。現有研究主要集中在GFP的硬件加速上,對GPP的關注有限,或者可能只在算法層面分析單個GPP技術。本文主要旨在通過提供系統和全面的GPP方法總結和分析來彌補這一差距,包括算法和硬件兩個方面。我們很榮幸地提出了GPP方法的全面概述,旨在為GPP的進步做出貢獻,并為該領域的進一步研究提供參考。我們的工作可能為GPP執行和圖處理加速的未來優化提供有價值的見解。我們的貢獻如下:綜述:我們回顧了與圖處理執行相關的挑戰,考慮了計算、存儲和通信方面的問題。我們通過相關示例強調了GPP對優化執行的重要意義。分類:我們對現有的GPP方法進行分類,并從算法和硬件的角度提出了一個雙層分類。算法類別包括圖表示優化和數據表示優化。硬件類別包括高效計算、存儲和通信。分析:根據提出的分類,我們對現有的GPP方法進行了詳細介紹。具體而言,我們從算法和硬件的角度列舉和分析了相關工作。比較:我們綜合考慮算法和硬件方面,對現有的GPP方法進行了全面的總結和比較,以便更好地了解它們的優勢和劣勢。討論:我們討論了與GPP相關的挑戰,如高開銷、準確性損失等。最后,我們概述了未來探索的潛在研究方向。
本文的其余部分組織如下:第2節提供了GPP的初步信息,涵蓋了圖概念和算法。第3節探討了圖處理的執行挑戰,并展示了GPP如何解決這些挑戰。第4節提出了基于算法優化因素和硬件優化效果的雙層GPP分類。第5節和第6節分別從算法和硬件角度舉例分析了GPP方法。第7節提供了全面的總結和比較。第8節討論了普遍存在的GPP瓶頸和潛在的研究方向。最后,第9節總結了我們的工作。
2 圖預處理:解決圖處理中的挑戰
在本節中,我們將探索圖處理執行中的硬件級挑戰。通過探索這些挑戰,強調了GPP方法在提高圖處理性能方面的關鍵作用。我們從圖特征概述開始,詳細介紹了出現的不同執行行為。分析了來自這些行為的挑戰,強調了GPP在解決這些問題以實現高效圖處理方面的重要性。
圖預處理:雙層決策分類法
在本節中,我們將介紹一個全面的GPP方法分類,利用一個雙層決策框架,如圖7所示。在算法層面,根據優化因子的不同,將這7種方法分為圖表示優化和數據表示優化。從硬件角度分析了GPP效應,將GPP方法分為高效計算、高效存儲和高效通信3類;這個框架增強了理解。接下來,概述分類方法并解釋分類背后的基本原理。
圖處理問題(GPP)涉及兩種類型的輸入圖數據調整:圖表示優化和數據表示優化。圖表示優化通過改變圖的拓撲結構或密度來提高圖算法的性能,而數據表示優化則調整存儲順序或壓縮數據精度。通過運用這兩種優化方法,研究人員可以探索各種GPP方法,以在算法性能和準確性之間取得平衡,從而提高圖算法執行的效率和有效性。
圖表示優化:這一組包括分區、采樣、稀疏化和重構技術。執行圖處理算法時面臨的挑戰通常源于圖結構的不規則性。這些GPP方法修改輸入圖的結構,以提高內存訪問和算法執行效率。值得注意的是,分區、采樣和稀疏化可能導致信息丟失,這可能潛在地影響準確性。相比之下,重構僅改變拓撲結構,而不影響算法的最終結果。
數據表示優化:這一組包括量化、重新排序和重新組織技術。與圖表示優化方法不同,這些技術不改變圖的拓撲結構,而是專注于調整數據存儲。然而,量化降低了數據的精度,引入了準確性和執行效率之間的權衡。另一方面,重新排序和重新組織主要調整數據訪問模式,以提高性能,而不影響算法的最終結果。
考慮到第三節中突出的挑戰和優化目標,圖處理問題(GPP)在三個方面提供了優化圖算法執行的機會:高效計算、高效存儲和高效通信。通過有效管理計算負載,優化圖處理系統的性能和資源利用率。
高效計算:從兩個角度來提高計算效率:負載均衡和計算減少。首先,負載均衡確保了計算工作在資源之間均勻分布,最大化它們的利用率,避免過載計算資源。其目標是有效利用可用的計算單元,從而提高性能。其次,通過最小化計算量(包括減少冗余計算和數據量)可以減少計算開銷。用于高效計算的GPP方法包括分區、采樣、稀疏化、重構、量化和重新排序。
高效存儲:可以通過減少容量需求和減少數據移動來實現。首先,為了減少容量需求,需要減少片上緩沖的數據量,從而減少I/O開銷。一個有效的方法是減少總體數據量。其次,最小化數據移動可以顯著提高內存訪問帶寬的利用率。通過有效管理存儲資源并優化數據移動,存儲效率可以得到提高,從而提高整體性能和資源利用率。用于高效存儲的GPP方法包括采樣、重構、量化、重新排序和重新組織。
高效通信:可以通過減少通信頻率或延遲來實現。首先,通過減少通信頻率,可以最小化計算組件的同步開銷,包括單臺機器中的處理器和分布式系統中的計算節點。提高數據局部性是一種減少組件之間數據交換需求的有用方法。其次,減少通信延遲意味著充分利用通信帶寬。一種有效的方法是減少不規則和冗余的通信請求。用于高效通信的GPP方法包括分區、采樣、量化和重新排序。
近年來,機器人技術和人工智能(AI)系統的發展可謂非常顯著。隨著這些系統不斷發展,它們被用于越來越復雜和無結構的環境中,如自動駕駛、空中機器人和自然語言處理等領域。
因此,通過手動編程其行為或通過獎勵函數來定義它們的行為(如在強化學習(RL)中所做的那樣)變得異常困難。這是因為這些環境需要高度的靈活性和適應性,很難指定一個能夠考慮到所有可能情況的最佳規則或獎勵信號集。
在這種環境中,通過模仿專家的行為來學習通常更具吸引力。這就是模仿學習(IL)發揮作用的地方 - 一種通過模仿專家的行為來學習所需行為的過程,這些行為是通過示范提供的。
本文旨在介紹IL并概述其基本假設和方法。它還詳細描述了該領域的最新進展和新興研究領域。此外,本文討論了研究人員如何解決與IL相關的常見挑戰,并提供了未來研究的可能方向。總的來說,本文的目標是為機器人和人工智能領域不斷發展的IL領域提供全面的指南。
傳統上,機器和機器人需要手動編程以學習自主行為[1]。傳統方法要求專家提供關于機器必須執行的具體硬編碼規則以及機器操作環境的特征。然而,開發這些規則需要相當多的時間和編碼專業知識[2]。為了自動化每種行為的繁瑣手動編碼,需要一種學習方法[3]。模仿學習提供了通過演示來教授所需行為的途徑。
IL技術有潛力將教授任務的問題減少到提供演示的問題,從而消除了明確編程或開發任務特定獎勵函數的需要[3]。IL的概念基于這樣一個前提,即即使人類專家無法將所需的行為編程到機器或機器人中,他們仍然能夠演示所需的行為。因此,IL可以在任何需要類似于人類專家的自主行為的系統中得到應用[1]。
IL的主要目的是通過提供演示使代理能夠學習模仿專家來執行特定任務或行為[4]。演示用于訓練學習代理執行任務,通過學習觀察和行動之間的映射關系。通過利用IL,代理能夠從在受限環境中重復簡單預定行為過渡到在非結構化環境中采取最佳自主行動,而不會給專家帶來太大負擔[2]。因此,IL方法有潛力為廣泛的行業帶來重大好處,包括制造業[5]、醫療保健[6]、自動駕駛車輛[7]、[8]和游戲行業[9]。在這些應用中,IL允許專業領域的專家,他們可能沒有編碼技能或對系統的知識,有效地在機器或機器人中編程自主行為。盡管模仿學習的理念已經存在一段時間,但計算和感知方面的最新成就,以及對人工智能應用的不斷增長的需求,增加了IL的重要性[10],[11]。因此,近年來該領域的出版物數量顯著增加。在過去的二十年里,已經出版了多次關于IL的綜述,每一次都聚焦于該領域發展的不同方面(圖1)。Schaal [3] 提出了第一份關于IL的綜述,重點關注IL作為創建類人機器人的途徑。最近,Osa等人[1]從算法的角度提供了關于IL的觀點,而Hussein等人[12]全面審查了IL過程各個階段的設計選擇。最近,Le Mero等人[7]為端到端自動駕駛系統提供了基于IL的技術的全面概述。盡管已經存在大量關于IL的調查,但新的調查仍然有必要捕捉這一快速發展領域的最新進展,提供一個關于最新技術發展的最新綜述。隨著這一領域越來越受到關注,并具有多種應用,一份綜合性調查可以作為新手的重要參考,同時提供不同用例的概述。我們承認IL是一個不斷發展的領域,不斷有新的算法、技術和應用被開發出來。
因此,我們的調查旨在整合大量關于IL的研究,以便研究人員和從業者更容易導航。此外,我們旨在識別當前研究中存在的差距和挑戰,為未來的工作提供明確的方向。最后,我們的目標是使IL的概念和技術更容易被更廣泛的受眾,包括相關領域的研究人員,以增進對這一領域的理解。總的來說,我們堅信我們的調查將為推動IL領域的發展做出重大貢獻,并指導這一令人興奮的領域的未來研究。這份綜述論文的目標是全面介紹IL領域。為了實現這一目標,我們將根據歷史和邏輯原因來組織我們對IL方法的討論。首先,我們將介紹IL的兩大廣泛方法類別:行為克隆(BC)和逆強化學習(IRL)。我們將討論它們的表述、發展、優勢和局限性。此外,我們將探討對抗性模仿學習(AIL)如何通過引入對抗性上下文來擴展IRL的方法,突出了將對抗性訓練融入IL的好處,并評估AIL領域的當前進展。此外,我們將介紹來自觀察的模仿(IfO)作為一種新穎的技術,旨在從僅包含狀態(無動作)演示中進行學習。我們將討論IfO的重要性,以及它如何在不同方法中結合并擴展了先前的BC、IRL和AIL類別,以解決從僅包含狀態觀察中進行學習的挑戰。最后,我們將討論IL技術在現實場景中遇到的挑戰,如次優演示和專家與學習者之間的領域差異。我們將總結不同的IL方法、它們的局限性,并探討可以采取的未來研究方向,以解決這些問題。
這份綜述論文提供了關于模仿學習(IL)領域的全面概述,探討了其算法、分類、發展和挑戰。論文首先提出了IL算法的分類,確定了兩種一般的學習方法,即行為克隆(BC)和逆向強化學習(IRL),并討論了它們的相對優勢和局限性。此外,論文強調了將對抗性訓練整合到IL中的好處,并評估了AIL領域的當前進展。論文還介紹了一種稱為IfO的新穎技術,旨在從僅包含狀態的演示中學習。通過檢查各種IL算法,我們對它們的優點和局限性有了寶貴的見解,并確定了一些未來研究的關鍵挑戰和機會。在所有IL方法類別中,一個重要的挑戰是需要收集多樣化和大規模的演示,這對于訓練一個可以在現實世界中應用的可泛化策略至關重要[111]。然而,這帶來了一個挑戰,因為現成的演示資源,如在線視頻,存在額外的困難,例如演示者之間的專業水平不同。IL研究中的另一個挑戰是開發能夠使代理能夠跨領域學習的方法,這些領域具有不同的動態、視角和體現。如果我們要有效地教導代理從專家那里學習并將IL研究的見解應用到現實場景中,那么克服這些挑戰是必不可少的。因此,未來的研究應該集中于開發能夠從不完美的演示中學習、提取有用信息并實現跨領域學習的算法。盡管存在這些挑戰,IL領域為未來研究提供了令人興奮的機會。隨著人工智能領域的不斷發展和成熟,我們相信IL將在使智能體能夠從演示中學習、適應新任務和環境,并最終實現更高級別的智能方面發揮關鍵作用,為人工智能的實際應用鋪平道路。
深度生成模型旨在復制給定的數據分布以產生新的樣本,在近年來取得了前所未有的進步。他們的技術突破使得在視覺內容的合成上實現了無與倫比的質量。然而,他們巨大成功的一個關鍵先決條件是有足夠數量的訓練樣本,這需要大量的計算資源。當在有限的數據上進行訓練時,生成模型往往會因過度擬合和記憶化而導致嚴重的性能下降。
**因此,研究人員近來花費了大量的精力來開發能夠從有限的訓練數據生成合理且多樣化圖像的新型模型 **。盡管在有限數據情況下提高訓練穩定性和合成質量的努力眾多,但仍缺乏一個系統的調查,該調查提供1)清晰的問題定義、關鍵挑戰和各種任務的分類;2)對現有文獻的優點、缺點和剩余限制的深入分析;以及3)對有限數據下圖像合成領域的潛在應用和未來方向的深入討論。
為了填補這個空白,并為新入門這個主題的研究人員提供一個信息豐富的介紹,這個調查提供了一個全面的審查和一個關于有限數據下圖像合成發展的新的分類。特別是,它全面而全方位地涵蓋了問題的定義、要求、主要解決方案、流行的基準和剩余的挑戰。我們希望這個調查能為研究人員和實踐者提供一個信息豐富的概覽和一個寶貴的資源,并推動這個重要主題的進一步進步和創新。除了相關的參考文獻,我們的目標是不斷維護一個最新的存儲庫,以在GitHub/awesome-few-shot-generation上追蹤這個主題的最新進展。
1. 引言
深度生成模型已經取得了巨大的發展,并已經被應用于廣泛的智能創造任務,特別是在圖像和視頻合成[1],[2],[3],[4],[5],[6],[7],[8],[9],音頻和語音合成[10],[11],[12],[13],[14],[15],多模式生成[16],[17],[18]等方面。他們的技術突破也直接方便了我們日常生活的許多方面,包括各種表示形式(例如,3D/2D表示)的內容創建[19],[20],[21],[22],定制生成和編輯[23],[24],[25],[26],[27],以及藝術合成/操作[28],[29],[30],[31]。盡管取得了這些顯著的進步,但大多數現有的生成模型需要大量的數據和計算資源進行訓練。例如,最常用的數據集,人臉FFHQ [2],[32](70K),戶外/室內場景LSUN [33](1M),和對象ImageNet [34](1M),都包含足夠的訓練樣本。這樣的先決條件對只有有限訓練樣本的實踐者和研究者(如著名藝術家的繪畫和稀有疾病的醫療圖像)構成了重大挑戰。因此,有越來越多的需求要在有限的訓練數據下學習生成模型,這在近年來引起了廣泛的關注。 在有限數據下進行圖像合成的主要挑戰是模型過擬合和記憶化的風險,這可以顯著影響生成樣本的真實度和多樣性[35],[36],[37],[38],[39]。也就是說,由于過度擬合,模型可能只是復制訓練圖像,而不是生成新的圖像,從而導致合成質量下降。例如,當在有限數據下訓練生成對抗網絡(GANs)[40]時,判別器容易記住訓練圖像,從而對生成器提供無意義的指導,導致不利的合成。為了解決這些限制,許多研究工作已經開發出來,以改善在少數情況下的合成質量[35],[36],[37],[41],[42]。這些工作提出了各種策略,從不同的角度來減輕過擬合和記憶化的風險,如數據增強、正則化和新的架構。
盡管在有限數據下的圖像合成領域已經取得了顯著的進步,但該領域缺乏統一的問題定義和分類。例如,少樣本圖像生成在[41],[43],[44],[45]中被定義為給定一個類別的少量圖像,生成這個未見過的類別的多樣化和逼真的圖像,而在[46],[47],[48],[49],[50]中,少樣本圖像生成指的是將大規模和多樣化的源域的先驗知識適應到一個小的目標域。然而,他們在問題需求、模型訓練和測試設置上有顯著的不同。這種不一致的定義可能會導致不熟悉這些工作的讀者產生歧義和誤解。因此,一個全面的問題定義和分類對于更清晰地理解這個領域是至關重要的。此外,考慮到系統性調查的缺乏和有限數據生成的興趣增加,我們認為有必要組織一個調查,以幫助社區追蹤其發展。為此,本文首先為少樣本范式中的各種任務提供了一個清晰的問題定義,并將它們分為四類:數據高效生成模型(第4節),少樣本生成適應(第5節),少樣本圖像生成(第6節),和單樣本圖像合成(第7節)。然后,本文對該領域的先前研究進行了全面的概述。特別是,現有替代方案的技術演變、優點和缺點都有所呈現。另外,我們介紹了幾個相關的應用,并突出了需要未來工作進一步研究的開放問題(第8節)。總的來說,這項調查旨在為新入門該領域的學者提供有限數據下圖像合成的全面和系統的理解。我們希望我們的工作能為那些愿意僅用數十張訓練圖像開發自己的生成模型的研究者提供一種指導。本調查的貢獻總結如下:
? 清晰的問題定義和分類。本調查為有限數據下的圖像合成中的各種合成任務提供了清晰且統一的問題定義。此外,本調查提出了一個系統的分類法,將這些任務劃分為四類:數據高效圖像生成、少樣本生成適應、少樣本圖像生成和單樣本圖像合成。 ? 全面性。本調查對少樣本范例中現有的最先進的生成模型進行了全面的概述。我們比較和分析了現有方法的主要技術動機、貢獻和局限性,這些可以啟發進一步改進的潛在解決方案。 ? 應用和開放的研究方向。除了技術調查外,本調查還討論了潛在的應用,并突出了需要進一步調查以改善有限數據下圖像合成的開放性研究問題。 ? 及時的最新資源庫。為了持續追蹤這個領域的快速發展,我們在GitHub/awesome-few-shotgeneration上提供了最新相關論文、代碼和數據集的策劃列表。
本綜述關注的是訓練深度生成模型在有限訓練數據下生成多樣化和合理的圖像的方法。這些方法的主要目標是通過充分利用有限訓練數據的內部信息并在數據分布范圍內生成新的樣本來減輕過擬合問題。然而,這些方法在模型輸入、訓練圖和評估方面有所不同。
因此,在這項調查中,我們的目標是1) 讓讀者對有限數據下圖像合成領域的各種問題設置有清晰的理解,2) 對先前藝術的模型概念、方法特性和應用提供深入的分析和深思熟慮的討論,以及3) 提出一些未來研究的方向,并激發出更多有趣的工作以進一步改進。特別是,根據問題定義和實驗設置,我們將現有的方法分為四類:數據高效生成模型、少樣本生成適應、少樣本圖像生成、單樣本圖像生成。需要注意的是,所有這些類別都旨在生成與數據分布相對應的逼真和多樣化的圖像。這與少樣本學習中的生成建模形成鮮明對比,后者顯式地估計概率分布以計算給定樣本的類標簽[51],[52]。關于少樣本學習的進展,我們建議讀者參閱[53],[54]以獲取更全面的評述。
在這次調查中,我們的目標是提供關于有限數據下圖像合成的各種任務的清晰理解。為了實現這個目標,我們提出了每個任務的定義和表述,考慮到每個問題背后的訓練范式和任務特定的需求。我們已經構建了四個獨立的問題,即數據高效生成模型、少樣本生成適應、少樣本圖像生成和單樣本圖像生成。為了更好地說明這些問題,我們考慮了深度生成模型家族中的一個代表性類別,即生成對抗網絡(GANs),來描繪這些問題的訓練流程(見圖1)。需要注意的是,所呈現的流程并不是為了代表每個任務中使用的所有方法,而是作為一個示例。此外,我們在表1中總結了每個任務的定義、模型需求和主要挑戰。詳細的方法設計和分類分別在相應的部分進行了介紹。
近年來,深度學習領域取得了重大進展,特別是在計算機視覺(CV)、自然語言處理(NLP)和語音等領域。在大量數據上訓練的大規模模型的使用在實際應用、提高工業生產力和促進社會發展方面具有巨大的前景。然而,它的訓練過程極不穩定,對計算資源的要求非常嚴格。隨著計算能力適應性需求的不斷提高,大量研究在一定程度上探索了高效訓練領域,但對通用的大規模深度學習模型訓練加速技術的總結和指導仍有待深入研究。本文對訓練加速的一般技術進行了詳細的回顧。考慮基本更新公式,并將其基本組成部分分為5個主要角度: (1)"以數據為中心":包括數據集正則化、數據采樣和以數據為中心的課程學習技術,可以顯著降低數據樣本的計算復雜度; (2) "以模型為中心",包括加速基本模塊、壓縮訓練、模型初始化和以模型為中心的課程學習技術,側重于通過減少參數計算和提供更好的初始化來加速訓練; (3)“以優化為中心”,包括學習率的選擇、大批量的使用、高效目標的設計和模型平均技術,注重訓練策略和提高大規模模型的通用性; (4)“預算訓練”,包括在資源受限情況下的一些獨特加速方法,例如對總迭代次數的限制; (5)“以系統為中心”,包括一些高效的分布式框架和開源庫,它們為上述加速算法的實現提供了足夠的硬件支持。通過提出這種全面的分類法,本文綜述了一個全面的回顧,以了解每個組件內的一般機制及其聯合交互。同時,對通用加速技術發展的未來工作進行了詳細的分析和討論,這些工作可以啟發我們重新思考和設計新的高效范式。總之,我們希望這項綜述將成為普遍有效訓練的寶貴指南。
//www.zhuanzhi.ai/paper/3a05246686b3790fba94933dfcf0a82f
隨著人工智能技術的快速發展,深度模型的參數以百萬級甚至數十億級的速度迅猛增長。Kaplan等人[110]將模型大小、數據集大小和用于訓練的計算量之間的關系研究為冪律,并表明更大的模型本質上需要大量的數據,在學習上的樣本效率明顯更高。大型模型的部署也成為最重要的研究領域之一。例如,Dehghani等人[44]提出了ViT-22B,該模型展示了計算機視覺(CV)社區中“類LLM(大型語言模型)”擴展的潛力。GPT-1[196]提出了有監督微調以0.1B參數驅動語言模型。而兩年后,GPT-3[18]在45TB數據樣本上訓練了175B參數,并在各種自然語言處理任務上成功取得了最先進的結果。圖靈- nlg采用了大約172億個參數的生成語言模型,只需一年時間就可以快速迭代到具有530B參數的規模較大的模型MT-NLG[229],這在幾個任務中遠遠領先于GPT-3。我們總結了圖1中提出的模型尺寸發展的里程碑。盡管從這種快速增長中獲得的收益令人震驚,但為了保持實際效率,人們迫切期待在探索新技術和訓練方面取得實質性進展。就目前而言,訓練如此龐大的模型的巨大而昂貴的成本通常是不可接受的。具體來說,訓練GPT-3消耗大約355 GPU年,成本為460萬美元。在如此龐大的參數和數據樣本下,傳統的從零開始訓練顯然無法承受巨大的費用,特別是在擴展到下游任務[30,138,187,188,211,243]時,這將引入額外的架構和過多的參數。因此,預訓練-微調模式在深度學習領域日益受到關注。
預訓練的主題是繼承遷移學習的范式,在一個通用的數據集上訓練一個通用的基礎模型,以獲得一個出色的特征提取器(從優化的角度來看也是一個良好的初始狀態),幫助在另一個特定的任務上實現和穩定訓練過程。許多研究領域都受益于預訓練方法。通過應用恢復的隨機掩碼圖像,有助于訓練CV社區中的大型transformer模型。掩碼自編碼器(MAE)[83]開發了一種非對稱編碼器-解碼器架構來耦合自監督重建和后端訓練,為下游任務產生了有希望的遷移性能。同樣,來自圖像transformer (BEiT)的雙向編碼器表示[7]遵循BERT[48],通過從分塊掩碼圖像生成的視覺標記來重建圖像。在NLP社區,Radford等人[196]提出了生成式預訓練(GPT),通過在無標簽文本的不同語料庫上采用生成式預訓練來實現巨大的收益。為了進一步提高其效率,GPT-2[197]大大提高了模型作為具有廣泛語義知識的詞向量提取器的能力。GPT-3[18]通過雙循環策略進行上下文學習,在預訓練中可以顯著增強對知識的理解,在實際場景中可以提高流動性和通用性。Hendrycks等[88]研究表明,使用預訓練可以提高模型的魯棒性和不確定性,對于在大型數據集上進行訓練表現出極大的優勢,泛化能力較好。最近的進展表明,從具有巨大容量的預訓練模型中獲得了實質性的收獲,特別是在任務不可知和少樣本的場景中。它還提出了一個有希望的未來發展方向,即在大規模數據集上預訓練的具有大量參數的大規模模型能夠超越其他監督訓練的性能。這一令人振奮的進展有效地降低了深度學習對真實值的依賴,極大地啟發了大數據的應用。同時,它對計算和訓練效率也提出了更加嚴格的要求。昂貴的成本,包括時間和金錢,嚴重阻礙了它的發展。在此背景下,本文介紹和總結了在大規模模型上加速訓練的通用和實用技術,這些技術促進了更快的訓練,也可能有助于預訓練中龐大的基礎模型。
最近的許多工作回顧和總結了高效的訓練技術,主要包括引入了高效的預訓練模型,設計了新的加速組件,先進的優化方法,在NLP或CV社區上的高效訓練,以及訓練過程中的技巧袋。Qiu等人[194]對用于解決各種NLP任務的預訓練模型進行了綜述和系統分類列表。他們研究了語言模型的發展歷史和預訓練的當前進展。Han等人[80]總結了與通用預訓練技術相關的研究工作,并對他們的未來研究提供了一些見解。Bommasani等人介紹了高效的基礎模型,主要從它們的一般概念、強大的功能、基礎訓練技術和應用的角度介紹了高效的基礎模型。他們還總結了預訓練的演變和當前在實際場景中的挑戰。Zhou等人[305]對預訓練基礎模型(PFM)進行了全面的回顧,討論了它們在每個不同社區的成果的最新研究進展,這些成果可能會給本地研究帶來新的思考。同時,系統總結了應用中存在的主要問題和未來的挑戰。Lin等人[145]重點研究了新的Transformer模型,并回顧了Transformer模型的幾種變體,這些變體被對齊以考慮高效的架構修改、預訓練技術和訓練加速。Weng[273]回顧了Transformer家族的發展,介紹了Transformer模型的詳細演變,并系統地分析了每種架構的優缺點。Tay等人[246]總結了高效Transformer模型的一些變體。從實際訓練的角度出發,提出了一些提高Transformer模型訓練效率的策略,并對未來的研究提出了建議。Zhuang等人[308]研究了transformer的高效訓練綜述,包括計算效率、存儲效率和硬件/算法協同設計。與它們不同,我們更關注基本的加速技術,不限于Transformer模型。Open Machine Learning Systems Community[179]為高效機器學習系統的設計和實現提供了全面的研究。他們更關注數據預處理、前向和后向計算、高效并行部署和通信的實踐,以及優化方法的具體實現。He等人[85]研究了大規模深度學習在泛化保證和優化效率方面的最新進展,包括新的優化器和策略,以解決訓練開銷和減少計算設備中所需的內存。并對大批量訓練的探索進行了闡述。He等人[84]總結了一套訓練CNN模型的技巧。他們進行了系統的實驗,總結了一些有效的數據增強技術和巧妙的學習率調度器的設計。Treviso等人[254]總結了NLP的有效方法,并討論了它們的效率和缺點。
近年來,高效地訓練大規模深度學習模型已成為機器學習領域的一個重要研究方向。雖然該領域已經取得了重大進展,但現有的研究大多集中在特定的模型架構或服務于特定的社區。相比之下,本研究對任何大規模深度學習模型的實用加速技術進行了全面的回顧,這些技術獨立于任務或模型架構。從實踐效率的角度來看,我們認為高效的訓練主要圍繞兩個明確的目標:
為了達到相當的測試精度,高效的訓練需要更少的訓練時間。
在相似的訓練成本下,高效的訓練可以實現更高的性能。
該綜述為深度學習模型的一般訓練加速提供了有見地的指導。分析了訓練加速技術在支撐許多現代深度學習模型的各種基本骨干架構上的功效。通過研究深度網絡的不同架構,本文綜述可以幫助實現任何類型的深度學習模型的高效訓練。此外,由于我們的調研是無任務和無模型的,因此提供了訓練加速技術的廣泛泛化,可以應用于不同的領域和模型架構。我們的綜述旨在為尋求加速大規模深度學習模型訓練的研究人員和從業人員提供一個有用的資源。通過理解有效訓練加速技術背后的一般原理,研究人員可以開發更快、更有效的模型,而不受特定架構或任務的限制。本研究對大規模深度學習模型的通用訓練加速技術進行了全面的綜述,為機器學習領域做出了重大貢獻。 本文對解決一般的基本最小化問題很感興趣,可以很容易地擴展到訓練基礎模型或預訓練任務:
與之前的工作不同,本文解構了通用的基于梯度的下降公式作為本文的架構。考慮了公式(3)中的所有組件,這些組件可以覆蓋深度學習中的整個訓練過程。通過將它們吸收到f中,省略了額外的近端項。在不損失通用性的情況下,使用更新向量G而不是梯度來包含廣泛的方法。我們認為基本更新公式如下:
在表1中,我們總結了這些符號及其對應的研究領域。基于式(3),通過提煉和拆分組件的不同角色,將前人工作按照其固有的啟發式見解和理論場景劃分為5大類。每一類對應分類后的分組下計算效率的優化目標。對上述組件進行細粒度分析,以對當前用于訓練大規模模型的通用加速技術進行分類,并結合實際實現的可行性。具體來說,它們是:
以數據為中心的有效訓練。在深度學習中,全局期望與訓練樣本分布之間經常存在差距。這可以導致在訓練的中期和后期階段的測試準確性的提高,盡管在早期階段表現有效。為了解決這個問題并提高泛化性能,以數據為中心的方法通過有效的數據增強和正則化策略來擴展訓練集的樣本容量。它需要額外的預處理計算來增強多樣性并保持更高的穩定性,從而在實際應用中具有更好的泛化性能。同時,為了實現有效加速并進一步提高模型的通用性,以數據為中心的方法研究了隨機優化過程中有效的采樣技術以選擇關鍵子集。它有效地減少了計算梯度所需的樣本數量。此外,它還可以防止模型在訓練那些不重要的樣本或學習足夠好的數據時過度擬合。最近的研究表明,課程學習是一個循序漸進的過程,可以產生有效的訓練。在訓練初期使用正則化程度較低的低分辨率樣本,逐步恢復到高質量的樣本。總之,以數據為中心的方法的核心考慮是如何在不影響性能的情況下減少數據處理需求。
以模型為中心的高效訓練。深度模型是一個從數據域到真實值的精細映射函數。過去的工作探索了許多成熟的架構來構建一個高效訓練的網絡,例如基于卷積的神經網絡(CNN),多層感知器(MLP)和transformer模型。以模型為中心的方法通過高效的架構近似、壓縮和高效的初始化,更多地關注DNNs的計算復雜性,以獲得更好的通用性。這些方法側重于在保持良好性能的同時減小DNN的參數規模。具體來說,架構近似側重于采用簡化的算子組合,以減少訓練中的計算成本。它期待著探索用于一般加速的基本模塊的表達性替代方案。壓縮關系到低精度計算和稀疏訓練的效率,也需要在硬件實現上得到充分支持。模型初始化注重尋找穩定性和通用性較好的初始狀態,可以有效地加快收斂速度,防止訓練過程在早期崩潰。總之,以模型為中心的方法為降低深度模型的計算復雜度以進行高效訓練提供了一種有希望的方法,它具有很強的實用性,可以很容易地在任何深度學習框架中實現。
以優化為中心的高效訓練。為提高優化效率,總結了三個主要因素,即學習率、批量大小和優化目標。不同階段學習率和衰減策略的合理選擇是深度網絡訓練的關鍵問題。然而,要找到一種適用于不同模型和優化器的通用方法是具有挑戰性的。因此,以學習率為中心的方法旨在開發高效和靈活的策略,以高效和穩定地訓練模型。第二個因素,批量大小,在優化中也起著關鍵作用。借助GPU設備的并行計算能力,特別是在計算資源充足的情況下,通過增加單個minibatch中的樣本數量可以提高訓練效率。因此,以批大小為中心的方法通常專注于采用大的小批量訓練以提高優化速度。從優化的角度來看,我們總是努力實現一個具有高穩定性的目標,這是以目標為中心的方法的主要關注點。這些方法專注于優化目標,提供關于數據分布和模型架構具有魯棒性的泛化。綜上所述,以優化為中心的方法研究了訓練過程中的高效迭代計算,為高效訓練提供了堅實的保證。
有預算的高效訓練。預算訓練是在實際訓練期間考慮到可用資源的一種方法。它主要關注資源受限場景下的訓練效率,在這些場景中,計算資源(如訓練時間或計算量)是有限的。預算訓練的主要目標是確保高效和穩定的訓練,同時在給定的約束條件下最大化模型的潛力。這種方法可以在訓練的早期階段帶來顯著的收獲。通過采用預算訓練,研究人員和從業人員可以充分利用可用資源,避免將其浪費在低效的模型或訓練程序上。這種方法還可以促進模型的開發,這些模型更實用,更適合于資源通常有限的現實世界應用程序。
以系統為中心的高效訓練。以系統為中心的方法側重于在硬件支持下的實際實現,能夠將算法設計轉化為真正的可執行項目。大規模模型訓練通常采用多節點多設備環境實現并行計算。它主要關注設計底層邏輯,以解決跨設備通信中的瓶頸,并有效地協調整個訓練過程。已經開發了幾個開源框架來顯著加速深度網絡的訓練。為了有效利用分布式訓練,訓練過程被分布為更小的計算任務,在不同的節點或設備上并行執行。這些節點相互通信以交換梯度更新并同步整個訓練過程。這種分布式系統能夠訓練無法在單臺機器上執行的大型數據集和復雜模型。已經開發了幾個開源的分布式訓練框架,如TensorFlow, PyTorch和Horovod。這些框架實現了在多節點多設備集群上進行高效的分布式訓練,并顯著減少了大規模深度學習模型的訓練時間。
總而言之,本文綜述了有效訓練的一般訓練加速。在“以數據為中心”、“以模型為中心”、“以優化為中心”和“預算訓練”部分,我們主要從算法設計和方法論的角度進行綜合研究;在“以系統為中心”部分,我們主要從范式創新和硬件支持的角度進行實際實施。本調查的主要貢獻如下:
從“數據”、“模型”、“優化”、“預算訓練”和“系統”的角度回顧了訓練大規模模型的一般加速技術,總結了它們的技術路線和每個組件的實現,有助于為無任務和無模型的高效訓練提供堅實的指導。
比較了訓練加速中每個組件的優缺點,展示了它們的見解和互動,可以啟發我們重新思考訓練大規模深度學習模型的高效范式的設計。
對每條技術路線及其在實際場景中的主要挑戰進行了全面的分析,這可以為它們未來的發展提供指導。
本調查的主要結構組織如下。在第2節中,介紹了一些初步工作,包括不同骨干中的基本模塊,以及對大規模深度學習模型、數據集的預訓練,以及本綜述中采用的詳細符號。在第3 ~ 6節中,基于迭代公式(3),從"數據為中心"、"模型為中心"、"優化為中心"、"預算訓練"和"系統為中心"的角度詳細介紹了它們不同的訓練加速技術路線。還分析和評估了每種實現的優缺點。這種新的分類方法可以為現有的有效訓練方法提供一個清晰和全面的指導。在第8節中,我們討論和總結了本綜述中的技術,并提出了一些有前途的研究方向。
大多數視覺識別研究在深度神經網絡(DNN)訓練中嚴重依賴群體標記數據,通常為每個視覺識別任務訓練一個DNN,導致耗時費力的視覺識別范式。為應對這兩個挑戰,視覺-語言模型(VLM)最近得到了深入研究,它從互聯網上幾乎無限可用的網絡規模的圖像-文本對中學習豐富的視覺-語言相關性,并用一個VLM對各種視覺識別任務進行零樣本預測。**文中對面向各種視覺識別任務的視覺語言模型進行了系統綜述,包括: (1)視覺識別范式發展的背景; (2) VLM的基礎,總結了廣泛采用的網絡架構、預訓練目標和下游任務; (3) VLM預訓練和評估中廣泛采用的數據集;(4)對現有的VLM預訓練方法、VLM遷移學習方法和VLM知識蒸餾方法進行綜述和分類;(5)對所述方法的基準化、分析和討論;(6)視覺識別中VLM研究面臨的挑戰和未來可能的研究方向。**與此調研相關的項目已在//github.com/jingyi0000/VLM survey上創建。
1. 引言
視覺識別(如圖像分類、目標檢測和語義分割)是計算機視覺研究中長期存在的挑戰,也是自動駕駛[1]、[2]、遙感[3]、[4]、機器人[5]、[6]等無數計算機視覺應用的基石。隨著深度學習[7]、[8]、[9]的出現,視覺識別研究通過利用端到端的可訓練深度神經網絡(DNNs)取得了巨大的成功。然而,從傳統機器學習[10]、[11]、[12]、[13]向深度學習的轉變帶來了兩個新的重大挑戰,即深度學習從零開始[7]、[8]、[9]的經典設置下的DNN訓練收斂緩慢,以及在DNN訓練中費力耗時地收集大規模、特定任務、眾標數據[14]。 最近,一種新的學習范式預訓練、微調和預測在廣泛的視覺識別任務[15]、[16]、[17]、[18]、[19]中表現出了巨大的有效性。在這種新范式下,DNN模型首先用某些現成的大規模訓練數據(被標注或未標注)進行預訓練,然后用圖2(a)和(b)所示的特定任務標注訓練數據對預訓練模型進行微調。通過在預訓練模型中學習到的全面知識,這種學習范式可以加速網絡收斂,并為各種下游任務訓練表現良好的模型。
盡管如此,預訓練、微調和預測范式仍然需要一個額外的階段,使用來自每個下游任務的標記訓練數據進行特定任務的微調。受自然語言處理[20],[21],[22],[23]進展的啟發,一種名為視覺-語言模型預訓練和零樣本預測的新的深度學習范式最近受到越來越多的關注[14],[24],[25]。**在這種范式中,一種視覺-語言模型(VLM)是用互聯網上幾乎無限可用的大規模圖像-文本對進行預訓練的,預訓練的VLM可以直接應用于下游視覺識別任務,而無需微調,如圖2(c)所示。**VLM預訓練通常由某些視覺-語言目標[14],[25],[26]指導,使其能夠從大規模圖像-文本對[27],[28]中學習圖像-文本對應關系,例如:CLIP[14]采用圖像-文本對比目標,通過在嵌入空間中將成對的圖像和文本拉近并將其他圖像和文本推遠來進行學習。通過這種方式,預訓練的vlm捕獲了豐富的視覺-語言對應知識,并可以通過匹配任何給定圖像和文本的嵌入來進行零樣本預測。這種新的學習范式能夠有效地利用網絡數據,并允許零樣本預測,而不需要特定任務的微調,實現起來很簡單,但表現得非常好,例如,預訓練的CLIP在36個視覺識別任務中實現了出色的零樣本性能,從經典圖像分類[29],[30],[31],[32],[33]到人類行為和光學字符識別[14],[34],[35],[36],[37]。
隨著視覺-語言模型預訓練和零樣本預測的巨大成功,在各種VLM預訓練研究之外,人們還深入研究了兩條研究路線。第一行探索了帶有遷移學習[38],[39],[40],[41]的vlm。幾個遷移方法證明了這一點,例如,提示調優[38],[39],視覺適應[40],[41]等,所有預訓練的vlm對各種下游任務的有效適應都具有相同的目標。第二行通過知識蒸餾[42],[43],[44]探索vlm,例如,[42],[43],[44]探索如何從VLM中提取知識到下游任務,旨在在目標檢測,語義分割等方面取得更好的性能。
盡管從圖1所示的大量近期論文中證明了從VLM中獲取大量知識的濃厚興趣,但研究界缺乏一份全面的調查,可以幫助梳理現有的基于VLM的視覺識別研究、面臨的挑戰以及未來的研究方向。我們的目標是通過對各種視覺識別任務(包括圖像分類、目標檢測、語義分割等)中的VLM研究進行系統的綜述來填補這一空白。 從不同的角度進行了綜述,包括背景、基礎、數據集、技術方法、基準和未來的研究方向。我們相信,這項調查將為我們已經取得的成就提供一個清晰的藍圖,我們可以沿著這個新興但非常有前瞻性的研究方向進一步取得成就。
總而言之,這項工作的主要貢獻有三個方面。首先,對用于圖像分類、目標檢測和語義分割等視覺識別任務的VLMs進行了系統綜述。據我們所知,這是視覺識別VLMs的第一次綜述,通過對現有研究的全面總結和分類,為這個有前途的研究領域提供了一個大的圖景。其次,研究了視覺識別VLM的最新進展,包括對多個公共數據集上的現有工作進行全面的基準測試和討論。第三,分享了幾個用于視覺識別的VLM中可以追求的研究挑戰和潛在研究方向。
**本綜述的其余部分組織如下。**第2節介紹了視覺識別的范式發展和幾個相關的調查。第3節描述了VLM的基礎,包括廣泛使用的深度網絡架構、預訓練目標和VLM評估中的下游任務。第4節介紹了常用的VLM預訓練和評估中的數據集。第5節回顧并分類了VLM預訓練方法。第6節和第7節分別對VLM的遷移學習和知識蒸餾方法進行了系統綜述。第8節在多個廣泛采用的數據集上對所審查的方法進行了基準測試和分析。最后,我們在第9節中分享了視覺識別的幾個有前途的VLM研究方向。
2 背景
本節介紹了視覺識別訓練范式的發展,以及它如何向視覺-語言模型預訓練和零樣本預測范式演進。我們還討論了幾個相關的綜述,以突出本綜述的范圍和貢獻。
2.1 視覺識別的訓練范式
視覺識別范式的發展大致可以分為五個階段,包括(1)傳統機器學習和預測,(2)深度從頭學習和預測,(3)有監督的預訓練、微調和預測,(4)無監督的預訓練、微調和預測和(5)視覺-語言模型預訓練和零樣本預測。在接下來的內容中,我們將對這五種訓練范式進行詳細介紹、比較和分析。
2.1.1 傳統的機器學習和預測
在深度學習時代[7]之前,視覺識別研究嚴重依賴特征工程,使用手工特征[13]、[45]、[46]、[47]、[48]、[49]、[50]、[51]和輕量級學習模型[10]、[11]、[12]將手工特征分類為預定義的語義類別。例如,經典的SIFT特征[51]對圖像尺度、平移和旋轉的變化具有容忍度,實現了非常令人印象深刻的視覺識別性能。然而,這種范式需要領域專家為特定的視覺識別任務制作有效的特征,不能很好地應對復雜的任務,也具有較差的可擴展性。
2.1.2深度學習從零開始和預測
隨著深度學習[7]、[8]、[9]的出現,視覺識別研究通過利用端到端的可訓練dnn,用單一框架統一特征提取和分類過程,取得了巨大的成功。基于dnn的視覺識別繞開了復雜的特征工程,在很大程度上專注于神經網絡的架構工程,以學習有效特征。例如,ResNet[9]通過跳躍設計實現了有效的深度網絡,并可以從大量群體標記的數據中學習語義特征,在具有挑戰性的1000類ImageNet分類任務[52]上取得了前所未有的性能。另一方面,從傳統機器學習向深度學習的轉變提出了兩個新的重大挑戰,包括從頭開始深度學習的經典設置下的DNN訓練收斂緩慢,以及DNN訓練中費力且耗時地收集大規模、特定任務和眾標數據[14]。
2.1.3 有監督的預訓練、微調和預測
隨著發現從標記的大規模數據集中學習到的特征可以遷移到下游任務[15],[16],[17],從頭學習和預測的范式已經逐漸被有監督的預訓練、微調和預測的新范式所取代。這種新的學習范式,如圖2(a)所示,以監督損失對大規模標記數據(如ImageNet)進行預訓練DNN,然后用特定任務的訓練數據[15]、[16]、[17]對預訓練的DNN進行微調。由于預訓練的dnn已經學習了一定的視覺知識,它可以加速網絡收斂,并幫助用有限的特定任務訓練數據訓練出表現良好的模型。
雖然范式監督預訓練、微調和預測在許多視覺識別任務上實現了最先進的性能,但它在預訓練中需要大規模的標記數據。為了緩解這一限制,最近的研究[18]、[19]采用了一種新的學習范式無監督預訓練、微調和預測,探索自監督學習從無標記數據中學習有用和可轉移的表示,如圖2(b)所示。為此,各種自監督訓練目標(即,偽裝任務)[18]、[53]、[54]、[55]、[56]被提出,包括學習上下文信息的圖像修復[53],建模跨塊關系的掩碼圖像建模[54],通過對比訓練樣本[18]來學習判別式特征的對比學習等。然后,自監督預訓練模型在帶有標記任務特定訓練數據的下游任務上進行微調。由于這種范式在預訓練中不需要標記數據,它可以利用更多的訓練數據來學習有用的和可遷移的特征,與監督預訓練[18]、[19]相比,導致甚至更好的性能。
2.1.5 VLM預訓練和零樣本預測
盡管有監督或無監督預訓練的預訓練和微調范式提高了網絡收斂性,但它仍然需要一個額外的階段對圖2(a)和(b)所示的帶標簽的特定任務訓練數據進行微調。受自然語言處理的預訓練成功[20],[21],[22],[23]的激勵,一種名為視覺-語言模型預訓練和零樣本預測的新深度學習范式被提出用于視覺識別,如圖2(c)所示。在互聯網上幾乎無限可用的大規模圖像-文本對的情況下,VLM由特定的視覺-語言目標[14],[25],[26]進行預訓練。通過這種方式,預訓練的VLM捕獲了豐富的視覺-語言對應知識,并可以通過匹配任何給定圖像和文本的嵌入,對下游視覺識別任務進行零樣本預測(無需微調)。
與預訓練和微調相比,這種新的范式可以在不進行特定任務微調的情況下有效利用大規模網絡數據和零樣本預測。大多數現有研究探索從三個角度來改進VLM: 1) 收集大規模信息豐富的圖像-文本數據,2) 設計高容量模型以從大數據中有效學習,3) 設計新的預訓練目標用于學習有效的視覺-語言關聯。本文對視覺識別的這一新的視覺-語言學習范式進行了系統的綜述,旨在為現有的VLM研究、這一具有挑戰性但非常有前途的研究領域面臨的挑戰和未來方向提供一個清晰的藍圖。
3 VLM基礎
VLM預訓練[14],[24]旨在預訓練一個VLM來學習圖像-文本相關性,針對視覺識別任務的有效零樣本預測[9],[66],[67],[68]。給定圖像-文本對[27],[28],它首先采用一個文本編碼器和一個圖像編碼器來提取圖像和文本特征[9],[20],[69],[70],然后學習與某些預訓練目標[14],[24]的視覺-語言相關性。有了學習到的視覺-語言相關性,VLMs可以在未見過的數據上以零樣本的方式進行評估[14],[24],通過匹配任何給定圖像和文本的嵌入。在本節中,我們介紹了VLM預訓練的基礎,包括用于提取圖像和文本特征的常見深度網絡架構,用于建模視覺-語言相關性的預訓練目標,以及用于評估預訓練的VLM的下游任務。
4 數據集
本節總結了用于VLM預訓練和評估的常用數據集,如表1-2所示。
5 視覺-語言模型預訓練
如第3.2節所述,VLM預訓練已經用三種典型的方法進行了探索,包括對比目標、生成目標和對齊目標。本節通過表3所列的多個VLM預訓練研究對它們進行了回顧。
5.1 具有對比目標的VLM預訓練
對比學習在VLM預訓練中已經被廣泛探索,它為學習具有判別力的圖像-文本特征設計了對比目標[14],[80],[138]。
5.2 帶有生成目標的VLM預訓練
生成式VLM預訓練通過學習通過掩碼圖像建模、掩碼語言建模、掩碼跨模態建模和圖像到文本生成生成圖像或文本來學習語義知識。
5.3 帶有對齊目標的VLM預訓練
對齊目標通過學習預測給定的文本是否正確描述了給定的圖像,強制vlm對齊成對的圖像和文本。它可以大致分為全局圖像-文本匹配和局部區域-單詞匹配,用于VLM預訓練。
5.4 總結和討論
總而言之,VLM預訓練對具有不同跨模態目標的視覺-語言相關性進行建模,如圖像-文本對比學習、掩碼跨模態建模、圖像到文本生成和圖像-文本/區域-單詞匹配。還探索了各種單模態目標,以充分挖掘其自身模態的數據潛力,如針對圖像模態的掩碼圖像建模和針對文本模態的掩碼語言建模。另一方面,最近的VLM預訓練專注于學習全局視覺-語言相關性,在圖像級識別任務(如圖像分類)中有好處。同時,多項研究[84]、[89]、[91]、[150]、[151]、[152]、[153]通過區域-單詞匹配對局部細粒度視覺-語言相關性進行建模,旨在在目標檢測和語義分割中實現更好的密集預測。
6 VLM遷移學習
除了在沒有微調的情況下直接將預訓練的VLM應用于下游任務的零樣本預測外,最近研究了遷移學習,通過提示微調[38],[154],特征適配器[40],[41]等使VLM適應下游任務。本節介紹了預訓練VLM的遷移學習動機、常見的遷移學習設置以及三種遷移學習方法,包括提示調優方法、特征適配器方法和其他方法。
7 VLM知識蒸餾
由于VLM捕獲了涵蓋廣泛的視覺和文本概念的通用知識,一些研究探索了如何提取通用和魯棒的VLM知識,同時解決復雜的密集預測任務,如目標檢測和語義分割。本節介紹了從VLM中提取知識的動機,以及兩組關于語義分割和目標檢測任務的知識蒸餾研究。
8. 結論
用于視覺識別的視覺-語言模型能夠有效地使用web數據,并允許零樣本預測,而無需特定任務的微調,這很容易實現,但在廣泛的識別任務中取得了巨大的成功。本綜述從背景、基礎、數據集、技術方法、基準測試和未來研究方向等幾個角度廣泛回顧了視覺識別的視覺-語言模型。以表格的形式對VLM數據集、方法和性能進行了比較總結,為VLM預訓練的最新發展提供了一個清晰的藍圖,這將極大地有利于這個新興但非常有前途的研究方向的未來研究。
盡管在過去的幾年里,深度學習模型在許多不同的領域取得了巨大的成功,但通常數據匱乏,在不可見的樣本上表現不佳,而且缺乏可解釋性。目標領域往往存在各種先驗知識,利用這些先驗知識可以彌補深度學習的不足。為了更好地模仿人類大腦的行為,人們提出了不同的先進方法來識別領域知識并將其集成到深度模型中,以實現數據高效、可泛化和可解釋的深度學習,稱為知識增強深度學習(KADL)。
在本綜述中,我們定義了KADL的概念,并介紹了它的三個主要任務,即: 知識識別、知識表示和知識整合。與現有的專注于特定類型知識的綜述不同,我們提供了領域知識及其表示的廣泛而完整的分類法。基于我們的分類法,我們對現有的技術進行了系統的回顧,不同于現有的綜述集成方法對知識分類法的不可知的工作。該綜述包含了現有的工作,并提供了知識增強深度學習一般領域的研究概覽。對大量論文的全面和批判性的回顧不僅有助于了解當前的進展,而且有助于確定知識增強深度學習的未來研究方向。
1. 概述
盡管現有的深度模型在各個領域都取得了令人印象深刻的性能,但它們存在一些嚴重的缺陷,包括數據依賴性高和泛化[1]差。這些缺陷主要源于模型的數據驅動特性以及它們無法有效利用領域知識。為了解決這些限制,知識增強深度學習范式開始引起研究人員的注意,通過該范式,領域知識和可觀察數據協同工作,產生數據高效、可泛化和可解釋的深度學習算法。 現實世界的領域知識是豐富的。在深度學習背景下,領域知識主要來源于兩個來源:目標知識和度量知識。目標知識控制著我們想要預測的目標變量的行為和屬性,而度量知識控制著產生目標變量的觀察數據的底層機制。基于其表示,本文提出將深度學習中探索的領域知識分為兩類:科學知識和經驗知識。科學知識代表了在某一領域中已經確立的支配目標變量的屬性或行為的規律或理論。相比之下,經驗知識是指從長期觀察中提取的眾所周知的事實或規則,也可以通過人類的推理推斷出來。知識可以用各種格式表示和組織。科學知識通常可以用數學方程來精確地表示。另一方面,經驗知識通常不太正式,如通過邏輯規則、知識圖譜或概率依賴。在深度學習框架中,不同表示形式的知識通過不同的集成方法與數據集成。 由于認識到當前深度學習的不足,人們對捕獲先驗知識并將其編碼到深度學習中越來越感興趣。兩種主流技術是神經符號集成和物理成形深度學習。神經符號集成模型主要是將經驗知識編碼到傳統的符號AI模型中,并將符號模型與深度學習模型進行集成。基于物理的深度學習側重于將各種理論物理知識編碼到不同的深度學習階段。目前在這一領域的研究論文的范圍有限,因為他們關注的要么是神經符號模型,要么是基于物理的機器學習方法,而忽略了許多其他相關的工作。具體而言,現有的神經符號模型綜述主要包括對邏輯規則或知識圖譜的討論,以及它們與深度模型[2]、[3]的融合。然而,現有的關于基于物理的機器學習的調研僅限于一個特定的科學學科,并且集成方法通常是特定于任務的,例如,物理[4],[5],信息物理系統[6],幾何[7]和化學[8]。因此,這些綜述集中在實驗室環境下解決科學問題的方法上,缺乏對現實世界應用的討論。為了解決這一局限性,我們對現有的知識增強深度學習研究進行了全面而系統的綜述。我們的綜述有三個方面的貢獻:
本綜述建立了一種新的領域知識分類方法,包括科學知識和經驗知識。我們的工作包含了現有的工作,這些工作關注特定學科領域知識的子集[4]-[8]。
本綜述涵蓋了廣泛的知識表示和集成方法與系統分類。它不同于現有的關于一般集成技術的綜述,后者不確定領域知識的分類[9]-[13]。
本綜述涵蓋的方法不僅適用于在實驗室環境下解決科學問題,更重要的是,適用于現實世界的應用任務。這項綜述不局限于特定的應用任務,它涉及從計算機視覺到自然語言處理的任務。因此,我們的綜述不僅引起了深度學習研究者的興趣,也引起了不同領域的深度學習實踐者的興趣。
我們組織這次綜述如下。在第二節中,我們首先介紹了KADL的概念,并定義了三個基本任務(即知識識別、知識表示和知識集成)。然后我們回顧了KADL方法,其中我們根據它們的重點領域知識對不同的技術進行了分類:1)第三節中的帶有科學知識的深度學習,2)第四節中的帶有經驗知識的深度學習。在每個類別中,我們確定了領域知識、它的表示格式,以及為知識與數據的集成提出的現有方法。表一概述了現有的知識增強深度學習方法。
2. 知識增強深度學習
知識增強深度學習的主要任務包括知識識別、知識表示和知識集成到深度模型中。
3. 用科學知識進行深度學習
深度學習模型在先進的科學和工程領域越來越重要,而這些領域傳統上是由機械(如第一原理)模型主導的。這類模型對于那些發生機制尚未被專家很好理解的科學問題,或者那些精確解在計算上不可行的問題,產生了特別有希望的性能。然而,現有的深度學習需要大量帶注釋的數據,對新數據或設置的泛化能力很差。在將科學和工程中的傳統方法與現有的數據驅動的深度模型相結合方面,研究界有越來越多的共識。帶有科學知識的深度學習探索了經典機制模型和現代深度模型之間的連續統一體。在機器學習領域,將科學知識整合到深度學習(也稱為基于物理的機器學習)中,以產生物理上一致的、可解釋的預測,并降低數據依賴性的努力越來越多。在下面,我們首先確定科學知識的類型及其表征。然后介紹了將科學知識與深度模型集成的不同方法。
4. 基于經驗知識的深度學習
除了科學知識外,經驗知識被廣泛認為是神經符號模型的主要知識來源。經驗知識是指日常生活中眾所周知的事實,描述一個對象的語義屬性或多個對象之間的語義關系。它通常是直觀的,是通過長時間的觀察或完善的研究得出的。與科學知識不同,經驗知識雖然廣泛存在,但具有描述性和不精確性。包含語義信息的經驗知識可以作為深度學習中預測任務(如回歸或分類任務)的強大先驗知識,特別是在小數據環境下,僅訓練數據不足以捕獲變量之間的關系[65]。
在過去的幾年中,強化學習(RL)與深度學習的結合取得了快速的進展。從游戲到機器人的各種突破都激發了人們對設計復雜的RL算法和系統的興趣。然而,RL中普遍采用的工作流程是學習tabula rasa,這可能導致計算效率低下。這就妨礙了RL算法的持續部署,并可能排除沒有大規模計算資源的研究人員。在機器學習的許多其他領域,預訓練范式已被證明在獲取可遷移知識方面是有效的,可用于各種下游任務。最近,我們看到了對深度RL預訓練的興趣激增,結果很有希望。然而,許多研究都是基于不同的實驗設置。由于強化學習的性質,該領域的預訓練面臨著獨特的挑戰,因此需要新的設計原則。本文系統地回顧了深度強化學習預訓練方面的現有工作,對這些方法進行了分類,討論了每個子領域,并對開放問題和未來方向提出了關注。
//www.zhuanzhi.ai/paper/aad5ecc8e9b3ee704395b5de4af297d2
1. 概述
強化學習(RL)為順序決策提供了一種通用的數學形式主義(Sutton & Barto, 2018)。通過利用RL算法和深度神經網絡,不同領域的各種里程碑通過數據驅動的方式優化用戶指定的獎勵函數實現了超人的性能(Silver et al., 2016; Akkaya et al., 2019; Vinyals et al., 2019; Ye et al., 2020, 2020, 2022; Chen et al., 2021b)。正因為如此,我們最近看到了對這一研究方向越來越多的興趣。
然而,盡管RL已被證明在解決指定良好的任務時是有效的,但樣本效率(Jin et al.,2021)和泛化(Kirk et al.,2021)的問題仍然阻礙了它在現實世界問題中的應用。在強化學習研究中,一個標準的范式是讓智能體從自己或他人收集的經驗中學習,通常是在單個任務上,并通過隨機初始化tabula - rasa優化神經網絡。相比之下,對人類來說,關于世界的先驗知識對決策過程有很大幫助。如果任務與之前看到的任務相關,那么人類傾向于重用已經學習到的東西來快速適應新任務,而不需要從頭開始從詳盡的交互中學習。因此,與人類相比,RL智能體通常存在數據效率低下的問題(Kapturowski et al.,2022),并且容易出現過擬合(Zhang et al.,2018)。
然而,其他機器學習領域的最新進展積極倡導利用從大規模預訓練中構建的先驗知識。大型通用模型,也被稱為基礎模型(Bommasani et al., 2021),通過在大范圍數據上進行訓練,可以快速適應各種下游任務。這種訓練前-微調范式已被證明在計算機視覺等領域有效(Chen et al., 2020; He et al., 2020; Grill et al., 2020)和自然語言處理(Devlin et al., 2019; Brown et al., 2020)。然而,預訓練還沒有對RL領域產生顯著影響。盡管如此,大規模RL前訓練的設計原則面臨著來自多方面的挑戰: 1) 領域和任務的多樣性; 2)數據來源有限; 3) 快速適應解決下游任務的難度大。這些因素源于RL的性質,不可避免地需要加以考慮。
本研究旨在對當前深度強化學習預訓練的研究現狀進行概覽。在RL中有原則的預訓練有多種潛在的好處。首先,RL訓練產生的大量計算成本仍然是工業應用的障礙。例如,復現AlphaStar的結果(Vinyals等人,2019年)大約需要數百萬美元(Agarwal等人,2022年)。預訓練可以通過預訓練的世界模型(Sekar et al., 2020)或預訓練的表示(Schwarzer et al., 2021b)來改善這一問題,通過支持快速適應以零次或少次的方式解決任務。此外,眾所周知,RL是特定于任務和領域的。已有研究表明,使用大量任務無關數據進行預訓練可以增強這些類型的泛化(Lee et al.,2022)。最后,我們相信用適當的架構進行預訓練可以釋放擴展定律的力量(Kaplan等人,2020年),正如最近在游戲中的成功所顯示的那樣(Schwarzer et al., 2021b; Lee et al., 2022)。通過增加計算量,擴大通用模型的規模,我們能夠進一步取得超人的結果,正如“痛苦的教訓”(Sutton, 2019)所教導的那樣。
近年來,深度RL的預訓練取得了一些突破。在著名的AlphaGo中,通過專家演示,使用監督學習來預測專家采取的行動,進行了樸素的預訓練(Silver et al., 2016)。為了在較少的監督下進行大規模的預訓練,無監督強化學習領域近年來發展迅速(Burda等人,2019a;Laskin等人,2021),使智能體能夠在沒有獎勵信號的情況下從與環境的交互中學習。根據離線RL的最新進展(Levine等人,2020年),研究人員進一步考慮如何利用未標記和次優離線數據進行預訓練(Stooke等人,2021年;Schwarzer等人,2021b),我們稱之為離線預訓練。與任務無關的數據的離線范式進一步為通用預訓練鋪平了道路,其中來自不同任務和模式的不同數據集以及具有良好擴展特性的通用模型被組合起來構建通用模型(Reed et al., 2022; Lee et al., 2022)。預訓練有可能在強化學習中發揮重要作用,這項綜述可以作為對該方向感興趣的人的起點。在這篇論文中,我們試圖提供一個系統的回顧,現有的工作在深度強化學習的預訓練。據我們所知,這是系統研究深度RL預訓練的先驅努力之一。
本文根據RL預訓練的發展趨勢,對本文進行了如下組織。在學習了強化學習和預訓練(第2節)的初步內容之后,我們從在線預訓練開始,在在線預訓練中,智能體通過與沒有獎勵信號的環境的交互進行學習(第3節)。然后,我們考慮離線預訓練,即使用任何策略收集一次無標記訓練數據的場景(第4節)。在第5節中,我們討論了針對各種正交任務開發通才智能體的最新進展。我們進一步討論了如何適應下游RL任務(第6節)。最后,我們總結了本次綜述和一些展望(第7節)。
2. 在線預訓練
在RL之前的大多數成功都是基于密集且設計良好的獎勵功能。盡管傳統的RL范式在為特定任務提供優異表現方面發揮著首要作用,但在將其擴展到大規模的預訓練時,它面臨著兩個關鍵的挑戰。首先,眾所周知,RL智能體很容易過擬合(Zhang et al., 2018)。因此,用復雜的任務獎勵訓練的預訓練智能體很難泛化到未見過的任務規范。此外,設計獎勵函數仍然是一個實際的挑戰,這通常是昂貴的和需要專業知識。
沒有這些獎勵信號的在線預訓練可能是學習通用技能的一個很好的解決方案,并消除了監督要求。在線預訓練的目的是在沒有人為監督的情況下,通過與環境的交互獲得先驗知識。在預訓練階段,允許代理與環境進行長時間的交互,而不獲得外部獎勵。當環境是可訪問的,使用它可以促進技能學習,當任務被分配給智能體時,這些技能將非常有用。這種解決方案,也被稱為無監督RL,近年來得到了積極的研究(Burda等人,2019a;Srinivas & Abbeel, 2021年)。
為了鼓勵智能體在沒有任何監督的情況下建立自己的知識,我們需要有原則的機制為智能體提供內在動力。心理學家發現,嬰兒可以通過與環境的互動發現需要學習的任務以及這些任務的解決方案(Smith & Gasser, 2005)。隨著經驗的積累,他們能夠在以后完成更困難的任務。這激發了大量研究,研究如何建立具有內在獎勵的自學智能體(Schmidhuber, 1991;Singh等人,2004;Oudeyer等人,2007)。內在獎勵,與指定任務的外在獎勵相比,是指鼓勵智能體收集多樣化經驗或開發有用技能的一般學習信號。研究表明,一旦給出下游任務,用內在獎勵和標準強化學習算法對智能體進行預訓練,可以導致快速適應(Laskin等人,2021)。
3. 離線預訓練
盡管在線預訓練在沒有人工監督的情況下具有很好的學習效果,但在大規模應用中仍有局限性。最終,很難將在線交互與在大型和多樣化的數據集上進行訓練的需求協調起來(Levine, 2021)。為了解決這個問題,人們希望將數據收集和預訓練解耦,并直接利用從其他智能體或人類收集的歷史數據。一個可行的解決方案是離線強化學習(Lange et al., 2012;Levine et al., 2020),最近受到了關注。離線RL的目的是單純從離線數據中獲得一個最大化的策略。離線RL的一個基本挑戰是分布轉移,它指的是訓練數據和測試中看到的數據之間的分布差異。現有的離線RL方法主要關注如何在使用函數逼近時解決這一挑戰。例如,策略約束方法(Kumar等人,2019年;Siegel等人,2020)明確要求學習策略避免在數據集中采取看不見的操作。值正則化方法(Kumar et al., 2020)通過將值函數擬合到某些形式的下界,緩解了值函數的過高估計問題。然而,離線訓練的策略是否可以泛化到離線數據集中看不到的新上下文仍有待深入研究(Kirk等人,2021年)。