將文本和視覺模態連接起來在生成智能中扮演著至關重要的角色。因此,受到大型語言模型成功的啟發,大量研究努力正被投入到多模態大型語言模型(MLLMs)的開發中。這些模型能夠無縫整合視覺和文本模態,無論是作為輸入還是輸出,同時提供基于對話的界面和遵循指令的能力。在這篇論文中,我們提供了近期基于視覺的MLLMs的全面回顧,分析它們的架構選擇、多模態對齊策略和訓練技巧。我們還對這些模型在廣泛的任務范圍內進行了詳細分析,包括視覺定位、圖像生成和編輯、視覺理解和領域特定應用。此外,我們編制并描述了訓練數據集和評估基準,就性能和計算需求在現有模型之間進行了比較。總的來說,這篇綜述提供了當前藝術狀態的全面概述,為未來MLLMs的發展奠定了基礎。
//www.zhuanzhi.ai/paper/3c58ed684809b9b936259fd61a4bb074
注意力操作符和Transformer架構(Vaswani et al., 2017)的引入,使得創建能夠處理各種模態的模型成為可能,并且這種處理能力在不斷擴大的規模上得到應用。這一進步很大程度上歸功于操作符的多功能性和架構的適應性。最初,這一突破被用于語言特定模型(Devlin et al., 2018; Brown et al., 2020),但很快擴展到支持視覺處理骨干(Dosovitskiy et al., 2021),最終用于集成多種模態的模型(Radford et al., 2021)。復雜大型語言模型(LLMs)的涌現,特別是它們進行上下文學習的能力,鼓勵研究人員將這些模型的應用范圍拓寬到多模態,包括作為輸入和輸出。這一擴展導致了如GPT-4V(Achiam et al., 2023)和Gemini(Anil et al., 2023)等尖端模型的開發,展示了最先進的性能。多模態大型語言模型(MLLMs)的開發涉及將視覺和語言的單模態架構合并,通過視覺到語言的適配器建立它們之間的有效連接,并設計創新的訓練方法。這些方法對于確保模態對齊和準確遵循指令的能力至關重要。在新模型快速發布的背景下,我們的目標是提供關于MLLM領域的全面概述,重點關注利用視覺模態的模型。這一概述既是對當前狀態的更新,也是對未來發展的靈感來源。我們確定了定義這些模型的三個核心方面:它們的架構、訓練方法以及它們被設計來執行的任務。我們首先詳細介紹了流行的視覺編碼器選擇和為LLMs裝備跨模態能力的適配器模塊。接著,我們深入訓練過程和使用的數據。然后,我們探索MLLMs處理的任務范圍。綜述以對該領域持續存在的挑戰和未來研究的有希望方向的討論結束。關于訓練數據、評估數據集以及性能和計算要求的進一步細節在補充材料中報告。
賦予大型語言模型多模態能力
** 前言**
大型語言模型。Brown等人(2020)發現上下文學習,即在提示前附加一些示例以演示大型語言模型(LLM)的期望輸出(Chowdhery等人,2023;Hoffmann等人,2022;Tay等人,2022),可以提高其性能,特別是在未見過的任務上。通過為每個訓練樣本提供所需任務的自然語言描述,可以進一步提高泛化能力。這種技術,稱為指令調優(Chung等人,2022;Wang等人,2022b,a;Jiang等人,2024),對于使LLM的行為與人類的行為對齊至關重要,目前賦能了最先進的LLM,最終通過來自人類反饋的強化學習(RLHF)(Ouyang等人,2022;Achiam等人,2023;Chen等人,2023j;Bai等人,2023a)得到提升。PEFT。當一個預訓練的LLM需要適應特定領域或應用時,參數高效微調(PEFT)方案代表了訓練整個LLM的一個重要替代方案,因為這些策略只引入少量新參數。其中,提示調優(Hambardzumyan等人,2021;Lester等人,2021;Li和Liang,2021;Liu等人,2023j)學習一小組向量作為軟提示在輸入文本之前輸入模型。不同的是,LoRA(Hu等人,2021)通過學習低秩矩陣限制了新權重的數量。這種技術與如QLoRA(Dettmers等人,2023)等量化方法正交,進一步減少了LLM的內存占用,與通常的半精度權重相比。走向多模態LLM。MLLM的發展與LLM的發展路徑類似,Flamingo(Alayrac等人,2022)是首個在視覺-語言領域探索大規模上下文學習的模型。然后,視覺指令調優(Liu等人,2023e)迅速成為多模態領域中最突出的訓練范式,以及使用PEFT技術微調LLM。任何MLLM至少包含三個組件(圖1):作為與用戶接口的LLM主干,一個(或多個)視覺編碼器,以及一個或多個視覺到語言的適配器模塊。對LLM主干的流行選擇通常屬于LLaMA家族(Touvron等人,2023a,b),鑒于它們的權重是自由可獲取的,它們僅在公開數據上進行了訓練,并且它們擁有不同的大小以適應各種用例。此外,它們的衍生版本也很受歡迎,例如Alpaca(Taori等人,2023)和Vicuna(Chiang等人,2023)。前者在GPT-3編寫的指令上微調LLaMA,而后者利用用戶與ChatGPT(OpenAI,2022)的共享對話。其他選擇包括OPT(Zhang等人,2022b),Magneto(Wang等人,2023b),MPT(MosaicML,2023),以及經過指令調優(Chung等人,2022)或多語言(Xue等人,2020)版本的T5(Raffel等人,2020),一種為多個任務預訓練的編解碼器語言模型。 本調查中涵蓋的MLLM的總結報告在表1中,指出每個模型基于哪個LLM,視覺編碼器,用于連接視覺和語言組件的適配器,MLLM是否經過視覺指令調優訓練,以及主要任務和能力的簡短列表。視覺編碼器在MLLM中,一個關鍵組件是視覺編碼器,它專門設計用于為LLM提供提取的視覺特征。通常采用凍結的預訓練視覺編碼器,同時只訓練一個可學習的接口,將視覺特征與底層LLM連接起來。最常用的視覺編碼器基于預訓練的Vision Transformer(ViT)模型,具有CLIP-based目標,以利用CLIP嵌入的固有對齊。流行的選擇包括CLIP(Radford等人,2021)的ViT-L模型,OpenCLIP(Wortsman等人,2022)的ViT-H主干,以及EVA-CLIP(Fang等人,2023)的ViT-g版本。CLIP和OpenCLIP編碼器在從網絡收集的圖像上訓練,采用對比方法對正確的圖像-文本對進行對齊。相反,EVA-CLIP是一系列模型,提供了訓練CLIP模型的實用有效解決方案。特別是,EVA模型預訓練為重建被遮擋的圖像-文本對齊視覺特征,條件是可見的圖像塊。 正如(Li等人,2023f)所示,更強大的圖像編碼器導致更好的性能。基于這一見解,Lin等人(2023b)和Gao等人(2024)提出了一個凍結視覺主干的集合,以捕獲魯棒的視覺表示和不同級別的信息粒度。同時,PaLI模型(Chen等人,2023i,g),注意到語言和視覺參數之間的不平衡,分別提出將視覺主干擴展到4億和220億參數的ViT。使用如此大且強大的模型是通過在訓練期間保持視覺編碼器凍結的常見做法變得可行的,如(Li等人,2023f;Huang等人,2023a;Gao等人,2023;Chen等人,2023f)中所觀察到的。然而,使用凍結的視覺編碼器有一些局限性,主要是由于參數數量有限,導致視覺和語言模態之間對齊不足。具體來說,從視覺模型提取的密集特征可能會碎片化細粒度圖像信息,并由于輸入語言模型的長序列而帶來大量計算。為了緩解這個問題,其他方法(Ye等人,2023c,d)采用兩階段訓練范式。在第一階段,他們結合了可訓練的視覺主干,同時保持預訓練的LLM凍結。根據他們的發現,使視覺編碼器可訓練可以提高諸如視覺問題回答或視覺描述等任務的性能。然而,它可能導致其他任務的性能下降,表明一定程度的遺忘和對通用視覺表示的損害。
視覺到語言的適配器
來自不同模態的輸入的同時存在強調了需要納入一個能夠勾畫出這些單模態領域內潛在對應關系的模塊的必要性。這些模塊,稱為“適配器”,旨在促進視覺和文本領域之間的互操作性。在常見的MLLM中使用了不同適配器的范圍,從基本架構(如線性層或MLP)到高級方法(如基于Transformer的解決方案),如Q-Former模型,以及添加到LLM的條件交叉注意力層。線性和MLP投影。將視覺輸入投影到文本嵌入中的最直接方法涉及學習線性映射,將視覺特征轉換為與文本對應部分相同的維度。一些方法,如LLaMA-Adapter(Gao等人,2023)和FROMAGe(Koh等人,2023b)只使用單個線性層來執行多模態連接,而LLaVA-1.5(Liu等人,2023d)采用了兩層MLP,顯示出改進的多模態能力。盡管在早期MLLM中廣泛采用線性投影,但即使在對視覺輸入有更深入理解的最新方法中,線性投影的使用也被證明非常有效(Chen等人,2023f;Lin等人,2023a;Wang等人,2023c;You等人,2023;Zhao等人,2023a)。因此,它是一種簡單而有效的技術,用于將視覺特征與文本對應部分對齊。不同的方法(Cha等人,2023)提議用卷積層替換線性層,顯示出適度的改進。 Q-Former。它是BLIP-2(Li等人,2023f)中提出的基于Transformer的模型,然后在幾種其他方法(Chen等人,2023d;Dai等人,2023;Hu等人,2024)中使用。它的特點是具有可適應的架構,由兩個共享相互注意力層的Transformer塊組成,促進視覺和文本表示之間的對齊過程。它涉及一組可學習的查詢,在自注意力層內部交互,并通過交叉注意力機制與視覺特征接口。文本和視覺元素通過模塊內的共享自注意進行通信。從Q-Former中汲取靈感,引入了各種修改版本。在這方面,mPLUG-Owl模型(Ye等人,2023c,d)簡化了Q-Former架構,并提出了一個視覺抽象器組件,通過將視覺信息壓縮為不同的可學習令牌來操作,以獲得更富語義的視覺表示。同一線上,Qwen-VL(Bai等人,2023b)使用具有可學習查詢的單層交叉注意力模塊壓縮視覺特征,還結合了2D位置編碼。附加交叉注意力層。這種方法在Flamingo(Alayrac等人,2022)中被提出,通過在現有預訓練LLM層中集成密集交叉注意力塊。新添加的層通常與零初始化的tanh門控機制結合使用,以確保在初始化時,條件模型的行為如其原始版本。使用附加交叉注意力層需要從頭開始訓練它們,與其他替代方案相比,增加了可訓練參數的數量。為了減少計算復雜性,這種策略通常與基于Perceiver的組件(Jaegle等人,2021)配對使用,該組件在將視覺令牌輸入LLM之前減少了它們的數量。自從引入以來,幾個模型(Awadalla等人,2023;Chen等人,2023b;Lauren?on等人,2023;Li等人,2023a)采用這種技術將視覺模態與底層LLM連接起來,顯示出提高了訓練穩定性和改善了性能。
多模態訓練
從預訓練的LLM開始,MLLM的訓練經歷了單階段或兩階段過程。在這兩種情況下,都使用標準的交叉熵損失來預測下一個令牌,作為自回歸目標。 單階段訓練。這種可能性由LLaMA-Adapter(Gao等人,2023)探索,它引入了額外的可訓練參數以封裝視覺知識并同時管理僅文本指令學習。為了實現這一點,模型使用圖像-文本對和指令進行聯合訓練,操作獨立的參數。同時,(Koh等人,2023b)中提出的模型通過整合兩個對比損失來適應最終損失函數,用于圖像-文本檢索。在訓練期間,只更新三個線性層。另一方面,Kosmos-1(Huang等人,2023a)考慮了一個凍結的視覺主干,并從頭開始訓練1.3B參數的語言模型。 Flamingo(Alayrac等人,2022)及其開源變體(Awadalla等人,2023;Lauren?on等人,2023),相反,訓練交叉注意力層和基于Perceiver的組件以將視覺特征與凍結的LLM塊連接起來。此外,Otter(Li等人,2023a)擴展了Flamingo的訓練以增加其上下文能力。 鑒于目前可用的訓練數據量,像SPHINX-X(Gao等人,2024)這樣的方法選擇執行單一的一體化訓練階段,在此階段更新所有模型組件,可能還使用僅文本數據以保留LLM的對話能力。
兩階段訓練。在兩個訓練階段中的第一個,目標是將圖像特征與文本嵌入空間對齊。經過這一階段后,輸出往往是碎片化的且不連貫的。因此,進行第二步以提高多模態對話能力。LLaVA(Liu等人,2023e,d)是首批引入視覺指令遵循訓練方案的方法之一,作為第二訓練階段執行,更新多模態適配器和LLM的參數。在第一階段,相反,只有多模態適配器是可訓練的。不同的是,MiniGPT4(Zhu等人,2023a)值得注意的是,在兩個階段中僅訓練負責多模態對齊的線性層。在第二階段,它使用經過模型自身在第一階段后收集和精煉的過濾數據。
另一種方法,如InstructBLIP(Dai等人,2023)所示,涉及凍結視覺編碼器和LLM。在兩個訓練階段中,只有Q-Former和連接模塊是可訓練的。與之前保持視覺主干凍結的方法相比,mPLUG-Owl(Ye等人,2023c,d)在初始階段更新它,便于捕獲低層次和高層次的視覺信息。此外,在第二階段聯合使用僅文本和多模態數據以增加對齊。不同地,Shikra(Chen等人,2023f)在兩個階段中更新所有權重,唯一的例外是視覺主干保持凍結。
訓練數據。在第一階段(或單一階段)訓練中,通常使用來自不同來源的圖像-文本對,使用的數據集包括LAION-2B(Schuhmann等人,2022)、LAION-400M(Schuhmann等人,2021)、Conceptual Captions(Sharma等人,2018)、COYO-700M(Byeon等人,2022)和DataComp(Gadre等人,2023)。一些方法(Lin等人,2023a)將這些與一個或多個數據集結合使用,這些數據集的特點是文本與圖像交錯,通常從網絡上抓取,如WebLI(Chen等人,2023i)、MMC4(Zhu等人,2023d)、MMDialog(Feng等人,2023b)和OBELICS(Lauren?on等人,2023)。
為了解決以前數據集中的偏差和噪聲問題,StableLLaVA(Li等人,2023h)引入了在第一階段使用的新收集數據。這種方法利用ChatGPT生成包含圖像生成提示和基于內容的對話的數據,并使用Stable Diffusion(Rombach等人,2022)生成相應的圖像。隨后的階段則利用數據集進行視覺指令調優。其中,常用的LLaVA-Instruct(Liu等人,2023e)擴展了COCO(Lin等人,2014)并加入了由GPT-4生成的指令。遵循這一趨勢,Zhao等人(2023a)通過結合手動生成的數據和高質量多樣性的數據,擴大了尺寸。此外,還提出了其他多輪對話數據集,如(Dai等人,2023)中介紹的將26個公開可用數據集轉換為其視覺指令遵循版本的數據集,LRV-Instruction(Liu等人,2023c)旨在通過更穩健的指令減少幻覺,而LLaVAR(Zhang等人,2023h)則專注于文本豐富的圖像。
用多模態大型語言模型處理視覺任務
標準的多模態大型語言模型可以處理視覺理解任務,例如視覺問答(VQA)、圖像描述和多輪對話。然而,最近對處理更細粒度的視覺任務,如視覺定位和圖像生成,有了更大的興趣。
結論與未來方向
在本綜述中,我們提供了最近多模態大型語言模型(MLLMs)進化的全面概述,首先關注如何為LLMs裝備多模態能力,然后探討這些模型處理的主要任務。基于所呈現的分析,以下我們概述了重要的開放挑戰和有前景的未來研究方向,以進一步增強MLLMs的能力。 修正幻覺現象。幾項研究(Liu等人,2023b;Zhu等人,2023a)表明MLLMs傾向于展現高幻覺率,特別是在生成較長的描述時。盡管一些解決方案正在出現以緩解這個問題(Liu等人,2023b;Wang等人,2023a;Wu等人,2023c;Yin等人,2023a),但理解和糾正幻覺的根本原因仍然是一個重要的開放挑戰,值得解決,以允許這些模型在更關鍵的背景中(例如,醫學)應用,并保證它們的準確性和可信度。 預防有害和有偏見的生成。確保大規模模型的安全性和公平性是社區的基本興趣。近期工作表明,基于網絡爬取數據訓練的模型傾向于生成不適當和有偏見的內容。盡管最近正在努力在文本到圖像生成模型中減少這種現象(Schramowski等人,2023;Friedrich等人,2023),但需要進一步探索以防止MLLMs中出現相同的行為(Pi等人,2024)。 減少計算負荷。如補充材料所示,MLLMs高度依賴于計算。需要有效的策略(Chu等人,2024)來減少計算需求,使MLLMs的開發更加易于獲取。可能的方向包括減少訓練要求,無論是在模型規模還是數據量方面,以及優化推理階段。
在迅速發展的視覺生成領域中,擴散模型革命性地改變了景觀,以其令人印象深刻的文本引導生成功能標志著能力的重大轉變。然而,僅依賴文本來條件化這些模型并不能完全滿足不同應用和場景的多樣化和復雜需求。認識到這一不足,多項研究旨在控制預訓練的文本到圖像(T2I)模型以支持新穎的條件。在這個綜述中,我們對可控生成與T2I擴散模型的文獻進行了全面調研,涵蓋了這一領域的理論基礎和實踐進展。我們的綜述從去噪擴散概率模型(DDPMs)和廣泛使用的T2I擴散模型的基礎知識簡介開始。然后,我們揭示了擴散模型的控制機制,從理論上分析了如何在去噪過程中引入新穎條件進行條件生成。此外,我們提供了這一領域研究的詳細概述,從條件視角將其組織成不同的類別:具有特定條件的生成、具有多重條件的生成和通用可控生成。對于所調研的可控生成文獻的詳盡列表,請參考我們在//github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models上的整理倉庫。
擴散模型,作為視覺生成領域的一個范式轉變,已經大幅超越了像生成對抗網絡(GANs)這樣的傳統框架【1】-【8】。作為參數化的馬爾科夫鏈,擴散模型展現出了將隨機噪聲轉化為復雜圖像的卓越能力,逐步從噪聲過渡到高保真的視覺表征。隨著技術的進步,擴散模型在圖像生成及相關下游任務中展示了巨大的潛力。 隨著這些模型生成的圖像質量的提升,一個關鍵挑戰變得越來越明顯:實現對這些生成模型的精確控制,以滿足復雜多樣的人類需求。這個任務超越了簡單提高圖像分辨率或現實感;它涉及到細致地使生成的輸出與用戶的特定和細膩的需求以及他們的創造性愿景相匹配。得益于大量多模態文本-圖像數據集【9】-【17】的出現和引導機制的發展【18】-【21】,文本到圖像(T2I)擴散模型已經成為可控視覺生成領域的一個基石【21】-【26】。這些模型能夠生成真實、高質量的圖像,準確反映自然語言中提供的描述。
雖然基于文本的條件在推動可控生成領域向前發展方面起到了重要作用,但它們本質上缺乏完全滿足所有用戶需求的能力。這一限制在一些場景中尤為明顯,比如通過文本提示單獨無法有效傳達的條件,如未見過的人物或獨特的藝術風格的描述。這些場景在T2I生成過程中提出了重大挑戰,因為這種視覺表征的細微之處和復雜性難以用文本形式封裝。認識到這一差距,大量的研究開始轉向整合超越文本描述界限的新穎條件到T2I擴散模型中。這一轉變進一步得到了強大且開源的T2I擴散模型的出現的促進,如圖1a所示。這些進步導致了對多樣條件的探索,從而豐富了條件生成的可能性范圍,并解決了用戶在各種應用中更為復雜和細膩的需求。 盡管有許多調查文章探討了由AI生成的內容(AIGC)領域,包括擴散模型理論和架構【28】、高效擴散模型【29】、多模態圖像合成與編輯【30】、視覺擴散模型【31】-【34】,以及文本到3D應用【35】,但它們通常只簡要介紹了控制文本到圖像擴散模型或主要關注于其他模態。這種缺乏對T2I模型中新穎條件整合和影響的深入分析凸顯了未來研究和探索的一個關鍵領域。本綜述提供了使用文本到圖像擴散模型的可控生成的全面回顧,涵蓋了理論基礎和實際應用。起初,我們提供了T2I擴散模型背景的簡要概述,并深入探討了這些方法的理論基礎,闡明了如何將新穎條件整合到T2I擴散模型中。這一探索闡明了先前研究的基本原理,有助于更深入地理解該領域。隨后,我們提供了對先前研究的全面概述,強調它們的獨特貢獻和區別特征。此外,我們探索了這些方法的多樣化應用,展示了它們在不同背景和相關任務中的實際效用和影響。
總結來說,我們的貢獻包括:
我們從條件角度引入了一個結構良好的可控生成方法的分類法,揭示了這一研究領域固有的挑戰和復雜性。
我們對引入新穎條件到T2I擴散模型中的兩個核心理論機制進行了深入分析:條件評分預測和條件引導評分估計,提供了對這些機制如何在細粒度級別上運作的細致理解。
我們的回顧是全面的,根據我們提出的分類覆蓋了廣泛的條件生成研究。我們細致地強調了每種方法的顯著特征和獨特特點。
我們展示了使用T2I擴散模型的條件生成在各種生成任務中的多樣化應用,證明了它作為AIGC時代一個基本和有影響力的方面的出現。
本文的其余部分如下組織。第2節提供了去噪擴散概率模型(DDPMs)的簡要介紹,展示了廣泛使用的文本到圖像擴散模型,并呈現了一個結構良好的分類法。在第3節,我們分析了控制機制并揭示了如何在文本到圖像擴散模型中引入新穎條件。第4節總結了根據我們提出的分類控制文本到圖像擴散模型的現有方法。最后,第7節展示了可控文本到圖像生成的應用。
分類法
利用文本到擴散模型進行條件生成的任務代表了一個多方面且復雜的領域。從條件視角來看,我們將這個任務劃分為三個子任務(參見圖2)。大多數工作研究如何在特定條件下生成圖像,例如圖像引導的生成和草圖到圖像的生成。為了揭示這些方法的機械理論和特點,我們根據它們的條件類型進一步對它們進行分類。這項任務的主要挑戰在于如何使預訓練的文本到圖像(T2I)擴散模型學會模擬新類型的條件,并與文本條件一起生成,同時確保產生的圖像質量高。此外,一些方法探索如何使用多個條件生成圖像,例如給定角色的身份和姿態。這些任務的主要挑戰在于多個條件的整合,需要能力同時在生成結果中表達幾個條件。此外,一些工作嘗試開發一種條件不可知的生成方法,可以利用這些條件產生結果。 可控文本到圖像生成與特定條件
在文本到圖像擴散模型的基礎上,引入新穎條件來指導生成過程代表了一個復雜和多方面的任務。在接下來的章節中,我們將根據條件視角回顧現有的條件生成方法,對它們的方法論提供全面的評述。
在多條件生成的任務中,目標是在多個條件下生成圖像,例如在用戶定義的姿態下生成特定人物,或生成具有三種個性化身份的人物。在本節中,我們從技術角度對這些方法進行全面概述,將它們分類為聯合訓練(第5.1節)、權重融合(第5.3節)、基于注意力的整合(第5.4節)、引導融合(第5.5節)和持續學習(第5.2節)。注意,一些其他的可控生成方法也展示了多條件合成的能力,而無需專門的設計【41】、【42】、【215】。
通用可控文本到圖像生成
除了針對特定類型條件的方法外,還存在旨在適應圖像生成中任意條件的通用方法。這些方法根據它們的理論基礎被廣泛分類為兩組:通用條件評分預測框架和通用條件引導評分估計。 應用 在本節中,我們關注那些在生成過程中利用新穎條件來解決特定任務的創新方法。通過強調這些開創性的方法,我們旨在突出條件生成不僅在改變內容創作的格局,還在各個領域擴大創造力和功能性的視野。后續的討論將提供這些模型的變革性影響及其在多樣化應用中的潛力的見解。 結論
在這篇全面的綜述中,我們深入探討了使用文本到圖像擴散模型的條件生成領域,揭示了在文本引導生成過程中融入的新穎條件。起初,我們為讀者提供了基礎知識,介紹了去噪擴散概率模型、著名的文本到圖像擴散模型以及一個結構良好的分類法。隨后,我們揭示了將新穎條件引入T2I擴散模型的機制。然后,我們總結了以前的條件生成方法,并從理論基礎、技術進步和解決策略的角度對它們進行了分析。此外,我們探索了可控生成的實際應用,強調了其在AI生成內容時代的重要作用和巨大潛力。這篇綜述旨在提供對當前可控T2I生成格局的全面理解,從而為這一動態研究領域的持續發展和擴展做出貢獻。
大型語言模型(LLMs)在推動文本基礎的智能體方面已經取得了超群的性能,賦予它們類似人類的決策和推理能力。與此同時,一個新興的研究趨勢集中于將這些LLM驅動的智能體擴展到多模態領域。這種擴展使得智能體能夠解釋和響應多樣化的多模態用戶查詢,因此處理更復雜和細膩的任務。在本文中,我們對LLM驅動的多模態智能體進行了系統性回顧,我們將其稱為大型多模態智能體(簡稱LMAs)。首先,我們介紹了開發LMAs所涉及的基本組件,并將現有研究分類為四種不同類型。隨后,我們回顧了集成多個LMAs的協作框架,增強了集體效能。該領域的一個關鍵挑戰是現有研究中使用的多樣化評估方法,妨礙了不同LMAs之間的有效比較。因此,我們匯編了這些評估方法并建立了一個全面框架來彌合差距。該框架旨在標準化評估,促進更有意義的比較。在我們的回顧中,我們強調了LMAs的廣泛應用并提出了可能的未來研究方向。我們的討論旨在為這個迅速發展的領域的未來研究提供有價值的見解和指南。最新的資源列表可在 //github.com/jun0wanan/awesome-large-multimodal-agents 上找到。
智能體是一個能夠感知其環境并基于這些感知做出決策以實現特定目標的系統[56]。雖然在狹窄的領域內熟練,早期的智能體[35, 50]往往缺乏適應性和泛化能力,這凸顯了與人類智能之間的顯著差異。近期在大型語言模型(LLMs)方面的進展開始彌合這一差距,其中LLMs增強了它們在命令解釋、知識同化[36, 78]以及模仿人類推理和學習[21, 66]方面的能力。這些智能體將LLMs作為其主要的決策制定工具,并進一步增強了關鍵的類人特征,如記憶。這種增強使它們能夠處理各種自然語言處理任務,并使用語言與環境互動[40, 38]。
然而,現實世界場景往往涉及超越文本的信息,包含多個模態,特別強調視覺方面。因此,LLM驅動的智能體的下一個進化步驟是獲得處理和生成多模態信息的能力,特別是視覺數據。這一能力對于這些智能體進化成更強大的AI實體至關重要,以反映人類級別的智能。裝備有這種能力的智能體在我們的論文中被稱為大型多模態智能體(LMAs)。通常,它們面臨的挑戰比僅語言的智能體更為復雜。以網絡搜索為例,LMA首先需要用戶需求的輸入,通過搜索欄查找相關信息。隨后,它通過鼠標點擊和滾動導航到網頁,瀏覽實時網頁內容。最后,LMA需要處理多模態數據(例如,文本、視頻和圖像)并執行多步驟推理,包括從網頁文章、視頻報道和社交媒體更新中提取關鍵信息,并整合這些信息以響應用戶的查詢。我們注意到,現有的LMA研究是孤立進行的,因此有必要通過總結和比較現有框架來進一步推進該領域。存在幾項與LLM驅動的智能體[60, 42, 49]相關的綜述,而其中很少有關注多模態方面。
在這篇論文中,我們旨在通過總結LMAs的主要發展來填補這一空白。首先,我們介紹了核心組件(§2)并提出了現有研究的新分類法(§3),隨后進一步討論了現有的協作框架(§4)。關于評估,我們概述了評估LMAs性能的現有方法,隨后提供了一個全面的總結(§5)。然后,應用部分提供了多模態智能體及其相關任務的廣泛實際應用的詳盡概覽(§6)。我們通過討論并建議LMAs可能的未來方向來結束這項工作,以提供有用的研究指導。
LMAs的核心組件
在本節中,我們詳細介紹了LMAs的四個核心元素,包括感知、規劃、行動和記憶。 感知。感知是一個復雜的認知過程,使人類能夠收集和解釋環境信息。在LMAs中,感知組件主要專注于處理來自多樣化環境的多模態信息。如表1所示,不同任務中的LMAs涉及各種模態。它們需要從這些不同模態中提取對任務完成最有益的關鍵信息,從而促進任務的更有效規劃和執行。
早期關于處理多模態信息的研究[57, 43, 70, 9]經常依賴于簡單的相關模型或工具,將圖像或音頻轉換成文本描述。然而,這種轉換方法往往會產生大量不相關和冗余的信息,尤其是對于復雜的模態(例如,視頻)。隨著輸入長度的限制,LLMs在有效提取規劃所需的相關信息方面經常面臨挑戰。為了解決這個問題,最近的研究[71, 47]引入了子任務工具的概念,這些工具旨在處理復雜的數據類型。在類似真實世界的環境中(即,開放世界游戲),[51]提出了一種處理非文本模態信息的新方法。這種方法首先從環境中提取關鍵的視覺詞匯,然后使用GPT模型進一步將這些詞匯細化為一系列描述性句子。當LLMs在環境中感知視覺模態時,它們使用這些模態來檢索最相關的描述性句子,有效地增強了它們對周圍環境的理解。
規劃。規劃者在LMAs中扮演著類似于人腦功能的核心角色。它們負責對當前任務進行深入推理并制定相應的計劃。與僅語言的智能體相比,LMAs在更復雜的環境中運行,使得制定合理計劃更具挑戰性。我們從四個角度詳細介紹規劃者(模型、格式、檢查與反思以及規劃方法):
模型:如表1所示,現有研究采用不同的模型作為規劃者。其中,最受歡迎的是GPT-3.5或GPT-4[43, 41, 9, 30, 57, 51]。然而,這些模型并非公開可用,因此一些研究已開始轉向使用開源模型,如LLaMA[67]和LLaVA[23],后者可以直接處理多種模態的信息,增強了制定更優化計劃的能力。
格式:它表示規劃者制定計劃的方式。如表1所示,有兩種格式化方式。第一種是自然語言。例如,在[41]中,獲得的規劃內容是“我做的第一件事是使用OpenCV的openpose控制模型來分析圖像中男孩的姿勢...”,其中制定的計劃是使用“OpenCV的openpose控制模型”。第二種是以程序形式,如“image_patch = ImagePatch(image)”所述[43],它調用ImagePatch函數來執行規劃。還有混合形式,如[9]。
檢查與反思:對于LMAs而言,在復雜的多模態環境中持續制定有意義且能完成任務的計劃是具有挑戰性的。這個組件旨在增強魯棒性和適應性。一些研究方法[51, 52]將成功的經驗存儲在長期記憶中,包括多模態狀態,以指導規劃。在規劃過程中,它們首先檢索相關經驗,幫助規劃者進行深思熟慮,以減少不確定性。此外,[12]利用人在執行相同任務時在不同狀態下制定的計劃。當遇到類似狀態時,規劃者可以參考這些“標準答案”進行思考,從而制定更合理的計劃。此外,[71]采用更復雜的規劃方法,如蒙特卡羅,以擴大規劃搜索范圍,找到最佳規劃策略。
規劃方法:現有的規劃策略可以分為兩種類型:動態規劃和靜態規劃,如表1所示。前者[57, 43, 70, 30, 41]指的是基于初始輸入將目標分解為一系列子計劃,類似于思維鏈(CoT)[80],其中即使在過程中出現錯誤,計劃也不會重新制定;后者[9, 25, 51, 71]意味著每個計劃都是基于當前環境信息或反饋制定的。如果在計劃中檢測到錯誤,它將回到原始狀態進行重新規劃[12]。
行動。多模態智能體系統中的行動組件負責執行規劃者制定的計劃和決策。它將這些計劃轉化為具體的行動,例如使用工具、身體運動或與界面的互動,從而確保智能體能夠準確高效地實現其目標并與環境互動。我們的討論集中在兩個方面:類型和方法。
記憶。早期研究表明,記憶機制在通用智能體的運作中發揮著至關重要的作用。與人類相似,智能體中的記憶可以分為長期記憶和短期記憶。在簡單的環境中,短期記憶足以讓智能體處理手頭任務。然而,在更復雜和現實的設置中,長期記憶變得至關重要。在表1中,我們可以看到,只有少數LMAs包含長期記憶。與僅語言的智能體不同,這些多模態智能體需要能夠存儲跨各種模態信息的長期記憶。在一些研究[71, 47, 69, 7]中,所有模態都轉換為文本格式進行存儲。然而,在[51]中,提出了一個多模態長期記憶系統,專門設計用于存檔之前的成功經驗。具體來說,這些記憶以鍵值對的形式存儲,其中鍵是多模態狀態,值是成功的計劃。
LMAs的分類
在本節中,我們通過將現有研究分類為四種類型來呈現LMAs的分類。 類型I:封閉源LLMs作為規劃者且不帶長期記憶。早期研究[11, 43, 57, 41, 9, 25]使用提示來利用封閉源的大型語言模型(例如,GPT-3.5)作為推理和規劃的規劃者,如圖2(a)所示。根據特定環境或任務要求,這些計劃的執行可能通過下游工具包或通過使用物理設備(如鼠標或機械臂)與環境直接互動來進行。這種類型的LMAs通常在更簡單的設置中操作,承擔傳統任務,如圖像編輯、視覺定位和視覺問答(VQA)。
類型II:微調LLMs作為規劃者且不帶長期記憶。這種類型的LMAs涉及收集多模態指令跟隨數據或使用自我指導來微調開源大型語言模型(如LLaMA)[67]或多模態模型(如LLaVA)[23, 46],如圖2(b)所示。這種增強不僅允許模型作為推理和規劃的中心“大腦”,還能執行這些計劃。類型II LMAs面臨的環境和任務與類型I相似,通常涉及傳統的視覺或多模態任務。與以相對簡單的動態、封閉環境和基本任務為特征的典型場景相比,像Minecraft這樣的開放世界游戲中的LMAs需要在動態上下文中執行精確規劃,處理高復雜性任務,并進行終身學習以適應新挑戰。因此,在類型I和類型II的基礎上,類型III和類型IV LMAs整合了記憶組件,在發展成為人工智能領域的通用智能體方面顯示出巨大的潛力。
類型III:帶有間接長期記憶的規劃者。對于類型III LMAs[71, 47],如圖2(c)所示,LLMs作為中心規劃者并配備了長期記憶。這些規劃者通過調用相關工具訪問和檢索長期記憶,利用這些記憶進行增強的推理和規劃。例如,在[71]中開發的多模態智能體框架專為動態任務(如視頻處理)量身定制。該框架由規劃者、工具包和一個任務相關的記憶庫組成,該記憶庫記錄了空間和時間屬性。規劃者使用專門的子任務工具查詢記憶庫以獲取與視頻內容相關的時空屬性,使其能夠對任務相關的時空數據進行推斷。每個工具都存儲在工具包內,專為特定類型的時空推理設計,并在框架內充當執行器。
類型IV:帶有原生長期記憶的規劃者。與類型III不同,類型IV LMAs[51, 37, 7, 76]的特點是LLMs直接與長期記憶交互,繞過了使用工具訪問長期記憶的需要,如圖2(d)所示。例如,在[51]中提出的多模態智能體在Minecraft的開放世界背景下完成了200多個不同任務的熟練度。在他們的多模態智能體設計中,交互式規劃者將多模態基礎模型與LLM合并,首先將環境的多模態輸入轉換為文本。規劃者進一步采用自我檢查機制來預測和評估執行中的每一步,主動發現潛在缺陷,并結合環境反饋和自我解釋,迅速糾正和優化計劃,無需額外信息。此外,這個多模態智能體框架包括一個新穎的多模態記憶。成功的任務計劃及其初始多模態狀態被存儲,規劃者從這個數據庫中檢索新任務的相似狀態,使用積累的經驗實現更快、更高效的任務完成。
多智能體協作
我們在這一節進一步介紹了超出單獨智能體討論范圍的LMAs的協作框架。 如圖3(a)(b)所示,這些框架采用多個LMAs協同工作。兩個框架之間的關鍵區別在于是否具有記憶組件,但它們的基本原則是一致的:多個LMAs擁有不同的角色和責任,使它們能夠協調行動,共同實現一個共同目標。這種結構減輕了單一智能體的負擔,從而提高了任務性能[12, 37, 17, 29]。
例如,在表1中,在[37]的多模態智能體框架中,引入了一個感知者智能體來感知由大型多模態模型組成的多模態環境。一個被指定為巡邏者的智能體負責與感知者智能體進行多次互動,對感知到的環境數據進行實時檢查和反饋,以確保當前計劃和行動的準確性。當檢測到執行失敗或需要重新評估時,巡邏者向規劃者提供相關信息,促使在子目標下的行動序列進行重新組織或更新。MemoDroid框架[17]包含了幾個關鍵的智能體,它們協同工作以自動化移動任務。探索智能體負責目標應用界面的離線分析,基于UI元素生成潛在子任務列表,然后將其存儲在應用記憶中。在在線執行階段,選擇智能體根據用戶命令和當前屏幕狀態從探索集合中確定要執行的特定子任務。推斷智能體進一步通過提示LLM識別并完成所選子任務所需的底層動作序列。同時,當遇到與以前學習的任務相似的任務時,回憶智能體可以直接從記憶中調用并執行相應的子任務和動作序列
結論
在這篇綜述中,我們提供了由大型語言模型(LLMs)驅動的多模態智能體(LMAs)的最新研究的全面概述。我們首先介紹LMAs的核心組件(即感知、規劃、行動和記憶),并將現有研究分類為四個類別。隨后,我們編譯了評估LMAs的現有方法,并設計了一個全面的評估框架。最后,我們聚焦于LMAs領域內一系列當前和重要的應用場景。盡管取得了顯著進展,這一領域仍面臨許多未解決的挑戰,并且有相當大的改進空間。基于回顧的進展,我們最終強調了幾個有前景的方向:
關于框架:LMAs的未來框架可能會從兩個不同的視角發展。從單個智能體的角度來看,發展可能會向創建更統一的系統進步。這涉及規劃者直接與多模態環境互動[71],利用一套全面的工具[30],并直接操作記憶[51];從多個智能體的角度來看,推進多個多模態智能體之間的有效協調以執行集體任務成為一個關鍵的研究方向。這包括協作機制、通信協議和戰略任務分配等基本方面。
關于評估:這個領域迫切需要系統和標準的評估框架。理想的評估框架應包括一系列評估任務[58, 16],從簡單到復雜不等,每個任務都具有顯著的相關性和對人類的實用性。它應該包含清晰和明智的評估指標,精心設計以全面且非重復的方式評估LMA的多樣化能力。此外,用于評估的數據集應該被精心策劃,以更接近地反映現實世界場景。
關于應用:LMAs在現實世界中的潛在應用是巨大的,為以前對傳統模型來說具有挑戰性的問題提供解決方案,例如網頁瀏覽。此外,LMAs與人機交互領域的交集[54, 44]代表了未來應用的一個重要方向。它們處理和理解來自不同模態的信息的能力使它們能夠執行更復雜和細膩的任務,從而增強它們在現實世界場景中的實用性,并改善人與機器之間的互動。
大型語言模型(LLMs)在廣泛的任務中取得了顯著的成功。由于LLMs令人印象深刻的規劃和推理能力,它們被用作自動執行許多任務的自主智能體。最近,基于將一個LLM作為單一規劃或決策智能體的發展,基于LLM的多智能體系統在復雜問題解決和世界模擬方面取得了相當的進展。為了向社區提供這一動態領域的概覽,我們呈現這篇綜述,以提供關于基于LLM的多智能體系統的基本方面及挑戰的深入討論。我們的目標是讓讀者對以下問題獲得實質性的見解:基于LLM的多智能體模擬哪些領域和環境?這些智能體如何被描述,它們如何通信?什么機制有助于智能體能力的增長?對于那些有興趣深入研究這一領域的人,我們還總結了常用的數據集或基準,以便他們方便地訪問。為了讓研究人員了解最新的研究,我們維護一個開源的GitHub倉庫,致力于概述基于LLM的多智能體系統的研究。
1 引言
最近,大型語言模型(LLMs)展現出了達到與人類相當的推理和規劃能力的顯著潛力。這種能力完全符合人類對能夠感知周圍環境、做出決策并作出響應的自主智能體的期待[Xi等,2023;Wooldridge和Jennings,1995;Russell和Norvig,2009;Guo等,2023;Liang等,2023]。因此,基于LLM的智能體已被研究和快速發展,以理解和生成類似人類的指令,促進在廣泛的上下文中進行復雜的互動和決策[Yao等,2023;Shinn等,2023;Li等,2023d]。及時的綜述文章系統地總結了基于LLM的智能體的進展,如在文獻[Xi等,2023;Wang等,2023b]中所見。
基于單個LLM智能體的啟發性能力,已提出基于LLM的多智能體,以利用多個智能體的集體智能和專業化輪廓及技能。與使用單一LLM驅動的智能體的系統相比,多智能體系統通過1) 將LLMs專業化為具有不同能力的各種不同智能體,以及2) 使這些多樣化的智能體之間進行互動,有效地模擬復雜的現實世界環境,提供了先進的能力。在這一背景下,多個自主智能體協作參與規劃、討論和決策,反映了人類團隊工作在解決問題任務中的合作本質。這種方法利用了LLMs的溝通能力,借助它們生成文本進行交流和對文本輸入的響應能力。此外,它利用了LLMs在各個領域的廣泛知識和專門化特定任務的潛力。最近的研究已經展示了使用基于LLM的多智能體解決各種任務的有希望的結果,如軟件開發[Hong等,2023; Qian等,2023]、多機器人系統[Mandi等,2023; Zhang等,2023c]、社會模擬[Park等,2023; Park等,2022]、政策模擬[Xiao等,2023; Hua等,2023]以及游戲模擬[Xu等,2023c; Wang等,2023c]。由于這個領域的跨學科研究性質,它吸引了來自社會科學、心理學和政策研究等不同背景的研究者,研究論文的數量正在迅速增加,如圖1所示(受[Gao等,2023b]設計的啟發),從而擴大了基于LLM的多智能體研究的影響。盡管如此,早期的工作是獨立進行的,導致缺乏系統回顧以總結它們,建立這個領域的全面藍圖,并檢查未來的研究挑戰。這強調了我們工作的重要性,并作為呈現這篇綜述論文的動機,致力于基于LLM的多智能體系統的研究。
我們期望我們的綜述能對LLMs的研究和開發以及利用LLMs進行的更廣泛的跨學科研究做出重大貢獻。讀者將獲得關于基于LLM的多智能體(LLM-MA)系統的全面概覽,把握基于LLMs建立多智能體系統所涉及的基本概念,并捕捉到這一動態領域中最新的研究趨勢和應用。我們認識到這個領域正處于初級階段,并且隨著新方法和應用的迅速發展。為了提供一種持續的資源來補充我們的綜述論文,我們維護了一個開源的GitHub倉庫。我們希望我們的綜述能激發進一步的探索和創新,以及在廣泛的研究領域中的應用。
為了幫助來自不同背景的個人理解LLM-MA技術,并補充現有的綜述通過解決未解決的問題,我們以以下方式組織了我們的綜述論文。在第2節中闡述背景知識后,我們提出了一個關鍵問題:LLM-MA系統如何與協作任務解決環境對齊?為了回答這個問題,我們在第3節提出了一個全面的框架,用于定位、區分和連接LLM-MA系統的各個方面。我們通過討論: 1)智能體-環境界面,詳細說明智能體如何與任務環境互動; 2)智能體輪廓,解釋一個智能體如何被LLM描述以以特定方式行為; 3)智能體通信,考察智能體如何交換信息和協作;以及 4)智能體能力獲取,探索智能體如何發展其解決問題的能力。
關于LLM-MA研究的另一個視角是它們的應用。在第4節,我們將當前應用分為兩個主要流:用于問題解決的多智能體和用于世界模擬的多智能體。為了指導個人識別合適的工具和資源,我們在第5節提出了用于研究LLM-MA的開源實現框架,以及可用的數據集和基準。基于前面的總結,我們在第6節開放了對未來研究挑戰和機會的討論。結論在第7節中總結。
解析LLM-MA系統:界面、輪廓、通信和能力
在本節中,我們深入探討LLM-MA系統的復雜性,其中多個自主智能體參與類似于人類群體動力學的協作活動,應對問題解決場景。我們要解決的一個關鍵問題是,這些LLM-MA系統如何與它們的操作環境以及它們旨在實現的集體目標對齊。為了闡明這一點,我們在圖2中展示了這些系統的通用架構。我們的分析解剖了這些系統的操作框架,重點關注四個關鍵方面:智能體-環境界面、智能體輪廓、智能體通信和智能體能力獲取。
應用
LLM-MA系統已在廣泛的應用中被使用。我們在表1中總結了兩類應用:問題解決和世界模擬。我們將在下面詳細闡述這些應用。請注意,這是一個快速發展的研究領域,幾乎每天都有新應用出現。我們維護一個開源倉庫來報告最新的工作。
使用LLM-MA進行問題解決的主要動機是利用具有專門專業知識的智能體的集體能力。這些智能體,每個都作為個體行動,協作以有效地解決復雜問題,例如軟件開發、具體化智能體、科學實驗和科學辯論。 LLM-MA的另一個主流應用場景是世界模擬。這一領域的研究正在迅速增長,涵蓋了包括社會科學、游戲、心理學、經濟學、政策制定等在內的多種領域。在世界模擬中使用LLM-MA的關鍵原因在于它們出色的角色扮演能力,這對于現實地描繪模擬世界中的各種角色和觀點至關重要。世界模擬項目的環境通常被設計來反映被模擬的特定場景,智能體以各種輪廓設計以匹配這一背景。與專注于智能體合作的問題解決系統不同,世界模擬系統涉及多種智能體管理和通信方法,反映了現實世界交互的復雜性和多樣性。
結論
基于LLM的多智能體展現了激勵人心的集體智能,并迅速在研究者中獲得了越來越多的興趣。在這篇綜述中,我們首先系統回顧了LLM-MA系統的發展,通過從不同方面定位、區分和連接它們,涉及智能體-環境界面、LLMs對智能體的描述、管理智能體通信的策略以及能力獲取的范式。我們還總結了LLM-MA在問題解決和世界模擬中的應用。通過突出常用的數據集和基準,并討論挑戰和未來機會,我們希望這篇綜述能成為各個研究領域的研究者們的有用資源,激發未來的研究去探索基于LLM的多智能體的潛力。
大型模型,包括大型語言模型和擴散模型,已在接近人類智能方面展現出卓越的潛力,引起了學術界和工業界的極大興趣。然而,這些大型模型的訓練需要大量的高質量數據,而且隨著這些模型的持續更新,現有的高質量數據資源可能很快就會耗盡。這一挑戰促使人們大量研究數據增強方法。利用大型模型,這些數據增強技術已超越傳統方法。本文提供了一篇關于大型模型驅動的數據增強方法的全面綜述。我們首先建立了相關研究的分類,分為三個主要類別:**圖像增強、文本增強和配對數據增強。**接著,我們深入探討了與基于大型模型的數據增強相關的各種數據后處理技術。我們的討論隨后擴展到這些數據增強方法在自然語言處理、計算機視覺和音頻信號處理等領域的應用范圍。我們繼續評估基于大型模型的數據增強在不同場景中的成功與局限性。在我們的綜述中,我們突出了數據增強領域未來探索的潛在挑戰和途徑。我們的目標是為研究人員提供關鍵洞察,最終有助于更復雜大型模型的發展。我們持續維護相關的開源材料在: //github.com/MLGroup-JLU/LLM-data-aug-survey。
數據增強,作為機器學習中的關鍵策略,解決了用有限的標記數據訓練不同任務模型的挑戰。它涉及增強訓練樣本的充足性和多樣性,而無需顯式收集新數據,因此在提高模型泛化方面起著至關重要的作用(Feng et al., 2021; Shorten and Khoshgoftaar, 2019)。數據增強的本質在于通過各種變換改變現有數據點來生成新數據。這防止了模型記憶無關的數據模式,增強的數據緊密反映了真實數據的分布(Cubuk et al., 2019; Wei and Zou, 2019)。這些技術直接適用于監督學習(Liu et al., 2021c)并且可以通過一致性規則化(Zhang et al., 2021a)在半監督學習中用于未標記數據。最初為計算機視覺(CV)開發的數據增強方法通過裁剪、旋轉和色彩調整等操作創建人工圖像(Kanwal et al., 2022; Krell and Kim, 2017; Takahashi et al., 2019)。在自然語言處理(NLP)中,類似的方法包括隨機字符插入、單詞刪除和同義詞替換(Liu et al., 2020; Shorten and Khoshgoftaar, 2019)。
數據增強的重要性在學術和工業領域引起了廣泛關注。作為一個活躍的研究領域,它解決了機器學習中對大量高質量標記數據的日益增長的需求,這一需求在現實世界中往往無法滿足。盡管在過去幾十年中,特別是在深度學習技術方面,數據增強取得了顯著進展,但這些方法仍然難以捕捉現實世界數據的復雜性(Feng et al., 2021),生成可擴展數據(Yang et al., 2022),并抵御對抗性示例(Qiu et al., 2020)。
為了應對這些限制,當前研究正在探索創新技術來增強數據增強方法的效果和多樣性。其中,大型模型,包括大型語言模型(Zhao et al., 2023)和擴散模型(Yang et al., 2023),顯示出相當大的潛力。大型語言模型(LLMs),如GPT-4(OpenAI, 2023a)和Llama2(Touvron et al., 2023b),已經革新了NLP。這些模型以Transformer架構(Vaswani et al., 2017)為特點,并在廣泛的語料庫上進行訓練,擅長理解和生成類似人類的文本,標志著機器學習能力的重大進步(Zhao et al., 2023)。這些擁有數十億參數的模型可以承擔包括代碼生成(Zhang et al., 2023b)和數據增強(Dai et al., 2023)在內的多樣化和復雜任務,為人工通用智能(AGI)的實現鋪平了道路。
擴散模型(Ho et al., 2020; Song et al., 2020),一種新的最先進的生成模型家族,在計算機視覺中的圖像合成方面超越了長期占據主導地位的生成對抗網絡(GANs)(Goodfellow et al., 2014)(Dhariwal and Nichol, 2021; Ho et al., 2020)。與變分自編碼器(VAEs)(Kingma and Welling, 2013)和GANs等先前模型不同,擴散模型通過迭代添加和逆轉噪聲來生成高質量的合成圖像,并已實現文本到圖像的生成(Saharia et al., 2022),擴展了數據增強的范圍。
方法論
大型模型的出現徹底改變了數據增強的方式,提供了與傳統方法相比更具多樣性的創新和有效手段來生成訓練數據。本節將現有的方法基于目標數據類型分為三個不同的類別:圖像增強、文本增強和配對數據增強。圖像增強涉及擴展圖像數據,文本增強涉及擴展文本數據,而配對數據增強則涉及兩者。這些方法反映了數據增強的最新趨勢,突出了大型模型的重要作用。
圖像增強圖像增強通過額外信息的指導來合成逼真的圖像。我們將這些技術分為基于提示的和基于主題的方法:在基于提示的類別中包括文本、視覺和多模態方法;在基于主題的類別中包括針對特定主題的策略。文本提示驅動的方法從文本描述中生成圖像,視覺提示驅動的方法使用視覺線索,而多模態提示驅動的方法結合了文本描述和視覺指導。基于主題的方法為特定主題量身定制增強。這些方法提升了深度學習任務的性能,有助于更加健壯的訓練體驗。現有方法在表3中總結。
文本增強
文本增強著重于利用大型模型的先進能力來增強文本數據集,包括兩種策略:基于標簽的和基于生成內容的。在基于標簽的方法中,模型被用于注釋文本數據,有效地豐富了文本數據集,增加了更多的標記實例。基于生成內容的策略指導模型合成新的文本數據,從而擴展了數據集,增加了新生成的文本材料。現有方法在表4中展示。
配對數據增強
MixGen(Hao et al., 2023)是一種用于視覺-語言表示學習的數據增強方法,通過圖像插值和文本連接生成具有保留語義關系的圖像-文本對。Bakhtiarnia等人(2023)提出了一種名為PromptMix的方法,該方法從現有數據集中提取文本描述,使用提取的文本作為輸入到潛在擴散模型以生成類似于現有數據集中的圖像,使用高性能的重量級網絡對生成的圖像進行注釋,并將這個假數據集與真實數據混合,以改善輕量級深度神經網絡的訓練。為了解決視覺語言數據集中的報告偏差問題,特別是對象屬性關聯對訓練模型的潛在有害影響,Wu等人(2023b)提出了一種稱為BigAug的雙模態增強方法。這種方法利用對象屬性解耦來合成不同的視覺語言示例,并創建跨模態的硬否定。LLM和基礎對象檢測器的整合有助于提取目標對象,其中LLM為每個對象提供詳細的屬性描述。這些描述以及相應的硬否定接著被用來通過修補模型生成圖像。這個明確的過程引入了缺失的對象和屬性以供學習,其中硬否定指導模型區分對象屬性。
總結
在本節中,我們提供了對我們在第3、4和5節中審查的主要發現的綜合概述。 基于大型模型的數據增強仍然是一個充滿機會和挑戰的領域。本調查旨在全面審查基于大型模型的數據增強方法,伴隨的數據后處理技術以及在下游任務中的應用。 它還仔細分類了現有的基于大型模型的數據增強方法。通過總結和分析當前的研究工作,我們確定了當前方法的成功和失敗,并辨別了基于大型模型的數據增強的新趨勢。此外,我們總結了用于評估基于大型模型的數據增強的現有方法。最重要的是,這些總結可以幫助提出未來研究的新挑戰和機會。
語言模型,特別是預訓練的大型語言模型,在作為少示例上下文學習者(ICL)方面展示了顯著的能力,擅長僅通過輸入上下文中的幾個示例適應新任務。然而,模型執行ICL的能力對少示例演示的選擇非常敏感。與其使用固定的示例集,一種新的發展趨勢是檢索針對每個輸入查詢定制的示例。演示檢索的實現相對直接,利用現有的數據庫和檢索系統。這不僅提高了學習過程的效率和可擴展性,而且已顯示出減少手動示例選擇中固有偏見的潛力。鑒于這些鼓舞人心的結果和使用檢索示例的ICL領域的研究日益增長,我們進行了這一領域研究的廣泛綜述。在這篇綜述中,我們討論并比較了不同的檢索模型設計選擇、檢索訓練程序和推理算法。
少示例上下文學習(ICL)是大型語言模型(LLMs)在給定新任務的幾個輸入-輸出示例或演示以及實際任務輸入時,執行新任務的能力。重要的是,模型參數不需要針對新任務進行微調。ICL的流行源于對預訓練大型語言模型的研究,這些模型可以在沒有被訓練執行ICL的情況下執行ICL(Brown et al., 2020),盡管較小的語言模型也可以被明確訓練以執行ICL(Min et al., 2022a)。ICL相較于傳統方法(即先進行初始預訓練,然后進行下游任務的微調)在適應語言模型到下游任務方面有幾個優勢。ICL的一個顯著優點是避免了微調,這在由于無法訪問模型參數或計算資源限制的情況下可能無法實現(Brown et al., 2020)。此外,ICL避免了微調常見的問題,例如過擬合(Ying, 2019; Kazemi et al., 2023a)。與參數高效微調方法(PEFT)相比(Hu et al., 2021; Dettmers et al., 2023; Lester et al., 2021),ICL在計算上更經濟,且保持模型參數不變,從而保持了LLMs的通用性。早期ICL實現使用針對每個目標任務的固定示例集。這些示例可以由人工精心制作(Hendrycks et al., 2021; Wei et al., 2022; Kazemi et al., 2023b),從訓練數據中隨機選擇(Brown et al., 2020; Lewkowycz et al., 2022),或基于復雜度或信息內容等指標選擇(Fu et al., 2022; Hongjin et al., 2022; Li and Qiu, 2023a; Wang et al., 2023b)。此類示例的有效性受到示例質量、數量和排序等因素的影響。重要的是,這些示例保持與上下文無關(即不管查詢如何,都使用相同的示例),這可能阻礙釋放LLMs的真正潛力。
基于檢索的ICL(RetICL)在優化語言模型性能方面呈現了一種范式轉變,從靜態、預定義的示例集轉向動態、與上下文敏感的方法。這一創新的核心是自適應示例選擇的概念,其中專門的檢索器為每個具體任務輸入智能地策劃定制示例。這種方法不僅一致地優于依賴隨機或靜態手工制作示例的方法,而且還顯示出對多種影響因素的顯著抵抗力。RetICL的有效性取決于所選示例的“相關性”和“有用性”,這一過程受到多個因素的復雜影響。這些包括檢索器的性質(從通用的現成模型到精細調整的特定領域變體)、檢索語料庫的來源和多樣性、檢索器的目標(專注于相似性或多樣性)以及集成多個示例的策略。在過去兩年中,眾多有時并行的研究已經研究了RetICL,每個研究使用不同的術語,并在問題定義和隨后的方法論上有所不同,使得理解RetICL的當前研究和實踐狀態,特別是對于該領域的新手來說,變得困難。在這篇全面的綜述中,我們詳細分析了RetICL領域的22篇開創性論文(如表1所示),并對其主要構建模塊進行了分類(見圖1)。我們的工作不僅提供了現有研究的全面綜合,而且強調了RetICL在超越以往ICL方法方面的重要領域,并為該領域未來的創新照亮了許多前進的道路,因此成為ICL的關鍵資源。
少樣本上下文學習的語言模型神經語言模型(LM)的增強能力催生了一種新的自然語言處理(NLP)問題學習范式。從歷史上看,NLP問題的主導學習范式是從頭開始對特定任務的數據進行模型訓練。因此,對于每一個新任務,模型都必須從頭開始學習。這通常導致泛化能力較差,尤其是在測試時遇到之前未觀察到的詞匯的情況下。在隨后的范式中,首先在大量文本語料庫上預訓練一個LM,使其了解語言如何運作并獲得關于世界的大量知識(Petroni et al., 2019; Lin et al., 2020; Sung et al., 2021; Yuan et al., 2023);然后再在新任務的數據上進一步對預訓練的LM(PLM)進行微調(Sarzynska-Wawer et al., 2021; Devlin et al., 2018),從而教會通用的PLM新任務的特定內容。這一范式通常導致學習速度更快和預測性能更高。后來的研究表明,對PLM進行多任務微調可以更好地實現任務間知識轉移,并可能導致在新任務上的性能提升(Raffel et al., 2020)。隨著預訓練大型語言模型(LLMs)的規模和用于預訓練這些模型的數據集規模的增大,人們發現預訓練的LLMs(為簡潔起見,以下簡稱為LLMs)具有通過少量示例在上下文中學習的顯著能力(Brown et al., 2020)。也就是說,LLMs被證明能夠僅通過在輸入中看到幾個新任務的示例來適應新任務,而不需要額外的訓練數據或微調。這通常被稱為少示例上下文學習。
與上述涉及預訓練后進行微調的大型語言模型(LLMs)使用方法相比,上下文學習(ICL)提供了幾個關鍵優勢。首先,由于對LLM的訪問受限、計算資源不足或數據標記不充分(Brown et al., 2020),微調可能并不總是可行的,而ICL則需要更少的資源、更少的數據,并且通過API調用更易于服務。此外,ICL避免了常與微調相關的問題,如過擬合或沖擊(Ying, 2019; Kazemi et al., 2023a),因為它不修改模型的參數,使其保持通用性。
**什么構成了好的演示?**許多研究試圖提供理論上的解釋和洞見,來說明大型語言模型(LLMs)是如何從少量上下文演示中學習的(Xie et al., 2021; Garg et al., 2022; Von Oswald et al., 2023)。然而,這種能力背后的確切原因仍然不甚明了,這使得選擇最佳的少示例演示變得困難。幸運的是,各種實證結果展示了少示例演示對LLMs預測準確性的影響,并就準備它們的最佳實踐提供了建議。這些研究還展示了LLMs在選擇、格式和少示例演示順序方面的脆弱性。在此,我們描述了其中一些更為顯著的研究。
演示數量:大型語言模型(LLMs)通常受益于更多的演示,但隨著演示數量的增加,改進的速度通常會減少(Brown et al., 2020; Ye et al., 2023b; Min et al., 2022b)。生成任務比分類任務更能從增加的演示數量中受益(Li et al., 2023)。增加演示數量的一個障礙是LLM的最大上下文大小。盡管隨著新型LLM的出現,上下文的大小一直在增加,但對于文本輸入較長的數據集或分類數據集中類別較多的情況,這可能仍然是個問題。
演示格式:不同的工作表明,提示的格式和措辭在LLM的性能中起著至關重要的作用(Jiang et al., 2020; Shin et al., 2020; Kojima et al.; Yang et al., 2023)。例如,Kojima等人展示了僅在提示中添加“讓我們一步一步思考”可以使LLM逐步推理并解決更多問題,Weller等人(2023)展示了在提示中添加“根據維基百科”可以使其更具事實性。此外,Min et al.(2022b)指出,除了文本格式,標簽空間和演示中的輸入文本分布也非常重要。
演示順序:演示的順序已被證明會顯著影響模型性能。例如,Lu et al.(2022b)表明,在某些任務上,模型性能可能會根據提示的順序從接近隨機到最先進水平不等,而Zhao et al.(2021)表明,在提示的末尾出現的答案更可能被模型預測。演示多樣性:少示例學習成功的另一個重要因素是演示的多樣性。Naik et al.(2023)提出了DiversePrompting方法,其中對于演示的問題,使用LLM生成解決問題的不同方法,然后將這些解決方案用于提示。Zhang et al.(2022b)建議選擇一個多樣化的問題集作為少示例。Ma et al.(2023)提出了一個公平性指標用于選擇演示,鼓勵選擇多樣化的少示例演示,以產生對語義自由輸入的近似均勻預測分布。
思維鏈(CoT):已有研究表明,包含答案的理由顯著提高了模型性能,尤其是對于超過特定大小的模型(Suzgun et al., 2022)。這種理由通常被稱為思維鏈(CoT)(Wei et al., 2022)。在CoT提示的情況下,演示通常格式化為: 查詢:qi,理由:ri,答案:ai其中理由出現在最終答案之前。已有多項研究探討了CoT提示的有效性原因以及如何改進提示和理由(Wang et al., 2022a; Lanham et al., 2023)。
使用檢索演示的上下文學習傳統上,所有查詢都使用相同的少示例演示集,這在查詢之間存在高度變化時可能并不理想。另一種方法是檢索針對當前查詢定制的少示例演示。先前的工作表明,與手工策劃或隨機選擇的演示相比,演示檢索在任務指標上帶來了顯著改進(Luo et al., 2023; Ye et al., 2023a)。此外,當使用檢索的演示時,已經證明大型語言模型(LLMs)對于演示順序等因素(第2.2節)變得不那么敏感(Li et al., 2023)。本節提供了基于檢索的上下文學習(RetICL)的概述。我們首先定義了使用檢索演示的上下文學習。正式地,給定一個查詢q?和一個檢索語料庫C,演示檢索器DR選擇一組演示{d1, . . . , dk} ~ C,其中每個演示為di = (qi, ai)。大型語言模型(LLM)的輸入序列變為(d1, . . . , dk, q?)。檢索器的目標是選擇能最大化正確答案a?概率的演示。RetICL的成功取決于多個因素。本節探討了設計選擇,包括檢索目標、檢索推理策略和檢索語料庫。然后在第4節和第5節中,我們探索了檢索器模型以及如何訓練它們以適應下游任務。
檢索目標:
相似性與多樣性為了選擇和定制適合大型語言模型(LLMs)的上下文示例,已經探索了各種檢索目標(Luo et al., 2023; Rubin et al., 2022; Ye et al., 2023a; Dalvi et al., 2022; Cheng et al., 2023; Li et al., 2023)。選擇演示的兩個主要檢索目標是相似性和多樣性。相似性涉及選擇最類似于查詢的演示,并可基于語言相似性(術語匹配或語義匹配)、結構方面(句子結構、推理結構等)或其他標準。大多數研究關注語言相似性,較少涉及結構相似性,這通常是由于在許多任務中提取查詢結構的挑戰(Levy et al., 2022)。除了相似性,一些工作發現演示的多樣性很重要。多樣性的動機包括避免重復的演示(Zhang et al., 2022b),帶來不同的視角(Yu et al., 2023),以及最大化演示對測試查詢的覆蓋,無論是覆蓋其詞匯還是句法結構(Levy et al., 2022)。衡量多個演示的多樣性是一個主要的技術挑戰。Ye et al. (2023a) 應用了決定性點過程(DPP)這一概率模型來衡量負相互作用(Kulesza et al., 2012),以衡量多樣性。Levy et al. (2022) 發現當模型對輸出符號空間不熟悉時,多樣性和覆蓋是重要的。值得注意的是,研究人員發現,在某些情況下,上下文學習(ICL)更多地從更高復雜性的演示中受益(Fu et al., 2022),其中復雜性是根據查詢長度或推理步驟定義的。然而,Fu et al. (2022) 使用啟發式規則來定義復雜性并相應地預選演示。他們的研究表明,使用基于相似性的檢索器在特定的數學推理任務中提高了性能。這可能表明結合相似性和復雜性考慮可能是增強推理任務方法的一個有前景的策略。
現成演示檢索器為了實現上述檢索目標,研究人員探索了各種類型的演示檢索器。典型的演示檢索器將檢索語料庫中的示例和查詢編碼為一些向量表示,然后計算候選演示嵌入和查詢嵌入之間的相似度度量(例如余弦相似度),以定位最相關的演示。鑒于對檢索演示增強大型語言模型(LLMs)性能的底層機制理解有限,最初的研究工作集中在對這一任務現成可用的檢索器進行啟發式評估。后續研究努力探索了特別為檢索演示而定制的基于學習的檢索器的設計和開發。本節回顧了代表性的現成模型,我們將在第5節討論基于學習的模型。
微調的演示檢索器盡管現成的檢索器在llm的檢索演示中顯示出了一些希望,但現成的檢索器給出的檢索演示可能不能代表任務的性質以及一般應如何解決任務。因此,它可能會導致次優性能。因此,研究人員已經開始探索基于學習的方法,以進一步突破邊界。設計一個好的演示檢索器的典型目標是:如果LLM發現一個演示在用作演示示例時有用,則應該鼓勵檢索器將演示排序更高。這使得我們可以直接依賴感興趣任務中的查詢和輸出對的信號來訓練模型,而無需人工注釋。為了開發演示檢索器,大多數方法利用當前的雙編碼器模型(Karpukhin等人,2020;Ni et al., 2021)。關鍵的變化在于收集訓練數據和制定訓練目標的方法。我們將在后續章節中更詳細地探討這些方面。在這里,我們總結了各種檢索器模型的優點和缺點。現成的檢索器易于使用,無需進行下游任務的微調,通常表現比隨機演示更強大。唯一的例外是在常識推理任務中,Zhang等人(2022b)和Ye等人(2023a)發現對于這些任務,隨機演示始終比檢索方法更好。Cheng等人(2023)還表明,檢索到的演示對常識推理和共指解析任務產生了不利影響。在現成的檢索器的三個類別中,如BM25等稀疏檢索器更具索引效率。這個特性在處理大量演示和有限的硬件內存時特別有價值,使得在這種情況下BM25成為首選。相比之下,基于句子嵌入相似性的方法和基于雙編碼器的檢索系統,這些方法在語言任務上訓練,更擅長捕捉更語義上關注的檢索結果。就性能而言,Luo等人(2023)在5個任務中比較了BM25和雙編碼器(GTR),發現這兩者的平均性能非常相似(在0.5%的差異范圍內),在某些任務中BM25勝過雙編碼器,反之亦然。在另一項研究中,Ye等人(2023a)觀察到了類似的趨勢,強調沒有單一的檢索器在不同任務中始終表現優于其他檢索器。Rubin等人(2022)和Li等人(2023)發現,在語義解析任務中,BM25要優于SBERT,而Li等人(2023)發現,在情感分析任務中,SBERT要優于BM25。然而,經過微調的檢索器在性能上表現出優勢,相對于現成的檢索器。經過微調的檢索器的主要缺點在于獲取訓練數據的成本較高。
此外,采用任務特定的檢索器的常見做法使系統變得復雜,并限制了其通用性。Li等人(2023)提出了訓練通用檢索器的概念,該檢索器在大多數任務上表現優于任務特定的演示檢索器(例如EPR(Rubin等人,2022))。
結論
本調查集中討論了使用檢索到的示例進行少樣本上下文學習(ICL)的方法,這是檢索增強生成(RAG)的關鍵方面。我們概述了各種檢索策略、多樣化的檢索模型、檢索池、訓練演示檢索器的技術以及應用。基于對當前趨勢的全面了解,我們提出了增強這一方法的有效性和功能性的一些有前途的未來發展方向。
大型基礎模型,包括大型語言模型(LLMs)、視覺轉換器(ViTs)、擴散以及基于LLM的多模態模型,正在徹底改變整個機器學習生命周期,從訓練到部署。然而,這些模型在多功能性和性能上的顯著進步,卻以硬件資源的巨大成本為代價。為了以可擴展且環境可持續的方式支持這些大型模型的發展,開發資源高效的策略已成為重點。本綜述深入探討了此類研究的關鍵重要性,考察了算法和系統層面的方面。它提供了對現有文獻的全面分析和寶貴見解,涵蓋了從前沿模型架構和訓練/服務算法到實際系統設計和實現的廣泛主題。此綜述的目標是提供對當前方法如何應對大型基礎模型所帶來的資源挑戰的全面理解,并可能激發此領域未來的突破。
//www.zhuanzhi.ai/paper/92a73bb1c3daa8cff7f79eaa9c9c5053
在人工智能(AI)這一快速發展的領域中,一場范式轉變正在進行中。我們正在見證從專門化、碎片化的深度學習模型向通用、一體適用的基礎模型的過渡。這些先進的AI系統能夠在開放世界的背景下操作,與開放詞匯和圖像像素進行交互,應對未見的AI任務,即零樣本能力。這些模型的例子包括:(1)大型語言模型(LLMs),如GPTs [39],能夠以提示的形式處理幾乎所有NLP任務;(2)視覺變換器模型(ViTs),如掩蔽自編碼器 [133],能夠處理各種下游視覺任務;(3)潛在擴散模型(LDMs),如穩定擴散 [310],能夠用任意基于文本的提示生成高質量圖像;(4)多模態模型,如CLIP [296]和ImageBind [116],將不同模態數據映射到同一潛在空間,并廣泛用作跨模態任務(如圖像檢索/搜索和視覺問題回答)的支撐。這種靈活性和通用性標志著AI早期時代的顯著轉變,為AI與世界交互設定了新的標準。 這些基礎模型的成功深深植根于它們的可擴展性:與前代模型不同,這些模型的準確性和泛化能力可以隨著更多數據或參數的增加而持續擴展,而無需改變底層簡單的算法和架構。一個令人印象深刻的證據是擴展定律 [166]:它描述了基于變換器的模型性能如何可以預測地隨模型規模和數據量的增加而改善;直到今天,這一定律依然成立。這種可擴展性不僅是模型大小的問題;它還擴展到它們處理日益復雜任務的能力,使它們成為走向人工通用智能(AGI)之路的基石。
然而,可擴展性的代價是巨大的資源需求。基礎模型的本質是對訓練和部署的資源極度饑渴。這些資源不僅包括計算處理器,如GPU和TPU,還包括內存、能源和網絡帶寬。例如,LLaMa-2-70B的預訓練需要1.7×百萬GPU小時,并消耗2.5×1012焦耳的能量。估計的總排放量是291噸二氧化碳當量。超出訓練階段,數據處理、實驗和推理階段的電力消耗相當甚至更多,據Meta AI [388]稱。最近的一項分析 [77]揭示,為了滿足當前AI能力和采用的持續趨勢,英偉達需要在2027年前每年交付150萬AI服務器單元。這些服務器滿負荷運行將至少消耗85.4太瓦時的電力——超過許多國家,如新西蘭和奧地利,一整年的用電量,如圖1所示。隨著基礎模型在規模和復雜性上的持續增長,它們的資源需求通常呈指數級增長,這在它們的發展和部署中構成了重大挑戰。 大型基礎模型巨大的資源足跡也阻礙了其民主化。截至2023年底,只有少數主要參與者有能力訓練和部署最先進的基礎模型,從而對公眾擁有強大的控制權,有可能以他們偏好的方式操縱公眾。與許多輕量級DNN不同,這些模型是在云端而非設備上提供服務的 [403, 440];這使得數據隱私保護幾乎不可能。盡管最近,智能手機廠商一直在吹噓在本地運行大型基礎模型,一些先驅引擎也被開發出來用于設備上的LLMs [114, 11, 10],但展示的模型限于相對較小的規模(例如<10B),且尚未在現實世界中部署。 因此,大量研究致力于提高這些基礎模型的效率。這些努力涵蓋了從優化算法到系統級創新的廣泛方法,專注于在不損害性能的情況下減少這些模型的資源足跡。本綜述旨在深入探討這些研究工作,探索使基礎模型更高效的多樣化策略。我們將審視算法效率、系統優化、數據管理技術的進步,以及開發較少資源密集的新型架構。綜述還涵蓋了從云到邊緣和設備的范圍,大型基礎模型在這些領域也獲得了巨大關注。通過這一探索,我們旨在提供對基礎模型領域中資源高效算法和系統的當前狀態和未來方向的全面理解。 范圍和理念。本綜述的范圍主要由以下幾個方面定義。(i) 我們只調查算法和系統創新;我們排除了大量在硬件設計方面的工作,這同樣重要,但已被很好地總結 [174]。(ii) 本綜述中的資源定義主要限于物理資源,包括計算、內存、存儲、帶寬等;我們排除了可以被視為資源的訓練數據(標簽)和隱私。(iii) 我們主要調查在頂級計算機科學會議上發表的論文,即CSRankings包含的論文。我們還手動挑選了arXiv上相關且可能產生高影響的論文。(iv) 我們主要調查2020年之后發表的論文,因為AI的創新正在快速進行,舊知識和方法經常被推翻。 盡管如此,我們計劃將來擴展本綜述的范圍;我們也將積極維護和更新它。 組織。圖2展示了本綜述的組織結構。 全開源。本綜述的所有材料都可在以下網址免費獲取: https:github.com/UbiquitousLearning/Efficient_Foundation_Model_Survey
模型架構是資源高效的大型基礎模型(FMs)的核心,包括注意力機制、解碼器及其替代方案。主要目標是降低計算和內存開銷。圖8直觀地展示了這種資源高效架構的分類,考慮到了大型基礎模型的標準核心模塊和傳統分類。資源高效架構由高效注意力機制、動態神經網絡、特定于擴散的優化和特定于視覺變換器(ViT)的優化構成。
本節重點介紹在算法層面上的資源高效大型基礎模型(FMs)技術。與傳統的深度神經網絡(DNNs)相比,大型基礎模型表現出新的特征,如其龐大的參數集和自回歸推理。這種差異導致了大量資源高效算法的出現,這些算法根據基礎模型的生命周期進行分類:預訓練、微調、服務算法以及模型壓縮,如圖11所示。
本綜述為資源高效的大型基礎模型的最新文獻提供了全面、系統的概覽。我們首先介紹了流行基礎模型的初步背景和成本分析,包括大型、視覺和多模態模型。然后我們深入探討了模型架構、算法和系統設計,以實現更高效的大型基礎模型生命周期。未來,這一領域的研究將繼續(甚至更加)重要,因為擴展定律保證了更強大的AI與越來越大的模型的光明未來。這種研究也高度跨學科,涉及多個計算機科學社區,如機器學習、NLP/CV/語音、網絡、云計算、邊緣計算等。
資源高效的大型基礎模型研究機會極大,尤其值得關注的是: (1)云-邊緣混合部署。為了實現無處不在、隱私保護、高可用性的通用智能,許多基礎模型最終將沉入靠近用戶的設備 [406, 403, 404, 441]。已經進行了初步努力,將LLaMA-7B帶到智能手機和個人電腦上。關鍵應用包括個人助手/代理 [219, 383]、多模態信息檢索 [198] 等。未來,基礎模型在設備上運行的規模和速度將成為硬件供應商商業模式中的關鍵競爭力。 (2)利用模型稀疏性。隨著模型變大,對于給定任務的模型激活比率會變小。最近的文獻 [244] 發現,即使是密集訓練的非MoE模型也表現出運行時激活稀疏性,可以利用這一點來減少推理時間和內存占用。我們認為,利用模型和激活稀疏性將是實現可持續模型規模擴展的有前景的方向。可能會出現比MoE更高效的稀疏架構。 (3)大型基礎模型作為一種服務。在云端和設備上,大型基礎模型正在統一DNN生態系統 [427]。最終,它將成為像今天的Web和數據庫一樣的通用服務。一方面,它為高度硬件-算法協同設計和優化提供了機會;同時,它也在系統和基礎設施設計方面提出了新的挑戰,如調度、負載均衡和安全性&隔離。 (4)作為整體系統優化的代理。未來,尤其是LLMs將作為建立代理的關鍵構建塊 [219, 383]。其效率不應被視為獨立的LLM服務;相反,算法和系統設計需要適應特定的代理工作流。例如,一個代理系統可能需要多個基礎模型協同工作,在這個過程中存在內在的邏輯依賴性。在這個過程中,選擇適合每個任務的適當基礎模型,并在給定的硬件資源集上調度它們以最大化代理性能的設計空間是巨大的。 (5)實用的隱私保護FM。隨著用戶數據上傳到云端進行FM處理的數量持續增加,隱私問題的嚴重性相應升級。現有方法包括聯邦學習、同態加密和解糾纏學習。盡管在理論上是健全的,但這些方法仍然面臨顯著的性能挑戰,阻礙了它們的大規模野外部署。一個有前景的方向涉及為大型FMs專門設計的創新隱私保護技術的開發,或現有方法的改進,以有效地平衡隱私與性能。 (6)理解擴展定律。擴展定律推動了大型FMs的成功,同時它似乎也是輕量級FMs的一個基本限制 - 小規模模型不太可能比更大的模型具有更高級別的智能。理解擴展定律背后的機制和理論將有助于解釋(并希望打破)這一限制。同時,設計具有更好甚至最優擴展性能的新型模型架構將是一個值得廣泛研究的方向。
多模態(視覺-語言)模型,如CLIP,正逐漸取代傳統的監督預訓練模型(例如,基于ImageNet的預訓練)成為新一代的視覺基礎模型。這些模型通過從數十億個互聯網圖像-文本對中學習,形成了強大且一致的語義表示,并可以在零樣本的情況下應用于各種下游任務。然而,在醫學成像和遙感等一些細粒度領域,多模態基礎模型的性能往往不盡人意。因此,許多研究者開始探索這些模型的少樣本適應方法,逐漸衍生出三種主要技術途徑:1)基于提示的方法;2)基于適配器的方法;3)基于外部知識的方法。盡管如此,這一迅速發展的領域產生了大量結果,但尚無全面的綜述來系統地整理研究進展**。因此,在這篇綜述中,我們介紹并分析了多模態模型少樣本適應方法的研究進展,總結了常用的數據集和實驗設置,并比較了不同方法的結果**。此外,由于現有方法缺乏可靠的理論支持,我們推導了多模態模型的少樣本適應泛化誤差界限。該定理揭示了多模態基礎模型的泛化誤差受三個因素的約束:域間差異、模型容量和樣本大小。基于此,我們從以下幾個方面提出了三種可能的解決方案:1)自適應領域泛化;2)自適應模型選擇;3)自適應知識利用。
人工智能正在越來越多地應用于廣泛的關鍵行業,包括語音識別、圖像識別、自動駕駛、智能制造、醫學診斷、金融風險控制等。在用人工智能技術賦能各個領域的過程中,經常會遇到與碎片化和多樣化需求相關的挑戰。過去,模型通常具有較小的參數規模和有限的泛化能力。一個模型只能應對單一場景,導致成本高昂和泛化性能差。近年來,越來越多的研究者開始關注具有更強泛化能力的預訓練基礎模型。
自2018年以來,如BERT [1]、盤古 [2]、PaLM [3]、GPT4 [4]等基礎模型的訓練數據和參數規模呈指數級增長,導致在各種自然語言理解任務中的性能顯著提高。與此同時,基礎模型的發展也逐漸從單一模態(如文本、語音、視覺等)演變為多模態融合。越來越多的研究機構開始關注多模態預訓練基礎模型,如ViLBERT [5]、CLIP [6]、DeCLIP [7]、FILIP [8]、PyramidCLIP [9]、OFA [10]、BEiT-3 [11]、ERNIE-ViL [12]和Data2vec [13]。
2021年初,OpenAI發布了CLIP,這是一個大規模的多模態模型,用于對齊圖像和文本,它使用數十億互聯網數據進行預訓練,通過對比學習獲得豐富的視覺語言知識。雖然預訓練的CLIP模型可以在推理階段通過使用文本特征作為分類權重來實現零樣本預測,但這種方法通常只在諸如ImageNet之類的通用領域中表現出色,在處理某些細粒度領域的數據時表現不佳。這是因為這些模型在預訓練階段主要使用通用領域的數據,而在面對特定的下游任務時,數據分布往往與預訓練數據不同。因此,有必要使用下游任務的特定數據對模型進行微調。為了通過微調提高模型的泛化性能,研究人員首先提出了基于提示的微調適應方法(例如,CoOp [14]),該方法將CLIP文本端的固定文本輸入視為可學習的向量,然后使用少量樣本進行微調,以適應下游任務。另一種常用于增強少樣本適應能力的方法是基于適配器的微調,如CLIP-Adapter [15]。這種方法涉及在預訓練模型中添加簡單的適配器結構,然后使用少量樣本數據微調適配器參數,使基礎模型適應下游任務。此外,引入基礎語言模型或外部知識(如知識圖譜,例如,CuPL [16])的方法可以幫助模型更好地處理未見樣本,增強其語義理解和魯棒性,從而提高其在少樣本適應任務中的性能。上述三種方法已廣泛用于各種下游適應任務,但缺乏一個全面的綜述來系統地整理這些方法。因此,我們詳細闡述并比較這些方法,并探索它們的未來發展方向,以進一步提高預訓練模型的性能和泛化能力。
本文的貢獻如下:
? 我們全面回顧和整理了多模態少樣本適應方法,并將現有方法分類為基于提示的微調適應方法、基于適配器的微調適應方法、基于外部知識的適應方法以及其他方法。在基于提示的微調適應方法中,我們進一步將其細分為文本提示微調、視覺提示微調、多模態提示和多任務提示方法。關于基于適配器的微調適應方法,我們將其分類為單模態適配器微調和多模態適配器微調。在使用外部知識的方法中,我們區分了帶有外部知識的預訓練方法和利用外部知識的下游適應方法。
? 我們回顧了11個常用數據集,用于評估多模態基礎模型的下游泛化性能。我們提供了四種實驗設置的詳細描述,以驗證多模態基礎模型在少樣本條件下的適應性能。展示了四種不同設置的實驗結果,并對這些結果進行了比較分析。我們強調了不同類型方法能有效提高多模態基礎模型泛化性能的原因。
? 我們討論了現有多模態基礎模型的少樣本適應方法的共同缺點,并分析了域適應問題。從統計機器學習理論中跨域泛化的誤差界限出發,我們推導了多模態基礎模型的少樣本適應誤差界限,揭示了現有方法面臨的主要挑戰是上游和下游域分布的無效適應、模型選擇的適應性不足以及數據和知識利用不足。
II. 多模態基礎模型的預訓練
近年來,大規模預訓練模型已受到學術界和工業界的廣泛關注。最初,基礎模型預訓練的相關工作主要集中在自然語言處理領域,在這個領域,如BERT [1]和GPT [17]這樣的自監著學習語言模型展現出比傳統方法更好的自然語言理解和生成能力。在計算機視覺領域,范式也從監督預訓練轉變為自監督預訓練。自監督預訓練的視覺模型性能顯著提高,從最初基于數據增強的模型(如SimCLR [18]和MoCo [19])演變到最近基于隨機掩蔽方法的模型(如MAE [20]和BEiT [21])。然而,預訓練的語言模型無法接收視覺輸入,導致它們無法將語言理解的優勢擴展到多模態下游任務(如視覺問答VQA)。另一方面,用于視覺預訓練的監督信號通常僅限于數據增強和隨機掩蔽,這阻止了它們在開放世界中學習更豐富的語義表征。因此,我們最近見證了大規模預訓練多模態模型的迅速發展,這些模型結合了視覺和語言模態,如表I所示。
III. 多模態基礎模型的少樣本適應方法
為了有效提高模型在特定領域的泛化性能,有必要使用有限的樣本對多模態基礎模型進行微調,使其具有更廣泛的應用。這些方法可以定義為多模態基礎模型的少樣本適應方法。本章將分為四個部分,提供現有多模態基礎模型方法的詳細概述,即:基于提示的微調適應方法、基于適配器的微調適應方法、基于外部知識的適應方法,以及其他方法。
A. 基于提示的微調適應方法
文本提示基微調適應:在自然語言處理領域,基于提示的微調適應[34]–[38]是解決大型語言模型少樣本泛化問題的經典方法。它涉及將文本輸入的一部分作為可學習向量,并使用下游任務數據對其參數進行微調,使模型能夠適應特定的下游任務。這種方法的優勢在于它避免了文本提示的手動設計,有效地通過僅對模型輸入的特定部分進行微調來減輕過擬合風險。受此啟發,一些研究人員也開始為多模態基礎模型設計基于提示的微調適應方法。CoOp [14]首次將提示學習的思想納入多模態預訓練基礎模型的下游任務適應中。它使用可學習的詞嵌入來自動構建上下文提示,而不是為每個任務手動設計提示模板。如圖1所示,單個類別標簽{object}被轉換為綜合文本提示“[V]1, [V]2, ..., [V]m, {object}”。其中,[V]i代表可調整的詞向量。然后計算分類損失以使用下游任務數據微調這些詞向量,使模型能夠自主獲取適應下游任務的文本輸入。隨后,Zhou等人[39]引入了條件性上下文優化(CoCoOp),該方法構建了一個元網絡來學習圖像的特征。這些特征然后與提示向量結合以增強CoOp在新類別數據上的泛化性能。為了有效利用預訓練模型的零樣本能力,Huang等人[40]提出了無監督提示學習(UPL)。它選擇高置信度的零樣本預測結果作為偽標簽來監督提示向量的學習。類似地,Prompt-aligned Gradient(ProGrad)[41]使用零樣本預測結果來約束模型梯度更新的方向,從而避免少樣本模型與泛化知識之間的沖突,并減輕過擬合問題。然而,由于視覺信息的豐富多樣性,學習僅一個文本提示難以匹配復雜的視覺數據。為解決這一問題,Chen等人[42]提出了使用最優傳輸的提示學習(PLOT)。它用于學習多個不同的文本提示,其中不同的文本提示被視為圖像位置的描述,使用最優傳輸理論來匹配文本提示與局部圖像特征。Lu等人[43]引入了提示分布學習(ProDA),以學習提示分布并從這些分布中采樣不同的文本提示。此外,為了充分利用多任務數據之間的相關性,Ding等人[44]提出了用于提示調整的軟上下文共享(SoftCPT),該方法設計了一個任務共享元網絡,將預定義任務名稱和可學習的元提示作為輸入,以借助多任務數據微調提示。
視覺提示基微調適應:上述所有方法僅微調CLIP的文本部分,而CLIP作為多模態模型,視覺和文本兩方面同等重要。僅微調文本提示無法改善視覺編碼器提取特征的能力,提取的視覺特征可能與下游任務的目標特征不匹配。因此,受到文本提示微調適應的啟發,一系列視覺提示微調適應方法應運而生。現有的視覺提示微調適應方法主要包括令牌級微調適應和像素級微調適應。視覺提示調整(VPT)[45]引入了以令牌形式的可學習視覺提示。類感知視覺提示調整(CAVPT)[46]在此基礎上進一步包括一個交叉注意模塊,使視覺提示更加關注下游任務的目標。與基于令牌的方法相反,Bahng等人[47]建議直接在圖像周圍以填充格式添加像素級視覺提示,以增強視覺提示。Wu等人[48]進一步提出了增強視覺提示(EVP),通過縮放和填充而不是直接在原始圖像周圍填充。
多模態提示基微調適應:除了單獨學習文本和視覺提示外,還可以同時學習多模態提示,以更好地對齊文本和視覺特征。文本和視覺特征具有固有的差異,為了在學習多模態提示時加強它們之間的聯系,多模態提示學習(MAPLE)[49]使用copula函數將文本提示轉換為視覺提示。統一提示調整(UPT)[50]首先學習一個通用提示,然后將其分解為文本和視覺提示。另一方面,多任務視覺語言提示調整(MVLPT)[51]引入了多任務學習的概念,使用跨任務知識微調文本和視覺提示。
B. 基于適配器的微調適應方法
1. 單模態適配器基微調適應:在自然語言處理(NLP)領域,適配器的概念最初由谷歌團隊于2019年引入,用于微調大型語言模型[52]。在下游任務訓練中,該方法凍結原始語言模型的參數,僅更新作為適配器模塊添加的少量參數。由于其參數效率高、設計靈活性和高魯棒性等優點,這種方法近年來在NLP領域受到了廣泛的研究關注[53]。最近,基于適配器的方法也被應用于計算機視覺領域的視覺變換器(ViTs)中。Jie等人[54]通過引入卷積旁路(Convpass)解決了ViTs中適配器結構缺乏歸納偏置的問題。此外,他們提出了因子調整(FacT,引用為[55]),以進一步提高參數效率的遷移學習效率,以滿足實際應用中的存儲約束。
2. 多模態適配器基微調適應:上述基于適配器的方法都適用于自然語言處理或計算機視覺中的單模態基礎模型。近年來,基于適配器的方法也被擴展到多模態基礎模型中,以增強下游泛化能力。Gao等人[15]引入了CLIP-Adapter,該適配器在凍結骨干網絡后添加了一個全連接層適配器來學習額外知識。然后,它基于殘差連接將這些知識與零樣本預測結果合并,如圖2所示。基于這些發展,張等人引入了Tip-Adapter[56]。該方法基于下游少樣本訓練數據構建分類器,并以線性加權方式將其預測與原始零樣本分類器的結果結合,以增強模型的預測性能。SVL-Adapter[57]在適配器之前融合了一個預訓練的自監督視覺編碼器,以提取更魯棒的視覺特征。然而,上述方法僅使用跨模態對比損失,沒有考慮少樣本數據集的視覺特定對比損失。為解決這一問題,彭等人[58]提出了語義引導的視覺適應(SgVA-CLIP),通過隱式知識蒸餾引導視覺適配器的參數更新,以確保圖像-文本關系的一致性。為了增強適配器的跨模態交互能力,CALIP[59]利用注意力圖融合文本和圖像特征,并在融合前后插入兩個可微調的線性層。此外,跨模態適配器(CMA)[60]和多模態視頻適配器(MV-Adapter)[61]通過在兩種模態之間共享適配器權重實現跨模態交互。這些方法考慮了單模態和多模態場景,但沒有充分整合每種模態的優勢。為解決這一問題,陸等人[62]提出了UniAdapter,以統一單模態和多模態適配器。
C. 基于外部知識的適應方法
1. 基于外部知識的預訓練方法:預訓練基礎模型通過從互聯網上大量數據中挖掘相關信息,具有學習通用表征的能力。然而,在這些數據驅動的模型中,知識通常是隱性的,沒有明確鏈接到人類對世界的理解或常識性知識。近年來,數據和知識驅動的預訓練方法不斷涌現,研究人員開始探索將更全面的外部知識,如知識圖譜,融入基礎模型中。這種整合旨在使這些模型更加魯棒、可靠和可解釋。ERNIE[63]融合了一個知識編碼器,用于實體知識提取和異構信息融合。K-BERT[64]檢索與模型輸入相關的外部知識,并構建具有豐富上下文知識的句子樹作為模型輸入。近年來,一些工作也開始為多模態基礎模型的預訓練注入知識。例如,ERNIE-ViL[65]整合了來自場景圖的知識,KM-BART[66]通過創建額外的預訓練任務來模擬一般視覺知識,K-LITE[67]融合了包括WordNet和維基百科定義在內的各種外部知識源。
2. 基于外部知識的下游適應方法:上述方法在預訓練階段引入外部知識。然而,在數據樣本有限的下游少樣本適應場景中,也有必要增強外部知識以確保模型的性能。最常見的方法之一是通過查詢大型語言模型為每個類別生成更豐富的文本描述。圖3展示了這種方法的示例。通過語言模型定制提示(CuPL)[16]是第一個將外部知識融入多模態基礎模型下游泛化過程的方法。CuPL通過向GPT-3提問生成每個類別的多個描述性陳述,豐富類別的語義,從而提高零樣本分類性能。然而,CuPL使用GPT-3生成的句子可能存在描述性差和可靠性問題。為解決這些問題,Menon等人[68]進一步完善了基于GPT-3的知識增強過程。他們提示GPT-3以短語形式生成語義屬性描述,增強了模型的可解釋性。為了在可解釋性和性能之間取得平衡,語言引導瓶頸(LaBo)[69]使用GPT-3生成大量候選特征描述符空間,同時考慮特征相對于其他類別的區分性和當前類別的覆蓋率。它篩選出最佳子描述符空間以進行分類決策,從而揭示模型的決策邏輯。ELEVATER[70]還融合了來自GPT-3、WordNet和維基詞典等來源的定義。實驗結果表明,外部知識可以增強多模態基礎模型的下游泛化性能。然而,不同知識來源有不同的側重點和特性。例如,WordNet具有相對豐富和準確的知識,但覆蓋率較低,而GPT-3具有更廣泛的知識覆蓋范圍,但可能缺乏可靠性。此外,與上述使用外部知識增強文本語義的方法不同,SuS-X[71]專注于增強多模態模型的視覺樣本。
大型語言模型(LLMs)在理解和生成接近人類交流的文本方面展現出了非凡的能力。然而,它們的一個主要局限性在于訓練過程中顯著的計算需求,這源于它們廣泛的參數化。這一挑戰進一步被世界的動態性所加劇,需要頻繁更新LLMs以糾正過時的信息或整合新知識,從而確保它們的持續相關性。值得注意的是,許多應用要求在訓練后持續調整模型以解決缺陷或不良行為。對于即時模型修改的高效輕量級方法,人們越來越感興趣。為此,近年來知識編輯技術在LLMs領域蓬勃發展,旨在有效地修改LLMs在特定領域內的行為,同時保持對各種輸入的整體性能。在本文中,我們首先定義了知識編輯問題,然后提供了對前沿方法的全面調研。從教育和認知研究理論[1-3]中汲取靈感,我們提出了一個統一的分類標準,將知識編輯方法分為三組:依賴外部知識、將知識融入模型和編輯內在知識。此外,我們引入了一個新的基準測試,KnowEdit,用于對代表性知識編輯方法進行全面的實證評估。另外,我們提供了對知識位置的深入分析,這可以提供對LLMs內在知識結構的更深層次理解。最初作為高效引導LLMs的手段構想,我們希望從知識編輯研究中獲得的洞見能夠闡明LLMs的底層知識機制。為了促進未來的研究,我們發布了一個開源框架,EasyEdit1,將使從業者能夠高效靈活地實施LLMs的知識編輯。最后,我們討論了知識編輯的幾個潛在應用,并概述了其廣泛而深遠的影響。
知識是人類智能和文明的基本組成部分[4]。其系統結構賦予了我們通過符號手段來表示有形實體或勾畫原則,從而提供了促進復雜行為或任務表達的能力[5-7]。在我們的生活中,我們人類不斷積累了豐富的知識財富,并學會在不同背景下靈活應用它。對知識的性質以及我們獲取、保留和解釋它的過程的持續探索,一直吸引著科學家們,這不僅是一項技術追求,還是通向反映人類認知、交流和智能復雜性的旅程[8-12]。 近年來,大型語言模型(LLM)如GPT-4[13]在自然語言處理(NLP)方面展現出了卓越的能力,可以保留大量知識,可能超過了人類能力[14-30]。這一成就可以歸因于LLMs處理和壓縮大量數據的方式[31-34],潛在地形成了更簡潔、連貫和可解釋的底層生成過程模型,實質上創建了一種“世界模型”[35-37]。例如,戴等人[38]提出了知識神經元(KN)論,提出語言模型的功能類似于鍵值記憶。在這里,核心區域的多層感知器(MLP)權重[39]可能在從訓練語料庫中提取事實方面起到關鍵作用,暗示了LLMs內部知識存儲的更結構化和可檢索形式[40, 41]。
更深入的洞察來自LLMs理解和操作復雜戰略環境的能力,李等人[42]已經證明,針對象棋等棋盤游戲進行下一個標記預測的Transformer模型發展出了游戲狀態的明確表示。帕特爾和帕夫利克[43]揭示了LLMs可以跟蹤給定上下文中的主題的布爾狀態,并學習反映感知、符號概念的表示[35, 44-46]。這種雙重能力表明LLMs可以充當廣泛的知識庫[47-58],不僅存儲大量信息,還以可能反映人類認知過程的方式進行結構化。 然而,LLMs存在一些限制,如事實錯誤、可能生成有害內容和由于訓練截止日期而過時的知識[59-61]。為了解決這個問題,近年來見證了為LLMs專門定制的知識編輯技術的發展潮,這些技術允許對模型進行經濟有效的事后修改[67-69]。這項技術側重于特定領域的調整,而不會影響整體性能,并有助于了解LLMs如何表示和處理信息,這對于確保人工智能(AI)應用的公平性和安全性至關重要[70-74]。
本文首次嘗試全面研究LLMs的知識編輯發展和最新進展。我們首先介紹了Transformer的架構、LLMs中的知識存儲機制(§2.1)以及相關技術,包括參數有效微調、知識增強、繼續學習和機器遺忘(§2.2)。然后,我們介紹了初步內容(§3.1),正式描述了知識編輯問題(§3.2),并提出了一個新的分類法(§3.3),以基于教育和認知研究理論[1-3]提供關于知識編輯方法的統一視角。具體而言,我們將LLMs的知識編輯分類為:使用外部知識(§3.3.1)、將知識融入模型(§3.3.2)和編輯內在知識(§3.3.3)的方法。我們的分類標準總結如下:
? 使用外部知識。這種方法類似于人類認知過程中的識別階段,需要在相關上下文中暴露給新知識,就像人們首次接觸新信息一樣。例如,提供說明模型的事實更新的句子,以進行知識的初始識別。
? 將知識融入模型。這種方法密切類似于人類認知過程中的關聯階段,在其中形成了新知識與模型中現有知識之間的聯系。方法將輸出或中間輸出與學到的知識表示組合或替代。
?** 編輯內在知識**。這種知識編輯方法類似于人類認知過程中的掌握階段。它涉及將知識完全整合到其參數中,通過修改LLMs的權重并可靠地利用它們。
這篇論文隨后進行了廣泛而全面的實驗,涉及了12個自然語言處理(NLP)數據集。這些數據集經過精心設計,用于評估性能(§4)、可用性和底層機制,同時進行了深入的分析(§5),等等其他方面。我們研究的關鍵見解總結如下:
? 性能。我們構建了一個名為KnowEdit的新基準,并報告了針對LLMs的最新知識編輯方法的實證結果,提供了公平比較,展示了它們在知識插入、修改和刪除設置中的整體性能。 ? 可用性。我們闡述了知識編輯對一般任務和多任務知識編輯的影響,這意味著當代知識編輯方法在執行事實更新時對模型的認知能力和在不同知識領域之間的適應性幾乎沒有干擾。 ?** 機制**。我們觀察到在編輯后的LLMs中,存在一個或多個列的明顯關注點在值層中。此外,我們發現知識定位過程(例如,因果分析)傾向于僅針對與所討論實體相關的區域,而不是整個事實背景,這表明LLMs可能是通過回憶從預訓練語料庫中記憶的信息或通過多步推理過程來得出答案。此外,我們深入探討了知識編輯對LLMs可能導致意外后果的可能性,這是一個需要仔細考慮的方面。
最后,我們深入探討了知識編輯的多方面應用,從各種角度(§6)考察其潛力,包括高效的機器學習、人工智能生成內容(AIGC)、可信人工智能和人機交互(個性化代理)。此外,我們的討論還涵蓋了知識編輯技術的更廣泛影響,特別關注能源消耗和可解釋性等方面(§7)。這篇論文旨在成為LLMs領域進一步研究的催化劑,強調效率和創新。為了支持和鼓勵未來的研究,我們將使我們的工具、代碼、數據拆分和訓練模型檢查點公開可訪問。
大模型知識編輯
知識編輯對LLMs的初步內容 通過對各種數據集的大量訓練,LLMs積累了豐富的事實和常識信息,使這些模型成為虛擬知識存儲庫[47, 141]。這個豐富的知識庫已經在各種下游任務中得到有效利用,如許多研究所證明的那樣[142]。此外,王等人[143]已經展示了LLMs在自主構建高質量知識圖的潛力,無需人類監督。盡管LLMs在其當前狀態下作為新興知識庫表現出了潛力,但它們也存在一定的局限性。這些不足在實際應用中常表現為輸出的不準確或錯誤。理想的知識庫不僅應存儲大量信息,還應允許進行高效和有針對性的更新,以糾正這些錯誤并提高其準確性。認識到這一差距,我們的論文引入了知識編輯的概念,旨在實現對LLMs的快速和精確修改,使它們能夠生成更準確和相關的輸出。通過實施對LLMs的知識編輯,我們旨在提高LLMs的效用,使它們更接近成為普遍可靠和適應性強的知識存儲庫的理想目標。這一進展有望解決LLMs目前的缺陷,并釋放它們作為動態和準確知識庫的全部潛力,以供應用使用。
知識編輯的最初目標是修改LLM中的特定知識k,以提高LLM的一致性和性能,而不需要對整個模型進行精細調整。這種知識可以涉及許多領域和類型,例如事實[77]、常識[144]、情感[145]等等。知識編輯具有挑戰性,因為LLMs中的知識具有分布和糾纏的特性。
LLMs的發展已經達到了一個階段,其能力與人類的認知過程非常相似,特別是在學習和獲取知識方面。從人類學習過程中汲取靈感,我們可以類比地將這些概念應用到LLMs的編輯過程中,正如圖2所示。教育和認知研究[1-3]將人類的知識獲取劃分為三個明確的階段:識別、關聯和掌握。這些階段為概念化LLMs中的知識編輯方法提供了一個框架,我們在表2中列出了它們。
? 識別階段:在識別階段,模型需要在相關背景下接觸新知識,就像人們首次遇到新信息一樣(§3.3.1)。例如,提供描述事實更新的句子作為模型演示可以初步識別需要編輯的知識。
? 關聯階段:在關聯階段,新知識與模型中現有知識之間建立聯系(§3.3.2),類似于人類將新思想與先前概念相關聯。方法會將輸出或中間輸出h與已學知識表示hknow結合或替代。
? 掌握階段:掌握階段涉及模型完全掌握其參數中的知識并可靠利用它(§3.3.3),類似于人類的深層掌握。這種方法直接改變了模型的權重?W,模型可以處理問題,無需任何外部幫助或合并。
實驗結果
主要來說,SERAC在知識插入和修改任務中表現良好。它的編輯成功率優于其他編輯方法,且可移植性相對較好,因為新的反事實模型可以有效地學習編輯后的知識。與此同時,在不改變原始模型參數的情況下,SERAC除了ZsRE之外,在局部性能方面表現良好。然而,由于反事實模型通常比原始模型小,其生成能力不是很強,在WikiDatacounterfact、ZsRE和Convsent等任務中,我們可以發現SERAC的流暢性較其他編輯方法如MEND更低。與此同時,在ICE任務中,我們可以發現編輯成功率并不太好,這可能歸因于知識沖突問題。同時,IKE提出將演示文稿連接在一起作為提示,但它們需要較長的輸入長度,并限制了模型進行下游任務。 對于修改模型參數的方法,我們可以發現MEND在不同指標下在這些任務中表現良好。它的編輯成功率和可移植性良好,表現出良好的局部性和流暢性。然而,對于ROME和MEMIT,盡管編輯成功率更好,但它們的局部性不如MEND和其他類型的編輯方法。同時,它的可移植性令人不滿。對于局部微調方法FT-L,其編輯成功率不如ROME或MEMIT,但局部性和可移植性更好。此外,似乎FT-L在處理插入任務時更好,因為其在WikiDatarecent任務中的編輯成功率和可移植性優于ZsRE和WikiDatacounterfact。對于WikiBio任務,當前方法可以適當減輕幻覺并保持良好的流暢性。至于Convsent任務,我們可以發現當前方法不能很好地改變模型的情感,因為編輯成功率低于65%。SERAC,它可以完美地處理小型LMs [145],在7B模型上表現不佳。考慮到其在其他任務中在事實級別編輯方面的出色表現,MEND對這些任務的流暢性也較低。至于知識刪除任務Sanitation,旨在從LLMs中刪除知識,我們可以發現當前的知識編輯方法不能適當地處理這項任務。我們可以發現ROME可以避免模型提供目標知識,因為它的準確率達到了90%。但是,它會破壞模型對無關知識的性能,因為其局部性僅為55.61%。其他編輯方法也不能刪除與給定知識相關的模型。
我們還展示了在WikiDatarecent和WikiDatacounterfact的子指標中的平均性能結果,如我們在圖3中的先前評估部分中討論的那樣。在這里,我們可以發現MEND在推理集下表現更好,而AdaLoRA表現出良好的邏輯概括性能。
多模態3D場景理解由于其在自動駕駛和人機交互等多個領域的廣泛應用而受到了廣泛關注。與傳統的單一模態3D理解相比,引入額外的模態不僅提高了場景解釋的豐富性和精確性,而且確保了更為魯棒和有彈性的理解。在多變和具有挑戰性的環境中,這尤為重要,因為僅依賴3D數據可能是不夠的。盡管在過去三年中,多模態3D方法的發展呈現上升趨勢,尤其是那些整合多攝像頭圖像(3D+2D)和文本描述(3D+語言)的方法,但值得注意的是,缺乏一個全面且深入的綜述。在這篇文章中,我們提供了最近進展的系統性調研,以填補這一空白。我們首先簡要介紹一個背景,正式定義各種3D多模態任務并總結其固有的挑戰。之后,我們提出了一個新穎的分類法,根據模態和任務對現有方法進行了全面分類,探索了它們各自的優勢和局限性。此外,我們還提供了最近方法在幾個基準數據集上的比較結果,以及深入的分析。最后,我們討論了尚未解決的問題,并為未來的研究提供了幾個可能的方向。
//www.zhuanzhi.ai/paper/db0ef107bb8313585581f0bab52ab996
給定一個3D點云和來自另一模態的信息,如2D圖像和自然語言,多模態3D場景理解旨在理解每個物體及其周圍環境的語義含義 [1], [2], [3]。對3D場景的全面理解使代理能夠識別實體的類別和位置,并創建場景的新品牌內容和風格。與僅使用3D點云相比,2D圖像的加入提供了額外的顏色和紋理信息,而自然語言的引入則實現了人機交互。因此,多模態3D場景理解已成為計算機視覺中的一個重要研究領域,應用于自動駕駛[4]、機器人導航[5]和人機交互[6]。
多模態3D場景理解可進一步分為:(1) 3D+2D場景理解。3D LiDAR點云提供了充足的深度和幾何結構信息,這有助于獲得3D物體的形狀和姿態。但它們缺乏顏色信息和紋理細節,對于遠距離的物體往往稀疏而無序[7], [8], [9], [10], [11]。相反,2D相機圖像通常包含豐富的顏色、紋理和背景,但缺乏幾何信息,且易受天氣和光線條件的影響[12], [13], [14], [15]。自然地,利用LiDAR點云和相機圖像之間的互補性可以更好地、更完整地感知3D環境。但這兩種傳感器捕獲的同一個3D場景的表示之間經常會出現差異,因為LiDAR傳感器通過360度旋轉捕獲點云,而相機從透視視圖捕獲圖像,沒有深度感[16]。為了解決這個問題,提出了一些3D+2D場景理解方法,通過基于幾何的對齊[17]和基于語義的對齊[18]來進行LiDAR-相機融合。基于融合的特征,這些方法可以進一步執行3D物體檢測和分割[19], [20], [21],這通常用于自動駕駛和機器人導航。(2) 3D+語言場景理解。傳統的3D場景理解通常要求用戶具有專業知識,這對普通用戶不友好[22], [23], [24], [25], [26], [27]。用戶現在期望有一種更便捷的方式將他們的意圖傳達給計算機,實現信息交換并獲得個性化的結果。為了實現便捷的人機交互,研究人員提出了3D+語言場景理解。它結合3D視覺信息和自然語言作為輸入[28], [29], [30],因為自然語言可以作為背景知識和查詢條件來反映用戶意圖。通過多模態交互,經常采用如Transformer[31], [32]或圖神經網絡[33], [34]等技術,3D+語言場景理解方法不僅可以定位用戶提到的實體(例如,視覺定位和開放詞匯識別),還可以生成用戶所需的內容(例如,密集字幕,視覺問題回答,場景生成)。
盡管近年來出現了眾多方法,但多模態3D場景理解的很大一部分仍然分散在不同的任務中,并且沒有此類系統的調查存在。因此,有必要系統地總結近期的研究,全面評估不同方法的性能,并有前瞻性地指出未來的研究方向。這激發了本次調查,將填補這一空白。本文的主要貢獻可以總結為:
? 關于多模態3D場景理解的系統性調查。據我們所知,這是第一篇全面討論多模態3D場景理解近期進展的調查。為了使讀者對我們的文章有清晰的理解,我們從所需數據模態和目標下游任務的角度將算法分類為不同的分類,如圖1所示。
? 全面的性能評估和分析。我們比較了幾個公開可用的數據集上現有的多模態3D場景理解方法。我們的深入分析可以幫助研究者為其特定應用選擇合適的基線,同時也提供了關于修改現有方法的有價值的見解。
?** 對未來前景的有洞察力的討論**。基于系統調查和全面的性能比較,討論了一些有前途的未來研究方向,包括大規模3D基礎模型、數據高效訓練、3D建模的計算效率以及添加額外模態。
本文的結構組織如下。第2節總結了多模態3D場景理解中的問題定義和主要挑戰。第3節和第4節分別對3D+2D和3D+語言場景理解中用于不同下游任務的典型方法進行了深入探討。第5節介紹了基準數據集、評估指標以及不同技術的比較分析。最后,第6節總結了這篇文章并討論了未來研究的有前途的方向。
3D+2D多模態場景理解可以細分為多模態室外/室內3D對象檢測和多模態室外/室內3D語義分割。從2020年至今的現有3D+2D多模態方法的時間性概述如圖2所示。
3D+語言多模態場景理解可以分為3D視覺錨定、3D密集標注、3D問題回答、文本驅動的3D場景生成、開放詞匯的3D識別以及其他類別。從2020年至今的現有3D+語言多模態方法的時間性概述如圖5所示。
**結論與展望 **
本綜述為您提供了多模態3D場景理解的最新深入了解。我們首先總結了3D+2D和3D+語言情況下的任務定義和固有挑戰。接著是對每個任務的關鍵技術的結構化分類。此外,我們提供了對幾個基準數據集的最新進展的比較結果,并提供了有洞察力的觀察。我們希望這項調查能為新手和經驗豐富的從業者提供一個全面的指導。在多模態3D場景理解中,仍有許多進一步探索的可能性。以下提供了一些有前途的未來研究方向。 大規模3D-語言基礎模型。基于2D到3D轉移的當前3D VLMs在零射擊能力和下游應用中受到限制,主要是由于數據規模有限和幾何信息保留不足[41]。這強調了大規模3D-語言基礎模型的必要性。解決這一挑戰的主要解決方案在于創建可以支持從零開始訓練VLMs的大型數據集。此外,高效的遷移學習方法,包括像提示調整[177]和LORA[178]這樣的技術,通過利用預訓練的知識為特定任務提供了很大的應用前景。
數據高效訓練。考慮到與數據收集和注釋相關的顯著成本,當前的許多研究都局限于小規模數據集。因此,強調為有限數據量量身定制的健壯模型訓練和優化的開發變得越來越重要,從而減少對大規模數據集的依賴。最近的研究已經在解決數據注釋挑戰方面展現出了有前途的結果,通過無監督和弱監督學習方法。此外,使用文本到圖像或文本到3D生成合成逼真樣本有望進一步被研究,這可能緩解數據收集問題。
3D建模的計算效率。鑒于點云的大量體積,計算需求可能會顯著增加。因此,計算效率高的3D模型變得至關重要。為了應對這一挑戰,采用模型壓縮技術,如量化[179]、修剪[180]和高效結構[181],對于減少計算復雜性至關重要。此外,利用硬件優化如Flash attention[182]可以促進應用在邊緣設備上的部署,為提高效率提供另一種途徑。
納入其他模式。盡管在多模態3D建模方面取得了令人印象深刻的進展,但主要的重點仍然是圖像和語言。我們設想將更多的模式,如音頻,納入一個綜合模型來適應它們的聯合分布,這對于理解復雜的3D場景更為有助。鑒于訓練新模型時的復雜訓練要求和成對數據的稀缺,提高現有的多模態3D模型的效果可能更為有效,通過集成其他模式。一個可行的方法[183]是使用最小的成對數據集對齊每一個定義良好的、特定模式的模型。
大型語言模型(LLMs)展示了出色的泛化能力,這促進了眾多模型的發展。這些模型提出了各種新的架構,微調了現有架構的訓練策略,增加了上下文長度,使用了高質量的訓練數據,并增加了訓練時間,以此超越基線性能。分析新的發展對于識別那些能提高LLMs訓練穩定性和改善泛化能力的變化至關重要。這篇綜述論文全面分析了LLMs的架構及其分類,訓練策略,訓練數據集,性能評估,并討論了未來的研究方向。此外,這篇論文還討論了LLMs背后的基本構建模塊和概念,然后對LLMs的重要特性和功能進行了全面概述。最后,這篇論文總結了LLMs研究的重要發現,并整合了開發高級LLMs的重要架構和訓練策略。鑒于LLMs的持續發展,我們打算定期更新這篇論文,通過添加新的部分并展示最新的LLMs模型。
//www.zhuanzhi.ai/paper/c50ae8aa97761c357e5a03b701379652
1. 引言
語言在人類的交流和自我表達中起著基礎性的作用,同樣,通信對于機器與人類和其他系統的互動也極為重要。大型語言模型(LLMs)已經成為處理和生成文本的尖端人工智能系統,旨在進行連貫的交流[1]。對LLMs的需求源于對機器處理復雜語言任務的日益增長的需求,包括翻譯,摘要,信息檢索和對話交互。最近,語言模型方面取得了顯著的突破,主要歸功于深度學習技術,像transformers這樣的神經結構的進步,增加的計算能力,以及從互聯網中提取的訓練數據的可獲取性[2]。這些發展引起了革命性的轉變,使得能夠創建在某些評估基準上接近人類水平表現的大型語言模型(LLMs)成為可能[3],[4]。尤其是預訓練語言模型(PLM),在大規模文本語料庫的自監督設置下訓練,展示了對于文本理解和生成任務的巨大泛化能力[5],[6],[7]。當預訓練語言模型(PLMs)微調用于下游任務時,其性能顯著提升,超越了從頭開始訓練的模型的表現。這些語言模型的特性激勵了研究者在更大的數據集上訓練更大的PLMs,他們發現,進一步擴大模型和數據集的規模可以提高泛化能力。
如今,現代LLMs能夠在多個領域進行諸如代碼生成、文本生成、工具操作、推理和理解等多種任務,在零樣本和少樣本的情況下,甚至不需要在下游任務上進行任何微調就能做到這一點[8],[9],[10]。以前,較小的模型無法達到這樣的泛化,這標志著語言建模的重大進步。這一發展在研究社區中激發了對LLM架構和訓練策略改進的熱情和興奮,導致了眾多LLMs的開發[11],[12],[13],[8],[9],[10],[14]。圖1展示的圖表顯示了隨著時間的推移,發布的LLMs數量(包括開源和閉源模型)的增加趨勢。此外,圖2突出顯示了各種LLMs的重要發布名稱。在大型語言模型(LLMs)的早期階段,許多研究工作都集中在為下游任務開發轉移學習的模型[11],[12],[15],直到像GPT-3這樣的模型的出現[8],即使不進行微調也表現出了令人印象深刻的性能。由于GPT-3的閉源性質,人們對開源替代品有需求,這導致了各種模型的開發[9],[10],這些模型與GPT-3的規模相當,并在廣泛的基于網絡的數據集上進行訓練[16],[17],[18],[19]。隨后,研究人員提出了幾種架構設計和訓練策略,這些設計和策略在各種任務上顯示出優于GPT-3的性能[15],[14],[20],[21]。
LLMs的性能可以通過指令微調進一步提高,超越了在各種基準測試中預訓練的LLMs的表現[22],[23]。LLMs的指令微調指的是在微調階段引入額外的提示或指令的特定訓練方法,以指導輸出,從而使用戶能夠更細粒度地控制LLMs的輸出。這些提示可以是自然語言指令,也可以是根據任務需求的示例演示。在文獻中,已經為指令微調策略整理了不同的數據集。這些數據集包含更多的實例和任務,進一步提高了對基線的性能[24],[23],[25],[26]。進行指令微調時,需要更新所有的模型參數。然而,參數效率微調采取了不同的方法,只更新少數參數,同時仍然保持良好的性能。這種方法保持原模型不變,而在模型的不同位置添加少量額外的參數[27],[28],[29],[30],[31]。這種方法有助于實現高效的微調,同時最小化對模型總體性能的影響。文獻中介紹了采用各種方法的眾多預訓練和微調模型用于LLMs。一些綜述論文提供了LLMs中增強技術的概述[32]。此外,還有一篇全面的評論可供參考,涵蓋了架構,微調,新能力,以及LLMs的可用性[33]。另一篇綜述提供了基礎模型的歷史記錄[34]。然而,這些評論論文并未深入探討個別模型的具體細節,只提供了對架構和訓練方法的表面理解。相反,我們的論文旨在通過討論細節,提供更深入的分析單個LLMs。
大型語言模型(LLMs)的架構、訓練數據集以及其他顆粒度方面的細節,特別是從歷史的角度來看,缺乏全面和詳細的討論,這激勵我們進行一項詳盡的調查。本次調查旨在對LLMs進行深入且全面的分析,深入探討其開發、架構、訓練數據集和相關組件的細節。
據我們所知,這是第一篇討論LLMs細節的全面調查論文。 我們對各種LLMs架構及其分類進行了深入分析。此外,我們還討論了LLMs的基礎知識,以使對LLMs不熟悉的讀者能夠自給自足,從而使論文更具生產力。 我們的論文側重于為每一個LLM模型提供全面的細節,并涵蓋了如架構修改、訓練目標、使用的數據集、穩定訓練的策略、關鍵發現、建議以及訓練過程中遇到的挑戰等方面。 我們的目標是在我們的論文中總結這些關鍵細節,以幫助研究人員在他們的工作中確定更好的架構和訓練方法。
我們的論文補充了一篇關于LLMs的最新綜述論文[33],其中涵蓋了數據預處理、數據清洗、規模定律、新出現的能力、調整調優和利用等主題。盡管該綜述論文提供了關于架構的信息,但并未深入探討架構變化、訓練目標和提出的LLMs的具體發現的細節。我們討論的LLMs模型的參數至少有100億個,或者更多,類似于論文[33]。我們的論文中并未討論小于這個規模的模型。可以參考[35],[36],[32]等綜述論文來探索較小的模型。本論文的結構如下。第二部分討論了LLMs的背景,簡潔地概述了構成這些模型的基本構建模塊。我們討論了架構風格、微調策略、庫以及分布式訓練方法。該部分作為理解后續對LLMs討論的基礎。第三部分重點介紹了LLMs的概覽、架構以及訓練管道和策略。第四部分提出了每個LLM的關鍵發現。第五部分強調了在這些模型的功能中起關鍵作用的配置和參數。在第六部分討論了LLM的訓練和評估基準,然后在結論部分給出了總結和未來方向。