偏好調整是將深度生成模型與人類偏好對齊的關鍵過程。本文對偏好調整及其與人類反饋的整合的最新進展進行了全面綜述。文章分為三個主要部分:
介紹和預備知識:介紹強化學習框架、偏好調整任務、模型和跨不同模態(語言、語音、視覺)的數據集,以及不同的策略方法;
深入分析每種偏好調整方法:詳細分析偏好調整中使用的方法;
應用、討論與未來方向:探討偏好調整在下游任務中的應用,包括不同模態的評估方法,以及未來研究方向的展望。
我們的目標是展示偏好調整與模型對齊的最新方法,提升研究人員和從業者對該領域的理解。我們希望能夠激勵更多人參與并推動這一領域的創新。 關鍵詞:偏好調整、人類偏好、強化學習、多模態、多語言、大型語言模型、視覺語言模型、語音語言模型、生成模型、綜述、DPO、RLHF。
1 引言
從人類反饋中學習是將生成模型與人類偏好對齊的重要步驟,旨在生成與人類語言和寫作相似的輸出。盡管生成模型在自監督學習中的學習能力強大,但這些模型經常誤解指令,導致生成出現幻覺 (Ji 等, 2023a; Yao 等, 2023a)。此外,確保生成內容的安全性仍是這些模型面臨的重大挑戰。關于使用人類反饋進行偏好調整的廣泛研究表明,對抗樣本可以用來破解系統 (Rando 和 Tram`er, 2023; Wei 等, 2024)。理想情況下,生成模型需要受到控制,以確保其輸出是安全的并且不會造成傷害。模型通常會表現出意外行為,例如編造事實 (Chen 和 Shu, 2023; Sun 等, 2024),生成帶有偏見或有害的文本 (Hartvigsen 等, 2022),或未能遵循用戶指令 (Ji 等, 2023b; Tonmoy 等, 2024)。此外,數據隱私的保護至關重要,以確保模型的安全運行并保護用戶隱私 (Brown 等, 2022)。在文本到圖像生成任務中,大規模模型常常難以生成與文本提示緊密對齊的圖像 (Feng 等, 2022),尤其是在組合圖像生成 (Liu 等, 2022; Lee 等, 2023) 和連貫生成方面 (Liu 等, 2023a)。同樣,在文本到語音任務中,Zhang 等 (2024a) 和 Chen 等 (2024a) 將主觀人類評價整合到訓練循環中,以更好地使合成語音符合人類偏好。 偏好調整已廣泛應用于語言任務,通過訓練指令調整的大型語言模型(LLM)來實現,例如 Llama (Touvron 等, 2023b; Dubey 等, 2024),Phi (Abdin 等, 2024),Mistral (Jiang 等, 2023a),Nemotron (Parmar 等, 2024; Adler 等, 2024),Gemma (Team 等, 2024)。諸如 GPT-4 (Achiam 等, 2023),Gemini (Team 等, 2023; Reid 等, 2024),Claude (Anthropic, 2024),Command-R 和 Reka (Ormazabal 等, 2024) 等商業模型也利用了人類偏好對齊來提升其性能。LLM 的對齊提高了任務特定技能、連貫性、流暢性,并有助于避免不期望的輸出。此外,多語言 LLM 的對齊研究也有所裨益,例如 Aya (Aryabumi 等, 2024; Ust¨un 等, 2024),BLOOMZ 和 mT0 (Muennighoff 等, 2023),以及區域性 LLM 如 Cendol (Cahyawijaya 等, 2024) 和 SEALLM (Nguyen 等, 2023)。實現 LLM 對齊的常見方法包括使用強化學習技術,通過最大化獎勵來引導語言模型遵循偏好樣本。通過人類反饋的強化學習(RLHF)(Christiano 等, 2017) 是最早用于使模型與人類偏好對齊的方法,進一步應用于深度學習領域,并通過其在 LLM 中的成功(Ouyang 等, 2022;Bai 等, 2022a)得到普及,采用了 PPO (Schulman 等, 2017),REINFORCE (Kool 等, 2019),在線定向偏好優化 (Guo 等, 2024a) 和監督微調 (SFT)-類方法 (Dong 等, 2023)。它通常包括三個關鍵方面:人類反饋收集、獎勵建模和在線 RL 進行策略優化。然而,最近的方法允許在離線方式下與策略模型一起訓練獎勵模型,正如 DPO (Rafailov 等, 2024) 所展示的那樣,并通過離線和在線策略的聯合訓練 (Zhao 等, 2023) 進行優化。此外,偏好調整還應用于視覺文本任務,已被證明能夠通過圖像和文本嵌入的對齊分數(使用預訓練的視覺文本模型,如 CLIP (Radford 等, 2021) 和 CoCa (Yu 等, 2022a) 進行衡量)來改善圖像和文本的表示 (Ramesh 等, 2022;Saharia 等, 2022;Yu 等, 2022b)。Wu 等 (2023c) 使用 LoRA (Hu 等, 2021) 對齊 Stable Diffusion (Lee 等, 2023),這是一種視覺文本預訓練模型。關于語音的應用尚未被廣泛探索,相關文獻中僅有少量工作。Zhang 等 (2024a) 研究了代碼與文本之間的對齊。
本文對不同模態下的人類反饋偏好調整的最新進展進行了綜述。它不僅提供了一個全面的介紹,包括相關基礎知識以幫助讀者熟悉這一主題,還對最新提出的方法進行了深入回顧和討論。總結來說,本文包括以下貢獻: * 我們對語言、語音和視覺任務等不同模態的模型的偏好調整進行了全面概述,并擴展到所有現有的偏好調整方法,包括強化學習(RL)方法。 * 我們從現有文獻中整理并系統化了偏好調整的框架和分類。 * 我們展示了偏好調整在使用人類反饋改善生成方面的各種應用,并描述了用于評估深度生成模型質量的自動和基于人類的評估方法。 * 我們討論了偏好調整的機會和未來研究方向。
通過這篇綜述,我們旨在展示偏好調整和生成模型對齊的最新方法,使研究人員和從業者能夠更好地理解這一主題并進一步創新。
分類法
我們為所有偏好調整方法定義了以下類別,如表 2 所示。圖 1 展示了我們在本綜述文章中研究的五個類別,并描述如下:
采樣
類似于強化學習(RL)文獻,我們根據如何采樣數據并使用它們進行訓練或獲取獎勵對方法進行分類:離線和在線的人類對齊。這一分類與我們如何計算獎勵并將其用于策略模型有關。在在線人類對齊設置中,智能體通過與環境交互收集一批樣本,并使用它們更新策略。這些樣本的獎勵可以通過獎勵模型收集,或由策略模型生成的樣本獲得。而在離線人類對齊設置中,數據來自于離線的人類演示。對于在線方法,我們還將這些方法分類為同策略(行為策略與優化策略相同)或異策略(行為策略與優化策略不同)。
模態
我們研究了偏好調整在不同模態中的使用,例如文本、語音、視覺、運動覺等。如果我們無法對其進行分類,則歸為“其他”。在自然語言處理(NLP)的最新進展中,強化學習的理念已進一步擴展到語言和語音任務,甚至跨模態任務(如視覺-文本)。因此,按研究的模態(例如文本、語音、視覺、視覺-文本)對論文進行分類是非常重要的。
語言
我們探索了偏好調整在不同語言中的應用。在這種情況下,我們將方法分類為英語、非英語和多語言。
獎勵粒度
在偏好調整中,獎勵可以在不同的粒度水平上計算。粒度水平可擴展為兩類:樣本級和標記級。每種模態的標記級可能不同,例如在文本任務中,我們可以使用詞匯中的子詞作為標記;在視覺任務中,圖像的片段可以作為標記。
偏好調整
在本節中,我們介紹了用于訓練偏好調整生成模型的通用框架。如表 3 所示,偏好調整的訓練框架通常從**監督微調(SFT)**階段開始,在此期間,生成模型通過下一個標記預測任務進行訓練,或者使用經過指令微調的模型作為基礎初始化模型。SFT 的重點在于提升模型生成標記的能力,因為它引導模型如何響應輸入提示。當模型能夠正確生成流暢的文本序列后,通過強化學習(RL)進一步進行策略優化,使模型與偏好目標對齊。對齊的目的是引導模型根據偏好目標以適當的方式回答問題。這一步是確保模型生成與人類偏好一致的必要訓練階段,因此模型的行為會更接近人類的表現。值得注意的是,人類對齊階段也可以與 SFT 進行聯合訓練。
大型語言模型(LLMs)中的情感認知對于提升各類應用的性能至關重要,如社交媒體、人機交互以及心理健康評估。我們探討了當前的研究現狀,主要圍繞情感分類、情感豐富的響應生成和心理理論評估,同時也承認了依賴標注數據和情感處理復雜性等挑戰。在本文中,我們詳細綜述了LLMs在情感認知領域的最新進展,探討了關鍵研究、方法、成果和資源,并將其與烏爾里克·奈瑟(Ulric Neisser)的認知階段進行了對齊。此外,我們還概述了這一不斷發展的領域中未來研究的潛在方向,包括無監督學習方法的發展以及更復雜且可解釋的情感認知LLMs的構建。我們還討論了對比學習等高級方法,這些方法用于提升LLMs的情感認知能力。
在當今的情感計算領域,越來越多地認識到大型語言模型(LLMs)中的情感認知的重要性(Ren等人, 2024)。它為人類情感和認知的復雜過程提供了深刻的見解。這一領域不僅涉及對個體或群體的情感狀態進行分析,還有效地將這些情感應用于各種領域,如社交媒體分析(Chen等人, 2024b;Yang等人, 2024;Chen等人, 2024e;Jin等人, 2023, 2024b)、人機交互(Chen等人, 2023e,c)和心理健康評估(Chen等人, 2024d)。具備情感認知能力使LLMs能夠更緊密地與人類價值觀保持一致,從而提升其在情感相關下游任務中的表現。
當前,關于LLMs情感認知的研究主要集中在處理和分析情感數據的各種方法上。這包括情感分類(Zhang等人, 2023)、生成情感豐富的響應(Xie等人, 2023;Chen等人, 2024g),以及“心理理論”評估(Sap等人, 2022)。研究人員還通過上下文學習(Sun等人, 2023;Chen等人, 2024c)和微調方法(Peng等人, 2023;Chen等人, 2023d)等技術,進一步增強LLMs的情感能力。然而,挑戰仍然存在,包括對標注數據的過度依賴、處理復雜情感的困難,以及解釋LLMs在情感認知中的決策過程的難度。此外,情感認知與人類的情感心理學密切相關,不僅需要計算方法和技術,還需要對心理學理論有深刻的理解和應用。 在我們的綜述中,我們強調結合心理學的視角,特別是基于烏爾里克·奈瑟(Ulric Neisser)的認知心理學理論(Neisser, 2014),來探討LLMs在情感認知中的應用與研究。奈瑟被譽為認知心理學之父,他在《認知心理學》一書中將認知描述為一個包含感覺、知覺、想象、記憶、回憶、問題解決和思維的綜合過程。圖1展示了本次綜述的框架。具體而言,我們首先深入探討了LLMs在情感認知中面臨的三個關鍵挑戰:情感問題的獨特性、情感方法的復雜性和情感任務的多樣性。接著,我們介紹了LLMs在情感認知中的兩個典型方向:情感評估和情感增強。基于Ulric Neisser的認知定義,我們將LLMs情感領域的工作劃分為七個階段。在每個階段中,我們探討了更詳細的研究方向和應用場景。此外,我們總結了情感認知領域的重要工作,并根據這七個階段對其進行分類,包括這些工作的動機、關鍵方法、性能表現以及可用的開源代碼和數據集。最后,我們識別并討論了該領域中仍未解決的問題和未來的研究方向。我們的工作主要貢獻包括:
我們從問題定義、方法論和應用領域的角度對情感認知中的主要挑戰進行了深入分析。
我們根據認知心理學理論的七個階段對情感領域的工作進行了分類,從而更好地將具體任務與人類認知過程對齊。
我們對情感認知領域的未來研究方向進行了深入的討論,旨在激發LLMs情感計算領域的進一步發展。
在本節中,我們通過將奈瑟的認知過程與LLMs的能力進行類比,詳細說明LLMs在情感認知中的七個階段。我們列出了具有代表性的研究,包括其動機、關鍵技術、結果以及開源代碼/數據集,見表1。擴展版本見表2和表3。
感覺是指LLMs展現出類似于人類在處理輸入文本數據時的能力。這方面的工作主要集中在輸入形式上。常見的輸入形式包括三類:提示工程、嵌入表示和知識增強。
提示工程是指通過添加一些指令來引導LLMs在下游任務中的表現。例如,Lynch等人(2023)提出了一種用于查詢LLMs的結構化敘事提示。該研究使用OpenAI的ChatGPT生成敘事,并通過卡方檢驗和Fisher精確檢驗等統計方法將這些敘事中的情感水平與真實推文進行比較;Ratican和Hutson(2023)提出了6DE模型,用于分析LLMs上下文中的人類情感。該模型考慮了情感的多個維度,如喚醒度、情緒、主導性、代理性、忠實度和新穎性;Zhang等人(2023)探索了四種提示策略,包括有上下文和無上下文的零樣本和少樣本提示,展示了這些提示在情感分析和識別任務中的優異表現。該研究強調了上下文信息在增強LLMs情感估計中的重要性。
不同于使用提示作為輸入,嵌入表示將輸入文本轉換為高維空間中的向量表示,捕捉詞匯的語義信息,用于優化LLMs的內部處理過程。例如,Xu等人(2023)探索了指令微調以增強LLMs在心理健康預測中的表現。微調后的模型Mental-Alpaca和Mental-FLAN-T5在性能上顯著超越了GPT-3.5和GPT-4,盡管模型體積明顯較小;Binz和Schulz(2023)研究了心理實驗數據用于微調LLMs。該研究表明,LLMs在準確模擬人類行為方面具有能力,并且在微調過程中使用嵌入表示時展示了其在情感認知中的潛力。
此外,知識增強是指將上下文或知識加入輸入中,以增強LLMs在處理下游任務中的表現。例如,Sun等人(2023)通過引入外部知識增強共情響應生成。該研究提出了一種名為CoNECT的新方法,利用情感指標來評估上下文相關性并促進共情推理;Gagne和Dayan(2023)探討了LLMs生成文本的情感分布。該方法通過利用特定分位數生成情感豐富的句子,展示了LLMs在情感生成方面的有效性,并提供了對LLMs內部機制的見解。 總之,當前在LLMs情感文本輸入處理方面的研究主要通過提示工程、嵌入表示和知識增強取得了顯著進展。這些方法增強了LLMs理解和生成情感豐富內容的能力。然而,在多樣化接收和處理文本輸入的模式方面仍有改進空間,包括整合更細致的內部情感認知,以更好地解釋和響應輸入。
知覺涉及解釋和理解感官信息,處理從感官收集的原始數據,以形成對外部世界的有意義理解。LLMs在情感認知中的知覺主要包含情感識別及其可解釋性。
情感識別是指識別上下文或對話中的情感。例如,Rathje等人(2023)探討了GPT-3.5和GPT-4在檢測各種語言心理構建(情感、離散情感和攻擊性)方面的表現,表明LLMs在準確性方面優于基于詞典的方法和微調的機器學習模型;Zhang等人(2023)展示了LLMs在情感識別任務中能夠實現可比甚至優于其他模型的表現,尤其是在識別少數情感類別方面;Lei等人(2023)提出了InstructERC框架,這是一個有效的生成框架,結合了檢索模塊和情感對齊任務用于情感識別;Venkatakrishnan等人(2023)強調了跨文化背景中情感檢測的重要性,研究了LLMs對重大事件(如伊朗Zhina(Mahsa)Amini的謀殺案和土耳其和敘利亞的地震)的反應;Rodríguez-Ibánez等人(2023)評估了社交網絡中的情感分析方法及其在股票市場估值、政治和網絡欺凌教育等領域的應用。研究發現使用LLMs(如GPT-3和GPT-J)的表現不佳,要求進行領域特定的調整;Peng等人(2023)采用了深度提示微調和低秩適應來研究LLMs在語言情感識別中的表現。研究表明,經過調整的LLMs在六個廣泛使用的數據集上表現出強大的可遷移性和可行性,超越了其他專用的深度模型;Kheiri和Karimi(2023)討論了使用LLMs進行情感分析的潛力,表明LLMs在處理語言中情感分析的細微差別方面表現優異;Ullman(2023)強調了GPT-3.5在預測人類情感方面的技能,突出了其理解和解釋文本中情感內容的能力。Carneros-Prado等人(2023)對GPT-3.5和IBM Watson進行了比較分析,使用了一個包含30,000條與新冠疫情相關推文的數據集。研究揭示了LLMs在情感分析和分類中的多方面能力,但它們在將文本表達與定義的情感類別相匹配方面仍存在困難。此外,幽默是情感認知中的一個更具挑戰性的研究領域。Trott等人(2023b)研究了GPT-3理解語言幽默的能力。實驗表明,GPT-3在檢測、欣賞和理解笑話方面表現出色,盡管未達到人類表現。研究表明,盡管LLMs擅長捕捉幽默,但僅憑語言并不足以完全理解笑話,圖像也很有用。
情感識別的可解釋性是通過詞權重分布、梯度、干擾等分析LLMs的內部狀態。Kwon等人(2022)通過比較基于評價特征的相似性計算方法和基于詞嵌入的相似性計算方法的性能,研究了表示情感概念的方法。研究發現,GPT-3在詞嵌入相似性計算中表現優越,但也過度依賴于情感概念的估值。
總體而言,LLMs在情感知覺方面取得了顯著進展,模仿了人類對情感細微差別的理解。盡管像GPT-3.5和GPT-4這樣的模型在檢測和解釋多種情感上下文方面表現出色,但它們在完全理解情感背景和細微差別方面仍面臨挑戰,強調了進一步提高其感知能力的必要性,以實現更準確的情感分類、理解深度、領域適應性和價值對齊。
想象是指生成與情感相關的內容,例如情感故事、詩歌和情感對話,目的是創造符合人類價值觀的內容。 在生成情感敘事方面,Xie等人(2023)專注于風格、語域和故事長度的變化,展示了LLMs在生成故事內容方面的顯著優勢。然而,一個關鍵觀察是LLMs在處理世界知識時傾向于復制現實世界中的故事。Yongsatianchot等人(2023a)研究了GPT-4在情感預測任務中的熟練程度,展示了其不僅能夠辨別和概念化情感理論,還能夠創作與情感相關的故事。通過提示GPT-4識別和操作情感體驗的關鍵元素,它展示了在其敘事中對情感強度的細致控制。
在生成情感對話方面,Zheng等人(2023)采用LLMs來增強情感支持對話。這種方法將對話增強視為對話補全任務,微調后的語言模型從不同話題中補全對話,隨后進行基于啟發式的后處理。Lee等人(2022)深入研究了GPT-3通過基于提示的上下文學習生成共情對話的能力。該研究引入了創新的上下文示例選擇方法,SITSM和EMOSITSM,利用情感和情境信息,揭示了GPT-3在共情方面的競爭表現,甚至超越了Blender 90M。Zhao等人(2023)評估了ChatGPT的情感對話能力,通過一系列下游任務評估ChatGPT在理解和生成情感對話方面的表現。Guo等人(2023)指出,ChatGPT在垂直領域(如繪畫創作)中的情感效果顯著。它可以提供更清晰、更詳細的繪畫指令,并理解繪畫中的抽象藝術表現和情感。
我們還關注一個更具體的方面:幽默生成,這是一種復雜且本質上具有人類特征的任務。例如,Jentzsch和Kersting(2023)深入探討了OpenAI的ChatGPT在幽默生成能力方面的表現,評估了ChatGPT在生成、解釋和檢測笑話方面的能力。ChatGPT傾向于重復相同的笑話處理過程,而不是創造新的笑話,盡管它可以準確解釋有效的笑話。Toplyn(2023)提出了一種創新的方法,用于LLMs的幽默生成。Witscript 3使用三種笑話生成機制來生成和選擇最佳的喜劇響應。這代表了LLMs與人類專業知識之間的合作,結合了由專業喜劇作家編寫的幽默算法。值得注意的是,Witscript 3的響應被人類評估者認為是笑話的概率為44%。Chen等人(2024f)構建了一個包含連鎖幽默和幽默思維導圖注釋的中文可解釋幽默響應數據集,以及與幽默相關的輔助任務,用于評估和改進PLM和LLMs的幽默響應能力。
總的來說,LLMs在情感相關內容的想象方面取得了重大成就,如故事、對話和幽默。它們在對話中的情感強度和共情方面表現出了細致的控制能力。然而,內容的原創性方面仍存在限制,特別是在幽默生成中,LLMs傾向于復制現有的笑話,而不是創造新的笑話。
記憶是指編碼和存儲知識,創建“記憶”的過程。LLMs中的記憶與它們通過訓練過程如何“記住”情感信息和知識有關,這對后續情感數據的處理和生成至關重要,例如角色扮演和角色模擬。
例如,Tao等人(2023)提出了一個創新框架,旨在改善LLMs的個性化角色扮演。他們采用了一種詳細的情感分類策略,并在對話數據集中對情感進行了注解,使GPT-4能夠根據其“記憶”中的情感創建角色檔案。 Shao等人(2023)將重點轉向基于個人檔案、經歷和情感狀態訓練智能體,而不是使用有限的提示來引導ChatGPT的API。實驗結果表明,編輯和恢復個人檔案有助于構建更準確和情感感知更強的LLMs模擬,模擬的人物更加人性化。Jiang等人(2023)探討了個性化LLMs的行為在多大程度上反映了特定的性格特質。該研究使用大五人格模型創建了不同的LLMs角色,并通過各種任務(包括性格測試和故事寫作)評估了它們的行為。結果表明,LLMs角色可以持續展現與其指定的人格特質一致的行為。Wang等人(2023)提出了RoleLLM框架,用于增強LLMs的角色扮演能力。該框架包括角色輪廓構建、基于上下文的指令生成以及角色特定知識的捕捉和記憶,展示了LLMs通過模擬語言風格和利用其記憶中的角色特定知識獲得的競爭性成果。
我們還研究了LLMs在構建情感記憶模式和恢復這些記憶方面的能力。例如,NathanKlapach(2023)深入分析了五種廣為人知的LLMs,包括BingAI、ChatGPT、GoogleBard和HuggingChat,重點分析了它們處理、模仿和表達情感的能力。這些LLMs被要求創建新故事,這些故事在語調、風格和情感影響方面反映了原始敘述的特征,以評估它們在存儲情感方面的能力并有效地復制這些特征。Russo等人(2023)介紹了一種新方法,LLMs能夠通過作者-審稿人流程管理社交媒體平臺上的錯誤信息,并生成情感響應。
總的來說,LLMs的最新研究重點是增強它們對情感信息的記憶,這對于角色扮演和角色模擬等任務至關重要。然而,在有效編碼和存儲復雜的情感知識方面仍然存在挑戰,特別是在由于上下文大小限制無法“記住”記憶的情況下。該領域正在探索如何改進LLMs的記憶模式及其準確和系統地保留情感信息的能力。
回憶是指提取情感記憶,從“記憶”中提取信息。在LLMs的情感認知中,回憶與它們從內部或外部知識中檢索與情感相關的信息能力有關,用于響應與情感相關的陳述、保持情感對話的一致性等。以下研究展示了LLMs如何有效利用情感記憶和歷史以增強決策過程。
例如,Jia等人(2023)提出了一個知識增強的記憶模型,用于情感支持對話。該模型能夠感知并適應對話中不同時期的情感變化,通過從對話中提取豐富的知識和常識(如ConceptNet)。Jeong和Makhmud(2023)提出了一種新方法,通過引入多樣化的參數集(如五種感官、屬性、情感狀態、與對話者的關系和記憶)豐富LLMs的響應。他們強調了記憶在保持對話連貫性和情感真實性中的重要性。Zhong等人(2023)引入了一種動態記憶機制,使LLMs能夠在當前決策過程中利用過去的情感互動。該機制受艾賓浩斯遺忘曲線(Ebbinghaus, 1885)的啟發,使LLMs能夠有選擇地回憶情感互動,從而更像一個真正的人類朋友。Qian等人(2023)強調了LLMs根據歷史情感背景生成共情響應的能力。他們引入了上下文學習和兩階段交互生成方法,使LLMs能夠處理和反思過去的情感互動,從而做出更具共情的決策。此外,Wake等人(2023)研究了情感歷史在決策中的應用。作者估計了當前語句的情感標簽,僅基于過去對話的歷史,展示了數據集和情感標簽選擇對ChatGPT情感識別表現的重大影響。
總之,最近對LLMs回憶能力的研究重點是檢索和利用情感記憶,以在情感相關互動中做出決策。這些研究表明,LLMs能夠適應動態情感變化,結合多樣化的參數,并利用歷史情感背景做出共情決策。然而,在完善復雜情感歷史的回憶、有效檢索最相關的知識并持續更新方面仍然存在挑戰。
情感認知中的問題解決是指在各種場景中解決與情感相關的下游任務(Li等人,2023a;Chen等人,2024a;Li等人,2022,2024b,2023c;Ni等人,2024a;Li等人,2023b,2024e)。 例如,在心理健康領域,Tu等人(2023)提出了S2Conv框架,專門用于為心理健康問題提供個性化支持。該框架集成了基于個性和記憶的對話模型與人際匹配插件,強調了LLMs在提供社交支持方面的潛力(Ni等人,2024b;Li等人,2024d;Jin等人,2024a;Li等人,2024a)。Qi等人(2023)評估了LLMs在心理健康領域的表現。Zhu等人(2024)研究了LLMs在進行心理推理任務中的使用,特別是推斷用戶的潛在目標和基本心理需求。Lai等人(2023)在心理咨詢場景中使用LLMs,提供即時響應和正念活動。Xu等人(2023)評估了LLMs在心理健康預測任務中的表現,強調了減輕偏見的必要性。在教育領域,Sajja等人(2023)提出了一個創新框架,用于個性化和自適應學習。 這些LLMs在情感相關問題解決中的多樣化應用展示了它們的廣泛潛力。然而,它們也揭示了諸如性別偏見和增強可解釋性等限制。未來的研究方向可能包括微調LLMs,以更好地滿足教育和心理健康領域的需求。
思考是指問題解決后的反思和回顧。在LLMs的情感認知中,它涉及如何利用“心理理論”解決下游任務(Zhou等人,2024;Li等人,2024c)。心理理論(Theory of Mind, ToM)(Carlson等人,2013)是理解自身和他人心理狀態(包括情感、意圖、期望、思想、信念)的認知能力。可以使用這一理論來預測和解釋各種行為。
LLMs在情感驅動的任務中展現了強大的思考能力。例如,Trott等人(2023a)展示了LLMs在推斷他人信念方面的優異表現。Gandhi等人(2023)引入了一種基于因果關系的模板方法,用于評估LLMs的ToM。他們發現GPT-4具有人類般的推理模式,并擁有強大的ToM。Sap等人(2022)評估了GPT-3在社會推理和心理狀態理解方面的表現,識別了LLMs的ToM能力的界限。Shapira等人(2023)通過多種檢測方法在六個任務中進行了廣泛實驗,評估LLMs的ToM能力,發現這些能力不夠穩健,更多依賴于表面的啟發式方法而不是堅實的推理。Holterman和van Deemter(2023)通過給ChatGPT-3和ChatGPT-4提供六個涉及人類推理偏差的問題,檢查了它們展示ToM的能力,發現ChatGPT-4在提供正確答案方面表現優于隨機結果,盡管有時基于錯誤的假設或推理。
在思考領域,焦點擴展到了行為。例如,Zhou等人(2023)提出了一種新的“為行動而思考”評估范式,評估LLMs是否能夠基于他人的心理狀態識別適當的行為,而不僅僅是對這些狀態的問題作出回應。該研究提出了一種名為“預見和反思”的零樣本提示框架,以增強LLMs在預測未來事件和通過行動選擇進行推理方面的能力。Jin等人(2022)旨在評估LLMs在理解和預測人類道德判斷和決策行為方面的表現。他們提出了一種基于法律專業知識和道德推理理論的創新道德推理鏈提示策略(MoralCoT),表明MoralCoT在道德推理、復雜的道德判斷和決策方面超越了現有的法律模型。Sorin等人(2023)回顧了LLMs展示共情的能力,探討了LLMs如何處理和表達復雜的情感觀點和推理。Del Arco等人(2022)強調了GPT-3在共情和痛苦預測中的作用,展示了其在復雜情感預測中的推理過程。Schaaff等人(2023)評估了ChatGPT的共情水平,并將其與人類標準進行了比較,比較了LLMs在理解和表達共情方面的能力。Saito等人(2023)展示了提出的ChatGPT-EDSS在捕捉對話中的共情方面的相似表現,評估了LLMs的情感理解和表達能力。Lee等人(2024)發現LLMs的響應比人類更具共情性,比較了模型和人類在情感推理和表達方面的差異。
總的來說,這些研究集中在LLMs的思考能力上。盡管像GPT-4這樣的LLMs在理解和推斷心理狀態方面表現出色,但在推理和反思的深度、心理理論的更好利用以及情感驅動行為預測方面仍然存在挑戰。該領域的目標是提高LLMs在回顧分析情感任務方面的能力,從而實現更細致和準確的問題解決。
在多模態模型訓練和推理過程中,由于傳感器限制、成本約束、隱私問題、數據丟失以及時間和空間因素,數據樣本可能會缺失某些模態,導致模型性能下降。本綜述概述了在缺失模態的多模態學習(MLMM)領域的最新進展,重點關注深度學習技術。這是第一個全面的綜述,涵蓋了MLMM的歷史背景以及其與標準多模態學習設置的區別,隨后詳細分析了當前的MLMM方法、應用和數據集,并討論了該領域面臨的挑戰和未來可能的發展方向。
多模態學習已成為人工智能(AI)領域的關鍵領域,專注于整合和分析各種數據類型,包括視覺、文本、聽覺和傳感器信息(圖1a)。這種方法反映了人類通過結合多種感官來更好地理解和與環境互動的能力。現代多模態模型利用深度學習的強大泛化能力,揭示單模態系統可能無法檢測到的復雜模式和關系。這種能力推動了多個領域的工作進展,包括計算機視覺。最近在這些領域的調查顯示,多模態方法的顯著影響,證明了它們能夠提高性能并實現更復雜的AI應用【7,224】。
然而,多模態系統在實際應用中往往面臨數據缺失或不完整的問題。這種情況的發生可能是由于傳感器故障、硬件限制、隱私問題、環境干擾和數據傳輸問題等多種因素造成的。如圖1b所示,在三模態的情況下,數據樣本可以分為全模態(包含所有三種模態的信息)或缺失模態(完全缺失一種或多種模態的數據)。這些問題可能在數據收集到部署的任何階段發生,顯著影響模型性能。現實世界中此類問題在多個領域廣泛存在。在情感計算領域,研究人員【31,150】發現,由于相機遮擋或麥克風噪聲過大,樣本中僅包含可用的圖像或音頻。同樣,在太空探索中,NASA的“機智號”火星直升機【36】由于火星上的極端溫度循環導致其傾角儀失效,面臨缺失模態的挑戰。為了解決這一問題,NASA應用了一項軟件補丁,修改了導航算法的初始化【169】。在醫療AI領域,由于隱私問題,某些數據樣本中某些模態可能不可用,導致多模態數據集中固有的模態缺失【222】。現實場景的不可預測性和數據來源的多樣性進一步加劇了這一挑戰。因此,開發能夠在模態缺失情況下有效運行的多模態系統,已成為該領域的關鍵研究方向。
在本綜述中,我們將處理缺失模態的挑戰稱為“缺失模態問題”。我們將解決該問題的方法稱為“缺失模態的多模態學習”(MLMM)。這一方法與傳統的全模態多模態學習(MLFM)形成對比。具體而言,在MLFM任務中,給定一個包含HHH模態的數據集,通常要求訓練模型能夠處理和融合所有HHH種模態的信息以進行預測。在訓練和測試過程中,使用來自所有HHH種模態的完整信息樣本。而在MLMM任務中,由于數據收集限制或部署環境中的約束,在訓練或測試時使用少于HHH種模態的數據。MLMM的主要挑戰在于在訓練和測試過程中動態且穩健地處理和融合任意數量的可用模態信息,同時保持與全模態樣本相當的性能。
本綜述涵蓋了MLMM的最新進展及其在信息檢索、遙感和機器人視覺等多個領域的應用。我們提供了對MLMM方法論、應用場景和相關數據集的細致分類。我們的工作擴展了現有專注于特定領域(如醫學診斷【5,151,235】、情感分析【179】和多視圖聚類【17】)的MLMM綜述。通過提供對當前研究的全面概述并識別未來工作的有前景方向,本綜述旨在為開發更穩健且適應性強的多模態學習系統做出貢獻。這些進展對于將智能系統部署在從行星探索的惡劣條件到日常生活中的動態和不可預測環境中至關重要。
本綜述的主要貢獻有三點:
我們根據四個主要維度的分類框架對現有的深度缺失模態多模態學習(MLMM)方法進行分類和討論:模態增強、特征空間工程、架構工程和模型選擇。
我們將解決缺失模態問題的模態增強方法分為兩類,針對模態層次上的原始數據。第一類是模態組成方法,該方法使用零值/隨機值、從相似實例中直接復制的數據,或通過檢索算法獲得的匹配樣本,與缺失模態樣本組合形成全模態樣本。第二類是模態生成方法,它使用生成模型(如自動編碼器(AEs)[55],生成對抗網絡(GANs)[42],或擴散模型[56])生成缺失模態的原始數據。
2.1.1 模態組成方法 當數據集中缺失模態樣本較少時,刪除這些樣本是多模態數據集預處理中的常見方法。但這種方法會減少數據集的規模,并在數據集中包含許多缺失模態樣本時導致一些稀有樣本消失。模態組成方法因其簡單有效而廣泛使用,且可以保持數據集的規模。典型方法之一是零值/隨機值組成方法,用零值/隨機值替換缺失模態數據,如圖3所示。在最近的研究中[28, 102, 114, 163],這些方法經常作為基線與提出的方法進行比較。針對缺失序列數據問題,例如視頻中的缺失幀,提出了類似的幀-零值方法[135],用零幀替換缺失幀并與可用幀組合。這些方法在典型的多模態學習訓練過程中非常常見。通過這些方法,多模態模型可以在預測時平衡和整合來自不同模態的信息,從而避免模型過度依賴一個或幾個模態,增強其魯棒性。然而,當數據集中大多數樣本都是缺失模態樣本時,這些方法難以很好地泛化。另一種組成方法基于檢索算法(圖3),通過從具有相同模態和類別的檢索樣本中復制/平均原始數據來填充缺失模態數據。一些簡便的方法會隨機選擇一個具有相同類別和所需模態的樣本,并與輸入的缺失模態組合,形成用于訓練的全模態樣本。例如,研究人員[204]提出了Modal-mixup,隨機補充缺失模態樣本來完成訓練數據集。然而,這類方法在測試階段無法解決缺失模態問題。針對視頻等流數據中的缺失幀問題,研究人員提出了使用幀重復法[135],通過使用過去的幀來補足缺失幀。一些工作[14, 41, 204]嘗試使用K近鄰(KNN)或其變體來檢索最佳匹配樣本進行組合。實驗表明,基于KNN的方法在處理測試階段的缺失模態問題時,表現優于隨機選擇等方法。但簡單的聚類方法往往存在高計算復雜度、對不平衡數據敏感及高內存開銷等問題。此外,基于檢索的模態組合方法不適用于像素級任務(如分割),僅適用于簡單任務(如分類),因為它們可能導致模型混淆。此外,上述所有方法雖然能夠完成缺失模態的數據集,但它們會降低數據集的多樣性。這對于高模態缺失率(大部分樣本都是缺失模態樣本)的數據集尤其成問題,因為這增加了過擬合到某些少量全模態樣本類別的風險。
2.1.2 模態生成方法 在缺失數據研究中,提出了各種矩陣填充方法[41],利用矩陣元素之間的潛在相關性。然而,在多模態數據集中,缺失數據通常以大塊形式出現,使得傳統方法在大規模處理和高維計算中效率低下。隨著深度學習的發展,生成缺失模態變得更加高效。當前生成缺失模態原始數據的方法分為單模態生成方法和統一模態生成方法。單模態生成方法為每個模態訓練單獨的生成模型,以應對任意缺失模態的情況,如圖5a所示。早期工作使用高斯過程[117]或玻爾茲曼機[159]從可用輸入生成缺失模態數據。隨著深度學習的發展,諸如AEs和U-Net[147]等方法被用于生成原始模態數據。Li等人[87]使用3D-CNN從磁共振成像(MRI)數據生成正電子發射斷層掃描(PET)數據。Chen等人[24]通過訓練U-Net模型,從MRI數據中生成其他兩種模態以解決MRI分割中的缺失模態問題。最近的工作[113]將AEs作為基線方法之一,通過為每個模態訓練一個AE來完成數據集。在領域自適應中,Zhang等人[220]提出了一個多模態數據生成模塊,通過領域對抗學習生成每個缺失模態,學習領域不變特征。GANs通過使用生成器創建逼真的數據,并讓鑒別器區分其與真實數據,顯著提高了圖像生成的質量。研究人員開始用GANs代替AEs和U-Nets生成缺失模態。例如,GANs通過現有模態的潛在表示生成缺失模態的原始數據,在乳腺癌預測中得到了應用[3],而WGANs則應用于情感分析[184]。在遙感領域,Bischke等人[8]使用GANs生成深度數據,改善了RGB模型的分割性能。GANs還用于機器人識別中生成RGB和深度圖像[45]。最近的研究[113]表明,GANs在生成更真實的缺失模態時表現優于AEs,并能帶來更好的下游任務模型性能。最近,擴散模型的引入進一步提高了圖像生成質量。Wang等人提出了IMDer方法[190],利用可用模態作為條件,幫助擴散模型生成缺失模態。實驗表明,擴散模型減少了恢復模態與缺失模態之間的語義模糊性,并且在泛化性能方面優于以往的方法。然而,為每個模態訓練一個單獨的生成器效率低下,且無法捕捉模態之間的潛在相關性。研究人員開發了另一種生成方法,即統一模態生成方法,訓練一個統一模型可以同時生成所有模態(圖5b)。代表性模型之一是Cascade AE[174],通過堆疊AEs來捕捉缺失模態與現有模態之間的差異,從而生成所有缺失模態。最近的研究人員,如Zhang等人[221],嘗試使用注意力機制和最大池化層來整合現有模態的特征,使得模態特定的解碼器能夠生成每個缺失模態。實驗表明,該方法比僅使用最大池化[19]來整合多個模態特征生成缺失模態更加有效。盡管上述方法在一定程度上能夠緩解性能下降的問題,但訓練能夠生成高質量、類似真實世界分布的缺失模態的生成器仍然具有挑戰性,尤其是在訓練數據集中包含較少全模態樣本的情況下。此外,模態生成模型顯著增加了存儲需求。隨著模態數量的增加,這些生成模型的復雜性也隨之增加,進一步增加了訓練過程和資源需求的復雜性。
以下介紹在特征空間層次解決缺失模態問題的方法。首先,我們介紹兩種基于約束的方法,通過施加特定約束來增強更具辨別力和魯棒性的表示學習(圖6)。一種方法是通過正則化來提高學習表示的有效性和泛化能力。另一種方法側重于最大化相關性,使用特定的度量來加強特征之間的關系。接下來,表示組成方法可以借鑒2.1.1節討論的解決方案,在模態的特征層次上操作,或使用算術運算來處理動態數量的模態。最后,我們介紹表示生成方法,該方法能夠生成缺失模態的特征表示。
與上述生成模態或模態表示的方法不同,一些研究人員通過調整模型架構來適應缺失模態的情況。根據其在處理缺失模態中的核心貢獻,我們將其分為四類:基于注意力的方法、基于蒸餾的方法、基于圖學習的方法和多模態大語言模型(MLLMs)。
模型選擇方法旨在使用一個或多個選定的模型進行下游任務,同時增強其魯棒性和性能。這些方法可以分為集成方法、專用方法和離散調度方法。集成方法通過投票、加權平均等方式組合多個選定模型的預測結果,以提高最終決策的準確性和穩定性。專用方法則為不同的子任務(如不同的缺失模態情況)分配專門的個體模型,專注于特定的子任務或子數據集。在離散調度方法中,用戶可以使用自然語言指令讓大型語言模型(LLMs)根據模態類型和下游任務自主選擇合適的模型。
在過去十年中,基于深度學習的多模態學習經歷了爆炸式增長,在學術界和工業界得到了廣泛應用。與這些應用相伴的是各種形式的多模態數據集的出現。然而,此類數據集的收集往往需要大量人力和成本。在某些特定的應用方向上,諸如用戶隱私問題、數據收集設備的傳感器故障等因素,可能導致數據集中存在缺失模態。在嚴重的情況下,多達90%的樣本可能存在缺失模態問題,使得傳統的全模態多模態學習(MLFM)在模型訓練時難以取得良好的性能。這催生了缺失模態多模態學習(MLMM)的任務。由于導致數據集不完整的因素通常來自不同的應用方向,下面我們根據這些應用方向介紹相應的數據集:情感分析、醫療診斷、檢索/描述、遙感、機器人視覺等。我們還根據應用和數據類型在表3中對這些數據集進行了分類。
在本綜述中,我們首次對缺失模態的深度多模態學習進行了全面回顧。我們首先簡要介紹了缺失模態問題的歷史發展及其在現實世界中的重要性原因。隨后,我們從兩個角度對該領域的當前進展進行了細致的分類和總結:方法論、應用與數據集。最后,我們討論了該領域現存的挑戰和未來可能的發展方向。盡管越來越多的研究人員參與到缺失模態問題的研究中,我們也關注到一些亟待解決的緊迫問題,例如統一的測試基準(如多模態大語言模型)以及更廣泛的應用需求(如自然科學)。通過我們的全面且詳細的綜述,我們希望能夠激勵更多的研究人員探索缺失模態的深度多模態學習技術,最終為開發出魯棒且高性能的AI系統做出貢獻。
盡管在大型語言模型(LLMs)中加速文本生成對于高效產生內容至關重要,但這一過程的順序性往往導致高推理延遲,從而對實時應用構成挑戰。為了解決這些挑戰并提高效率,已經提出并開發了各種技術。本文對自回歸語言模型中加速生成技術進行了全面的綜述,旨在了解最先進的方法及其應用。我們將這些技術分為幾個關鍵領域:投機解碼、提前退出機制和非自回歸方法。我們討論了每個類別的基本原理、優點、局限性和最新進展。通過這篇綜述,我們希望能夠提供對當前LLMs技術領域的見解,并為該自然語言處理關鍵領域的未來研究方向提供指導。
大語言模型(LLMs)的推理需要大量的計算資源,這歸因于多個因素。其中關鍵因素之一是諸如GPT家族[1]、LLaMA家族[2]、PaLM[3]、OPT[4]和Mistral[5]等模型固有的復雜性,這些模型通常包含數百萬甚至數十億個參數。因此,通過這些模型的眾多神經網絡層處理輸入數據需要大量的計算資源。此外,推理過程計算密集,涉及復雜的操作,如矩陣乘法、非線性激活和跨多個層的注意力機制。此外,LLMs需要大內存分配,因為它們的參數中包含了廣泛的數據存儲,包括詞嵌入和注意力矩陣。此外,自回歸解碼的性質,即輸出令牌基于先前生成的令牌逐步生成,限制了并行化的潛力,特別是對于較長的序列,導致推理速度較慢。最后,LLMs中常用的注意力機制用于捕捉輸入數據中的長程依賴關系,這增加了計算復雜性,特別是在計算大輸入序列的注意力分數時。綜上所述,這些因素使得大語言模型的推理需要大量的計算資源和時間。
為了解決加速大語言模型推理的挑戰,已經開發了各種方法。這些技術包括知識蒸餾[6, 7, 8, 9]、量化[10, 11, 12, 13]、稀疏化[14, 15, 16]、修改后的注意力機制[17, 18, 19, 20]。然而,提高大語言模型效率的另一個關鍵方面在于其解碼機制。本綜述聚焦于LLMs的這些解碼機制,探索和評估其在加速推理的同時保持或提高性能的作用。LLMs中的生成方法指的是這些模型如何基于輸入數據生成輸出序列。這涉及選擇最可能的下一個令牌,以在每一步構建連貫且有意義的序列。然而,加速這一過程面臨著若干挑戰。一個主要挑戰是自回歸解碼的固有順序性,即每個令牌基于先前生成的令牌生成。這種順序依賴性限制了并行化的潛力,特別是在較大模型中導致推理速度較慢。另一個挑戰是,在加速生成過程的同時保持生成輸出的質量。任何加速技術必須確保生成的序列保持準確、連貫和上下文相關。加速生成應保持模型生成高質量輸出的能力,同時所需的計算資源可能非常龐大。
本文全面討論了各種加速生成技術。第2節討論了投機解碼方法,第3節探討了提前退出方法,第4節研究了非自回歸算法(并行解碼)策略。通過詳細分類和深入分析,我們提供了對這些大語言模型機制的深刻見解,強調其優點、局限性和未來研究方向。如圖1所示,圖中展示了不同算法的分類法,本文討論的加速生成技術根據其基本原理和方法進行了分類和可視化。
投機解碼技術通過并行預測多個令牌并同時驗證這些預測,有效地提高了生成速度。這一技術受啟發于處理器中的投機執行優化技術,通過并行執行任務來驗證其必要性,從而提高并發性。
Blockwise解碼是一種經典的投機解碼方法,通過在模型內部并行評分來加速解碼過程。該方法首先在訓練時在原解碼層后增加多輸出前饋層,并訓練多個輔助“提議”模型以并行預測多個令牌。在推理時,這些模型并行生成下一個k個令牌,并通過基本模型對這些令牌進行評分,確定最長的前綴。如果這個前綴的長度超過1,則可以跳過一個或多個貪心解碼循環,從而加快推理速度。
SpecDec方法通過引入Spec-Drafter和Spec-Verification兩個組件,進一步優化了投機解碼過程。Spec-Drafter是一個獨立的模型,專注于高效準確地生成令牌草稿,而Spec-Verification則允許接受略微偏離貪心解碼的令牌,從而提高接受率。實驗結果表明,SpecDec方法在保持生成質量的同時,實現了約5倍的速度提升。
自我投機解碼(SSD)是一種不需要輔助草稿模型的新穎推理方案,而是利用單一LLM同時進行草稿生成和驗證,從而減少了總內存使用。在草稿階段,部分中間層被跳過,選擇這些層是通過貝葉斯優化完成的。在驗證階段,使用原始LLM對草稿令牌進行一次前向傳遞評估。雖然跳過額外層可以加速草稿生成,但也可能降低令牌接受率,增加整體推理時間。因此,層選擇過程被設計為優化問題,目標是最小化每個令牌的平均推理時間。
提前退出機制通過動態調整每個輸入和生成時間步的計算資源分配,有效地加速了生成過程。這一機制基于對樣本難度的觀察,動態調整計算資源,避免對簡單樣本的過度計算,同時確保復雜樣本的精確處理。
Confident Adaptive Language Modeling(CALM)框架通過動態分配計算資源,根據中間層的置信度得分決定是否提前退出計算,從而加速生成過程。CALM框架探索了三種不同的置信度測量方法:Softmax響應、隱藏狀態飽和度和早退出分類器。通過這些方法,模型可以在達到預定義閾值時提前退出,避免全層計算,從而加速推理。
Fast and Robust Early-Exiting(FREE)方法通過引入淺層-深層模塊和同步并行解碼,提高了推理效率。FREE框架將計算路徑分為淺層模型和深層模型,在解碼時同步處理來自淺層模型的早退出令牌,直到遇到非退出令牌。通過Beta混合模型(BMM),FREE方法能有效捕捉置信度得分與預測一致性的關系,從而動態調整閾值,提高推理效率。
Hash-based Early Exiting(HASH EE)通過哈希函數為每個令牌分配固定的退出層,避免了傳統方法中的內部分類器或額外參數,從而提高了推理效率。HASH EE的優勢在于無需監督即可實現令牌級提前退出,適用于多種任務,包括語言理解和生成任務。
非自回歸模型通過同時或并行生成所有目標令牌,避免了自回歸模型中逐令牌生成的順序性,顯著加速了推理過程。非自回歸模型在處理諸如機器翻譯等任務時,表現出更高的推理效率。
非自回歸Transformer(NAT)模型在機器翻譯任務中首次引入,通過預測每個輸入詞的繁殖數量來確定目標句子的長度。在訓練和推理過程中,NAT模型通過復制源輸入來初始化解碼器輸入,并使用繁殖預測器來決定每個輸入詞應復制多少次,從而構建目標句子長度。通過這種方法,NAT模型實現了與自回歸模型相當的質量,同時推理延遲降低了十倍以上。
FlowSeq模型使用生成流技術,通過引入潛變量提高了非自回歸生成過程的依賴性建模。FlowSeq通過生成流對先驗分布進行編碼,引入潛變量,從而在非自回歸生成過程中建模輸出令牌之間的依賴關系,同時實現高效并行解碼。實驗結果表明,FlowSeq在保持性能的同時,實現了顯著的推理加速。
依賴感知解碼器(DePA)通過雙向依賴建模和注意力轉換過程,提高了非自回歸模型對目標依賴的建模效果。DePA模型采用前向-后向依賴建模,在非自回歸訓練之前進行自回歸前向-后向預訓練,增強解碼器對目標依賴的建模能力。
本文全面探討了各種加速生成技術,包括投機解碼、提前退出機制和非自回歸方法。通過詳細的分類和分析,我們總結了當前技術的優勢、局限性和最新進展,為研究人員和工程師在實際應用中提供了寶貴的參考。未來,隨著技術的不斷發展,這些加速生成方法有望進一步優化,提高LLMs在各種應用場景中的實用性和效率。 通過不斷優化和創新,我們期待LLMs能夠在更廣泛的領域中展現其強大的潛力,實現實時高效的文本生成。
基于智能體的建模與仿真已發展成為模擬復雜系統的強大工具,提供了對涌現行為和多樣智能體之間互動的洞見。將大型語言模型整合到基于智能體的建模和仿真中,為增強仿真能力提供了有希望的途徑。本文調研了在基于智能體的建模與仿真中利用大型語言模型的領域格局,考察了它們的挑戰和有希望的未來方向。在這項綜述中,由于這是一個跨學科領域,我們首先介紹基于智能體的建模與仿真以及大型語言模型賦能智能體的背景。然后,我們討論將大型語言模型應用于基于智能體的仿真的動機,并系統分析在環境感知、人類協調、行為生成和評估中的挑戰。最重要的是,我們提供了大型語言模型賦能的基于智能體的建模與仿真在多種場景下的最新工作綜述,這些場景可分為四個領域:網絡、物理、社會和混合,涵蓋了現實世界和虛擬環境的仿真。最后,由于這個領域是新的且快速發展的,我們討論了開放性問題和有希望的未來方向。
//www.zhuanzhi.ai/paper/a5b311fe2576ef865dbdcbb6c6eacda5
仿真作為一種計算工具,涵蓋了通過使用數學公式、算法或計算機生成的表示來模擬現實世界過程或系統,以模仿其行為或特征。基于智能體的建模與仿真專注于通過模擬個體智能體及其在環境中的相互作用來模擬復雜系統[135]。它通過賦予這些智能體特定的行為、屬性和決策能力來運作,使我們能夠檢查由智能體相互作用和環境動態產生的涌現現象。仿真的重要性跨越多個領域,是理解、分析和預測實際生活中可能難以或無法直接觀察的復雜現象的寶貴工具。它促進了實驗、假設測試和情景分析,提供了在不同條件下系統行為的洞見,并在經濟學、生物學、社會學和生態學等領域的決策過程中提供幫助。獲得和使用語言的能力是區分人類和其他生物的關鍵方面[90]。大型語言模型(LLMs)的出現是機器學習中的一個最新里程碑,展示了在自然語言處理任務和文本生成方面的巨大能力[235]。利用它們強大的能力,LLMs在通過更細膩和現實的方式表示智能體的決策過程、溝通和適應模擬環境方面顯示出了提升基于智能體仿真的前景。將LLMs整合到基于智能體的建模和仿真中,有潛力豐富仿真的真實性和復雜性,可能會深入洞察系統行為和涌現現象的原因如下: 首先,LLM 智能體可以根據環境做出自適應反應并執行任務,而無需預定義的明確指令 [193, 226]。其次,LLM 智能體具有很強的智能,可以像人一樣做出反應,甚至主動采取具有自導向的規劃和調度的行動 [208, 219]。LLM 智能體的行動空間既不局限于文本,對于文本,工具用法和內部行動模塊允許代理采取各種行動 [171]。最后,LLM 智能體可以與人類或其他智能體進行互動和交流 [152]。憑借以上三點優勢,LLM 智能體已被廣泛接受使用[153、122、117、152、111、125、111、73、105、27、29]。從這個角度看,LLM 智能體顯然可以作為一種新的模擬范例,賦予代理以人類水平的智能。由于 LLM 智能體的巨大潛力,近來這一領域的研究工作呈現出蓬勃發展的態勢。然而,迄今為止,還沒有一份綜述能系統地總結相關工作、討論尚未解決的問題,并為重要的研究方向提供一瞥。在本綜述中,我們分析了為什么大型語言模型在仿真的基本問題中至關重要,尤其是對于基于智能體的仿真而言。在討論了如何在這一新范式中設計智能體之后,我們仔細而廣泛地討論并介紹了各個領域的現有著作,其中大部分是近期發表的。本綜述的貢獻可歸納如下。
-** 我們將基于智能體的建模與仿真分為物理、網絡、社會和混合四個領域,這四個領域可以涵蓋主流的仿真場景和任務**,之后我們介紹了相關的工作,對如何設計仿真環境以及如何構建由大型語言模型驅動的仿真代理進行了詳細的討論。
大型語言模型(LLMs),如 ChatGPT [149]、Gemini [55]、LLaMA [199]、Alpaca [192] 和 GLM [227],是語言模型的最新范式,從早期的統計語言模型 [23] 發展到神經語言模型 [144],再到預訓練語言模型 [31],最后發展到大型語言模型 [235]。憑借數十億個參數和廣泛的預訓練語料庫,LLM 不僅在文本生成、總結、翻譯等自然語言處理任務 [116, 232] 中表現出驚人的能力,而且在解決數學問題等復雜推理和規劃任務 [11] 中也表現出驚人的能力。在大規模語料庫上進行的預訓練為零點泛化奠定了基礎。此外,預訓練模型還可以針對特定任務進一步微調,以適應特定的應用場景 [103]。此外,在過去一年中,大型語言模型(如 ChatGPT 和 GPT-4)的進步已經實現了類似人類的推理能力,這是一個里程碑,現在被認為是人工通用智能(AGI)的種子。具體來說,獲取和使用語言的能力是我們人類區別于其他生物的一個關鍵方面[198]。語言是我們與環境互動的最重要機制之一,語言為高級能力奠定了基礎[90]。
因此,由于在感知環境和做出決策方面具有類似人類的智能,構建大型語言模型賦能的智能體是大有可為的[208, 219]。首先,LLM 智能體能夠根據環境做出自適應反應并執行任務,而無需預定義的明確指令 [193, 226]。此外,在模擬過程中,LLM 智能體甚至可以形成新的想法、解決方案、目標等[71]。例如,AutoGPT [193] 在給出一組可用工具和最終任務目標時,可以自動安排計劃,體現了 LLM 在構建智能體方面的巨大潛力。同時,BabyAGI [226] 創建了一個運行無限循環的 LLM 驅動腳本,該腳本持續維護任務列表,其中每個任務都由 ChatGPT API [149] 根據任務上下文完成。其次,LLM 智能體具有足夠的智能,可以像人類一樣做出反應,甚至主動采取行動,進行自我導向的規劃和調度 [208, 219]。環境輸入并不局限于文本,最近的多模態融合模型還可以輸入其他類型的信息,如圖像或音頻 [239]。LLM 智能體的行動空間既不局限于文本,對于文本,工具使用能力允許智能體采取更多行動 [171]。最后,LLM 智能體具有與人類或其他人工智能智能體互動和交流的能力 [152]。在仿真,尤其是基于智能體的仿真中,代理的交流能力將個體仿真提升到了群體層面[80]。一個 LLM 驅動的智能體可以生成文本,另一個智能體可以接收并理解文本,進而為智能體之間或人類與智能體之間可解釋的交流提供基礎[152]。此外,社區層面的模擬需要智能體的異質性,而 LLM 智能體可以滿足這些要求,在社會中扮演不同的角色 [163]。由 LLM 智能體構建的人工社會可以進一步揭示具有集體智能體行為的蜂群智能體的出現 [73, 152],類似于人類社會中的群體智慧 [190]。如上所述,仿真系統廣泛采用了基于智能體的建模范式,這就要求智能體具有高級能力,很好地激發了大語言模式智能體在仿真場景中的應用。
基于智能體建模和仿真的 LLM 關鍵能力
基于智能體建模與仿真的大語言模式關鍵能力 如上所述,基于智能體的建模與仿真是許多領域仿真的基本方法[135, 65],但它仍然面臨幾個關鍵挑戰。大語言模式驅動的智能體不僅能滿足基于智能體的仿真要求,還能依靠其強大的感知、推理、決策和自我進化能力來解決這些限制,如圖 1 所示。 **感知 **
基于智能體的建模與仿真的核心是模擬單個智能體如何與環境進行交互[135],這就要求智能體能夠準確感知來自上述環境的各類信息。至于大語言模型賦能的智能體,語言能力能使智能體直接或間接地理解和應對多樣化的環境。一方面,理解和生成文本的基本能力使智能體能夠進行復雜的對話、談判和信息交換,并支持直接交互。另一方面,智能體與環境之間的界面可以通過文本進行操作 [194],從而實現間接交互。當然,除了智能體與環境的視角外,這種能力也支持不同智能體之間的交流。 值得一提的是,僅僅具備與環境和其他智能體互動的能力還不足以實現類人模擬。更具體地說,還要求基于大型語言模型的智能體 "設身處地",從而讓智能體想象自己確實身處環境之中。也就是說,LLM 智能體應能從 "第一視角視線"[178]出發,理解、感知并響應不同情境下的不同需求、情感和態度。這種能力能使模型更好地理解來自環境或其他智能體的信息,并產生更真實的反應。
推理和決策
傳統基于代理的仿真面臨的一個關鍵挑戰是,基于規則甚至基于神經網絡的代理不夠智能[48]。也就是說,智能體無法做出正確或最優決策,如在交通仿真中選擇擁擠的道路,或在社交網絡仿真中發送錯誤的信息。這可以解釋為,傳統的基于神經網絡的人工智能仍不如真人智能[97, 130, 139, 94]。相比之下,大語言模型賦能的智能體則表現出更強的推理能力,使其能夠在模擬中做出更明智的決策并選擇合適的行動。盡管能做出合適的決策,但大型語言模型賦能的智能體支持更好的基于智能體的建模和仿真的另一個關鍵優勢是自主性[72]。只需有限的指導、規定和目標,配備大型語言模型的智能體就能自主采取行動,為給定目標制定計劃,甚至實現新目標,而無需顯式編程或預定義規則[152]。也就是說,自主性使 LLM 智能體能夠根據實際情況動態調整自己的行動和策略,有助于提高仿真的真實性。
自適應學習和演化
對于基于智能體的建模與仿真而言,系統始終具有不確定性和不可控性[135]。換句話說,與模擬初始階段相比,環境和智能體的狀態可能完全不同。正如《瑞普-范-溫克爾》(Rip Van Winkle)的古老故事所講述的那樣,一個人在山中睡著了,醒來后發現周圍的世界在他沉睡期間發生了巨大的變化。也就是說,在長期的社會網絡模擬中,環境是不斷變化的[73];智能體應該能夠適應新的環境,制定的決策策略可能會大大偏離其原來的策略。顯然,自適應學習和進化對于傳統方法來說具有挑戰性,但幸運的是,基于大型語言模型的智能體可以解決這個問題 [132]。具體來說,憑借不斷從新數據中學習并適應不斷變化的語境的能力,LLM 智能體可以隨著時間的推移不斷演化行為和決策策略。智能體可以吸收新信息,分析數據中新出現的模式,并根據情境中的學習[60]相應地修改自己的反應或行動,這反映了現實世界實體的動態性質。這種適應性通過模擬智能體在應對不同刺激時的學習曲線和行為演變,增強了模擬的真實性。
異質性和個性化
俗話說,一人之肉,眾人之毒。對于基于智能體的仿真來說,具有異質個體的復雜社會[30]或經濟系統[26],智能體的異質性至關重要。具體來說,在基于智能體的建模和仿真中,智能體的異質性涉及表現個體之間的不同特征、行為和決策過程。與傳統仿真方法相比,基于智能體的仿真因其能夠適應不同的規則或參數而脫穎而出,具體討論如下。首先,現有方法的參數設置極其復雜[64, 135]。在這些模型中,影響智能體行為的變量繁多--從個人特征到環境因素--使得選擇和校準這些參數變得十分困難。這種復雜性往往會導致過度簡化,影響模擬在描述真實異質性方面的準確性[135]。此外,獲取準確、全面的數據為參數選擇提供信息也是另一項挑戰。也就是說,現實世界中能捕捉到不同情境下不同個體行為的數據可能很有限,或者很難收集到。此外,根據真實世界的觀察結果驗證所選參數以確保其可靠性,也增加了另一層復雜性。其次,規則或模型無法涵蓋異質性的所有方面,因為現實世界中的個體非常復雜[135]。使用規則驅動智能體行為只能捕捉到異質性的某些方面,但可能缺乏深度,無法囊括多樣化行為、偏好和決策過程的全部內容。此外,隨著模型能力的提高,試圖在單一模型中涵蓋異質性的所有方面未免過于理想化。因此,如何平衡模型的簡潔性和智能體建模的準確性成為基于智能體建模和仿真的關鍵挑戰,從而導致對智能體異質性某些方面的過度簡化或忽視。與傳統方法不同的是,基于 LLM 的智能體支持:1)通過內部類似人類的認知復雜性來捕捉復雜的內部特征;2)通過提示、上下文學習或微調來實現專業化和定制化特征。
結語
基于智能體的建模與仿真是各領域復雜系統建模的重要方法之一。大型語言模型的最新進展重塑了基于智能體的建模與仿真范式,為構建類似人類的智能體而不是由簡單規則或有限智能神經模型驅動的智能體提供了新的視角。在本文中,我們首先對基于智能體的大語言模型建模與仿真進行了綜述。我們系統地分析了基于智能體的建模與仿真為什么需要 LLM 智能體,以及如何應對關鍵挑戰。隨后,我們廣泛總結了網絡、物理、社會和混合四個領域的現有工作,仔細闡述了如何設計仿真環境、如何構建大語言模型賦能的智能體,以及基于智能體的仿真要觀察和實現什么。最后,考慮到現有研究尚未解決的局限性和這一快速發展的新領域,我們討論了有待解決的問題,并指出了重要的研究方向,希望能對未來的研究有所啟發。
大模型如何做知識更新?這篇文章全面綜述
盡管大型語言模型(LLMs)在解決各種任務上表現出色,但它們在部署后很快就可能會過時。在當前時代,保持它們的最新狀態是一個迫切的關注點。本文提供了對最近在不從頭開始重新訓練的情況下,將LLMs與不斷變化的世界知識對齊的進展的全面回顧。我們系統地對研究工作進行分類,并提供深入的比較和討論。我們還討論了現存的挑戰,并強調了未來的研究方向,以促進這一領域的研究。
//www.zhuanzhi.ai/paper/895473a03ca23c3b2ff748c92eae7551
大型語言模型(LLMs)(Brown 等人,2020;Ouyang 等人,2022;Chowdhery 等人,2022;Zhang 等人,2022;OpenAI, 2023b;Touvron 等人,2023;Anil 等人,2023)經過在各種來源(例如,維基百科,書籍,Github)的大量語料庫上的訓練,在其參數中隱式地存儲了大量的世界知識(Petroni 等人,2019;Roberts 等人,2020;Jiang 等人,2020),使它們能夠作為多功能的基礎模型,直接通過情境學習(Liu 等人,2023b;OpenAI, 2023b;Bubeck 等人,2023;Kamalloo 等人,2023)來執行各種自然語言處理(NLP)任務,或進一步為特定領域的用途進行微調(Singhal 等人,2022;Google, 2023;Liu 和 Low, 2023)。
盡管它們的表現令人印象深刻,但LLMs在部署后是靜態的,沒有更新自己或適應變化環境的機制(Kasai 等人,2022;Bubeck 等人,2023)。然而,我們的世界是動態的并且不斷發展。如圖1所示,經過訓練的LLMs的靜態特性使存儲的知識迅速過時,這經常導致幻覺,使它們對知識密集型任務不可靠(Lazaridou 等人,2022;Luu 等人,2022;Ji 等人,2023;Si 等人,2023)。在LLMs的時代,確保它們與不斷變化的世界知識保持一致,并在部署后保持其最新狀態是一個迫切的問題,因為許多用戶和下游應用依賴它們。不幸的是,由于禁止性的成本(Patterson 等人,2021),僅僅使用最新信息重新訓練LLMs是不可行的。 從直覺上講,要更新LLM,可以通過修改其參數用新的知識替換模型中隱式存儲的過時知識,或使用從世界上明確檢索的新信息覆蓋過時的模型輸出。文獻中已經提出了大量的工作,隱式或顯式地刷新部署的LLMs;但是,這些方法在各種任務中散布,并沒有被系統地回顧和分析。
在這篇綜述中,我們調查了與不斷變化的世界知識對齊已部署的LLMs的最新引人注目的進展。我們系統地對研究工作進行分類,并在每個類別中突出代表性的方法(§2),并為洞察提供深入的比較和討論(§3)。最后,我們討論了促進這一領域研究的潛在未來方向(§4)。 **方法分類 **
根據方法是否傾向于直接改變LLMs中隱式存儲的知識,或利用外部資源來覆蓋過時的知識,我們粗略地將它們分類為隱式方法(§2.1)或顯式方法(§2.2)。圖2提供了每個類別中代表性作品的摘要(詳細綜述請見附錄中的圖6)。方法的詳細描述可以在附錄A.1中找到。
**隱式地使LLMs與世界知識對齊 **
先前的研究已經表明,經過在大量語料庫上預訓練后,LLMs可以在其大量參數中隱式記憶知識 (Petroni 等人, 2019; Roberts 等人, 2020; Jiang 等人, 2020; Singhal 等人, 2022)。為了保持LLMs的最新狀態并與當前的世界知識對齊,直接的方法是改變模型自身的行為以生成期望的輸出。天真地說,可以定期從頭開始重新訓練模型或使用最新的語料庫對模型進行微調以與當前的世界知識對齊。但是,重新訓練是昂貴且對環境不友好的 (Patterson 等人, 2021),特別是在具有數十億參數的LLMs的時代。無約束的微調可能會產生"蝴蝶效應"并影響模型中的其他知識或技能 (Kirkpatrick 等人, 2017; Li 等人, 2022; AlKhamissi 等人, 2022)。為了應對這個問題,這一系列工作旨在設計更好的策略,以更可控和高效的方式修改LLMs的內部狀態,這可以分為知識編輯 (§2.1.1) 和連續學習 (§2.1.2)。
**顯式地使LLMs與世界知識對齊 **
盡管改變LLMs中隱式存儲的知識已被證明是有效的 (Jang等人, 2022b; Meng等人, 2023),但由于神經網絡的復雜性,這是否會影響模型的一般能力仍不清楚。相比之下,顯式地通過從各種來源檢索的最新信息來增強LLMs可以有效地使模型適應新的世界知識,而不影響原始的LLMs (Mialon等人, 2023)。然而,之前的檢索增強方法 (Karpukhin等人, 2020; Guu等人, 2020; Lewis等人, 2020; Izacard等人, 2022; Borgeaud等人, 2022; Jiang等人, 2022; Kaur等人, 2022) 通常以端到端的方式聯合訓練檢索器和語言模型,這使得它難以應用于已部署的LLM(例如,GPT-3)。最近,研究者們關注于為固定的LLM配備外部記憶 (增強記憶;§2.2.1)、現成的檢索器 (增強檢索;§2.2.2) 或互聯網 (增強互聯網;§2.2.3) 來解決這個問題。
**挑戰和未來方向 **
魯棒高效的知識編輯
KE提供了細粒度的知識更新,在某些場景中是可取的。盡管有前景,但KE仍處于初級階段。1 各種知識。更新LLMs參數中存儲的內部知識是具有挑戰性的,現有的努力只探討了更新關系知識,而忽略了其他知識 (Meng等人, 2023);2 編輯數據集。當前的KE方法假設已存在編輯過的知識對,這些對必須提前進行注釋。實際上,LLMs如何知道哪些知識已經過時,因此需要更新 (Zhang和Choi, 2023; Yin等人, 2023)?3 記憶機制。Hase等人 (2023a) 認為,通過因果追蹤定位特定知識可能不可靠,需要更好地理解LLMs的內部記憶 (Tirumala等人, 2022; Carlini等人, 2023);4 通用化。最近的研究 (Onoe等人, 2023; Zhong等人, 2023) 發現,現有的KE方法在編輯知識的傳播上表現不佳,這意味著LLM不能基于新獲得的知識進行進一步的推理;5 有效性和效率。盡管已經進行了早期的努力 (Hernandez等人, 2023; Huang等人, 2023; Hartvigsen等人, 2023),但有效、高效、持續地更新LLMs的知識的方法尚有待深入探索。
**LLMs的高效持續學習 **一個持續預訓練的LLM可以更新其內部知識并適應變化的世界,但保持下游任務所需的一般知識而不遺忘是具有挑戰性的 (Ke和Liu, 2023)。此外,現有的方法僅限于小規模的LM,使得LLMs的CL很少被研究。盡管參數有效的調整 (Ding等人, 2022) 可能是有益的,但通過CL使LLM與動態世界對齊仍然沒有被充分探索。
**解決知識沖突 **用新知識替代舊知識可能會導致知識沖突,無論使用隱式或顯式方法。對于隱式方法,這些副作用只在特定設置中進行評估,不知道LLMs的一般技能如何受到影響 (Brown等人, 2023)。對于基于檢索的方法,從世界上檢索的知識可能與LLMs內部記憶的知識矛盾,LLMs有時傾向于在生成期間更多地依賴其內部知識,而不是提供的上下文 (例如在Fig.5中的一個例子; Neeman等人 2022; Li等人 2022; Chen等人 2022)。雖然已經進行了初步嘗試 (Mallen等人, 2023; Zhou等人, 2023; Xie等人, 2023),但它們仍然受到限制。
**魯棒高效的檢索 **與外部資源互動可能會在生成期間引起中斷,顯著增加推理開銷,特別是對于涉及多次檢索或修訂的多階段方法。可能的補救措施是有效的內存管理 (Peng等人, 2023b; Kang等人, 2023; Cheng等人, 2023) 或選擇性檢索,只在必要時咨詢外部資源 (Mallen等人, 2023)。另一方面,檢索到的上下文可能是無關的和嘈雜的,這可能會分散LLMs的注意力 (Shi等人, 2023a; Luo等人, 2023),或者太長,超出了輸入限制,并帶來高昂的成本 (Shi等人, 2023b)。
**全面的評估和基準測試 **盡管不同類別的方法可以在不重新訓練的情況下將訓練過的LLMs與變化的世界對齊,但它們的有效性主要在特定設置的合成數據集上進行評估,這可能不是很全面 (Jang等人, 2022a,b; Hoelscher-Obermaier等人, 2023)。此外,盡管已經進行了努力來評估KE (Wu等人, 2023; Cohen等人, 2023; Ju和Zhang, 2023),但沒有對不同類別的方法進行定量比較(即,比較KE vs. CL vs. 基于檢索的方法),這阻礙了它們在不同場景中的應用。最后,現有的基準測試對于度量動態世界來說太靜態了,這呼吁進行實時評估基準測試 (Li?ka等人, 2022; Kasai等人, 2022)。
**結論 **
在本文中,我們系統地回顧了在不重新訓練的情況下使LLMs與不斷變化的世界知識保持一致的最新進展。我們總結了現有的方法,并根據它們是傾向于直接改變LLMs中隱式存儲的知識,還是利用外部資源來覆蓋過時的知識進行分類。我們全面比較了不同類別的方法,并指出了這一領域研究的挑戰和未來方向。
這本書涵蓋了傳統方法和先進方法的描述。在傳統方法中,我們討論了諸如隨機、確定性、生成性和區分性的視覺跟蹤技術。傳統技術進一步被探索為多階段和協作框架。在先進的方法中,分析了基于深度學習的跟蹤器和基于相關濾波器的跟蹤器的各種類別。
本書還:
本書全面討論了各種基于深度學習的跟蹤架構以及傳統的跟蹤方法。它深入分析了各種特征提取技術、評估指標以及用于跟蹤框架性能評估的基準。該文主要為電氣工程、電子與通信工程、計算機工程和信息技術領域的高年級本科生、研究生和學術研究者編寫。
本文提供了對多模態基礎模型的分類和演變的全面綜述,這些模型展示了視覺和視覺-語言能力,重點關注從專家模型到通用助手的轉變。研究范圍涵蓋了五個核心主題,分為兩類。(i) 我們從對既定研究領域的調查開始:為特定目的預訓練的多模態基礎模型,包括兩個主題 - 學習視覺基礎架構的方法,用于視覺理解和文本到圖像生成。(ii) 然后,我們介紹了探索性、開放性研究領域的最新進展:旨在擔任通用助手角色的多模態基礎模型,包括三個主題 - 由大型語言模型(LLMs)啟發的統一視覺模型,多模態LLMs的端到端訓練,以及將多模態工具與LLMs鏈接。本文的目標讀者是計算機視覺和視覺-語言多模態社區的研究人員、研究生和專業人士,他們渴望了解多模態基礎模型的基礎知識和最新進展。
視覺是人類和許多生物感知和與世界互動的主要渠道之一。人工智能(AI)的核心愿望之一是開發能夠模仿這種能力的AI智能體,以有效地感知和生成視覺信號,從而推理和與視覺世界互動。例如,識別場景中的對象和動作,以及為交流創建素描和圖片。建立具有視覺能力的基礎模型是一個旨在實現此目標的普遍研究領域。
在過去的十年中,AI領域在模型的開發中經歷了豐碩的軌跡。我們將它們分為圖1.1所示的四個類別。這個分類可以在AI的不同領域中共享,包括語言、視覺和多模態。我們首先使用自然語言處理中的語言模型來說明演變過程。(i)在早期,為各個數據集和任務開發了特定任務的模型,通常是從頭開始訓練的。(ii)通過大規模的預訓練,語言模型在許多已建立的語言理解和生成任務上實現了最先進的性能,例如BERT(Devlin等,2019)、RoBERTa(Liu等,2019)、T5(Raffel等,2020)、DeBERTa(He等,2021)和GPT-2(Radford等,2019)。這些預訓練的模型為下游任務適應提供了基礎。(iii)由GPT-3(Brown等,2020)舉例,大型語言模型(LLMs)將各種語言理解和生成任務統一到一個模型中。隨著網絡規模的訓練和統一,出現了一些新的能力,如上下文學習和思維鏈。(iv)伴隨著人工智能對齊的最新進展,LLMs開始扮演通用助手的角色,遵循人類的意圖,完成廣泛的語言任務,例如ChatGPT(OpenAI,2022)和GPT-4(OpenAI,2023a)。這些助手展示了有趣的能力,如交互和工具使用,并為開發通用AI智能體奠定了基礎。重要的是要注意,最新一代的基礎模型在提供額外功能的同時,也借鑒了其早期版本的顯著特性。
**受到NLP中LLMs的巨大成功的啟發,計算機視覺和視覺-語言社區的研究人員自然會問:ChatGPT/GPT-4在視覺、視覺-語言和多模態模型方面的對等物是什么?**毫無疑問,自從BERT誕生以來,視覺預訓練和視覺-語言預訓練(VLP)越來越受到關注,并已成為視覺的主流學習范式,承諾學習通用的可遷移的視覺和視覺-語言表示,或生成高度可能的圖像。可以說,它們可以被視為多模態基礎模型的早期生成,就像BERT/GPT-2對語言領域一樣。雖然建立像ChatGPT這樣的語言通用助手的路線圖很清晰,但研究社區越來越需要探索建立計算機視覺的對等物:通用視覺助手的可行解決方案。總的來說,建立通用智能體一直是AI的長期目標。具有新興屬性的LLMs已顯著降低了為語言任務建立此類智能體的成本。同樣,我們預見到視覺模型將展現出新的能力,例如遵循由各種視覺提示組成的指令,如用戶上傳的圖像、人類繪制的點擊、素描和遮罩,除了文本提示。這樣強大的零樣本視覺任務組成能力可以顯著降低建立AI智能體的成本。
在這篇文章中,我們將多模態基礎模型的范圍限制在視覺和視覺-語言領域。相關主題的最新綜述論文包括:(i) 圖像理解模型,如自監督學習(Jaiswal等,2020;Jing和Tian,2020;Ozbulak等,2023),切分任何東西(SAM)(Zhang等,2023a,c);(ii) 圖像生成模型(Zhang等,2023b;Zhou和Shimada,2023);以及(iii) 視覺-語言預訓練(VLP)。現有的VLP綜述論文涵蓋了在預訓練時代之前,針對特定VL問題的VLP方法,圖像-文本任務,核心視覺任務,和/或視頻-文本任務(Zhang等,2020;Du等,2022;Li等,2022c;Ruan和Jin,2022;Chen等,2022a;Gan等,2022;Zhang等,2023g)。兩篇最新的綜述論文討論了視覺模型與LLM的集成(Awais等,2023;Yin等,2022)。
其中,Gan等(2022)是一篇關于VLP的綜述,涵蓋了2022年及之前的CVPR關于視覺和語言研究的最新進展系列教程。本文總結了2023年CVPR關于視覺基礎模型最新進展的教程。與前述主要側重于給定研究主題的文獻回顧的綜述論文不同,本文提出了我們對多模態基礎模型從專家到大型語言模型時代的通用視覺助手的角色轉變的觀點。本綜述論文的貢獻總結如下。
?** 我們提供了一篇全面且及時的現代多模態基礎模型的綜述**,不僅涵蓋了視覺表示學習和圖像生成的成熟模型,還總結了過去6個月由LLM啟發的新興主題,包括統一視覺模型,與LLM的訓練和鏈接。 ? 本文旨在為觀眾提供一種觀點,推崇在開發多模態基礎模型中的一種轉變。在特定視覺問題的偉大建模成功的基礎上,我們正朝著構建能夠按照人類意圖完成廣泛計算機視覺任務的通用助手邁進。我們對這些高級主題進行了深入討論,展示了開發通用視覺助手的潛力。
正如Stanford基礎模型論文(Bommasani等,2021)所闡述的,AI正隨著諸如BERT、GPT家族、CLIP(Radford等,2021)和DALL-E(Ramesh等,2021a)這些模型的興起而經歷一場范式轉變,這些模型經過廣泛的數據訓練,可以適應各種下游任務。他們將這些模型稱為基礎模型,以強調它們在核心上的關鍵性但不完整的特性:研究社區的方法論的同質化和新能力的出現。從技術角度來看,使基礎模型成為可能的是遷移學習,使它們變得強大的是規模。基礎模型的出現主要觀察到在NLP領域,范例包括從BERT到ChatGPT。這一趨勢在近年來獲得了推動,擴展到計算機視覺和其他領域。在NLP中,BERT在2018年底的推出被視為基礎模型時代的開始。BERT的顯著成功迅速激發了計算機視覺社區對自監督學習的興趣,催生了如SimCLR(Chen等,2020a)、MoCo(He等,2020)、BEiT(Bao等,2022)和MAE(He等,2022a)等模型。在同一時期,預訓練的成功也顯著推動了視覺-語言多模態領域達到了前所未有的關注度。
在本文中,我們關注的是多模態基礎模型,這些模型繼承了Stanford論文(Bommasani等,2021)中討論的所有基礎模型的屬性,但側重于具有處理視覺和視覺-語言模態能力的模型。在不斷增長的文獻中,我們基于功能和通用性對多模態基礎模型進行分類,見圖1.2。對于每個類別,我們都展示了一些示例模型,展示了這些多模態基礎模型固有的主要能力。
學習通用視覺表示對于構建視覺基礎模型至關重要,因為預訓練一個強大的視覺主干對所有類型的計算機視覺下游任務都是基礎,這些任務范圍從圖像級別(例如,圖像分類、檢索和字幕)、區域級別(例如,檢測和定位)到像素級別任務(例如,分割)。我們將方法分為三類,取決于用于訓練模型的監督信號類型:
標簽監督。像ImageNet(Krizhevsky等,2012)和ImageNet21K(Ridnik等,2021)這樣的數據集一直受到監督學習的歡迎,更大規模的專有數據集也在工業實驗室中使用(Sun等,2017;Singh等,2022b;Zhai等,2022a)。
語言監督。語言是一種更豐富的監督形式。像CLIP(Radford等,2021)和ALIGN(Jia等,2021)這樣的模型使用來自網絡的數百萬甚至數十億噪聲圖像-文本對上的對比損失進行預訓練。這些模型使得零射擊圖像分類成為可能,并使傳統的計算機視覺(CV)模型執行開放詞匯CV任務。我們提倡在野外進行計算機視覺的概念,并鼓勵未來基礎模型的開發和評估。
僅圖像自監督。這一工作方向旨在從圖像本身中挖掘出監督信號來學習圖像表示,范圍從對比學習(Chen等,2020a;He等,2020)、非對比學習(Grill等,2020;Chen和He,2021;Caron等,2021)到遮蔽圖像建模(Bao等,2022;He等,2022a)。
多模態融合,區域級和像素級預訓練。除了預訓練圖像主干的方法外,我們還將討論允許多模態融合的預訓練方法,例如CoCa(Yu等,2022a)、Flamingo(Alayrac等,2022),區域級和像素級圖像理解,例如開放集對象檢測(例如,GLIP(Li等,2022e))和可提示分割(例如,SAM(Kirillov等,2023))。這些方法通常依賴于預訓練的圖像編碼器或預訓練的圖像-文本編碼器對。
最近,由于大規模圖像-文本數據的出現,已經構建了基礎圖像生成模型。使之成為可能的技術包括向量量化VAE方法(Razavi等,2019)、基于擴散的模型(Dhariwal和Nichol,2021)和自回歸模型。
基于文本的視覺生成。這個研究領域關注的是生成忠實的視覺內容,包括圖像、視頻等,這些內容是以開放式文本描述/提示為條件的。文本到圖像生成發展了生成模型,這些模型合成了忠實于文本提示的高保真度圖像。主要例子包括DALL-E(Ramesh等,2021a)、DALL-E 2(Ramesh等,2022)、Stable Diffusion(Rombach等,2021;sta,2022)、Imagen(Saharia等,2022)和Parti(Yu等,2022b)。基于文本到圖像生成模型的成功,文本到視頻生成模型基于文本提示生成視頻,例如Imagen Video(Ho等,2022)和Make-A-Video(Singer等,2022)。
與人類意圖一致的視覺生成器。這個研究領域關注的是改善預訓練的視覺生成器,以更好地遵循人類意圖。為解決基礎視覺生成器固有的各種挑戰,已經進行了努力。這些包括改善空間可控性(Zhang和Agrawala,2023;Yang等,2023b)、確保更好地遵循文本提示(Black等,2023)、支持靈活的基于文本的編輯(Brooks等
根據自然語言處理(NLP)中的模型發展歷史和分類,我們將圖1.2中的多模態基礎模型分為兩類。? 特定目的的預訓練視覺模型涵蓋了大多數現有的多模態基礎模型,包括視覺理解模型(例如,CLIP(Radford等,2021),SimCLR(Chen等,2020a),BEiT(Bao等,2022),SAM(Kirillov等,2023))和視覺生成模型(例如,Stable Diffusion(Rombach等,2021;sta,2022)),因為它們具有針對特定視覺問題的強大可遷移能力。? 通用助手指的是能夠遵循人類意圖以完成野外各種計算機視覺任務的AI代理。通用助手的含義有兩層面:(i)具有統一架構的通用型,可以完成不同類型問題的任務;以及(ii)容易遵循人類指令,而不是替代人類。為此,已經積極探討了一些研究課題,包括統一視覺建模(Lu等,2022a;Zhang等,2022b;Zou等,2023a),與大型語言模型(LLMs)的訓練和鏈接(Liu等,2023c;Zhu等,2023a;Wu等,2023a;Yang*等,2023)。
? 第1章介紹了多模態基礎模型研究的領域,并展示了從專家模型到通用助手的研究歷史轉變。? 第2章介紹了不同消耗視覺數據的方式,重點關注如何學習一個強大的圖像骨干。? 第3章描述了如何生成與人類意圖一致的視覺數據。? 第4章描述了如何設計統一的視覺模型,具有交互式和可提示的界面,特別是在沒有使用LLMs的情況下。? 第5章描述了如何以端到端的方式訓練LLM,以處理視覺輸入進行理解和推理。? 第6章描述了如何將多模態工具與LLM鏈接,以實現新的功能。? 第7章總結了本文并討論了研究趨勢。
第2至6章是本綜述論文的核心章節。這些章節的結構概述如圖1.2所示。我們首先討論了兩種特定任務的典型多模態基礎模型,包括第2章中的視覺理解和第3章中的視覺生成。由于多模態基礎模型最初是基于圖像骨干/表示學習用于理解任務的,因此我們首先對圖像骨干學習方法的過渡進行了全面回顧,從早期的監督方法發展到最近的語言-圖像對比方法,并將討論擴展到從圖像級別到區域級別和像素級別的圖像表示(第2章)。最近,生成型AI越來越受歡迎,視覺生成基礎模型已經得到了發展。在第3章中,我們討論了大規模預訓練的文本到圖像模型,以及社區如何利用生成基礎模型開發新技術,使它們更好地與人類意圖一致。受到自然語言處理領域最新進展的啟發,LLMs在日常生活中為各種語言任務提供通用助手,計算機視覺社區一直在期望并嘗試構建通用的視覺助手。我們討論了構建通用助手的三種不同方法。受到LLMs的精神啟發,第4章著重于統一不同的視覺理解和生成模型,而無需在建模中明確納入LLMs。相比之下,第5章和第6章側重于采用LLMs構建通用視覺助手,通過在建模中明確增加LLMs來實現。具體來說,第5章描述了端到端訓練方法,第6章專注于無需訓練的方法,將各種視覺模型鏈接到LLMs。
新加坡公立大學最新《有限數據、少量樣本和零樣本下的生成建模》綜述》,詳述在數據約束下的生成建模,非常值得關注!
在機器學習中,生成建模旨在學習生成與訓練數據分布統計上相似的新數據。在本文中,我們調研了在有限數據、少量樣本和零樣本下學習生成模型的方法,稱之為“在數據約束下的生成建模”(GM-DC)。當數據獲取具有挑戰性時,例如在醫療健康應用中,這是一個重要的議題。我們討論了背景、挑戰,并提出了兩種分類法:一種是基于GM-DC任務,另一種是基于GM-DC方法。更重要的是,我們研究了不同的GM-DC任務和方法之間的交互。此外,我們強調了研究的空白、研究趨勢以及未來探索的可能方向。項目網站://gmdc-survey.github.io
生成建模是機器學習的一個領域,專注于學習訓練樣本的底層分布,從而能夠生成與訓練數據在統計屬性上相似的新樣本。生成建模在多個領域都產生了深遠的影響,包括計算機視覺[12, 78, 134]、自然語言處理[52, 171, 202]和數據工程[6, 76, 168]。多年來,生成建模取得了顯著的進展。諸如生成對抗網絡(GANs)[7, 12, 22, 48, 77, 125, 223]、變分自動編碼器(VAEs)[83, 170, 171]和擴散模型(DMs)[32, 118, 140, 161]這樣的創新方法在提高生成樣本的質量和多樣性上起到了核心作用。生成建模的進步推動了生成AI的最近的變革,為各種應用如圖像合成[24, 136]、文本生成[56, 66]、音樂創作[37, 190]、基因組學[115]等解鎖了新的可能性,還有更多其他應用[86, 148]。生成真實和多樣的樣本的能力為創意應用和新奇解決方案打開了大門[137, 142]。對生成建模的研究主要集中在擁有大型訓練數據集的設置上。StyleGAN [77] 使用Flickr-Faces-HQ (FFHQ) 學習生成逼真和多樣的人臉圖像,FFHQ是一個從圖片分享網站Flickr上收集的高質量的7萬張人臉圖片的數據集。更近期的文本到圖像生成模型是基于數百萬的圖像-文本對進行訓練的,例如,潛在擴散模型[140]是在擁有4億樣本的LAION-400M上訓練的[152]。但是,在許多領域(例如,醫學),收集數據樣本是具有挑戰性且昂貴的。在本文中,我們調查在數據約束下的生成建模 (GM-DC)。這個研究領域對于許多存在數據收集挑戰的領域/應用來說是非常重要的。我們對有限數據、少量樣本和零樣本下的學習生成模型進行了深入的文獻綜述。我們的調查是第一個為GM-DC中研究的所有類型的生成模型、任務和方法提供全面概述和詳細分析的,為研究景觀提供了一個易于訪問的指南(圖1)。我們涵蓋了基本的背景,提供了GM-DC的獨特挑戰的詳細分析,討論了當前的趨勢,并介紹了GM-DC的最新進展。我們的貢獻包括:i) GM-DC的趨勢、技術進化和統計數據(圖3; 圖4; 第5.1節); ii) 對GM-DC挑戰的新見解(第3.2節); iii) 兩個新的、詳細的分類法,一個是關于GM-DC任務(第3.1節),另一個是關于GM-DC方法(第4節); iv) 一個新的桑基圖,用于可視化研究景觀以及GM-DC任務、方法和方法之間的關系(圖1); v) 對單個GM-DC作品的有組織的總結(第4節); vi) 對未來方向的討論(第5.2節)。我們還提供了一個項目網站,其中包含一個交互式圖表,用于可視化GM-DC的景觀。我們的調查旨在為當前的研究景觀提供新的視角,為綜合文獻提供有組織的指針,并對GM-DC的最新進展提供有見地的趨勢。對于GM-DC的調查是不足的,我們的工作旨在填補這一空白。我們在arXiv上只找到了一篇關于GM-DC早期工作的調查,重點是GM-DC的某些方面[105]。這篇之前的調查集中在一部分GM-DC的論文上,只研究了以GANs為生成模型和一部分技術任務/方法的工作。我們的調查與[105]的差異在于:i) 范圍 - 我們的調查是第一個涵蓋所有類型的生成模型以及所有GM-DC任務和方法的調查(圖3); ii) 規模 - 我們的研究包括了113篇論文,并廣泛涵蓋了GM-DC的工作,而之前的調查[105]只涵蓋了我們調查中討論的工作的≈27%(圖2); iii) 時效性 - 我們的調查收集并調查了GM-DC中最新的論文; iv) 詳細性 - 我們的論文包括詳細的可視化(桑基圖、圖表)和表格,以突出顯示GM-DC文獻的交互和重要屬性; v) 技術進化分析 - 我們的論文分析了GM-DC任務和方法的進化,為最近的進展提供了新的視角; vi) 視野分析 - 我們的論文討論了在GM-DC中遇到的獨特障礙,并確定了未來研究的方向。本文的其余部分組織如下。在第2節,我們提供了必要的背景。在第3節,我們討論GM-DC的任務和獨特的挑戰。在第4節,我們分析了GM-DC的方法和手段。在第5節,我們討論開放的研究問題和未來的方向。第6節總結了這次調查。
圖1. GM-DC的研究景觀。該圖展示了GM-DC任務與方法(主要和子類別)以及GM-DC方法之間的互動。任務在我們提議的分類法中的表2中定義,方法在我們提議的分類法中的表3中定義。該圖的互動版本可以在我們的項目網站上查看。最好以彩色并放大查看
在數據約束下的生成建模:任務分類、挑戰
在本節中,首先,我們介紹了我們提出的關于不同GM-DC任務的分類方法(第3.1節),基于它們的屬性(例如,無條件或有條件的生成)來強調它們之間的關系和差異。接著,我們介紹了GM-DC的獨特挑戰(第3.2節),包括像領域接近度和不兼容的知識轉移等新的見解。后面,在第4節,我們介紹了我們提出的關于GM-DC方法的分類,其中詳細回顧了按照我們提出的分類法組織的各個工作。
在這一節中,首先,我們將展示我們為GM-DC提出的方法分類法。這種分類法系統地將GM-DC方法根據這些方法的主要思想分為七種方法(表3)。然后,我們將討論在我們提出的分類法下組織的各種GM-DC方法。 我們為GM-DC提出的方法分類法將GM-DC方法分為七組: (1)遷移學習:在GM-DC中,遷移學習的目的是使用在源域(擁有眾多和多樣的樣本)上預先訓練過的生成器的知識,來改善目標域生成器的學習效果。例如,此類別下的一些方法使用StyleGAN2在大型FFHQ[77]上的預訓練知識,來改進僅使用藝術家的少量畫作圖像為該藝術家的臉部畫作生成學習[122, 189, 213]。基于TL的GM-DC的主要挑戰是確定、選擇并保留源生成器對目標生成器有用的知識。在這一點上,有六個子類別:i) 基于正則化的微調,探索正則化來保留適當的源生成器知識以改進目標生成器的學習;ii) 隱空間,探索源生成器隱空間的轉換/操作;iii) 調制,將源生成器的權重凍結并傳輸給目標生成器,并在凍結權重之上添加可訓練的調制權重,以增加對目標域的適應能力;iv) 自然語言引導,使用自然語言提示和語言-視覺模型的監督信號來適應源生成器到目標域;v) 適應性意識,確定并保留對適應任務有重要意義的源生成器知識;vi) 提示調整,這是一個新興的思想,它凍結源生成器的權重,并學習生成視覺提示(令牌)來引導目標域的生成。
(2)數據增強:增強的目的是通過對可用數據應用各種變換{???? } ?? ??=1來增加數據分布的覆蓋面,從而改善GM-DC。例如,在此類別內,一些作品對可用的有限數據進行增強,使用100張Obama數據集訓練一個無條件的StyleGAN2[78],或者僅使用CIFAR-100數據集的10%訓練一個有條件的BigGAN[12]。這些方法的主要挑戰是增強泄露,其中生成器學習了增強的分布,例如,生成旋轉/噪音樣本。有三個代表性的類別:i) 圖像級增強,在圖像空間上應用變換;ii) 特征級增強,在特征空間上應用變換;iii) 變換驅動設計,利用每個單獨變換????的信息為高效的學習機制。
(3) 網絡架構:這些方法為生成器設計特定的架構,以在數據受限情況下提高其學習效果。此類別中的一些工作設計了淺層/稀疏的生成器,以防止由于過度參數化而對訓練數據過度擬合。設計新架構時的主要挑戰是,發現最優超參數的過程可能是費力的。對于GM-DC,有三種主要的架構設計:i) 特征增強,引入附加模塊以增強/保留特征圖中的知識;ii) 集成大型預訓練視覺模型,利用大型預訓練的視覺模型來幫助更準確的生成建模;iii) 動態網絡架構,在訓練過程中發展生成模型的架構,以補償數據受限。
(4) 多任務目標:這些方法通過引入額外的任務來修改生成模型的學習目標,以提取泛化表示并在數據受限情況下減少過度擬合。例如,一些工作基于對比學習[54]定義了一個前景任務,除了原始的生成學習任務,還可以拉近正樣本并推遠負樣本,以防止在有限的可用數據下過度擬合。在數據受限情況下,新目標與生成學習目標的有效整合可能具有挑戰性。這些工作可以被歸類為幾種方法:i) 正則化器,增加一個額外的學習目標作為正則化器,在數據受限時防止生成模型訓練過程中的不良行為。注意,此類別與基于正則化的微調不同,后者旨在保留源知識,而前者是在沒有源生成器的情況下進行訓練;ii) 對比學習,增加與前景任務相關的學習目標,使用解決此前景任務的額外監督信號來增強生成模型的學習過程;iii) 遮蔽,通過遮蔽圖像/信息的一部分引入替代學習目標,以提高生成建模,增加任務難度并防止學習瑣碎的解決方案;iv) 知識蒸餾,引入一個額外的學習目標,使生成器遵循一個強大的老師;v) 原型學習,強調學習分布中樣本/概念的原型作為一個額外的目標;vi) 其他多任務目標,包括共同訓練、塊級學習和使用擴散來增強生成。
(5) 利用頻率成分:深度生成模型顯示出頻率偏見,傾向于忽略高頻信號,因為它們很難生成[153]。數據受限可能會加劇這個問題[197]。此類別中的方法旨在通過在訓練過程中利用頻率組件來提高生成模型的頻率意識。例如,某些方法采用Haar小波變換從樣本中提取高頻組件。然后,這些頻率組件通過跳過連接輸入到各種層,以減輕與生成高頻細節相關的挑戰。盡管這種方法有效,但對于GM-DC使用頻率組件還沒有被徹底研究。通過合并更先進的提取頻率組件的技術,可以增強性能。
(6) 元學習:這些方法為看到的類創建帶有數據約束的樣本生成任務,并在元訓練期間跨這些任務學習元知識——所有任務共享的知識。然后,這些元知識被用于改善具有數據約束的未見類的生成建模。例如,一些研究作為元知識,學習融合花卉數據集[120]的看到類別??????????的樣本進行樣本生成。這種元知識使模型能夠從未見類??????????????生成新樣本,只需融合每個類的3個樣本。注意,由于這些作品在生成框架內采用了情景學習,訓練穩定性可能受到影響。沿這條線提出的方法可以歸類為三個類別:i) 優化,使用在看到的類上學到的權重初始化生成模型作為元知識,以便快速適應只有有限步驟優化的未見類;ii) 轉換,從看到的類的樣本中學習跨類別轉換作為元知識,并將它們應用于未見類的可用樣本以生成新樣本;iii) 融合,學習融合看到的類的樣本作為元知識,并將學到的元知識應用于通過融合未見類的樣本進行樣本生成。
(7) 建模內部塊分布:這些方法旨在學習一個圖像(在某些情況下是幾個圖像)內部的塊分布,然后生成具有任意大小和縱橫比的多樣本,這些樣本具有相同的視覺內容(塊分布)。例如,一些作品使用單個圖像訓練擴散模型,如“濱海灣金沙”,訓練后,擴散模型可以生成類似的圖像,但包括頂部相似的“金沙天空公園”的附加塔樓。然而,這些方法的主要限制在于,對于每一張單獨的圖像,通常都要從頭開始訓練一個單獨的生成模型,忽略了在這種情境下知識轉移的有效訓練潛力。沿這一線提出的方法可以歸類為兩個主要群體:i) 漸進訓練,逐步訓練生成模型,以在不同的尺度或噪聲水平上學習塊分布;ii) 非漸進訓練,通過實施額外的采樣技術或新模型架構在單一尺度上學習生成模型。
**本文回顧了在擴散模型在廣泛的生成任務中流行的背景下的文本到圖像的擴散模型。作為一項獨立的工作,本綜述首先簡要介紹基本擴散模型如何用于圖像合成,然后介紹條件或指導如何改善學習。**在此基礎上,綜述了文本條件圖像合成(即文本到圖像)的最新方法。本文進一步總結了文本到圖像生成之外的應用:文本指導的創意生成和文本指導的圖像編輯。除了迄今取得的進展,本文還討論了現有的挑戰和有希望的未來方向。
//www.zhuanzhi.ai/paper/8a64d962c13c8857d5c06bcdc0c43c0a
1. 引言
一幅畫勝過千言萬語。正如一句老話所說,圖像比純文本更能講述故事。當人們閱讀文本故事時,他們可以通過想象在腦海中畫出相關的圖像,這有助于他們理解和享受更多。因此,設計一個從紋理描述生成視覺逼真圖像的自動系統,即文本到圖像任務,是一項非平凡任務,因此可以被視為類人或通用人工智能的一個重要里程碑[1],[2],[3],[4]。隨著深度學習[5]的發展,文本到圖像任務已經成為計算機視覺中最令人印象深刻的應用之一[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]。我們在圖1中總結了文本到圖像生成的代表性工作的時間軸。如圖1所示,AlignDRAW[6]是一項從自然語言生成圖像的開創性工作,但受到了不現實的結果的影響。文本條件GAN[7]是第一個從字符級到像素級的端到端差分架構。不同于基于GAN的方法[7]、[8]、[9]、[10]主要在小規模數據環境下進行,自回歸方法[11]、[12]、[13]、[14]利用大規模數據進行文本到圖像生成,代表性方法包括OpenAI的DALL-E[11]和谷歌的Parti[14]。然而,自回歸特性使得這些方法[11],[12],[13],[14]存在較高的計算成本和序列誤差累積。
最近,擴散模型(DM)出現了成為文本到圖像生成中最先進的新模型的趨勢[15],[16],[17],[18]。基于擴散的文本到圖像合成也在社交媒體上引起了廣泛關注。在過去的一年里,大量關于文本到圖像擴散模型的工作已經出現,但更多的工作預計將在不久的將來出現。相關著作的數量使讀者在沒有全面調研的情況下,了解文本-圖像擴散模型的最新發展越來越具有挑戰性。然而,據我們所知,目前還沒有關于基于擴散的文本到圖像生成的最新進展的綜述工作。相關綜述的一個分支[19],[20],[21],[22]綜述了擴散模型在所有領域的進展,使其局限于對測試到圖像合成任務的有限覆蓋。另一個綜述流[21],[23],[24]專注于文本到圖像任務,但僅限于基于GAN的方法,考慮到擴散模型取代GAN的最近趨勢,這些方法有些過時。本文通過全面介紹基于擴散模型的文本到圖像任務的最新進展,并對其未來方向進行了展望,填補了上述兩個流之間的空白。 **該綜述首先回顧了基于擴散模型的文本到圖像任務的最新進展,因此處于擴散模型和文本到圖像合成的交叉點。**因此,我們將本文的其余部分組織如下。第二節介紹了擴散模型的背景,包括對文本到圖像合成很重要的指導方法。第三部分討論了基于擴散模型的文本生成圖像任務的開創性工作,包括GLIDE[15]、Imagen[16]、Stable diffusion[17]和DALL-E2[18]。第四部分從各個方面進一步論述了后續研究對第三部分開拓性工作的完善。通過總結最近的基準和分析,在第5節中從技術和道德角度進一步評估這些文本到圖像的方法。除了文本到圖像的生成外,還介紹了第六節中的相關任務,包括文本指導的創意生成(如文本到視頻)和文本指導的圖像編輯。回顧了文本到圖像生成之外的各種應用,并討論了挑戰和未來的機會。 2. 開創性的文本到圖像擴散模型
本節介紹基于擴散模型的文本到圖像的前沿框架,根據擴散先驗在哪里進行,可以大致分類,即像素空間或潛空間。第一類方法直接從高維像素級生成圖像,包括GLIDE[15]和Imagen[16]。另一組工作建議首先將圖像壓縮到一個低維空間,然后在這個潛空間上訓練擴散模型。潛空間類的代表性方法有Stable Diffusion[17]、VQ-diffusion[39]和DALL-E 2[18]。 像素空間中的框架
GLIDE:關于DM的第一個T2I工作。本質上,文本到圖像是以文本為條件的圖像合成。因此,將類條件DM中的標簽替換為文本,使采樣生成以文本為條件是很直觀的。正如在2.3節中討論的,引導擴散提高了條件DM中樣本[37]的真實感,其無分類器變體[38]有助于處理自由形式的提示。受此啟發,GLIDE[15]在T2I中采用無分類器指導,將原始類別標簽替換為文本。GLIDE[15]還調查了剪輯指導,但與無分類器指導相比,人類評估人員不太喜歡樣本的照片真實感和標題相似性。作為其框架中的一個重要組件,文本編碼器被設置為一個transformer[40],具有24個殘差塊,寬度為2048(大約1.2B參數)。實驗結果表明,GLIDE[15]在FID和人工評價指標上均優于DALL-E [11]。
Imagen:用預訓練語言模型編碼文本。
繼GLIDE[15]之后,Imagen[16]采用無分類器指導的圖像生成。GLIDE和Imagen的核心區別在于它們對文本編碼器的選擇。具體來說,GLIDE使用成對的圖像-文本數據與擴散先驗一起訓練文本編碼器,而Imagen[16]采用預訓練和凍結的大型語言模型作為文本編碼器。凍結預訓練編碼器的權重有助于離線文本嵌入,這為文本到圖像擴散先驗的在線訓練減少了可忽略不計的計算負擔。此外,文本編碼器可以在圖像-文本數據(如CLIP[41])或純文本語料庫(如BERT [42], GPT[43],[44],[45]和T5[46])上進行預訓練。純文本語料庫明顯大于成對的圖像-文本數據,使這些大型語言模型接觸到分布豐富而廣泛的文本。例如,BERT[42]中使用的純文本語料庫約為20GB, T5[46]中使用的純文本語料庫約為800GB。以不同的T5[46]變體作為文本編碼器,[16]揭示了在Imagen中增加語言模型的大小比擴大擴散模型的大小更能提高圖像保真度和圖文對齊。
隱空間框架
穩定擴散:潛空間的里程碑式研究。在隱空間上訓練擴散模型的代表性框架是穩定擴散,它是隱擴散模型(LDM)[17]的擴展版本。繼Dall-E[11]采用VQ-VAE學習視覺碼本之后,穩定擴散在第一階段使用VQ-GAN[47]進行潛表示。值得注意的是,VQ-GAN通過添加對抗性目標來改進VQ-VAE,以增加合成圖像的自然度。使用預訓練的VAE,穩定擴散逆轉了用噪聲擾動潛空間的前向擴散過程。穩定擴散還引入了交叉注意力,作為各種條件信號(如文本)的通用調節。在[17]上的實驗結果表明,在隱空間上進行擴散建模在降低復雜度和保持細節方面明顯優于在像素空間上進行擴散建模。在VQ-diffusion[39]中,采用先掩碼再替換的擴散策略,也實現了類似的擴散算法。與像素空間方法的發現類似,無分類器指導也顯著改善了隱空間[17]、[48]中的文本到圖像擴散模型。
3. 文本到圖像擴散模型的改進
3.1改進模型架構
關于指導的選擇。在無分類器指導的基礎上,[15]、[57]、[58]等工作也利用CLIP[41]探索了跨模態指導。具體來說,GLIDE[15]發現CLIP-guidance的表現低于無分類器指導的變體。相比之下,另一項修復[59]的工作指出,缺乏大規模的transformer語言模型,使得這些具有CLIP指導的模型難以編碼文本提示和生成具有細節的復雜場景。通過結合大型語言模型和跨模態匹配模型,修復[59]顯著提高了生成圖像的樣本保真度和圖像-文本對齊。通用的圖像合成能力使修復[59]可以在簡單和復雜的場景中生成圖像。 3.2 空間控制示意圖
盡管它們具有前所未有的高圖像保真度和標題相似性,但大多數文本到圖像的DMs,如Imagen[16]和DALL-E2[18],并不提供對空間布局的細粒度控制。為此,SpaText[62]引入了空間文本(ST)表示,可以通過調整SOTA DM的解碼器對其進行微調。具體來說,新的編碼器同時滿足局部ST和現有的全局文本。因此,SpaText[62]的核心在于ST,其中的擴散先驗單獨訓練,以將CLIP中的圖像嵌入轉換為其文本嵌入。在訓練過程中,通過使用CLIP圖像編碼器將分割后的圖像對象作為輸入直接生成ST。并發工作[63]提出通過簡單的草圖圖像實現細粒度的局部控制。他們的方法的核心是一個潛在引導預測器(LGP),這是一個像素級MLP,將噪聲圖像的潛在特征映射到相應的草圖輸入。經過訓練后(請參閱[63]了解更多訓練細節),LGP可以部署到預訓練的文本到圖像DM,而不需要進行微調。
3.3 面向概念控制的文本反轉
文本到圖像生成的先驅工作[15],[16],[17],[18]依靠自然語言來描述生成圖像的內容和風格。然而,在某些情況下,文本不能準確地描述用戶想要的語義,例如生成一個新的主題。為了合成具有特定概念或主題的新場景,[64],[65]引入了一些具有所需概念的參考圖像,然后將參考圖像翻轉為文本描述。具體來說,[64]將幾個參考圖像中的共享概念翻轉到文本(嵌入)空間,即“偽詞”。生成的“偽詞”可用于個性化生成。DreamBooth[65]采用了類似的技術,主要區別在于對預訓練DM模型進行微調(而不是凍結),以保留主題身份的關鍵視覺特征。
3.4 分布外檢索
SOTA文本到圖像模型令人印象深刻的性能是基于這樣的假設:該模型很好地暴露了以訓練風格描述公共實體的文本。然而,當實體很少見,或者期望的風格與訓練風格有很大不同時,這種假設就不成立了。為了緩解分布外性能的顯著下降,多個工作[66]、[67]、[68]、[69]都使用了將外部數據庫作為內存進行檢索的技術。這種技術首先在NLP[70],[71],[72],[73],[74]和最近在基于GAN的圖像合成[75]中獲得了關注,通過將全參數模型轉換為半參數模型。受此啟發,[66]增強了具有檢索的擴散模型。檢索增強擴散模型(RDM)[66]由條件DM和圖像數據庫組成,圖像數據庫被解釋為模型的顯式部分。通過在CLIP中測量距離,為每個查詢查詢k近鄰,即訓練樣本,在外部數據庫中,擴散先驗由具有固定CLIP圖像編碼器的KNN近鄰的更有信息的嵌入來指導,而不是文本嵌入。KNN-diffusion[67]采用了一種基本相似的方法,主要不同之處在于使擴散先驗地附加在文本嵌入上,以提高生成的樣本質量。后續的Re-Imagen[69]也采用了這種做法。與兩階段框架的RDM[66]和KNN-diffusion[67]相比,Re-Imagen[69]采用單階段框架,選擇與潛空間距離不相關的K-NN近鄰。此外,Re-Imagen還允許檢索到的鄰居既是圖像又是文本。如[69]所述,Re-Imagen在基準COCO數據集上的性能比KNN-diffusion有很大的優勢。
本書通過有監督、無監督和高級學習技術提供了對機器學習算法的概念理解。本書包括四個部分:基礎、監督學習、非監督學習和高級學習。第一部分提供了基礎材料、背景和簡單的機器學習算法,為學習機器學習算法做準備。第二部分和第三部分提供了對監督學習算法和作為核心部分的無監督學習算法的理解。最后一部分提供了先進的機器學習算法:集成學習、半監督學習、時序學習和強化學習。
提供兩種學習算法的全面覆蓋: 監督和無監督學習; 概述用于解決分類、回歸和聚類的計算范例; 具有構建新一代機器學習的基本技術。
這本書是關于機器學習的概念,理論和算法。在第一部分中,我們通過探索學習理論、評估方案和簡單的機器學習算法,提供了關于機器學習的基本知識。在第二和第三部分中,我們將監督學習算法描述為分類和回歸任務的方法,而無監督學習算法描述為聚類任務的方法。在第四部分,我們討論了特殊類型的學習算法,并將監督算法和非監督算法的混合作為進一步的研究。讀者需要線性代數和向量微積分的基本知識來理解機器學習算法,其中輸入數據總是以數字向量的形式給出。