亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大型模型,包括大型語言模型和擴散模型,已在接近人類智能方面展現出卓越的潛力,引起了學術界和工業界的極大興趣。然而,這些大型模型的訓練需要大量的高質量數據,而且隨著這些模型的持續更新,現有的高質量數據資源可能很快就會耗盡。這一挑戰促使人們大量研究數據增強方法。利用大型模型,這些數據增強技術已超越傳統方法。本文提供了一篇關于大型模型驅動的數據增強方法的全面綜述。我們首先建立了相關研究的分類,分為三個主要類別:**圖像增強、文本增強和配對數據增強。**接著,我們深入探討了與基于大型模型的數據增強相關的各種數據后處理技術。我們的討論隨后擴展到這些數據增強方法在自然語言處理、計算機視覺和音頻信號處理等領域的應用范圍。我們繼續評估基于大型模型的數據增強在不同場景中的成功與局限性。在我們的綜述中,我們突出了數據增強領域未來探索的潛在挑戰和途徑。我們的目標是為研究人員提供關鍵洞察,最終有助于更復雜大型模型的發展。我們持續維護相關的開源材料在: //github.com/MLGroup-JLU/LLM-data-aug-survey。

數據增強,作為機器學習中的關鍵策略,解決了用有限的標記數據訓練不同任務模型的挑戰。它涉及增強訓練樣本的充足性和多樣性,而無需顯式收集新數據,因此在提高模型泛化方面起著至關重要的作用(Feng et al., 2021; Shorten and Khoshgoftaar, 2019)。數據增強的本質在于通過各種變換改變現有數據點來生成新數據。這防止了模型記憶無關的數據模式,增強的數據緊密反映了真實數據的分布(Cubuk et al., 2019; Wei and Zou, 2019)。這些技術直接適用于監督學習(Liu et al., 2021c)并且可以通過一致性規則化(Zhang et al., 2021a)在半監督學習中用于未標記數據。最初為計算機視覺(CV)開發的數據增強方法通過裁剪、旋轉和色彩調整等操作創建人工圖像(Kanwal et al., 2022; Krell and Kim, 2017; Takahashi et al., 2019)。在自然語言處理(NLP)中,類似的方法包括隨機字符插入、單詞刪除和同義詞替換(Liu et al., 2020; Shorten and Khoshgoftaar, 2019)。

數據增強的重要性在學術和工業領域引起了廣泛關注。作為一個活躍的研究領域,它解決了機器學習中對大量高質量標記數據的日益增長的需求,這一需求在現實世界中往往無法滿足。盡管在過去幾十年中,特別是在深度學習技術方面,數據增強取得了顯著進展,但這些方法仍然難以捕捉現實世界數據的復雜性(Feng et al., 2021),生成可擴展數據(Yang et al., 2022),并抵御對抗性示例(Qiu et al., 2020)。

為了應對這些限制,當前研究正在探索創新技術來增強數據增強方法的效果和多樣性。其中,大型模型,包括大型語言模型(Zhao et al., 2023)和擴散模型(Yang et al., 2023),顯示出相當大的潛力。大型語言模型(LLMs),如GPT-4(OpenAI, 2023a)和Llama2(Touvron et al., 2023b),已經革新了NLP。這些模型以Transformer架構(Vaswani et al., 2017)為特點,并在廣泛的語料庫上進行訓練,擅長理解和生成類似人類的文本,標志著機器學習能力的重大進步(Zhao et al., 2023)。這些擁有數十億參數的模型可以承擔包括代碼生成(Zhang et al., 2023b)和數據增強(Dai et al., 2023)在內的多樣化和復雜任務,為人工通用智能(AGI)的實現鋪平了道路。

擴散模型(Ho et al., 2020; Song et al., 2020),一種新的最先進的生成模型家族,在計算機視覺中的圖像合成方面超越了長期占據主導地位的生成對抗網絡(GANs)(Goodfellow et al., 2014)(Dhariwal and Nichol, 2021; Ho et al., 2020)。與變分自編碼器(VAEs)(Kingma and Welling, 2013)和GANs等先前模型不同,擴散模型通過迭代添加和逆轉噪聲來生成高質量的合成圖像,并已實現文本到圖像的生成(Saharia et al., 2022),擴展了數據增強的范圍。

方法論

大型模型的出現徹底改變了數據增強的方式,提供了與傳統方法相比更具多樣性的創新和有效手段來生成訓練數據。本節將現有的方法基于目標數據類型分為三個不同的類別:圖像增強、文本增強和配對數據增強。圖像增強涉及擴展圖像數據,文本增強涉及擴展文本數據,而配對數據增強則涉及兩者。這些方法反映了數據增強的最新趨勢,突出了大型模型的重要作用。

圖像增強圖像增強通過額外信息的指導來合成逼真的圖像。我們將這些技術分為基于提示的和基于主題的方法:在基于提示的類別中包括文本、視覺和多模態方法;在基于主題的類別中包括針對特定主題的策略。文本提示驅動的方法從文本描述中生成圖像,視覺提示驅動的方法使用視覺線索,而多模態提示驅動的方法結合了文本描述和視覺指導。基于主題的方法為特定主題量身定制增強。這些方法提升了深度學習任務的性能,有助于更加健壯的訓練體驗。現有方法在表3中總結。

文本增強

文本增強著重于利用大型模型的先進能力來增強文本數據集,包括兩種策略:基于標簽的和基于生成內容的。在基于標簽的方法中,模型被用于注釋文本數據,有效地豐富了文本數據集,增加了更多的標記實例。基于生成內容的策略指導模型合成新的文本數據,從而擴展了數據集,增加了新生成的文本材料。現有方法在表4中展示。

配對數據增強

MixGen(Hao et al., 2023)是一種用于視覺-語言表示學習的數據增強方法,通過圖像插值和文本連接生成具有保留語義關系的圖像-文本對。Bakhtiarnia等人(2023)提出了一種名為PromptMix的方法,該方法從現有數據集中提取文本描述,使用提取的文本作為輸入到潛在擴散模型以生成類似于現有數據集中的圖像,使用高性能的重量級網絡對生成的圖像進行注釋,并將這個假數據集與真實數據混合,以改善輕量級深度神經網絡的訓練。為了解決視覺語言數據集中的報告偏差問題,特別是對象屬性關聯對訓練模型的潛在有害影響,Wu等人(2023b)提出了一種稱為BigAug的雙模態增強方法。這種方法利用對象屬性解耦來合成不同的視覺語言示例,并創建跨模態的硬否定。LLM和基礎對象檢測器的整合有助于提取目標對象,其中LLM為每個對象提供詳細的屬性描述。這些描述以及相應的硬否定接著被用來通過修補模型生成圖像。這個明確的過程引入了缺失的對象和屬性以供學習,其中硬否定指導模型區分對象屬性。

總結

在本節中,我們提供了對我們在第3、4和5節中審查的主要發現的綜合概述。 基于大型模型的數據增強仍然是一個充滿機會和挑戰的領域。本調查旨在全面審查基于大型模型的數據增強方法,伴隨的數據后處理技術以及在下游任務中的應用。 它還仔細分類了現有的基于大型模型的數據增強方法。通過總結和分析當前的研究工作,我們確定了當前方法的成功和失敗,并辨別了基于大型模型的數據增強的新趨勢。此外,我們總結了用于評估基于大型模型的數據增強的現有方法。最重要的是,這些總結可以幫助提出未來研究的新挑戰和機會。

付費5元查看完整內容

相關內容

大模型在人工智能領域取得了革命性的突破,但它們也可能帶來潛在的擔憂。為了解決這些擔憂,引入了對齊技術,以使這些模型遵循人類的偏好和價值觀。盡管過去一年取得了相當大的進展,但在建立最佳對齊策略時仍然存在各種挑戰,例如數據成本和可擴展的監督,如何對齊仍然是一個懸而未決的問題。在這篇綜述文章中,我們全面調查了價值對齊方法。我們首先解析對齊的歷史背景,追溯到20世紀20年代(它來自哪里),然后深入探討對齊的數學本質(它是什么),揭示了固有的挑戰。在此基礎上,我們詳細檢查了現有的對齊方法,這些方法分為三類:強化學習、監督式微調和上下文內學習,并展示了它們之間的內在聯系、優勢和限制,幫助讀者更好地理解這一研究領域。此外,還討論了兩個新興主題:個人對齊和多模態對齊,作為該領域的新前沿。展望未來,我們討論了潛在的對齊范式以及它們如何處理剩余的挑戰,展望未來對齊的方向。

大模型,是指在大量數據上訓練并包含超過數十億參數的神經模型(Bommasani et al., 2021),通常包括大型語言模型(LLMs)和大型多模態模型(LMMs)。LLMs 通常是基于Transformer(Vaswani et al., 2017)的大規模語言模型,以自回歸方式訓練(Zhao et al., 2023a),如GPT-3(Brown et al., 2020)、PaLM(Narang and Chowdhery, 2022)、ChatGPT(Ouyang et al., 2022)、Bard(Aydin, 2023)和LLaMA(Touvron et al., 2023a)。LLMs 的卓越能力也促進了LMMs 的發展,LMMs 能夠處理圖像(視覺)和自然語言文本(語言)(Dirik and Paul, 2023),如PaLM-E(Driess et al., 2023)、LLaVA(Liu et al., 2023c)、DALL-E 3(Betker et al., 2023)和Gemini(Team et al., 2023)。與小模型(Cho et al., 2014;Devlin et al., 2018)不同,大模型展示了兩個獨特特征:規模化法則(Kaplan et al., 2020),闡明了模型規模增長與性能改進之間的一致關系,以及新興能力(Wei et al., 2022a)顯示,當模型規模超過某一閾值時,意外地出現了在小模型中未觀察到的新能力,如上下文內學習(Wang et al., 2023a)、指令跟隨和跨多種任務和領域的逐步推理(Wei et al., 2022b),革新了AI的角色。因此,語言模型(LMs)經歷了逐步的演化,從統計語言模型(SLMs)(Pauls and Klein, 2011)和神經語言模型(NLMs)(Cho et al., 2014)開始,進步到預訓練語言模型(PLMs)(Devlin et al., 2018;Radford et al., 2019),最終導致LLMs的復雜出現。沿著這樣的軌跡,LLMs 也通過整合大規模圖文對和精心設計的目標進行預訓練,建立這兩種模態之間的內在聯系(Dosovitskiy et al., 2020;Liu et al., 2021)。這些大模型已經演變成各種變體,如圖1所示,深刻影響了多個行業和領域,根本性地改變了我們解決實際問題的方式。 然而,每枚硬幣都有兩面。由于大模型通常是在從互聯網爬取的數據集上預訓練的,它們也可能內化風險信息并引發一些潛在的擔憂(Tamkin et al., 2021; Bender et al., 2021; Kaddour et al., 2023),包括產生社會偏見(Sheng et al., 2019)、有害語言和排斥(Gehman et al., 2020)、錯誤信息(Bommasani et al., 2021)和社會經濟傷害(Weidinger et al., 2022),對社會造成深遠的影響。此外,觀察到兩個風險特征,(1)逆規模化:某些風險可能不僅僅是保持不變,而且隨著模型規模的增加而惡化(McKenzie et al., 2023),(2)新興風險:未見的風險可能出現或顯著放大的現有風險隨著更大的模型而出現(Wei et al., 2022a),使得之前建立的特定風險方法難以處理迅速出現的潛在問題。對這些倫理和社會風險給予極高的重視是至關重要的。低估這些風險可能會導致嚴重的后果。例如,可能煽動仇恨或暴力的有害語言,可能導致財產損失的私人數據泄露,以及在敏感領域可能造成傷害的錯誤信息,例如不準確的法律或醫療建議(Weidinger et al., 2021)。

為了解決上述風險,研究人員開發了各種對齊方法,以使LLMs與人類指令、偏好和價值觀對齊(Ouyang et al., 2022; Liu et al., 2022; Rafailov et al., 2023)。在LMMs的背景下,"對齊"這一術語傳統上指的是不同模態之間的對齊,如視覺和語言(Jia et al., 2021; Radford et al., 2021)。然而,隨著LLMs中對齊技術的進步,現在它傾向于代表使LMMs對齊,以使它們遵循人類指令并完成多樣化的任務(Liu et al., 2023c; Zhu et al., 2023; Dai et al., 2023)。對齊的概念可以追溯到諾伯特·維納的表述,“我們最好確信放入機器中的目的是我們真正想要的目的”(Wiener, 1960),這被定義為“A試圖做H想要它做的事情”,其中A和H是現代AI研究中的兩個智能代理(Yudkowsky, 2016; Christiano, 2018)。隨后,對齊的研究在強化學習(RL)領域逐漸獲得重要性(Hadfield-Menell et al., 2016; Everitt and Hutter, 2018; Leike et al., 2018),并在大模型時代蓬勃發展(Kenton et al., 2021),培育了多樣化的生成模型和多模態模型,如圖1所示。良好對齊的AI代理,例如LLMs,不僅具有遵循用戶指令從而協助完成任務或回答問題的能力,還有避免生成攻擊性或歧視性內容的能力(Askell et al., 2021)。相反,未對齊的AI將會導致潛在風險,如真實性問題、錯誤信息、上癮和群體兩極分化(Zhuang and Hadfield-Menell, 2020; Pan et al., 2022),如前所述。

盡管近年來取得了顯著進展,但對大模型對齊的研究仍處于初級階段,理解這一主題仍存在許多模糊和困難。認識到對齊的重要性,本文致力于對現有對齊方法進行全面的綜述和分析,以促進人工智能與人類的共生未來。我們的范圍包括:i) 介紹對齊的歷史并詳述對齊的本質(第2節),ii) 回顧現有方法論并分析其優勢、劣勢和聯系(第3節),以及iii) 討論未來的挑戰和研究方向(第4節)。

對齊目標

在深入探討如何對齊之前,我們首先簡要介紹需要對齊的目標。對齊目標的討論源自于規范問題,即我們如何定義我們期望從人工智能中得到的目的?(Leike et al., 2018),這可以從兩個方面考慮(Gabriel, 2020):(1)規范方面:我們應該將什么目標編碼進人工智能中,以及(2)技術方面:我們如何形式化和建模這些目標。未能實現目標可能會導致人工智能尋找漏洞并以意料之外的方式實現目標,這被稱為規范游戲(Skalse et al., 2022)。從前者方面來看,對齊目標范圍從指令、意圖和偏好到利益、價值等(Gabriel, 2020)。另一個流行的目標是有益、誠實和無害(HHH)原則(Askell et al., 2021)。然而,大部分工作(Ouyang et al., 2022; Rafailov et al., 2023)強調對齊方法,而忽略了關于哪個目標最合適的分析。

良好對齊的模型能夠生成與這些確定的目標一致的內容。然而,由于評估者追求錯誤的目標、問題獎勵模型或策略(Casper et al., 2023),可能會出現錯位問題。錯位的模型可能會無意中導致意料之外或不希望的傷害和后果。例如,存在惡意使用的潛力,這些模型可能生成錯誤信息或歧視性和有害的內容(Brundage et al., 2018)。此外,即便是相當良好對齊的模型,也仍然可能展現出某些缺陷。它們可能產生幻覺(Ji et al., 2023),傳播偏見(Santurkar et al., 2023),并且容易受到如越獄(Li et al., 2023b)等對抗性攻擊的影響。

總體而言,實現對齊需要仔細考慮它們應該對齊的各種目標,解決潛在的錯位問題,并減輕這些模型可能具有的限制和脆弱性。

對齊方法

LLMs的對齊方法主要分為三種范式:基于強化學習的對齊(第3.1節)、基于監督式微調的對齊(第3.2節)和上下文內對齊(第3.3節)。在這一節中,我們將介紹和討論它們,以及個性化對齊(第3.5節)和LMM對齊(第3.4節),并建立它們與第2節中介紹的定義的聯系。所有類別的對齊方法都在附錄中的圖7中總結。

強化學習對齊

RLHF的理念最初在(Christiano et al., 2017)中被揭示,其中人類偏好是針對代理軌跡的片段表達的,用于深度強化學習,使得學習更復雜的行為成為可能。之后,Stiennon等人(2020)將RLHF技術應用于摘要任務中,并學習人類對不同摘要的偏好,從而顯著提高了質量。此外,Nakano等人(2021)提出了WebGPT,它在GPT-3上進行微調,并利用RLHF來提煉網頁導航和信息檢索的能力。這些早期使用RLHF的研究主要旨在提高模型性能,特別是在“有用性”或“誠實性”方面,可能忽略了“無害性”(HHH)(Askell et al., 2021)。這種失敗可能會導致LLMs與人類價值觀的錯位,導致模型輸出對用戶有害或不真實,如第1節所述。 為了減少這種傷害,InstructGPT(Ouyang et al., 2022)利用RLHF與用戶的意圖對齊,后者通過標記的模型響應來表示,以滿足HHH原則。RLHF技術直接催生了最成功的互動對話LLMs之一,ChatGPT,激發了對人工通用智能(AGI)的追求。

盡管RLHF的效果令人滿意,但它需要同時加載至少三個LLMs,即πθ、πSFT和R?,以及大量高質量的手動標記數據,D(x, yw, yl)。這帶來了無法承受的數據/訓練成本(RC3)。為了應對這一挑戰,提出了Constitutional AI(Bai et al., 2022b)以實現與人類標簽的對齊。這種方法類似于RLHF,但通過要求LLM生成并修正其響應來自動創建對(yw, yl)。這個框架促進了對齊的新方向,即基于AI反饋的強化學習(RLAIF)。隨后,開發了RLAIF的不同變體。Kim等人(2023)首先利用來自不同規模和提示的LLMs衍生的合成偏好數據來訓練獎勵模型。然后,他們自動生成高質量的示范用于SFT步驟,接著進行獎勵模型的RL調整。另一方面,為了提高RLHF的計算效率,Gulcehre等人(2023)提出了一種離線強化自訓練(ReST)方法。ReST從最新LLM策略中采樣多個響應以擴充訓練數據集(增長步驟),然后使用過濾后的數據通過離線RL目標對LLM策略進行微調(改進步驟)。

RLHF在實現相對良好的泛化方面已被證明是有效的,具有更好利用人類反饋信號的潛力。然而,它因訓練不穩定和高訓練/數據成本(RC3)而臭名昭著,這阻礙了RLHF進一步的適應性(RC2)和可擴展性(RC6)。此外,方程(7)中不同項之間的權衡是難以處理的(RC5),而RC4&7也仍未解決(Casper et al., 2023)。

考慮到SFT和RL的成本,以及大多數主流LLMs是黑盒的事實,基于微調的對齊方法變得越來越難以承擔或不可行。因此,另一種受歡迎的范式——基于上下文學習(ICL)的對齊——吸引了更多的注意。這種方法利用了LLMs在預訓練和指令調整階段獲得的龐大知識和遵循指令的能力。

多模態對齊

除了LLMs之外,大型多模態模型(LMMs)近年來也開啟了發展的新篇章,能夠同時處理多種模態,如圖像、視頻和文本,并學習從一種模態到另一種模態的映射(Liu et al., 2023c)。對LLMs的初步對齊成就表明了在多模態場景中進行對齊的潛力。具體來說,一系列工作整合了預訓練的視覺編碼器和LLM,并進行指令調整,以賦予LLM視覺問答(QA)能力,例如LLaVA(Liu et al., 2023c)、MiniGPT-4(Zhu et al., 2023)等(Li et al., 2023a;Gong et al., 2023;Dai et al., 2023)。LLaVA(Liu et al., 2023c)是將指令調整擴展到LLMs的第一步,它結合了CLIP的視覺編碼器和基于LLaMA的語言解碼器,并在GPT-4生成的多模態數據集上進行視覺指令調整。MiniGPT-4(Zhu et al., 2023)僅訓練單個投影層以將編碼的視覺特征與Vicuna語言模型對齊。經過在精選小數據集上的指令調整后,MiniGPT-4能生成更自然、更可靠的語言輸出。對于文本到圖像的任務,受LLMs中RLHF有效性的啟發,Lee等人(2023)提出了一種直接從人類反饋中學習的微調方法。該過程首先收集人類關于生成圖像是否與其輸入文本提示相對應的偏好數據,學習基于這些數據的獎勵模型,最后,使用獎勵加權似然最大化優化文本到圖像模型以實現對齊。為了與人類審美價值對齊,Wu等人(2023b)首先利用人類選擇的圖像微調CLIP模型作為偏好分類器。這個分類器用于為訓練數據集產生偽獎勵,進一步用于微調Stable Diffusion模型。訓練后的模型可以生成人類更偏好的更好審美質量的圖像。

多模態對齊目前處于其發展的非常初期階段,主要強調與人類指令的對齊,但忽略了如美德和社會規范等高層次和多樣化的人類價值。確保無害性提出了一個重大且不可忽視的挑戰。

個性化對齊

在心理學領域,個性指的是構成個體獨特性的獨特特征、特質以及思想、感覺和行為模式的模式。由于個性在塑造人類行為中扮演著重要角色,過去幾十年提出了大量理論和模型來解釋和分類個性的不同方面(McAdams and Pals, 2006; Roccas et al., 2002; Maslow, 1958; Freud, 1975; Bandura and Walters, 1977)。隨著大型語言模型在自然語言處理(NLP)中的革命性出現,研究發現,大型語言模型在特定提示配置下可以模擬出可靠和有效的個性(Safdari et al., 2023; Hagendorff, 2023; Jiang et al., 2023),而且對于更大和經過指令微調的模型,LLMs模擬的個性可能更強(Safdari et al., 2023),這為個性化大型語言模型提供了支持。

結論

在這項工作中,我們深入探討了對齊的起源和本質,系統地介紹了其發展、目標、形式化和評估。我們還回顧了現有的對齊研究,并分析了每個范式是如何從原始形式衍生出來的,并建立了它們的內在聯系。通過對對齊進行全面分析并識別未來的挑戰和研究方向,我們旨在為大模型的對齊方法的理解和進步做出貢獻,指導這些人工智能系統不僅避免造成傷害,而且還意圖做出善舉,最終實現一個人工智能與人類共生的未來社會。

付費5元查看完整內容

大型語言模型(LLMs)在推動文本基礎的智能體方面已經取得了超群的性能,賦予它們類似人類的決策和推理能力。與此同時,一個新興的研究趨勢集中于將這些LLM驅動的智能體擴展到多模態領域。這種擴展使得智能體能夠解釋和響應多樣化的多模態用戶查詢,因此處理更復雜和細膩的任務。在本文中,我們對LLM驅動的多模態智能體進行了系統性回顧,我們將其稱為大型多模態智能體(簡稱LMAs)。首先,我們介紹了開發LMAs所涉及的基本組件,并將現有研究分類為四種不同類型。隨后,我們回顧了集成多個LMAs的協作框架,增強了集體效能。該領域的一個關鍵挑戰是現有研究中使用的多樣化評估方法,妨礙了不同LMAs之間的有效比較。因此,我們匯編了這些評估方法并建立了一個全面框架來彌合差距。該框架旨在標準化評估,促進更有意義的比較。在我們的回顧中,我們強調了LMAs的廣泛應用并提出了可能的未來研究方向。我們的討論旨在為這個迅速發展的領域的未來研究提供有價值的見解和指南。最新的資源列表可在 //github.com/jun0wanan/awesome-large-multimodal-agents 上找到。

智能體是一個能夠感知其環境并基于這些感知做出決策以實現特定目標的系統[56]。雖然在狹窄的領域內熟練,早期的智能體[35, 50]往往缺乏適應性和泛化能力,這凸顯了與人類智能之間的顯著差異。近期在大型語言模型(LLMs)方面的進展開始彌合這一差距,其中LLMs增強了它們在命令解釋、知識同化[36, 78]以及模仿人類推理和學習[21, 66]方面的能力。這些智能體將LLMs作為其主要的決策制定工具,并進一步增強了關鍵的類人特征,如記憶。這種增強使它們能夠處理各種自然語言處理任務,并使用語言與環境互動[40, 38]。

然而,現實世界場景往往涉及超越文本的信息,包含多個模態,特別強調視覺方面。因此,LLM驅動的智能體的下一個進化步驟是獲得處理和生成多模態信息的能力,特別是視覺數據。這一能力對于這些智能體進化成更強大的AI實體至關重要,以反映人類級別的智能。裝備有這種能力的智能體在我們的論文中被稱為大型多模態智能體(LMAs)。通常,它們面臨的挑戰比僅語言的智能體更為復雜。以網絡搜索為例,LMA首先需要用戶需求的輸入,通過搜索欄查找相關信息。隨后,它通過鼠標點擊和滾動導航到網頁,瀏覽實時網頁內容。最后,LMA需要處理多模態數據(例如,文本、視頻和圖像)并執行多步驟推理,包括從網頁文章、視頻報道和社交媒體更新中提取關鍵信息,并整合這些信息以響應用戶的查詢。我們注意到,現有的LMA研究是孤立進行的,因此有必要通過總結和比較現有框架來進一步推進該領域。存在幾項與LLM驅動的智能體[60, 42, 49]相關的綜述,而其中很少有關注多模態方面。

在這篇論文中,我們旨在通過總結LMAs的主要發展來填補這一空白。首先,我們介紹了核心組件(§2)并提出了現有研究的新分類法(§3),隨后進一步討論了現有的協作框架(§4)。關于評估,我們概述了評估LMAs性能的現有方法,隨后提供了一個全面的總結(§5)。然后,應用部分提供了多模態智能體及其相關任務的廣泛實際應用的詳盡概覽(§6)。我們通過討論并建議LMAs可能的未來方向來結束這項工作,以提供有用的研究指導。

LMAs的核心組件

在本節中,我們詳細介紹了LMAs的四個核心元素,包括感知、規劃、行動和記憶感知。感知是一個復雜的認知過程,使人類能夠收集和解釋環境信息。在LMAs中,感知組件主要專注于處理來自多樣化環境的多模態信息。如表1所示,不同任務中的LMAs涉及各種模態。它們需要從這些不同模態中提取對任務完成最有益的關鍵信息,從而促進任務的更有效規劃和執行。

早期關于處理多模態信息的研究[57, 43, 70, 9]經常依賴于簡單的相關模型或工具,將圖像或音頻轉換成文本描述。然而,這種轉換方法往往會產生大量不相關和冗余的信息,尤其是對于復雜的模態(例如,視頻)。隨著輸入長度的限制,LLMs在有效提取規劃所需的相關信息方面經常面臨挑戰。為了解決這個問題,最近的研究[71, 47]引入了子任務工具的概念,這些工具旨在處理復雜的數據類型。在類似真實世界的環境中(即,開放世界游戲),[51]提出了一種處理非文本模態信息的新方法。這種方法首先從環境中提取關鍵的視覺詞匯,然后使用GPT模型進一步將這些詞匯細化為一系列描述性句子。當LLMs在環境中感知視覺模態時,它們使用這些模態來檢索最相關的描述性句子,有效地增強了它們對周圍環境的理解。

規劃。規劃者在LMAs中扮演著類似于人腦功能的核心角色。它們負責對當前任務進行深入推理并制定相應的計劃。與僅語言的智能體相比,LMAs在更復雜的環境中運行,使得制定合理計劃更具挑戰性。我們從四個角度詳細介紹規劃者(模型、格式、檢查與反思以及規劃方法):

模型:如表1所示,現有研究采用不同的模型作為規劃者。其中,最受歡迎的是GPT-3.5或GPT-4[43, 41, 9, 30, 57, 51]。然而,這些模型并非公開可用,因此一些研究已開始轉向使用開源模型,如LLaMA[67]和LLaVA[23],后者可以直接處理多種模態的信息,增強了制定更優化計劃的能力。

格式:它表示規劃者制定計劃的方式。如表1所示,有兩種格式化方式。第一種是自然語言。例如,在[41]中,獲得的規劃內容是“我做的第一件事是使用OpenCV的openpose控制模型來分析圖像中男孩的姿勢...”,其中制定的計劃是使用“OpenCV的openpose控制模型”。第二種是以程序形式,如“image_patch = ImagePatch(image)”所述[43],它調用ImagePatch函數來執行規劃。還有混合形式,如[9]。

檢查與反思:對于LMAs而言,在復雜的多模態環境中持續制定有意義且能完成任務的計劃是具有挑戰性的。這個組件旨在增強魯棒性和適應性。一些研究方法[51, 52]將成功的經驗存儲在長期記憶中,包括多模態狀態,以指導規劃。在規劃過程中,它們首先檢索相關經驗,幫助規劃者進行深思熟慮,以減少不確定性。此外,[12]利用人在執行相同任務時在不同狀態下制定的計劃。當遇到類似狀態時,規劃者可以參考這些“標準答案”進行思考,從而制定更合理的計劃。此外,[71]采用更復雜的規劃方法,如蒙特卡羅,以擴大規劃搜索范圍,找到最佳規劃策略。

規劃方法:現有的規劃策略可以分為兩種類型:動態規劃和靜態規劃,如表1所示。前者[57, 43, 70, 30, 41]指的是基于初始輸入將目標分解為一系列子計劃,類似于思維鏈(CoT)[80],其中即使在過程中出現錯誤,計劃也不會重新制定;后者[9, 25, 51, 71]意味著每個計劃都是基于當前環境信息或反饋制定的。如果在計劃中檢測到錯誤,它將回到原始狀態進行重新規劃[12]。

行動。多模態智能體系統中的行動組件負責執行規劃者制定的計劃和決策。它將這些計劃轉化為具體的行動,例如使用工具、身體運動或與界面的互動,從而確保智能體能夠準確高效地實現其目標并與環境互動。我們的討論集中在兩個方面:類型和方法。

記憶。早期研究表明,記憶機制在通用智能體的運作中發揮著至關重要的作用。與人類相似,智能體中的記憶可以分為長期記憶和短期記憶。在簡單的環境中,短期記憶足以讓智能體處理手頭任務。然而,在更復雜和現實的設置中,長期記憶變得至關重要。在表1中,我們可以看到,只有少數LMAs包含長期記憶。與僅語言的智能體不同,這些多模態智能體需要能夠存儲跨各種模態信息的長期記憶。在一些研究[71, 47, 69, 7]中,所有模態都轉換為文本格式進行存儲。然而,在[51]中,提出了一個多模態長期記憶系統,專門設計用于存檔之前的成功經驗。具體來說,這些記憶以鍵值對的形式存儲,其中鍵是多模態狀態,值是成功的計劃。

LMAs的分類

在本節中,我們通過將現有研究分類為四種類型來呈現LMAs的分類類型I:封閉源LLMs作為規劃者且不帶長期記憶。早期研究[11, 43, 57, 41, 9, 25]使用提示來利用封閉源的大型語言模型(例如,GPT-3.5)作為推理和規劃的規劃者,如圖2(a)所示。根據特定環境或任務要求,這些計劃的執行可能通過下游工具包或通過使用物理設備(如鼠標或機械臂)與環境直接互動來進行。這種類型的LMAs通常在更簡單的設置中操作,承擔傳統任務,如圖像編輯、視覺定位和視覺問答(VQA)。

類型II:微調LLMs作為規劃者且不帶長期記憶。這種類型的LMAs涉及收集多模態指令跟隨數據或使用自我指導來微調開源大型語言模型(如LLaMA)[67]或多模態模型(如LLaVA)[23, 46],如圖2(b)所示。這種增強不僅允許模型作為推理和規劃的中心“大腦”,還能執行這些計劃。類型II LMAs面臨的環境和任務與類型I相似,通常涉及傳統的視覺或多模態任務。與以相對簡單的動態、封閉環境和基本任務為特征的典型場景相比,像Minecraft這樣的開放世界游戲中的LMAs需要在動態上下文中執行精確規劃,處理高復雜性任務,并進行終身學習以適應新挑戰。因此,在類型I和類型II的基礎上,類型III和類型IV LMAs整合了記憶組件,在發展成為人工智能領域的通用智能體方面顯示出巨大的潛力。

類型III:帶有間接長期記憶的規劃者。對于類型III LMAs[71, 47],如圖2(c)所示,LLMs作為中心規劃者并配備了長期記憶。這些規劃者通過調用相關工具訪問和檢索長期記憶,利用這些記憶進行增強的推理和規劃。例如,在[71]中開發的多模態智能體框架專為動態任務(如視頻處理)量身定制。該框架由規劃者、工具包和一個任務相關的記憶庫組成,該記憶庫記錄了空間和時間屬性。規劃者使用專門的子任務工具查詢記憶庫以獲取與視頻內容相關的時空屬性,使其能夠對任務相關的時空數據進行推斷。每個工具都存儲在工具包內,專為特定類型的時空推理設計,并在框架內充當執行器。

類型IV:帶有原生長期記憶的規劃者。與類型III不同,類型IV LMAs[51, 37, 7, 76]的特點是LLMs直接與長期記憶交互,繞過了使用工具訪問長期記憶的需要,如圖2(d)所示。例如,在[51]中提出的多模態智能體在Minecraft的開放世界背景下完成了200多個不同任務的熟練度。在他們的多模態智能體設計中,交互式規劃者將多模態基礎模型與LLM合并,首先將環境的多模態輸入轉換為文本。規劃者進一步采用自我檢查機制來預測和評估執行中的每一步,主動發現潛在缺陷,并結合環境反饋和自我解釋,迅速糾正和優化計劃,無需額外信息。此外,這個多模態智能體框架包括一個新穎的多模態記憶。成功的任務計劃及其初始多模態狀態被存儲,規劃者從這個數據庫中檢索新任務的相似狀態,使用積累的經驗實現更快、更高效的任務完成。

多智能體協作

我們在這一節進一步介紹了超出單獨智能體討論范圍的LMAs的協作框架。 如圖3(a)(b)所示,這些框架采用多個LMAs協同工作。兩個框架之間的關鍵區別在于是否具有記憶組件,但它們的基本原則是一致的:多個LMAs擁有不同的角色和責任,使它們能夠協調行動,共同實現一個共同目標。這種結構減輕了單一智能體的負擔,從而提高了任務性能[12, 37, 17, 29]。

例如,在表1中,在[37]的多模態智能體框架中,引入了一個感知者智能體來感知由大型多模態模型組成的多模態環境。一個被指定為巡邏者的智能體負責與感知者智能體進行多次互動,對感知到的環境數據進行實時檢查和反饋,以確保當前計劃和行動的準確性。當檢測到執行失敗或需要重新評估時,巡邏者向規劃者提供相關信息,促使在子目標下的行動序列進行重新組織或更新。MemoDroid框架[17]包含了幾個關鍵的智能體,它們協同工作以自動化移動任務。探索智能體負責目標應用界面的離線分析,基于UI元素生成潛在子任務列表,然后將其存儲在應用記憶中。在在線執行階段,選擇智能體根據用戶命令和當前屏幕狀態從探索集合中確定要執行的特定子任務。推斷智能體進一步通過提示LLM識別并完成所選子任務所需的底層動作序列。同時,當遇到與以前學習的任務相似的任務時,回憶智能體可以直接從記憶中調用并執行相應的子任務和動作序列

結論

在這篇綜述中,我們提供了由大型語言模型(LLMs)驅動的多模態智能體(LMAs)的最新研究的全面概述。我們首先介紹LMAs的核心組件(即感知、規劃、行動和記憶),并將現有研究分類為四個類別。隨后,我們編譯了評估LMAs的現有方法,并設計了一個全面的評估框架。最后,我們聚焦于LMAs領域內一系列當前和重要的應用場景。盡管取得了顯著進展,這一領域仍面臨許多未解決的挑戰,并且有相當大的改進空間。基于回顧的進展,我們最終強調了幾個有前景的方向:

關于框架:LMAs的未來框架可能會從兩個不同的視角發展。從單個智能體的角度來看,發展可能會向創建更統一的系統進步。這涉及規劃者直接與多模態環境互動[71],利用一套全面的工具[30],并直接操作記憶[51];從多個智能體的角度來看,推進多個多模態智能體之間的有效協調以執行集體任務成為一個關鍵的研究方向。這包括協作機制、通信協議和戰略任務分配等基本方面。

關于評估:這個領域迫切需要系統和標準的評估框架。理想的評估框架應包括一系列評估任務[58, 16],從簡單到復雜不等,每個任務都具有顯著的相關性和對人類的實用性。它應該包含清晰和明智的評估指標,精心設計以全面且非重復的方式評估LMA的多樣化能力。此外,用于評估的數據集應該被精心策劃,以更接近地反映現實世界場景。

關于應用:LMAs在現實世界中的潛在應用是巨大的,為以前對傳統模型來說具有挑戰性的問題提供解決方案,例如網頁瀏覽。此外,LMAs與人機交互領域的交集[54, 44]代表了未來應用的一個重要方向。它們處理和理解來自不同模態的信息的能力使它們能夠執行更復雜和細膩的任務,從而增強它們在現實世界場景中的實用性,并改善人與機器之間的互動。

付費5元查看完整內容

將文本和視覺模態連接起來在生成智能中扮演著至關重要的角色。因此,受到大型語言模型成功的啟發,大量研究努力正被投入到多模態大型語言模型(MLLMs)的開發中。這些模型能夠無縫整合視覺和文本模態,無論是作為輸入還是輸出,同時提供基于對話的界面和遵循指令的能力。在這篇論文中,我們提供了近期基于視覺的MLLMs的全面回顧,分析它們的架構選擇、多模態對齊策略和訓練技巧我們還對這些模型在廣泛的任務范圍內進行了詳細分析,包括視覺定位、圖像生成和編輯、視覺理解和領域特定應用。此外,我們編制并描述了訓練數據集和評估基準,就性能和計算需求在現有模型之間進行了比較。總的來說,這篇綜述提供了當前藝術狀態的全面概述,為未來MLLMs的發展奠定了基礎。

//www.zhuanzhi.ai/paper/3c58ed684809b9b936259fd61a4bb074

注意力操作符和Transformer架構(Vaswani et al., 2017)的引入,使得創建能夠處理各種模態的模型成為可能,并且這種處理能力在不斷擴大的規模上得到應用。這一進步很大程度上歸功于操作符的多功能性和架構的適應性。最初,這一突破被用于語言特定模型(Devlin et al., 2018; Brown et al., 2020),但很快擴展到支持視覺處理骨干(Dosovitskiy et al., 2021),最終用于集成多種模態的模型(Radford et al., 2021)。復雜大型語言模型(LLMs)的涌現,特別是它們進行上下文學習的能力,鼓勵研究人員將這些模型的應用范圍拓寬到多模態,包括作為輸入和輸出。這一擴展導致了如GPT-4V(Achiam et al., 2023)和Gemini(Anil et al., 2023)等尖端模型的開發,展示了最先進的性能。多模態大型語言模型(MLLMs)的開發涉及將視覺和語言的單模態架構合并,通過視覺到語言的適配器建立它們之間的有效連接,并設計創新的訓練方法。這些方法對于確保模態對齊和準確遵循指令的能力至關重要。在新模型快速發布的背景下,我們的目標是提供關于MLLM領域的全面概述,重點關注利用視覺模態的模型。這一概述既是對當前狀態的更新,也是對未來發展的靈感來源。我們確定了定義這些模型的三個核心方面:它們的架構、訓練方法以及它們被設計來執行的任務。我們首先詳細介紹了流行的視覺編碼器選擇和為LLMs裝備跨模態能力的適配器模塊。接著,我們深入訓練過程和使用的數據。然后,我們探索MLLMs處理的任務范圍。綜述以對該領域持續存在的挑戰和未來研究的有希望方向的討論結束。關于訓練數據、評估數據集以及性能和計算要求的進一步細節在補充材料中報告。

賦予大型語言模型多模態能力

** 前言**

大型語言模型。Brown等人(2020)發現上下文學習,即在提示前附加一些示例以演示大型語言模型(LLM)的期望輸出(Chowdhery等人,2023;Hoffmann等人,2022;Tay等人,2022),可以提高其性能,特別是在未見過的任務上。通過為每個訓練樣本提供所需任務的自然語言描述,可以進一步提高泛化能力。這種技術,稱為指令調優(Chung等人,2022;Wang等人,2022b,a;Jiang等人,2024),對于使LLM的行為與人類的行為對齊至關重要,目前賦能了最先進的LLM,最終通過來自人類反饋的強化學習(RLHF)(Ouyang等人,2022;Achiam等人,2023;Chen等人,2023j;Bai等人,2023a)得到提升。PEFT。當一個預訓練的LLM需要適應特定領域或應用時,參數高效微調(PEFT)方案代表了訓練整個LLM的一個重要替代方案,因為這些策略只引入少量新參數。其中,提示調優(Hambardzumyan等人,2021;Lester等人,2021;Li和Liang,2021;Liu等人,2023j)學習一小組向量作為軟提示在輸入文本之前輸入模型。不同的是,LoRA(Hu等人,2021)通過學習低秩矩陣限制了新權重的數量。這種技術與如QLoRA(Dettmers等人,2023)等量化方法正交,進一步減少了LLM的內存占用,與通常的半精度權重相比。走向多模態LLM。MLLM的發展與LLM的發展路徑類似,Flamingo(Alayrac等人,2022)是首個在視覺-語言領域探索大規模上下文學習的模型。然后,視覺指令調優(Liu等人,2023e)迅速成為多模態領域中最突出的訓練范式,以及使用PEFT技術微調LLM。任何MLLM至少包含三個組件(圖1):作為與用戶接口的LLM主干,一個(或多個)視覺編碼器,以及一個或多個視覺到語言的適配器模塊。對LLM主干的流行選擇通常屬于LLaMA家族(Touvron等人,2023a,b),鑒于它們的權重是自由可獲取的,它們僅在公開數據上進行了訓練,并且它們擁有不同的大小以適應各種用例。此外,它們的衍生版本也很受歡迎,例如Alpaca(Taori等人,2023)和Vicuna(Chiang等人,2023)。前者在GPT-3編寫的指令上微調LLaMA,而后者利用用戶與ChatGPT(OpenAI,2022)的共享對話。其他選擇包括OPT(Zhang等人,2022b),Magneto(Wang等人,2023b),MPT(MosaicML,2023),以及經過指令調優(Chung等人,2022)或多語言(Xue等人,2020)版本的T5(Raffel等人,2020),一種為多個任務預訓練的編解碼器語言模型。 本調查中涵蓋的MLLM的總結報告在表1中,指出每個模型基于哪個LLM,視覺編碼器,用于連接視覺和語言組件的適配器,MLLM是否經過視覺指令調優訓練,以及主要任務和能力的簡短列表。視覺編碼器在MLLM中,一個關鍵組件是視覺編碼器,它專門設計用于為LLM提供提取的視覺特征。通常采用凍結的預訓練視覺編碼器,同時只訓練一個可學習的接口,將視覺特征與底層LLM連接起來。最常用的視覺編碼器基于預訓練的Vision Transformer(ViT)模型,具有CLIP-based目標,以利用CLIP嵌入的固有對齊。流行的選擇包括CLIP(Radford等人,2021)的ViT-L模型,OpenCLIP(Wortsman等人,2022)的ViT-H主干,以及EVA-CLIP(Fang等人,2023)的ViT-g版本。CLIP和OpenCLIP編碼器在從網絡收集的圖像上訓練,采用對比方法對正確的圖像-文本對進行對齊。相反,EVA-CLIP是一系列模型,提供了訓練CLIP模型的實用有效解決方案。特別是,EVA模型預訓練為重建被遮擋的圖像-文本對齊視覺特征,條件是可見的圖像塊。 正如(Li等人,2023f)所示,更強大的圖像編碼器導致更好的性能。基于這一見解,Lin等人(2023b)和Gao等人(2024)提出了一個凍結視覺主干的集合,以捕獲魯棒的視覺表示和不同級別的信息粒度。同時,PaLI模型(Chen等人,2023i,g),注意到語言和視覺參數之間的不平衡,分別提出將視覺主干擴展到4億和220億參數的ViT。使用如此大且強大的模型是通過在訓練期間保持視覺編碼器凍結的常見做法變得可行的,如(Li等人,2023f;Huang等人,2023a;Gao等人,2023;Chen等人,2023f)中所觀察到的。然而,使用凍結的視覺編碼器有一些局限性,主要是由于參數數量有限,導致視覺和語言模態之間對齊不足。具體來說,從視覺模型提取的密集特征可能會碎片化細粒度圖像信息,并由于輸入語言模型的長序列而帶來大量計算。為了緩解這個問題,其他方法(Ye等人,2023c,d)采用兩階段訓練范式。在第一階段,他們結合了可訓練的視覺主干,同時保持預訓練的LLM凍結。根據他們的發現,使視覺編碼器可訓練可以提高諸如視覺問題回答或視覺描述等任務的性能。然而,它可能導致其他任務的性能下降,表明一定程度的遺忘和對通用視覺表示的損害。

視覺到語言的適配器

來自不同模態的輸入的同時存在強調了需要納入一個能夠勾畫出這些單模態領域內潛在對應關系的模塊的必要性。這些模塊,稱為“適配器”,旨在促進視覺和文本領域之間的互操作性。在常見的MLLM中使用了不同適配器的范圍,從基本架構(如線性層或MLP)到高級方法(如基于Transformer的解決方案),如Q-Former模型,以及添加到LLM的條件交叉注意力層。線性和MLP投影。將視覺輸入投影到文本嵌入中的最直接方法涉及學習線性映射,將視覺特征轉換為與文本對應部分相同的維度。一些方法,如LLaMA-Adapter(Gao等人,2023)和FROMAGe(Koh等人,2023b)只使用單個線性層來執行多模態連接,而LLaVA-1.5(Liu等人,2023d)采用了兩層MLP,顯示出改進的多模態能力。盡管在早期MLLM中廣泛采用線性投影,但即使在對視覺輸入有更深入理解的最新方法中,線性投影的使用也被證明非常有效(Chen等人,2023f;Lin等人,2023a;Wang等人,2023c;You等人,2023;Zhao等人,2023a)。因此,它是一種簡單而有效的技術,用于將視覺特征與文本對應部分對齊。不同的方法(Cha等人,2023)提議用卷積層替換線性層,顯示出適度的改進。 Q-Former。它是BLIP-2(Li等人,2023f)中提出的基于Transformer的模型,然后在幾種其他方法(Chen等人,2023d;Dai等人,2023;Hu等人,2024)中使用。它的特點是具有可適應的架構,由兩個共享相互注意力層的Transformer塊組成,促進視覺和文本表示之間的對齊過程。它涉及一組可學習的查詢,在自注意力層內部交互,并通過交叉注意力機制與視覺特征接口。文本和視覺元素通過模塊內的共享自注意進行通信。從Q-Former中汲取靈感,引入了各種修改版本。在這方面,mPLUG-Owl模型(Ye等人,2023c,d)簡化了Q-Former架構,并提出了一個視覺抽象器組件,通過將視覺信息壓縮為不同的可學習令牌來操作,以獲得更富語義的視覺表示。同一線上,Qwen-VL(Bai等人,2023b)使用具有可學習查詢的單層交叉注意力模塊壓縮視覺特征,還結合了2D位置編碼。附加交叉注意力層。這種方法在Flamingo(Alayrac等人,2022)中被提出,通過在現有預訓練LLM層中集成密集交叉注意力塊。新添加的層通常與零初始化的tanh門控機制結合使用,以確保在初始化時,條件模型的行為如其原始版本。使用附加交叉注意力層需要從頭開始訓練它們,與其他替代方案相比,增加了可訓練參數的數量。為了減少計算復雜性,這種策略通常與基于Perceiver的組件(Jaegle等人,2021)配對使用,該組件在將視覺令牌輸入LLM之前減少了它們的數量。自從引入以來,幾個模型(Awadalla等人,2023;Chen等人,2023b;Lauren?on等人,2023;Li等人,2023a)采用這種技術將視覺模態與底層LLM連接起來,顯示出提高了訓練穩定性和改善了性能。

多模態訓練

從預訓練的LLM開始,MLLM的訓練經歷了單階段或兩階段過程。在這兩種情況下,都使用標準的交叉熵損失來預測下一個令牌,作為自回歸目標。 單階段訓練。這種可能性由LLaMA-Adapter(Gao等人,2023)探索,它引入了額外的可訓練參數以封裝視覺知識并同時管理僅文本指令學習。為了實現這一點,模型使用圖像-文本對和指令進行聯合訓練,操作獨立的參數。同時,(Koh等人,2023b)中提出的模型通過整合兩個對比損失來適應最終損失函數,用于圖像-文本檢索。在訓練期間,只更新三個線性層。另一方面,Kosmos-1(Huang等人,2023a)考慮了一個凍結的視覺主干,并從頭開始訓練1.3B參數的語言模型。 Flamingo(Alayrac等人,2022)及其開源變體(Awadalla等人,2023;Lauren?on等人,2023),相反,訓練交叉注意力層和基于Perceiver的組件以將視覺特征與凍結的LLM塊連接起來。此外,Otter(Li等人,2023a)擴展了Flamingo的訓練以增加其上下文能力。 鑒于目前可用的訓練數據量,像SPHINX-X(Gao等人,2024)這樣的方法選擇執行單一的一體化訓練階段,在此階段更新所有模型組件,可能還使用僅文本數據以保留LLM的對話能力。

兩階段訓練。在兩個訓練階段中的第一個,目標是將圖像特征與文本嵌入空間對齊。經過這一階段后,輸出往往是碎片化的且不連貫的。因此,進行第二步以提高多模態對話能力。LLaVA(Liu等人,2023e,d)是首批引入視覺指令遵循訓練方案的方法之一,作為第二訓練階段執行,更新多模態適配器和LLM的參數。在第一階段,相反,只有多模態適配器是可訓練的。不同的是,MiniGPT4(Zhu等人,2023a)值得注意的是,在兩個階段中僅訓練負責多模態對齊的線性層。在第二階段,它使用經過模型自身在第一階段后收集和精煉的過濾數據。

另一種方法,如InstructBLIP(Dai等人,2023)所示,涉及凍結視覺編碼器和LLM。在兩個訓練階段中,只有Q-Former和連接模塊是可訓練的。與之前保持視覺主干凍結的方法相比,mPLUG-Owl(Ye等人,2023c,d)在初始階段更新它,便于捕獲低層次和高層次的視覺信息。此外,在第二階段聯合使用僅文本和多模態數據以增加對齊。不同地,Shikra(Chen等人,2023f)在兩個階段中更新所有權重,唯一的例外是視覺主干保持凍結。

訓練數據。在第一階段(或單一階段)訓練中,通常使用來自不同來源的圖像-文本對,使用的數據集包括LAION-2B(Schuhmann等人,2022)、LAION-400M(Schuhmann等人,2021)、Conceptual Captions(Sharma等人,2018)、COYO-700M(Byeon等人,2022)和DataComp(Gadre等人,2023)。一些方法(Lin等人,2023a)將這些與一個或多個數據集結合使用,這些數據集的特點是文本與圖像交錯,通常從網絡上抓取,如WebLI(Chen等人,2023i)、MMC4(Zhu等人,2023d)、MMDialog(Feng等人,2023b)和OBELICS(Lauren?on等人,2023)。

為了解決以前數據集中的偏差和噪聲問題,StableLLaVA(Li等人,2023h)引入了在第一階段使用的新收集數據。這種方法利用ChatGPT生成包含圖像生成提示和基于內容的對話的數據,并使用Stable Diffusion(Rombach等人,2022)生成相應的圖像。隨后的階段則利用數據集進行視覺指令調優。其中,常用的LLaVA-Instruct(Liu等人,2023e)擴展了COCO(Lin等人,2014)并加入了由GPT-4生成的指令。遵循這一趨勢,Zhao等人(2023a)通過結合手動生成的數據和高質量多樣性的數據,擴大了尺寸。此外,還提出了其他多輪對話數據集,如(Dai等人,2023)中介紹的將26個公開可用數據集轉換為其視覺指令遵循版本的數據集,LRV-Instruction(Liu等人,2023c)旨在通過更穩健的指令減少幻覺,而LLaVAR(Zhang等人,2023h)則專注于文本豐富的圖像。

用多模態大型語言模型處理視覺任務

標準的多模態大型語言模型可以處理視覺理解任務,例如視覺問答(VQA)、圖像描述和多輪對話。然而,最近對處理更細粒度的視覺任務,如視覺定位和圖像生成,有了更大的興趣。

結論與未來方向

在本綜述中,我們提供了最近多模態大型語言模型(MLLMs)進化的全面概述,首先關注如何為LLMs裝備多模態能力,然后探討這些模型處理的主要任務。基于所呈現的分析,以下我們概述了重要的開放挑戰和有前景的未來研究方向,以進一步增強MLLMs的能力。 修正幻覺現象。幾項研究(Liu等人,2023b;Zhu等人,2023a)表明MLLMs傾向于展現高幻覺率,特別是在生成較長的描述時。盡管一些解決方案正在出現以緩解這個問題(Liu等人,2023b;Wang等人,2023a;Wu等人,2023c;Yin等人,2023a),但理解和糾正幻覺的根本原因仍然是一個重要的開放挑戰,值得解決,以允許這些模型在更關鍵的背景中(例如,醫學)應用,并保證它們的準確性和可信度。 預防有害和有偏見的生成。確保大規模模型的安全性和公平性是社區的基本興趣。近期工作表明,基于網絡爬取數據訓練的模型傾向于生成不適當和有偏見的內容。盡管最近正在努力在文本到圖像生成模型中減少這種現象(Schramowski等人,2023;Friedrich等人,2023),但需要進一步探索以防止MLLMs中出現相同的行為(Pi等人,2024)。 減少計算負荷。如補充材料所示,MLLMs高度依賴于計算。需要有效的策略(Chu等人,2024)來減少計算需求,使MLLMs的開發更加易于獲取。可能的方向包括減少訓練要求,無論是在模型規模還是數據量方面,以及優化推理階段。

付費5元查看完整內容

如今,現實世界的應用經常面臨著流數據,這要求學習系統在數據演變時吸收新知識。持續學習(CL)旨在實現這一目標,同時在學習新知識時克服對既有知識的災難性遺忘。典型的CL方法從頭開始構建模型,以適應不斷涌入的數據。然而,預訓練模型(PTM)時代的到來激發了巨大的研究興趣,特別是在利用PTM的強大表示能力進行CL方面。本文提供了一項關于基于PTM的CL的最新進展的全面綜述。我們將現有方法分為三個不同的組別,并提供了它們的相似性、差異性以及各自的優勢和劣勢的比較分析。此外,我們提供了一個實證研究,對比各種最新的方法,以突出比較中的公平性問題。要重現這些評估的源代碼可在以下地址獲取://github.com/sun-hailong/LAMDA-PILOT。

隨著深度神經網絡的快速發展,深度學習模型在各種應用中展現出了令人期待的結果 [He等人,2016年;Chao等人,2020年;Yang等人,2015年;Ye等人,2021年;Ning等人,2022年]。然而,現實世界的場景往往以流數據的形式呈現。例如隱私問題 [Ning等人,2023年] 和存儲限制阻止了流數據的永久保留,這就需要一個能夠持續適應和進化的學習系統,這個過程被稱為持續學習(CL)[van de Ven等人,2022年;De Lange等人,2021年;Masana等人,2023年]。CL中的一個關鍵問題是災難性遺忘的現象,即獲得新知識導致在以前學過的任務上的性能顯著下降 [McCloskey和Cohen,1989年]。眾多研究致力于在CL內部解決這一問題 [Gunasekara等人,2023年;Wang等人,2023d;Wang等人,2023a;Wang等人,2023c;Zhuang等人,2022年;Zhao等人,2021年;Liu等人,2024年;Zhou等人,2023b]。 傳統的CL方法從“零開始訓練”的模型開始,即從隨機初始化的權重開始。然而,預訓練技術的蓬勃發展開辟了新的途徑。利用預訓練模型(PTMs),這些模型是從大量數據集和復雜技術 [Steiner等人,2021年] 開發而來,對CL展示了巨大的潛力。這些PTM本質上具有對各種下游任務的強大泛化能力,使基于PTM的CL成為一個日益流行的話題。 圖1展示了基于PTM的持續學習方法與傳統持續學習方法之間的區別。兩種方法都在數據流中使用CL模型來適應一系列即將到來的任務。目標是讓模型在吸收新信息的同時保留之前獲得的知識。這需要在學習每個新任務后評估模型在所有遇到的任務上的表現。基于PTM的CL與傳統CL之間的主要區別在于CL模型的初始設置。基于PTM的策略從一個大規模的預訓練模型開始,而傳統方法從零開始訓練一個模型。這種差異可以類比為人類學習:傳統方法類似于訓練一個嬰兒成長并獲得新知識,而基于PTM的方法類似于利用成人的專業知識來完成相同的學習任務。 在這個快速發展的領域中,現有關于CL的綜述主要關注不包括預訓練模型的典型算法 [van de Ven等人,2022年;De Lange等人,2021年;Masana等人,2023年]。然而,在當前的PTM時代,基于PTM的CL正成為一個中心關注領域。觀察表明,基于PTM的CL的性能正在接近持續學習潛力的上限 [Zhou等人,2023a],表明這是一個有前途的實際應用領域。因此,迫切需要對基于PTM的CL進行一次全面、最新的綜述,以推進CL領域的進步。我們綜述的具體貢獻如下: 1. 我們提出了第一個全面的關于基于預訓練模型的持續學習最新進展的綜述,包括問題定義、基準數據集和評估協議。我們根據這些方法的定義特征,將它們系統地分類為三個子類別,提供了一個全面和結構化的主題概述。 1. 我們的評估擴展到每個子類別中的代表性方法在七個基準數據集上。此外,我們識別了一個可能影響基于PTM的持續學習中比較公平性的關鍵因素,為方法論評估提供了見解。 1. 我們突出了基于PTM的持續學習中當前的挑戰和潛在的未來方向。我們打算揭示未經充分研究的方面,以激發進一步的調查,探索這個領域內各種可能的路徑及其相互關系。

基于PTM的持續學習 我們將當前基于PTM的CL研究分類為三個類別,這些類別基于不同的理念來解決學習問題,即基于提示的方法、基于表示的方法和基于模型混合的方法。這些類別利用預訓練模型的不同方面來促進持續學習。例如,考慮到PTM的強大泛化能力,基于提示的方法會采用提示調整 [Jia等人,2022年] 來進行PTM的輕量級更新。由于預訓練的權重保持不變,PTM的泛化能力可以被保留,從而緩解了遺忘。類似地,基于表示的方法直接利用PTM的泛化能力來構建分類器。最后,基于模型混合的方法在學習過程中設計了一組模型,并利用模型合并、模型集成和其他混合技術來得出最終預測。 我們展示了基于PTM的CL的分類法,并在圖2中列出了代表性的作品。在接下來的部分中,我們將介紹每個類別,并深入討論它們的優點和缺點。

付費5元查看完整內容

多模態(視覺-語言)模型,如CLIP,正逐漸取代傳統的監督預訓練模型(例如,基于ImageNet的預訓練)成為新一代的視覺基礎模型。這些模型通過從數十億個互聯網圖像-文本對中學習,形成了強大且一致的語義表示,并可以在零樣本的情況下應用于各種下游任務。然而,在醫學成像和遙感等一些細粒度領域,多模態基礎模型的性能往往不盡人意。因此,許多研究者開始探索這些模型的少樣本適應方法,逐漸衍生出三種主要技術途徑:1)基于提示的方法;2)基于適配器的方法;3)基于外部知識的方法。盡管如此,這一迅速發展的領域產生了大量結果,但尚無全面的綜述來系統地整理研究進展**。因此,在這篇綜述中,我們介紹并分析了多模態模型少樣本適應方法的研究進展,總結了常用的數據集和實驗設置,并比較了不同方法的結果**。此外,由于現有方法缺乏可靠的理論支持,我們推導了多模態模型的少樣本適應泛化誤差界限。該定理揭示了多模態基礎模型的泛化誤差受三個因素的約束:域間差異、模型容量和樣本大小。基于此,我們從以下幾個方面提出了三種可能的解決方案:1)自適應領域泛化;2)自適應模型選擇;3)自適應知識利用

人工智能正在越來越多地應用于廣泛的關鍵行業,包括語音識別、圖像識別、自動駕駛、智能制造、醫學診斷、金融風險控制等。在用人工智能技術賦能各個領域的過程中,經常會遇到與碎片化和多樣化需求相關的挑戰。過去,模型通常具有較小的參數規模和有限的泛化能力。一個模型只能應對單一場景,導致成本高昂和泛化性能差。近年來,越來越多的研究者開始關注具有更強泛化能力的預訓練基礎模型。

自2018年以來,如BERT [1]、盤古 [2]、PaLM [3]、GPT4 [4]等基礎模型的訓練數據和參數規模呈指數級增長,導致在各種自然語言理解任務中的性能顯著提高。與此同時,基礎模型的發展也逐漸從單一模態(如文本、語音、視覺等)演變為多模態融合。越來越多的研究機構開始關注多模態預訓練基礎模型,如ViLBERT [5]、CLIP [6]、DeCLIP [7]、FILIP [8]、PyramidCLIP [9]、OFA [10]、BEiT-3 [11]、ERNIE-ViL [12]和Data2vec [13]。

2021年初,OpenAI發布了CLIP,這是一個大規模的多模態模型,用于對齊圖像和文本,它使用數十億互聯網數據進行預訓練,通過對比學習獲得豐富的視覺語言知識。雖然預訓練的CLIP模型可以在推理階段通過使用文本特征作為分類權重來實現零樣本預測,但這種方法通常只在諸如ImageNet之類的通用領域中表現出色,在處理某些細粒度領域的數據時表現不佳。這是因為這些模型在預訓練階段主要使用通用領域的數據,而在面對特定的下游任務時,數據分布往往與預訓練數據不同。因此,有必要使用下游任務的特定數據對模型進行微調。為了通過微調提高模型的泛化性能,研究人員首先提出了基于提示的微調適應方法(例如,CoOp [14]),該方法將CLIP文本端的固定文本輸入視為可學習的向量,然后使用少量樣本進行微調,以適應下游任務。另一種常用于增強少樣本適應能力的方法是基于適配器的微調,如CLIP-Adapter [15]。這種方法涉及在預訓練模型中添加簡單的適配器結構,然后使用少量樣本數據微調適配器參數,使基礎模型適應下游任務。此外,引入基礎語言模型或外部知識(如知識圖譜,例如,CuPL [16])的方法可以幫助模型更好地處理未見樣本,增強其語義理解和魯棒性,從而提高其在少樣本適應任務中的性能。上述三種方法已廣泛用于各種下游適應任務,但缺乏一個全面的綜述來系統地整理這些方法。因此,我們詳細闡述并比較這些方法,并探索它們的未來發展方向,以進一步提高預訓練模型的性能和泛化能力。

本文的貢獻如下:

? 我們全面回顧和整理了多模態少樣本適應方法,并將現有方法分類為基于提示的微調適應方法、基于適配器的微調適應方法、基于外部知識的適應方法以及其他方法。在基于提示的微調適應方法中,我們進一步將其細分為文本提示微調、視覺提示微調、多模態提示和多任務提示方法。關于基于適配器的微調適應方法,我們將其分類為單模態適配器微調和多模態適配器微調。在使用外部知識的方法中,我們區分了帶有外部知識的預訓練方法和利用外部知識的下游適應方法。

? 我們回顧了11個常用數據集,用于評估多模態基礎模型的下游泛化性能。我們提供了四種實驗設置的詳細描述,以驗證多模態基礎模型在少樣本條件下的適應性能。展示了四種不同設置的實驗結果,并對這些結果進行了比較分析。我們強調了不同類型方法能有效提高多模態基礎模型泛化性能的原因。

? 我們討論了現有多模態基礎模型的少樣本適應方法的共同缺點,并分析了域適應問題。從統計機器學習理論中跨域泛化的誤差界限出發,我們推導了多模態基礎模型的少樣本適應誤差界限,揭示了現有方法面臨的主要挑戰是上游和下游域分布的無效適應、模型選擇的適應性不足以及數據和知識利用不足。

II. 多模態基礎模型的預訓練

近年來,大規模預訓練模型已受到學術界和工業界的廣泛關注。最初,基礎模型預訓練的相關工作主要集中在自然語言處理領域,在這個領域,如BERT [1]和GPT [17]這樣的自監著學習語言模型展現出比傳統方法更好的自然語言理解和生成能力。在計算機視覺領域,范式也從監督預訓練轉變為自監督預訓練。自監督預訓練的視覺模型性能顯著提高,從最初基于數據增強的模型(如SimCLR [18]和MoCo [19])演變到最近基于隨機掩蔽方法的模型(如MAE [20]和BEiT [21])。然而,預訓練的語言模型無法接收視覺輸入,導致它們無法將語言理解的優勢擴展到多模態下游任務(如視覺問答VQA)。另一方面,用于視覺預訓練的監督信號通常僅限于數據增強和隨機掩蔽,這阻止了它們在開放世界中學習更豐富的語義表征。因此,我們最近見證了大規模預訓練多模態模型的迅速發展,這些模型結合了視覺和語言模態,如表I所示。

III. 多模態基礎模型的少樣本適應方法

為了有效提高模型在特定領域的泛化性能,有必要使用有限的樣本對多模態基礎模型進行微調,使其具有更廣泛的應用。這些方法可以定義為多模態基礎模型的少樣本適應方法。本章將分為四個部分,提供現有多模態基礎模型方法的詳細概述,即:基于提示的微調適應方法、基于適配器的微調適應方法、基于外部知識的適應方法,以及其他方法

A. 基于提示的微調適應方法

  1. 文本提示基微調適應:在自然語言處理領域,基于提示的微調適應[34]–[38]是解決大型語言模型少樣本泛化問題的經典方法。它涉及將文本輸入的一部分作為可學習向量,并使用下游任務數據對其參數進行微調,使模型能夠適應特定的下游任務。這種方法的優勢在于它避免了文本提示的手動設計,有效地通過僅對模型輸入的特定部分進行微調來減輕過擬合風險。受此啟發,一些研究人員也開始為多模態基礎模型設計基于提示的微調適應方法。CoOp [14]首次將提示學習的思想納入多模態預訓練基礎模型的下游任務適應中。它使用可學習的詞嵌入來自動構建上下文提示,而不是為每個任務手動設計提示模板。如圖1所示,單個類別標簽{object}被轉換為綜合文本提示“[V]1, [V]2, ..., [V]m, {object}”。其中,[V]i代表可調整的詞向量。然后計算分類損失以使用下游任務數據微調這些詞向量,使模型能夠自主獲取適應下游任務的文本輸入。隨后,Zhou等人[39]引入了條件性上下文優化(CoCoOp),該方法構建了一個元網絡來學習圖像的特征。這些特征然后與提示向量結合以增強CoOp在新類別數據上的泛化性能。為了有效利用預訓練模型的零樣本能力,Huang等人[40]提出了無監督提示學習(UPL)。它選擇高置信度的零樣本預測結果作為偽標簽來監督提示向量的學習。類似地,Prompt-aligned Gradient(ProGrad)[41]使用零樣本預測結果來約束模型梯度更新的方向,從而避免少樣本模型與泛化知識之間的沖突,并減輕過擬合問題。然而,由于視覺信息的豐富多樣性,學習僅一個文本提示難以匹配復雜的視覺數據。為解決這一問題,Chen等人[42]提出了使用最優傳輸的提示學習(PLOT)。它用于學習多個不同的文本提示,其中不同的文本提示被視為圖像位置的描述,使用最優傳輸理論來匹配文本提示與局部圖像特征。Lu等人[43]引入了提示分布學習(ProDA),以學習提示分布并從這些分布中采樣不同的文本提示。此外,為了充分利用多任務數據之間的相關性,Ding等人[44]提出了用于提示調整的軟上下文共享(SoftCPT),該方法設計了一個任務共享元網絡,將預定義任務名稱和可學習的元提示作為輸入,以借助多任務數據微調提示。

  2. 視覺提示基微調適應:上述所有方法僅微調CLIP的文本部分,而CLIP作為多模態模型,視覺和文本兩方面同等重要。僅微調文本提示無法改善視覺編碼器提取特征的能力,提取的視覺特征可能與下游任務的目標特征不匹配。因此,受到文本提示微調適應的啟發,一系列視覺提示微調適應方法應運而生。現有的視覺提示微調適應方法主要包括令牌級微調適應和像素級微調適應。視覺提示調整(VPT)[45]引入了以令牌形式的可學習視覺提示。類感知視覺提示調整(CAVPT)[46]在此基礎上進一步包括一個交叉注意模塊,使視覺提示更加關注下游任務的目標。與基于令牌的方法相反,Bahng等人[47]建議直接在圖像周圍以填充格式添加像素級視覺提示,以增強視覺提示。Wu等人[48]進一步提出了增強視覺提示(EVP),通過縮放和填充而不是直接在原始圖像周圍填充。

  3. 多模態提示基微調適應:除了單獨學習文本和視覺提示外,還可以同時學習多模態提示,以更好地對齊文本和視覺特征。文本和視覺特征具有固有的差異,為了在學習多模態提示時加強它們之間的聯系,多模態提示學習(MAPLE)[49]使用copula函數將文本提示轉換為視覺提示。統一提示調整(UPT)[50]首先學習一個通用提示,然后將其分解為文本和視覺提示。另一方面,多任務視覺語言提示調整(MVLPT)[51]引入了多任務學習的概念,使用跨任務知識微調文本和視覺提示。

B. 基于適配器的微調適應方法

1. 單模態適配器基微調適應:在自然語言處理(NLP)領域,適配器的概念最初由谷歌團隊于2019年引入,用于微調大型語言模型[52]。在下游任務訓練中,該方法凍結原始語言模型的參數,僅更新作為適配器模塊添加的少量參數。由于其參數效率高、設計靈活性和高魯棒性等優點,這種方法近年來在NLP領域受到了廣泛的研究關注[53]。最近,基于適配器的方法也被應用于計算機視覺領域的視覺變換器(ViTs)中。Jie等人[54]通過引入卷積旁路(Convpass)解決了ViTs中適配器結構缺乏歸納偏置的問題。此外,他們提出了因子調整(FacT,引用為[55]),以進一步提高參數效率的遷移學習效率,以滿足實際應用中的存儲約束。

2. 多模態適配器基微調適應:上述基于適配器的方法都適用于自然語言處理或計算機視覺中的單模態基礎模型。近年來,基于適配器的方法也被擴展到多模態基礎模型中,以增強下游泛化能力。Gao等人[15]引入了CLIP-Adapter,該適配器在凍結骨干網絡后添加了一個全連接層適配器來學習額外知識。然后,它基于殘差連接將這些知識與零樣本預測結果合并,如圖2所示。基于這些發展,張等人引入了Tip-Adapter[56]。該方法基于下游少樣本訓練數據構建分類器,并以線性加權方式將其預測與原始零樣本分類器的結果結合,以增強模型的預測性能。SVL-Adapter[57]在適配器之前融合了一個預訓練的自監督視覺編碼器,以提取更魯棒的視覺特征。然而,上述方法僅使用跨模態對比損失,沒有考慮少樣本數據集的視覺特定對比損失。為解決這一問題,彭等人[58]提出了語義引導的視覺適應(SgVA-CLIP),通過隱式知識蒸餾引導視覺適配器的參數更新,以確保圖像-文本關系的一致性。為了增強適配器的跨模態交互能力,CALIP[59]利用注意力圖融合文本和圖像特征,并在融合前后插入兩個可微調的線性層。此外,跨模態適配器(CMA)[60]和多模態視頻適配器(MV-Adapter)[61]通過在兩種模態之間共享適配器權重實現跨模態交互。這些方法考慮了單模態和多模態場景,但沒有充分整合每種模態的優勢。為解決這一問題,陸等人[62]提出了UniAdapter,以統一單模態和多模態適配器。

C. 基于外部知識的適應方法

1. 基于外部知識的預訓練方法:預訓練基礎模型通過從互聯網上大量數據中挖掘相關信息,具有學習通用表征的能力。然而,在這些數據驅動的模型中,知識通常是隱性的,沒有明確鏈接到人類對世界的理解或常識性知識。近年來,數據和知識驅動的預訓練方法不斷涌現,研究人員開始探索將更全面的外部知識,如知識圖譜,融入基礎模型中。這種整合旨在使這些模型更加魯棒、可靠和可解釋。ERNIE[63]融合了一個知識編碼器,用于實體知識提取和異構信息融合。K-BERT[64]檢索與模型輸入相關的外部知識,并構建具有豐富上下文知識的句子樹作為模型輸入。近年來,一些工作也開始為多模態基礎模型的預訓練注入知識。例如,ERNIE-ViL[65]整合了來自場景圖的知識,KM-BART[66]通過創建額外的預訓練任務來模擬一般視覺知識,K-LITE[67]融合了包括WordNet和維基百科定義在內的各種外部知識源。

2. 基于外部知識的下游適應方法:上述方法在預訓練階段引入外部知識。然而,在數據樣本有限的下游少樣本適應場景中,也有必要增強外部知識以確保模型的性能。最常見的方法之一是通過查詢大型語言模型為每個類別生成更豐富的文本描述。圖3展示了這種方法的示例。通過語言模型定制提示(CuPL)[16]是第一個將外部知識融入多模態基礎模型下游泛化過程的方法。CuPL通過向GPT-3提問生成每個類別的多個描述性陳述,豐富類別的語義,從而提高零樣本分類性能。然而,CuPL使用GPT-3生成的句子可能存在描述性差和可靠性問題。為解決這些問題,Menon等人[68]進一步完善了基于GPT-3的知識增強過程。他們提示GPT-3以短語形式生成語義屬性描述,增強了模型的可解釋性。為了在可解釋性和性能之間取得平衡,語言引導瓶頸(LaBo)[69]使用GPT-3生成大量候選特征描述符空間,同時考慮特征相對于其他類別的區分性和當前類別的覆蓋率。它篩選出最佳子描述符空間以進行分類決策,從而揭示模型的決策邏輯。ELEVATER[70]還融合了來自GPT-3、WordNet和維基詞典等來源的定義。實驗結果表明,外部知識可以增強多模態基礎模型的下游泛化性能。然而,不同知識來源有不同的側重點和特性。例如,WordNet具有相對豐富和準確的知識,但覆蓋率較低,而GPT-3具有更廣泛的知識覆蓋范圍,但可能缺乏可靠性。此外,與上述使用外部知識增強文本語義的方法不同,SuS-X[71]專注于增強多模態模型的視覺樣本。

付費5元查看完整內容

多模態3D場景理解由于其在自動駕駛和人機交互等多個領域的廣泛應用而受到了廣泛關注。與傳統的單一模態3D理解相比,引入額外的模態不僅提高了場景解釋的豐富性和精確性,而且確保了更為魯棒和有彈性的理解。在多變和具有挑戰性的環境中,這尤為重要,因為僅依賴3D數據可能是不夠的。盡管在過去三年中,多模態3D方法的發展呈現上升趨勢,尤其是那些整合多攝像頭圖像(3D+2D)和文本描述(3D+語言)的方法,但值得注意的是,缺乏一個全面且深入的綜述。在這篇文章中,我們提供了最近進展的系統性調研,以填補這一空白。我們首先簡要介紹一個背景,正式定義各種3D多模態任務并總結其固有的挑戰。之后,我們提出了一個新穎的分類法,根據模態和任務對現有方法進行了全面分類,探索了它們各自的優勢和局限性。此外,我們還提供了最近方法在幾個基準數據集上的比較結果,以及深入的分析。最后,我們討論了尚未解決的問題,并為未來的研究提供了幾個可能的方向。

//www.zhuanzhi.ai/paper/db0ef107bb8313585581f0bab52ab996

給定一個3D點云和來自另一模態的信息,如2D圖像和自然語言,多模態3D場景理解旨在理解每個物體及其周圍環境的語義含義 [1], [2], [3]。對3D場景的全面理解使代理能夠識別實體的類別和位置,并創建場景的新品牌內容和風格。與僅使用3D點云相比,2D圖像的加入提供了額外的顏色和紋理信息,而自然語言的引入則實現了人機交互。因此,多模態3D場景理解已成為計算機視覺中的一個重要研究領域,應用于自動駕駛[4]、機器人導航[5]和人機交互[6]。

多模態3D場景理解可進一步分為(1) 3D+2D場景理解。3D LiDAR點云提供了充足的深度和幾何結構信息,這有助于獲得3D物體的形狀和姿態。但它們缺乏顏色信息和紋理細節,對于遠距離的物體往往稀疏而無序[7], [8], [9], [10], [11]。相反,2D相機圖像通常包含豐富的顏色、紋理和背景,但缺乏幾何信息,且易受天氣和光線條件的影響[12], [13], [14], [15]。自然地,利用LiDAR點云和相機圖像之間的互補性可以更好地、更完整地感知3D環境。但這兩種傳感器捕獲的同一個3D場景的表示之間經常會出現差異,因為LiDAR傳感器通過360度旋轉捕獲點云,而相機從透視視圖捕獲圖像,沒有深度感[16]。為了解決這個問題,提出了一些3D+2D場景理解方法,通過基于幾何的對齊[17]和基于語義的對齊[18]來進行LiDAR-相機融合。基于融合的特征,這些方法可以進一步執行3D物體檢測和分割[19], [20], [21],這通常用于自動駕駛和機器人導航。(2) 3D+語言場景理解。傳統的3D場景理解通常要求用戶具有專業知識,這對普通用戶不友好[22], [23], [24], [25], [26], [27]。用戶現在期望有一種更便捷的方式將他們的意圖傳達給計算機,實現信息交換并獲得個性化的結果。為了實現便捷的人機交互,研究人員提出了3D+語言場景理解。它結合3D視覺信息和自然語言作為輸入[28], [29], [30],因為自然語言可以作為背景知識和查詢條件來反映用戶意圖。通過多模態交互,經常采用如Transformer[31], [32]或圖神經網絡[33], [34]等技術,3D+語言場景理解方法不僅可以定位用戶提到的實體(例如,視覺定位和開放詞匯識別),還可以生成用戶所需的內容(例如,密集字幕,視覺問題回答,場景生成)。

盡管近年來出現了眾多方法,但多模態3D場景理解的很大一部分仍然分散在不同的任務中,并且沒有此類系統的調查存在。因此,有必要系統地總結近期的研究,全面評估不同方法的性能,并有前瞻性地指出未來的研究方向。這激發了本次調查,將填補這一空白。本文的主要貢獻可以總結為:

? 關于多模態3D場景理解的系統性調查。據我們所知,這是第一篇全面討論多模態3D場景理解近期進展的調查。為了使讀者對我們的文章有清晰的理解,我們從所需數據模態和目標下游任務的角度將算法分類為不同的分類,如圖1所示。

? 全面的性能評估和分析。我們比較了幾個公開可用的數據集上現有的多模態3D場景理解方法。我們的深入分析可以幫助研究者為其特定應用選擇合適的基線,同時也提供了關于修改現有方法的有價值的見解。

?** 對未來前景的有洞察力的討論**。基于系統調查和全面的性能比較,討論了一些有前途的未來研究方向,包括大規模3D基礎模型、數據高效訓練、3D建模的計算效率以及添加額外模態。

本文的結構組織如下。第2節總結了多模態3D場景理解中的問題定義和主要挑戰。第3節和第4節分別對3D+2D和3D+語言場景理解中用于不同下游任務的典型方法進行了深入探討。第5節介紹了基準數據集、評估指標以及不同技術的比較分析。最后,第6節總結了這篇文章并討論了未來研究的有前途的方向。

3D+2D多模態場景理解可以細分為多模態室外/室內3D對象檢測和多模態室外/室內3D語義分割。從2020年至今的現有3D+2D多模態方法的時間性概述如圖2所示。

3D+語言多模態場景理解可以分為3D視覺錨定、3D密集標注、3D問題回答、文本驅動的3D場景生成、開放詞匯的3D識別以及其他類別。從2020年至今的現有3D+語言多模態方法的時間性概述如圖5所示。

**結論與展望 **

本綜述為您提供了多模態3D場景理解的最新深入了解。我們首先總結了3D+2D和3D+語言情況下的任務定義和固有挑戰。接著是對每個任務的關鍵技術的結構化分類。此外,我們提供了對幾個基準數據集的最新進展的比較結果,并提供了有洞察力的觀察。我們希望這項調查能為新手和經驗豐富的從業者提供一個全面的指導。在多模態3D場景理解中,仍有許多進一步探索的可能性。以下提供了一些有前途的未來研究方向。 大規模3D-語言基礎模型。基于2D到3D轉移的當前3D VLMs在零射擊能力和下游應用中受到限制,主要是由于數據規模有限和幾何信息保留不足[41]。這強調了大規模3D-語言基礎模型的必要性。解決這一挑戰的主要解決方案在于創建可以支持從零開始訓練VLMs的大型數據集。此外,高效的遷移學習方法,包括像提示調整[177]和LORA[178]這樣的技術,通過利用預訓練的知識為特定任務提供了很大的應用前景。

數據高效訓練。考慮到與數據收集和注釋相關的顯著成本,當前的許多研究都局限于小規模數據集。因此,強調為有限數據量量身定制的健壯模型訓練和優化的開發變得越來越重要,從而減少對大規模數據集的依賴。最近的研究已經在解決數據注釋挑戰方面展現出了有前途的結果,通過無監督和弱監督學習方法。此外,使用文本到圖像或文本到3D生成合成逼真樣本有望進一步被研究,這可能緩解數據收集問題。

3D建模的計算效率。鑒于點云的大量體積,計算需求可能會顯著增加。因此,計算效率高的3D模型變得至關重要。為了應對這一挑戰,采用模型壓縮技術,如量化[179]、修剪[180]和高效結構[181],對于減少計算復雜性至關重要。此外,利用硬件優化如Flash attention[182]可以促進應用在邊緣設備上的部署,為提高效率提供另一種途徑。

納入其他模式。盡管在多模態3D建模方面取得了令人印象深刻的進展,但主要的重點仍然是圖像和語言。我們設想將更多的模式,如音頻,納入一個綜合模型來適應它們的聯合分布,這對于理解復雜的3D場景更為有助。鑒于訓練新模型時的復雜訓練要求和成對數據的稀缺,提高現有的多模態3D模型的效果可能更為有效,通過集成其他模式。一個可行的方法[183]是使用最小的成對數據集對齊每一個定義良好的、特定模式的模型。

付費5元查看完整內容

人工智能(AI)的歷史見證了高質量數據對各種深度學習模型的重大影響,例如ImageNet對于AlexNet和ResNet。最近,AI社區的關注點已從設計更復雜的神經結構(即模型為中心的方法)轉移到了數據為中心的方法,這種方法重點在于更好地處理數據以增強神經模型的能力。圖學習,操作于無處不在的拓撲數據上,也在深度學習時代中起到了重要作用**。在這次綜述中,我們從數據為中心的角度全面回顧了圖學習方法,并旨在回答兩個關鍵問題**:(1)何時修改圖數據以及(2)如何修改圖數據以發掘各種圖模型的潛力。因此,我們提出了一個基于圖學習流程中的階段的新分類法,并強調了圖數據中不同數據結構的處理方法,即拓撲、特征和標簽。此外,我們分析了嵌入在圖數據中的一些潛在問題,并討論了如何以數據為中心的方式解決它們。最后,我們為數據為中心的圖學習提供了一些建議的未來方向。

//arxiv.org/abs/2310.04987

最近在非歐幾里得領域的進展引起了人工智能(AI)社區的大量關注。圖,作為典型的非歐幾里得數據,在現實世界中無處不在,并已在許多領域中得到廣泛應用,例如推薦、安全、生物信息學等。在過去的十年中,由于圖模型的創新,圖相關研究得到了推動,從圖核心[1][2]到圖嵌入[3][4],再到最新的圖神經網絡(GNNs)[5][6]。相反,關于圖數據的固有方面的研究較少,包括質量、多樣性、安全性等。 通常,AI的革命始終是由大量高質量數據的可用性引發的,隨后是強大的模型。一個顯著的例子是ImageNet[7]的成功,它為深度卷積神經網絡的發展做出了重要貢獻,例如AlexNet[8]和ResNet[9]。隨著數據的重要性得到越來越多的認可,最近,AI社區的關注點從以模型為中心的方法轉移到了以數據為中心的方法[10][11]。

新興的以數據為中心的AI強調產生適當的數據以提高給定模型的性能。“如何處理圖數據以發揮圖模型的全部潛力?”一個了解情況的答案可以幫助我們理解圖數據與圖模型之間的關系。然而,與圖像和表格數據等歐幾里得數據不同,圖的不規則性為以數據為中心的圖學習提出了幾個問題:首先,在什么時候我們應該修改圖數據以使圖模型受益?數據修改可能會在圖學習的不同階段發生。例如,我們可以在訓練之前啟發式地擾動邊,而在訓練期間我們也可以從節點表示中估計新的圖結構。其次,我們應該修改圖數據的哪一部分?圖數據涉及各種結構,包括邊、節點、特性和標簽,每一個都在圖表示學習中起到了重要作用。第三,如何防止圖模型受到有問題的圖數據的影響?由于手工定義的關系和特性,圖數據可能不可避免地引入噪聲和偏見,這使得模型變得不可靠。 本綜述系統地調研和分類了從數據中心的角度存在的圖學習方法。具體地說,為了回答第一個問題,我們將圖學習過程分為四個階段:準備、預處理、訓練和推斷,如圖1所示。我們討論了每個階段對圖數據的重要性。接下來,我們進一步從結構的角度對現有方法進行分類,以解決第二個問題。具體來說,我們考慮如何處理圖數據的拓撲、特征和標簽。最后,我們分析了現有圖數據中的潛在問題,包括脆弱性、不公平性、選擇偏見和異質性。并進一步討論如何從數據為中心的方式解決這些問題。

本文的貢獻可以總結如下

? 新的分類法。我們按圖學習流程中的各個階段對現有的數據中心圖學習方法進行分類,包括預處理、訓練和推理。對于每個階段,我們都介紹了其在數據中心圖學習中的目標和重要性。 ? 多角度觀察。我們強調如何處理圖數據中的不同數據結構,包括拓撲、特征和標簽,以發揮給定圖模型的潛力。 ? 全面的討論。我們分析了有問題的圖數據對圖模型的潛在影響,并討論了如何以數據為中心的方式緩解這些問題。此外,我們提出了四個可能的數據中心圖學習的未來方向,這可能有助于這個領域的發展。 組織. 本調查的其余部分組織如下:第2節概述了數據中心圖學習的背景,并描述了如何手動處理圖數據。第3-5節分別介紹了預處理、訓練和推理階段的數據中心圖學習方法。第6節介紹了圖數據的潛在問題,并討論了如何處理這些問題。最后,第7節對本文進行了總結,并提出了一些有前途的未來方向。

2. 預處理階段

在本節中,我們將討論圖數據預處理階段的數據中心方法。具體來說,我們將現有的方法分為兩類:基于修改的方法和基于分布的方法。第一類旨在通過修改圖數據實例來提高圖模型的性能。第二類則著重于幫助圖模型捕捉數據集的分布,同時保持圖實例不變。此外,我們還考慮了不同的數據結構,包括拓撲、特征和標簽。相關方法列示在表1中。

圖的簡化 (Graph Reduction)

隨著圖的規模的增大,其計算所消耗的時間和空間也會增加。因此,如何在不失去太多有用信息的前提下減少圖的節點或邊成為了一個有價值的問題。圖的簡化可以加速模型的訓練,減少過擬合,并允許在更簡單的硬件條件下對模型進行訓練。圖的簡化可以分為兩大類:邊的簡化和節點的簡化。邊的簡化指的是圖的稀疏化,而節點的簡化包括圖的粗糙化和圖的凝縮。

圖的增強 (Graph Augmentation)

在深度學習中,數據增強被認為是非常重要的。由于圖數據的稀缺性和稀疏性相當嚴重,因此一個好的增強方法的重要性更為明顯。與其他數據形式相比,直接操作圖結構的圖增強是最具特色的圖數據增強類型。在這里,我們將介紹一些脫離訓練的啟發式方法。它們可能很簡單,但證明是非常有效和受歡迎的。 特征增強 (Feature Augmentation)

通過創建或修改節點特征,特征增強可以使后續模型避免過擬合并提高其性能。 對于已經有特征的圖,我們可以做一些直觀的調整來加強它們,例如特征損壞 [143]-[145],特征洗牌,特征掩碼 [66], [87], [146],特征添加,特征重寫 [147], [148],特征傳播,特征混合 [149]等 [15]。 對于最初沒有特征的節點,有適當生成特征的方法。為了獲取結構信息,Perozzi 提出了基于 word2vec [150] 的 deepwalk [3],它從每個節點開始,多次隨機走動,最后使用所有路徑為節點通過 word2vec [150]c 生成節點嵌入。接著,node2vec [4] 來自 deepwalk [3],它為節點添加了一個隨機行走的概率。另一條與隨機行走無關的線是 SDNE [151]。他們通過編碼器-解碼器架構得到圖的結構。具體來說,他們將鄰接矩陣的每一列作為初始節點嵌入,這是編碼器的輸入。并計算模型在初始嵌入和解碼嵌入之間的損失。 在非標記圖中,特征增強是通過無監督學習實現的。例如,GREET [211] 將原始圖分割成兩個子圖,一個包含同質邊,另一個包含異質邊,然后通過兩個單獨的 GNN 得到子圖嵌入,再連接這些子圖嵌入來獲取節點特征。 總的來說,特征增強是多種多樣和任意的,特殊的特征增強可以根據特定問題的需要進行定制。 位置編碼 (Position Encoding)

眾所周知,信息傳遞神經網絡 (MPNNs) 的表達能力受到1-Weisfeiler-Lehman (WL) 測試的限制,不能區分同構圖 [212]。為了打破這個限制,一個受歡迎的方法是用一些位置信息來增強節點特征,這被稱為位置編碼。在本節中,我們將介紹兩種類型的位置編碼:絕對方法和相對方法。 標簽混合 (Label Mixing)

標簽混合旨在將帶有標簽或嵌入的兩個不同實例混合為一個新的實例,并使用這些混合的實例來訓練模型。這樣得到的模型更具泛化性,不容易過擬合。 Mixup 在圖分類和節點分類任務中都扮演著重要的角色。一方面,面對圖分類任務,我們可以采用各種方法來增強模型。一種方法 [174] 涉及混合多個預先存在的圖嵌入。或者,我們可以隨機選擇一個子圖,并用另一個圖中的相應子圖替代它,同時保留原始圖的嵌入,使模型更好地集中于數據的相關方面 [175], [176]。另一方面,一些工作 [177] 提議將鄰近節點的標簽或嵌入進行混合,用于節點分類任務。 圖的課程學習 (Graph Curriculum Learning) 課程學習 (CL) [215] 是一種模仿人類學習過程的訓練策略,主張模型從簡單樣本開始學習,然后逐漸過渡到復雜樣本。這種策略可以幫助模型更快地收斂,并提高模型的泛化能力。圖的課程學習 (Graph CL) [216] 是一種基于圖的課程學習方法,主要用于圖神經網絡的訓練和優化。大多數 CL 方法有兩個重要功能,難度測量器和訓練調度器。難度測量器可以評估訓練數據的難度,以給予學習優先權,而訓練調度器決定如何從簡單到困難地進行學習。根據這兩者是否自動設計,CL 方法可以分為兩類,即預定義的 CL 和自動的 CL。在本節中,我們將介紹預定義的 Graph CL。 圖采樣 (Graph Sampling) 圖采樣方法使用不同的策略對節點進行采樣,并在計算節點的表示時僅聚合部分節點的信息,這加速了模型的收斂并減少了內存開銷。在這部分中,我們將討論啟發式采樣方法,這些方法可以進一步劃分為兩個類別:隨機采樣和重要性采樣。 圖生成 (Graph Generation) 在現實世界中,某些圖數據集對于圖模型來說太小,無法有效地理解其分布。圖生成器 [219], [220] 可以通過生成額外的圖數據來幫助緩解這個問題。圖生成的方法可以分為兩種類型:自回歸 (autoregressive) 和一次性生成 (one-shot)。 3. 訓練階段 (TRAINING STAGE)

在本節中,我們介紹了訓練階段的圖數據修改方法,其中數據修改模塊和信息傳遞模塊合作以提高性能。具體而言,我們介紹了三種模型-數據協同的訓練范式,包括聯合訓練 (joint training)、自訓練 (self training) 和雙層訓練 (bi-level training)。相關方法可以在表格 1 (Table 1) 中查看。 4. 推斷階段 (INFERENCE STAGE)

推斷階段是指使用預訓練的圖模型進行下游任務的階段。在這個階段,我們重新定義下游任務為一個統一的模板,以與我們的預訓練模型對齊。這有助于彌合我們的預文本任務與下游任務之間的差距,實現高質量的知識轉移和多任務適應。此外,推斷數據是指在預訓練模型的推斷階段使用的圖數據。從數據中心的角度看,調整推斷數據作為提示可以幫助在不改變模型參數的情況下獲得期望的目標。在本節中,我們討論了在圖的背景下逐漸受到歡迎的提示學習方法。為了詳細說明,我們將現有的圖提示方法分為兩類:預提示 (pre-prompt) 和后提示 (post-prompt),這取決于任務特定的提示是在信息傳遞模塊之前還是之后操作,如圖 1 (Figure 1) 所示。 結論 (CONCLUSION)

在這篇綜述中,我們對數據中心的圖學習進行了全面的回顧。我們從兩個角度對現有方法進行分類:一個是學習階段,包括預處理、訓練和推斷;另一個是數據結構,包括拓撲、特征和標簽。通過這兩個視角,我們仔細解釋了何時修改圖數據以及如何修改圖數據,以釋放圖模型的潛力。此外,我們還介紹了圖數據的一些潛在問題,并討論了如何用數據中心的方法解決它們。最后,我們提出了該領域的幾個有前景的未來方向。總的來說,我們相信數據中心的人工智能是通向一般人工智能的可行路徑,并且數據中心的圖學習將在圖數據挖掘中發揮重要作用。

付費5元查看完整內容

深度模型融合/合并是一種新興的技術,它將多個深度學習模型的參數或預測合并成一個。它結合了不同模型的能力,以補償單一模型的偏差和錯誤,以實現更好的性能。然而,對于大規模深度學習模型(例如,LLMs 和基礎模型)的深度模型融合面臨著幾個挑戰,包括高計算成本、高維參數空間、不同異構模型之間的干擾等。盡管模型融合由于其解決復雜實際任務的潛力而引起了廣泛關注,但關于這種技術的完整和詳細的調查研究仍然缺乏。因此,為了更好地理解模型融合方法并推動其發展,我們提出了一項全面的調查以總結最近的進展。具體來說,我們將現有的深度模型融合方法分類為四種:(1)“模式連接”,通過非遞增損失的路徑連接權重空間中的解,以獲得模型融合的更好初始化;(2)“對齊”匹配神經網絡之間的單元以為融合創造更好的條件;(3)“權重平均”,一種經典的模型融合方法,對多個模型的權重進行平均,以獲得更接近最優解的精確結果。 (4)**“集成學習”**結合了多種模型的輸出,這是一種改善最終模型的準確性和魯棒性的基礎技術。另外,我們分析了深度模型融合面臨的挑戰,并提出了未來模型融合的可能研究方向。我們的評論對于深入理解不同模型融合方法之間的關系和實際應用方法是有幫助的,這可以啟發深度模型融合領域的研究。

//www.zhuanzhi.ai/paper/43bab5b376b2213134e1f99b305d4deb

近年來,深度神經網絡(DNNs)[129] 取得了顯著的發展,廣泛應用于計算機視覺(CV)[175]、自然語言處理(NLP)[30] 等領域。一般來說,單一深度學習模型通常具有一定的局限性,不能完全捕獲復雜網絡背后的所有潛在信息[195]。因此,經典的集成學習[15, 193, 198] 合并多個模型的輸出,以改善深度學習(DL)中模型的最終性能。但在測試時存儲和運行多個模型的成本很高[65, 204],尤其是模型的復雜性和大小增加時。例如,GPT-3[172] 有數十億參數,PaLM[31] 甚至達到5400億參數和7800億令牌。此外,從深度神經網絡[134, 196] 的損失景觀的角度來看,梯度優化的解通常聚集在寬平區域的邊界附近的點,而不是中心點[99]。這意味著經過訓練的網絡并不完全接近具有最小測試錯誤的最優解。需要融合相對最優點附近的解,以得到更好的結果。這激發了研究人員不僅將融合范圍限制于預測(例如,logits等),而且還包括模型參數的融合,而無需訪問訓練數據或保持所有單獨模型[110]。因此,深度模型融合[111, 159] 旨在將多個DNNs融合成一個網絡,保留其原始功能,甚至超越多任務訓練[3, 135]。此外,深度模型融合可以減少單一模型過度擬合特定樣本或噪聲的傾向,從而提高預測的準確性、多樣性和穩健性[207, 223]。由于數據隱私和實際節約資源的問題,深度模型融合引起了越來越多的關注。盡管深度模型融合的發展帶來了許多技術突破,但它也產生了一系列的挑戰,例如高計算負荷、模型異構性和通過組合優化對齊的速度慢[133, 204]等

有些方法僅限于特定場景[227, 254],這激發了研究人員研究不同案例中模型融合的原理。然而,目前缺乏綜合評論來總結方法,以指示深度模型融合的內部機制。一些工作只關注從單一視角(例如,特征融合等)[45, 195] 和特定場景[213] 的模型融合,或者不同方式的信息融合(多模態融合[1, 103])而不是參數的融合。為了給開發者深入了解深度模型融合,我們分析了深度模型融合的原理和方法。此外,我們回顧了最近的進展和代表性應用,例如聯邦學習(FL)[160] 和微調[29] 等。我們的調查旨在說明深度模型融合的最新趨勢和潛在方向,并為研究人員提供指南,以提高性能和降低成本。因此,我們根據內部機制和目的將方法分為四類,如圖1所示。對于相互之間不在附近的獨立訓練的模型,“模式連接”和“對齊”使解更加接近,以獲得更好的平均原始條件。對于權重空間中存在某些差異的類似模型,“權重平均(WA)”傾向于直接平均模型,并在損失函數值較低的參數空間區域獲得更接近最優點的解[118]。此外,對于現有模型的預測,“集成學習”集成了模型的不同形式的預測,以獲得更好的結果。具體來說,這四個類別如下

模式連接性

模式連接性指的是通過基于梯度的優化得到的解可以在權重空間中通過一條無障礙的路徑(連接器)進行連接。我們可以沿著低損失路徑獲得更適合模型融合的其他模型。根據路徑的數學形式和連接器所在的空間,我們將此部分劃分為“線性模式連接性”,“非線性模式連接性”和“子空間中的模式連接性”。模式連接性可以在訓練過程中解決局部優化問題。模式連接性的路徑的幾何關系也可以用來加速優化過程,如隨機梯度下降(SGD)的收斂、穩定性和準確性。簡而言之,模式連接性為解釋和理解模型融合的行為提供了一個新的視角。但是,特別是在大數據集上訓練模型時,應解決計算復雜性和參數調整的困難。

對齊

對齊是將多個模型的單元進行匹配,并對模型進行平均以獲得最終模型。對齊后,不同模型之間的特定數學度量(例如,歐幾里得距離)可以更為接近,從而減小模型之間的差異,進而增強深度模型融合的效果。對齊可分為“激活匹配”和“權重匹配”,取決于是否需要考慮數據分布。此外,Re-basin基于對齊引入,探討解決方案可以通過排列不變性被傳輸到一個單一的盆地(即,參數空間中相對低損失的區域)。然而,對齊通常面臨著計算量大、組合優化速度慢和架構差異的障礙,使得它不易擴展到具有不同目標的其他場景。例如,伴隨圖匹配而來的記憶負擔限制了深度模型融合的應用。

權重平均

權重平均是將幾個母網絡融合成一個單一網絡的最直接和高效的方式。與模式連接性和對齊相比,權重平均不需要額外的計算復雜性或訓練來找到一個優越的起點,在模型包含一定程度的相似性時表現良好。根據聚合空間,權重平均可分為“權重平均”和“子空間中的平均”。此外,典型的方法“模型湯”,“模型算術”和“隨機權重平均”也對現有方法進行了顯著改進。然而,當參數被規范化和合并時,可能會在模型結構或參數數量存在較大差異的情況下引入一些偏差。盡管如此,權重平均仍然是深度模型融合的主流方法,因為它簡單且高效。

集成學習

集成學習結合了幾種不同模型的輸出,以改善預測性能和魯棒性。我們專注于深度學習中的集成學習。基于集成學習,“模型重用”為每個模型提供了規格,這樣在給定新的學習任務時,有用的模型可以從模型池中被識別和合并。集成學習具有各種框架和便捷的界面,經常用于實際領域,例如物體檢測等。盡管集成學習需要維護多個訓練過的模型并在測試時運行每個模型,但它仍然是在深度學習中被廣泛采用的強大技術之一。

模型融合的應用

作為一項提高深度模型的準確性和魯棒性的技術,模型融合促進了許多應用領域的改進。聯邦學習,一種在中央服務器上聚合客戶端模型的應用,使得各方可以貢獻數據到功能的計算中(例如,各種統計、分類器),而無需泄露隱私。微調對預訓練模型進行小的調整,結合模型融合以減少訓練成本并適應特定任務或領域的需求。模型融合還涉及到“蒸餾”。即,將來自多個復雜模型的軟目標知識結合起來,為特定要求訓練一個小模型。模型融合在foundation/LLMs上的應用包括在大型基礎模型或大型語言模型(LLMs)上的工作,例如視覺變壓器(ViT)和GPT等。模型融合的應用幫助開發人員適應各種任務和領域的需求,并促進深度學習的發展。簡而言之,我們的調查回顧了深度模型融合技術。在前三節“模式連接性”,“對齊”和“權重平均”中,我們主要從模型參數融合的角度進行全面研究。在“集成學習”中,我們主要從模型輸出聚合的角度探討了這個問題。

本工作的主要貢獻總結如下

? 我們從“模式連接性”,“對齊”,“權重平均”和“集成學習”的角度提出了一種新的深度模型融合分類方法,該方法涵蓋了模型融合的理論綜合方法,并為實現DNNs的高泛化和準確訓練提供了指導。

? 我們比較了融合方法的優缺點,并解釋了它們之間的機制和關系,為未來設計先進的模型融合方法提供了靈感。

? 我們總結了深度模型融合的廣泛應用。我們還討論了當前的研究趨勢,以便在未來引起更多的關注和反思。此外,本文的其余部分組織如下:在第2節到第5節,我們根據“模式連接性”、“對齊”、“權重平均”和“集成學習”的四個角度介紹深度模型融合的方法。第6節介紹了深度模型融合的應用:“聯邦學習”、“微調”、“蒸餾”和“在foundation/LLMs上的模型融合”。最后,在第7節中,我們總結了深度模型融合,并討論了未來的挑戰和潛在方向。另外,我們在全文中說明了符號及其相應的定義。Wi是第i個具有權重Wi ∈ R^d(i = 1, 2, ...k)和偏置項b的神經網絡。λ表示加權參數。σ表示非線性神經元激活函數。L是損失函數,用于量化預測值和實際值之間的差異。

付費5元查看完整內容

為了追求精度,深度學習模型框架的結構越來越復雜,網絡越來越深。參數量的增加意味著訓練模型需要更多的數據。然而人工標注數據的成本是高昂的,且受客觀原因所限,實際應用時可能難以獲得特定領域的數據,數據不足問題非常常見。數據增強通過人為地生成新的數據增加數據量來緩解這一問題。數據增強方法在計算機視覺領域大放異彩,讓人們開始關注類似方法能否應用在序列數據上。除了翻轉、裁剪等在時間域進行增強的方法外,也描述了在頻率域實現數據增強的方法;除了人們基于經驗或知識而設計的方法以外,對一系列基于GAN的通過機器學習模型自動生成數據的方法也進行了詳細的論述。介紹了應用在自然語言文本、音頻信號和時間序列等多種序列數據上的數據增強方法,亦有涉及它們在醫療診斷、情緒判斷等問題上的表現。盡管數據類型不同,但總結了應用在這些類型上的數據增強方法背后的相似的設計思路。以這一思路為線索,梳理應用在各類序列數據類型上的多種數據增強方法,并進行了一定的討論和展望。

//fcst.ceaj.org/CN/abstract/abstract2790.shtml

付費5元查看完整內容
北京阿比特科技有限公司