大模型在人工智能領域取得了革命性的突破,但它們也可能帶來潛在的擔憂。為了解決這些擔憂,引入了對齊技術,以使這些模型遵循人類的偏好和價值觀。盡管過去一年取得了相當大的進展,但在建立最佳對齊策略時仍然存在各種挑戰,例如數據成本和可擴展的監督,如何對齊仍然是一個懸而未決的問題。在這篇綜述文章中,我們全面調查了價值對齊方法。我們首先解析對齊的歷史背景,追溯到20世紀20年代(它來自哪里),然后深入探討對齊的數學本質(它是什么),揭示了固有的挑戰。在此基礎上,我們詳細檢查了現有的對齊方法,這些方法分為三類:強化學習、監督式微調和上下文內學習,并展示了它們之間的內在聯系、優勢和限制,幫助讀者更好地理解這一研究領域。此外,還討論了兩個新興主題:個人對齊和多模態對齊,作為該領域的新前沿。展望未來,我們討論了潛在的對齊范式以及它們如何處理剩余的挑戰,展望未來對齊的方向。
大模型,是指在大量數據上訓練并包含超過數十億參數的神經模型(Bommasani et al., 2021),通常包括大型語言模型(LLMs)和大型多模態模型(LMMs)。LLMs 通常是基于Transformer(Vaswani et al., 2017)的大規模語言模型,以自回歸方式訓練(Zhao et al., 2023a),如GPT-3(Brown et al., 2020)、PaLM(Narang and Chowdhery, 2022)、ChatGPT(Ouyang et al., 2022)、Bard(Aydin, 2023)和LLaMA(Touvron et al., 2023a)。LLMs 的卓越能力也促進了LMMs 的發展,LMMs 能夠處理圖像(視覺)和自然語言文本(語言)(Dirik and Paul, 2023),如PaLM-E(Driess et al., 2023)、LLaVA(Liu et al., 2023c)、DALL-E 3(Betker et al., 2023)和Gemini(Team et al., 2023)。與小模型(Cho et al., 2014;Devlin et al., 2018)不同,大模型展示了兩個獨特特征:規模化法則(Kaplan et al., 2020),闡明了模型規模增長與性能改進之間的一致關系,以及新興能力(Wei et al., 2022a)顯示,當模型規模超過某一閾值時,意外地出現了在小模型中未觀察到的新能力,如上下文內學習(Wang et al., 2023a)、指令跟隨和跨多種任務和領域的逐步推理(Wei et al., 2022b),革新了AI的角色。因此,語言模型(LMs)經歷了逐步的演化,從統計語言模型(SLMs)(Pauls and Klein, 2011)和神經語言模型(NLMs)(Cho et al., 2014)開始,進步到預訓練語言模型(PLMs)(Devlin et al., 2018;Radford et al., 2019),最終導致LLMs的復雜出現。沿著這樣的軌跡,LLMs 也通過整合大規模圖文對和精心設計的目標進行預訓練,建立這兩種模態之間的內在聯系(Dosovitskiy et al., 2020;Liu et al., 2021)。這些大模型已經演變成各種變體,如圖1所示,深刻影響了多個行業和領域,根本性地改變了我們解決實際問題的方式。 然而,每枚硬幣都有兩面。由于大模型通常是在從互聯網爬取的數據集上預訓練的,它們也可能內化風險信息并引發一些潛在的擔憂(Tamkin et al., 2021; Bender et al., 2021; Kaddour et al., 2023),包括產生社會偏見(Sheng et al., 2019)、有害語言和排斥(Gehman et al., 2020)、錯誤信息(Bommasani et al., 2021)和社會經濟傷害(Weidinger et al., 2022),對社會造成深遠的影響。此外,觀察到兩個風險特征,(1)逆規模化:某些風險可能不僅僅是保持不變,而且隨著模型規模的增加而惡化(McKenzie et al., 2023),(2)新興風險:未見的風險可能出現或顯著放大的現有風險隨著更大的模型而出現(Wei et al., 2022a),使得之前建立的特定風險方法難以處理迅速出現的潛在問題。對這些倫理和社會風險給予極高的重視是至關重要的。低估這些風險可能會導致嚴重的后果。例如,可能煽動仇恨或暴力的有害語言,可能導致財產損失的私人數據泄露,以及在敏感領域可能造成傷害的錯誤信息,例如不準確的法律或醫療建議(Weidinger et al., 2021)。
為了解決上述風險,研究人員開發了各種對齊方法,以使LLMs與人類指令、偏好和價值觀對齊(Ouyang et al., 2022; Liu et al., 2022; Rafailov et al., 2023)。在LMMs的背景下,"對齊"這一術語傳統上指的是不同模態之間的對齊,如視覺和語言(Jia et al., 2021; Radford et al., 2021)。然而,隨著LLMs中對齊技術的進步,現在它傾向于代表使LMMs對齊,以使它們遵循人類指令并完成多樣化的任務(Liu et al., 2023c; Zhu et al., 2023; Dai et al., 2023)。對齊的概念可以追溯到諾伯特·維納的表述,“我們最好確信放入機器中的目的是我們真正想要的目的”(Wiener, 1960),這被定義為“A試圖做H想要它做的事情”,其中A和H是現代AI研究中的兩個智能代理(Yudkowsky, 2016; Christiano, 2018)。隨后,對齊的研究在強化學習(RL)領域逐漸獲得重要性(Hadfield-Menell et al., 2016; Everitt and Hutter, 2018; Leike et al., 2018),并在大模型時代蓬勃發展(Kenton et al., 2021),培育了多樣化的生成模型和多模態模型,如圖1所示。良好對齊的AI代理,例如LLMs,不僅具有遵循用戶指令從而協助完成任務或回答問題的能力,還有避免生成攻擊性或歧視性內容的能力(Askell et al., 2021)。相反,未對齊的AI將會導致潛在風險,如真實性問題、錯誤信息、上癮和群體兩極分化(Zhuang and Hadfield-Menell, 2020; Pan et al., 2022),如前所述。
盡管近年來取得了顯著進展,但對大模型對齊的研究仍處于初級階段,理解這一主題仍存在許多模糊和困難。認識到對齊的重要性,本文致力于對現有對齊方法進行全面的綜述和分析,以促進人工智能與人類的共生未來。我們的范圍包括:i) 介紹對齊的歷史并詳述對齊的本質(第2節),ii) 回顧現有方法論并分析其優勢、劣勢和聯系(第3節),以及iii) 討論未來的挑戰和研究方向(第4節)。
對齊目標
在深入探討如何對齊之前,我們首先簡要介紹需要對齊的目標。對齊目標的討論源自于規范問題,即我們如何定義我們期望從人工智能中得到的目的?(Leike et al., 2018),這可以從兩個方面考慮(Gabriel, 2020):(1)規范方面:我們應該將什么目標編碼進人工智能中,以及(2)技術方面:我們如何形式化和建模這些目標。未能實現目標可能會導致人工智能尋找漏洞并以意料之外的方式實現目標,這被稱為規范游戲(Skalse et al., 2022)。從前者方面來看,對齊目標范圍從指令、意圖和偏好到利益、價值等(Gabriel, 2020)。另一個流行的目標是有益、誠實和無害(HHH)原則(Askell et al., 2021)。然而,大部分工作(Ouyang et al., 2022; Rafailov et al., 2023)強調對齊方法,而忽略了關于哪個目標最合適的分析。
良好對齊的模型能夠生成與這些確定的目標一致的內容。然而,由于評估者追求錯誤的目標、問題獎勵模型或策略(Casper et al., 2023),可能會出現錯位問題。錯位的模型可能會無意中導致意料之外或不希望的傷害和后果。例如,存在惡意使用的潛力,這些模型可能生成錯誤信息或歧視性和有害的內容(Brundage et al., 2018)。此外,即便是相當良好對齊的模型,也仍然可能展現出某些缺陷。它們可能產生幻覺(Ji et al., 2023),傳播偏見(Santurkar et al., 2023),并且容易受到如越獄(Li et al., 2023b)等對抗性攻擊的影響。
總體而言,實現對齊需要仔細考慮它們應該對齊的各種目標,解決潛在的錯位問題,并減輕這些模型可能具有的限制和脆弱性。
對齊方法
LLMs的對齊方法主要分為三種范式:基于強化學習的對齊(第3.1節)、基于監督式微調的對齊(第3.2節)和上下文內對齊(第3.3節)。在這一節中,我們將介紹和討論它們,以及個性化對齊(第3.5節)和LMM對齊(第3.4節),并建立它們與第2節中介紹的定義的聯系。所有類別的對齊方法都在附錄中的圖7中總結。
強化學習對齊
RLHF的理念最初在(Christiano et al., 2017)中被揭示,其中人類偏好是針對代理軌跡的片段表達的,用于深度強化學習,使得學習更復雜的行為成為可能。之后,Stiennon等人(2020)將RLHF技術應用于摘要任務中,并學習人類對不同摘要的偏好,從而顯著提高了質量。此外,Nakano等人(2021)提出了WebGPT,它在GPT-3上進行微調,并利用RLHF來提煉網頁導航和信息檢索的能力。這些早期使用RLHF的研究主要旨在提高模型性能,特別是在“有用性”或“誠實性”方面,可能忽略了“無害性”(HHH)(Askell et al., 2021)。這種失敗可能會導致LLMs與人類價值觀的錯位,導致模型輸出對用戶有害或不真實,如第1節所述。 為了減少這種傷害,InstructGPT(Ouyang et al., 2022)利用RLHF與用戶的意圖對齊,后者通過標記的模型響應來表示,以滿足HHH原則。RLHF技術直接催生了最成功的互動對話LLMs之一,ChatGPT,激發了對人工通用智能(AGI)的追求。
盡管RLHF的效果令人滿意,但它需要同時加載至少三個LLMs,即πθ、πSFT和R?,以及大量高質量的手動標記數據,D(x, yw, yl)。這帶來了無法承受的數據/訓練成本(RC3)。為了應對這一挑戰,提出了Constitutional AI(Bai et al., 2022b)以實現與人類標簽的對齊。這種方法類似于RLHF,但通過要求LLM生成并修正其響應來自動創建對(yw, yl)。這個框架促進了對齊的新方向,即基于AI反饋的強化學習(RLAIF)。隨后,開發了RLAIF的不同變體。Kim等人(2023)首先利用來自不同規模和提示的LLMs衍生的合成偏好數據來訓練獎勵模型。然后,他們自動生成高質量的示范用于SFT步驟,接著進行獎勵模型的RL調整。另一方面,為了提高RLHF的計算效率,Gulcehre等人(2023)提出了一種離線強化自訓練(ReST)方法。ReST從最新LLM策略中采樣多個響應以擴充訓練數據集(增長步驟),然后使用過濾后的數據通過離線RL目標對LLM策略進行微調(改進步驟)。
RLHF在實現相對良好的泛化方面已被證明是有效的,具有更好利用人類反饋信號的潛力。然而,它因訓練不穩定和高訓練/數據成本(RC3)而臭名昭著,這阻礙了RLHF進一步的適應性(RC2)和可擴展性(RC6)。此外,方程(7)中不同項之間的權衡是難以處理的(RC5),而RC4&7也仍未解決(Casper et al., 2023)。
考慮到SFT和RL的成本,以及大多數主流LLMs是黑盒的事實,基于微調的對齊方法變得越來越難以承擔或不可行。因此,另一種受歡迎的范式——基于上下文學習(ICL)的對齊——吸引了更多的注意。這種方法利用了LLMs在預訓練和指令調整階段獲得的龐大知識和遵循指令的能力。
多模態對齊
除了LLMs之外,大型多模態模型(LMMs)近年來也開啟了發展的新篇章,能夠同時處理多種模態,如圖像、視頻和文本,并學習從一種模態到另一種模態的映射(Liu et al., 2023c)。對LLMs的初步對齊成就表明了在多模態場景中進行對齊的潛力。具體來說,一系列工作整合了預訓練的視覺編碼器和LLM,并進行指令調整,以賦予LLM視覺問答(QA)能力,例如LLaVA(Liu et al., 2023c)、MiniGPT-4(Zhu et al., 2023)等(Li et al., 2023a;Gong et al., 2023;Dai et al., 2023)。LLaVA(Liu et al., 2023c)是將指令調整擴展到LLMs的第一步,它結合了CLIP的視覺編碼器和基于LLaMA的語言解碼器,并在GPT-4生成的多模態數據集上進行視覺指令調整。MiniGPT-4(Zhu et al., 2023)僅訓練單個投影層以將編碼的視覺特征與Vicuna語言模型對齊。經過在精選小數據集上的指令調整后,MiniGPT-4能生成更自然、更可靠的語言輸出。對于文本到圖像的任務,受LLMs中RLHF有效性的啟發,Lee等人(2023)提出了一種直接從人類反饋中學習的微調方法。該過程首先收集人類關于生成圖像是否與其輸入文本提示相對應的偏好數據,學習基于這些數據的獎勵模型,最后,使用獎勵加權似然最大化優化文本到圖像模型以實現對齊。為了與人類審美價值對齊,Wu等人(2023b)首先利用人類選擇的圖像微調CLIP模型作為偏好分類器。這個分類器用于為訓練數據集產生偽獎勵,進一步用于微調Stable Diffusion模型。訓練后的模型可以生成人類更偏好的更好審美質量的圖像。
多模態對齊目前處于其發展的非常初期階段,主要強調與人類指令的對齊,但忽略了如美德和社會規范等高層次和多樣化的人類價值。確保無害性提出了一個重大且不可忽視的挑戰。
個性化對齊
在心理學領域,個性指的是構成個體獨特性的獨特特征、特質以及思想、感覺和行為模式的模式。由于個性在塑造人類行為中扮演著重要角色,過去幾十年提出了大量理論和模型來解釋和分類個性的不同方面(McAdams and Pals, 2006; Roccas et al., 2002; Maslow, 1958; Freud, 1975; Bandura and Walters, 1977)。隨著大型語言模型在自然語言處理(NLP)中的革命性出現,研究發現,大型語言模型在特定提示配置下可以模擬出可靠和有效的個性(Safdari et al., 2023; Hagendorff, 2023; Jiang et al., 2023),而且對于更大和經過指令微調的模型,LLMs模擬的個性可能更強(Safdari et al., 2023),這為個性化大型語言模型提供了支持。
結論
在這項工作中,我們深入探討了對齊的起源和本質,系統地介紹了其發展、目標、形式化和評估。我們還回顧了現有的對齊研究,并分析了每個范式是如何從原始形式衍生出來的,并建立了它們的內在聯系。通過對對齊進行全面分析并識別未來的挑戰和研究方向,我們旨在為大模型的對齊方法的理解和進步做出貢獻,指導這些人工智能系統不僅避免造成傷害,而且還意圖做出善舉,最終實現一個人工智能與人類共生的未來社會。
大規模圖數據的分布式處理具有許多實際應用,并且已被廣泛研究。近年來,提出了許多分布式圖處理框架和算法。雖然大量工作致力于分析這些框架和算法,且大部分是基于編程模型進行分析,但較少的研究集中于理解它們在分布式環境中的挑戰。在分布式環境中應用圖任務并非易事,通常面臨許多挑戰,通過我們的分析,這些包括并行性、負載平衡、通信開銷和帶寬問題。在本文中,我們通過概述分布式圖算法的挑戰和解決方案,提供了該領域當前最先進狀態的廣泛綜述。我們首先對分布式圖處理中的固有挑戰進行系統分析,然后概述現有的通用解決方案。隨后,我們綜述了最近的分布式圖處理論文中強調的挑戰及采取的應對策略。最后,我們討論當前的研究趨勢,并識別潛在的未來機會。
圖是一種高維結構,用于模型化實體之間的點對點關系。由于其強大的表示能力,圖廣泛應用于社交網絡分析[26]、道路網絡路由[74]和生物結構預測[22]。隨著近年來信息科學和大數據應用[1, 55]的發展,圖數據集的規模已變得過大,單一機器因其有限的存儲和計算能力而難以應對。為了支持對大規模圖的查詢和分析,研究人員提出了許多分布式圖算法和系統,這些系統將大規模圖分別存儲在多臺機器上并進行協作計算,例如Pregel [116]、Giraph [10]、GraphX [76]和GraphScope [61]。
近年來,關于分布式圖算法的研究激增,重點是開發特定算法如PageRank、標簽傳播和三角形計數,或解決工作調度和機器到機器通信等挑戰。然而,提供該領域全面視角的綜述仍然有限。本文旨在通過整合過去十年在SIGMOD、VLDB、PPoPP、SC、TPDS和TC等知名會議和期刊上發表的關于大規模圖的分布式圖算法的研究,彌合這一差距。我們從這些論文中提煉出四個主要且經常被提及的挑戰: ? 并行性是一個主要目標,需要同時處理多個操作并減少迭代輪數。 ? 負載均衡旨在均勻分配頂點工作并提高計算資源的利用率。這有助于防止某些機器過載而其他機器閑置。 ? 通信是指頂點之間的消息交換,與隨機內存訪問相比,這是一個昂貴的操作。優化通信開銷可以在實際執行中提高效率。 ? 帶寬限制了頂點之間傳輸的消息大小。某些算法需要大量帶寬,這在某些框架中可能不可行。 為了應對這些挑戰,提出了許多開源分布式圖處理框架(例如,Pregel [116]和GPS [137])。這些框架中抽象了通用解決方案(例如,并行循環、消息接收和發送以及廣播)。用戶可以利用高級功能開發圖算法,有效地抽象出底層實現細節的復雜性。然而,由于圖算法的不規則性,這些解決方案高度多樣化,專門為特定算法量身定做,沒有統一模式適合所有圖算法。 此外,現有研究中的分布式圖算法解決了各種圖任務。為了清晰地介紹它們,我們將廣泛研究的圖任務分類為七個主題:中心性、社區檢測、相似性、緊密子圖、遍歷、模式匹配和覆蓋。在本文中,我們首先介紹針對四個挑戰的通用解決方案,然后解析不同算法主題中解決挑戰的研究論文比例。此外,我們深入探討了特定主題中某些挑戰受到不同程度關注的原因。例如,與相似性主題相關的論文中70%集中于減少通信開銷(圖8c)。通過這些分析,我們展示了分布式圖算法研究的深入見解,并提出了未來研究的潛在有前景方向。本文的獨特貢獻是構建了一個綜合圖,如圖1所示,該圖概述了調研材料中的論文、主題、算法、解決方案和挑戰等之間的復雜連接,為該領域的格局提供了視覺敘述。讀者可以通過在線交互工具( 貢獻。現有綜述主要集中于特定的分布式挑戰(例如,負載均衡[92])或特定的分布式算法(例如,模式匹配[23])。然而,我們的綜述針對不同分布式圖算法在考慮不規則計算的情況下所面臨的挑戰。具體來說,我們的主要貢獻如下: ? 我們提供了分布式圖算法中主要挑戰及其解決方案的概述。這為分布式圖處理提供了全面的理解。 ? 我們調研了各種分布式圖算法,并根據它們解決的挑戰將它們分類為七個主題。 ? 對于分布式圖算法的每一個主題,我們進行了現有工作的徹底分析。我們還總結了它們解決的主要挑戰,并提供了對背后原因的獨特見解。本文的其余部分安排如下。第2節回顧了現有的分布式圖系統和計算處理。第3節總結了一些挑戰和解決方案,這些挑戰和解決方案在單機算法中并不常見。第4節詳細描述了流行的分布式圖算法,并突出了它們與單機版本的差異。第5節討論了流行的研究趨勢和潛在的研究機會。第6節總結了這次綜述。分布式圖處理:挑戰與解決方案概述****分布式圖處理能夠通過互聯的計算機處理非常大規模的圖。然而,從單機計算向分布式計算的轉變引入了一些挑戰,這些挑戰源于分布式系統和圖的固有特性,這些特性在設計分布式圖算法時是必須考慮的關鍵因素。在本節中,我們將對分布式圖處理中的固有挑戰進行系統分析(第3.1節)并提供現有解決方案的概述(第3.2節)。
分布式圖處理中的固有挑戰
在一個由多個互聯機器組成的分布式系統中,每臺機器都作為一個獨立的計算單元,這些機器常常分布在不同的地點。如圖2所示,這種設置利用集體的計算力進行高效的數據處理。然而,這也帶來了在計算和網絡資源利用方面的重大挑戰,這些挑戰在分布式圖處理的背景下尤為關鍵。 計算資源效率:分布式系統的特點是其龐大且可擴展的計算資源,這使得系統能夠處理大量圖數據并執行復雜的圖計算。因此,在設計分布式圖算法時,充分利用系統中的計算資源非常重要。與所有指令在單一機器上執行的集中式圖算法不同,分布式圖算法需要多臺機器的協作與合作來完成任務,這帶來了并行性和負載平衡的挑戰。 * 并行性:分布式圖處理中的并行性涉及在不同機器上同時執行多個計算。這種方法需要將較大的圖分析任務劃分為更小、更易管理的子任務。這些子任務隨后在不同機器之間分配,使得它們能夠同時執行。這種策略不僅有助于高效地利用資源,還顯著減少了整體的計算時間,從而提高了圖處理任務的性能。然而,圖分析任務往往呈現出固有的順序依賴性[3, 88, 180],使得在分布式圖算法中實現并行性變得復雜。深刻理解這些任務的基本性質對于識別可以有效并行化的獨立子任務至關重要。這需要仔細分析,以在保持順序依賴性的完整性和優化并行執行之間找到平衡。 * 負載平衡:分布式圖處理中的負載平衡確保計算工作負載在所有機器上均勻分配。負載不均會導致效率低下:一些機器可能迅速完成任務并處于閑置狀態,而其他機器(通常稱為拖后腿者)則在進行持續的計算中,最終延遲整個過程。這種不平衡在分布式圖處理中尤為問題,因為計算的不規則性來自于非均勻[50]的度分布和拓撲不對稱。盡管解決負載不平衡至關重要,但它非常復雜。它不僅需要精確的初始工作負載量化,還需要在運行時進行持續的調整以解決任何不平衡。
網絡資源效率:在分布式系統中,機器通過網絡通信,高效使用網絡資源變得至關重要,尤其是在圖處理中。圖數據的固有復雜性,由復雜的結構和不規則的頂點連接標記,經常需要對單個頂點的操作與多個其他頂點進行互動。這種情況導致頻繁且廣泛的網絡數據交換,尤其是當互聯頂點分布在不同機器上時。因此,在網絡資源效率方面出現了兩個主要挑戰。 * 通信開銷:分布式系統中的通信開銷由消息交換的網絡資源使用定義,主要取決于數據傳輸量。在分布式圖處理中,需要跨機器通信以訪問位于不同機器上的頂點或邊,增加了網絡通信。這些數據交換的低效管理可能導致顯著的網絡擁堵,使網絡通信成為整體計算性能的關鍵瓶頸。因此,管理通信開銷對于優化分布式圖處理的效率和有效性至關重要。 * 帶寬:分布式系統中的帶寬代表每輪消息傳遞中機器之間的最大數據傳輸容量。受到硬件和網絡基礎設施的限制,帶寬不是無限可擴展的。在分布式圖處理中,由于圖中頂點的度分布不均,高度頂點在與鄰居進行廣泛通信[33]時,或同時被許多頂點訪問時(在某些基于隨機游走的算法[109]中很常見),需要高帶寬。此外,低帶寬利用率也是一個挑戰。對于許多任務,如三角形計數、BFS和連通分量,大量的小消息在低度頂點之間傳輸,這些消息只包含有關其鄰居的信息。另一方面,每次使用消息傳遞接口(如MPI)的消息交換都會引入額外的開銷,以報頭信息和握手協議消息的形式出現,從而導致實際有效數據的比例降低,進而導致帶寬資源的低效利用[150]。因此,在分布式圖處理中,有效且高效地優化帶寬利用率是一個挑戰。
解決方案概述
繼第3.1節對分布式圖處理中固有挑戰的分析之后,本節總結了為應對這些挑戰而開發的各種解決方案,特別是在分布式圖處理領域,并提供了第4節中詳細算法常用技術的概覽。3.2.1 計算資源效率優化。本節重點介紹優化計算資源效率的解決方案,包括并行性和負載平衡。優化網絡資源效率。本節重點介紹解決通信開銷和帶寬挑戰的解決方案,關于網絡資源效率。通信開銷:在分布式圖處理中,不同機器的頂點頻繁交換消息,導致了大量的通信開銷。 結論
圖可以很好地表示實體之間的關系。分析和處理大規模圖數據已在許多應用中得到應用,如社交網絡分析、推薦系統和道路網絡路由。分布式圖處理提供了一種在現實世界中高效處理大規模圖數據的解決方案。為了了解分布式環境中圖任務的最新研究并促進其發展,本文進行了一項關于分布式圖任務的廣泛綜述。 我們首先概述了現有的分布式圖處理基礎設施。這些工具促進了分布式算法的設計,但仍然難以克服由分布式系統和圖的固有特性所引起的挑戰。隨后,我們分析并總結了分布式環境中圖任務面臨的主要挑戰及其根據分布式系統和圖的特性提出的相應解決方案。然后,我們提供了主要圖任務的分類,并對它們在分布式環境中的現有努力進行了詳細分析,包括它們關注的挑戰和解決這些挑戰的獨特見解。最后,我們討論了分布式圖處理領域的研究重點和現有的研究空白,并識別了潛在的未來研究機會。
自主系統很快將無處不在,從制造業自主性到農業領域的機器人,再從醫療保健助手到娛樂產業。這些系統的大多數都是用于決策、規劃和控制的模塊化子組件開發的,這些子組件可能是手工設計的或基于學習的。雖然這些現有方法在它們特別設計的情況下已被證明表現良好,但在肯定會在測試時出現的罕見、分布外情景中,它們的表現可能特別差。基于多任務訓練、來自多個領域的大型數據集的基礎模型的興起,使研究人員相信這些模型可能提供現有規劃器所缺失的“常識”推理。研究人員認為,這種常識推理將彌合算法開發與部署到分布外任務之間的差距,就像人類適應意外情景一樣。大型語言模型已經滲透到機器人和自主系統領域,研究人員正在爭先恐后地展示它們在部署中的潛在用例。雖然這一應用方向從經驗上看非常有希望,但基礎模型已知會產生幻覺,并生成可能聽起來合理但實際上卻很差的決策。我們認為有必要同時退一步,設計可以量化模型決策確定性的系統,并檢測何時可能產生幻覺。在這項工作中,我們討論了基礎模型用于決策任務的當前用例,提供了一個帶有示例的幻覺的一般定義,討論了現有的幻覺檢測和緩解方法,重點是決策問題,并探索了這一激動人心領域的進一步研究領域。
身為機器學習和機器人研究者的我們正處于一個激動人心的時代。在過去的十五年中,關于感知、決策制定、規劃和控制模型的效能和效率取得了巨大的進展(Soori等人,2023;Janai等人,2020)。廣義上說,這些問題的解決方法可以歸為兩大類:手工設計的基于模型的系統和基于數據驅動的學習模型(Formentin等人,2013)。開發者可能會有某些部署場景 in mind,他們可能手工編寫規則(Hayes-Roth,1985)或調整控制器(Borase等人,2021)進行測試,或者在基于學習的模型的情況下,收集訓練數據并設計某種獎勵函數,以依據這些數據將模型適配到一個目標上(Henderson等人,2018)。在實踐中,這些方法在它們專門設計和訓練的場景中工作得特別好,但在之前未見過的分布外情況下可能產生不希望的結果(Wen等人,2023)。設計者可能選擇添加更多規則,重新調整他們的控制器,對他們的模型進行微調以適應更具代表性的數據集,修正獎勵函數以處理邊緣情況,甚至在測試時添加一個探測器(可能基于規則或數據驅動)來識別分布外情況,然后再調用決策制定者(Singer和Cohen,2021;Schreiber等人,2023;Chakraborty等人,2023)。然而,即使有了這些改變,在部署過程中總會出現設計者之前沒有考慮過的其他情況,導致次優的性能或關鍵失敗。此外,對模型所做的修改可能在測試時產生意想不到的效果,如不希望的沖突規則(Ekenberg,2000)或早期學到的技能的災難性遺忘(Kemker等人,2018)。
非正式地說,傳統方法和數據驅動的方法缺乏人類在不熟悉的環境中適應所用的某種形式的常識(Fu等人,2023a)。更近期,研究人員正在探索使用大型(視覺)語言模型,即L(V)LMs,來填補這一知識差距(Cui等人,2024)。這些模型是通過收集和清理一個巨大的自然語言數據集,對該數據集進行預訓練以重構句子,對特定任務進行微調(例如,問答),并應用人在回路的增強學習來產生更合理的反應(Achiam等人,2023)來開發的。盡管這些模型是另一種嘗試在給定上下文條件下最大化生成文本可能性的數據驅動學習形式,研究人員已經表明,它們有能力概括到它們未經訓練的任務,并對其決策進行推理。因此,這些基礎模型正在被測試用于模擬決策制定(Huang等人,2024b)和真實世界的機器人學(Zeng等人,2023)任務中,以取代感知、規劃和控制模塊。即便如此,基礎模型并非沒有局限性。具體來說,這些模型傾向于產生幻覺,即生成聽起來合理但實際上不準確或會在世界中產生不希望效果的決策或推理。這一現象引發了一項新的研究方向,嘗試探測L(V)LMs何時產生幻覺,以便產生更可信賴和可靠的系統。在這些大型黑盒系統應用于安全關鍵情況之前,需要有方法探測和緩解幻覺。因此,這篇綜述收集并討論了當前基礎模型在決策制定任務中幻覺緩解技術,并提出了潛在的研究方向。 現有的綜述主要集中于提出在問答(QA)(Ji等人,2023;Rawte等人,2023;Zhang等人,2023d;Ye等人,2023)或對象檢測任務(Li等人,2023c)中的幻覺檢測和緩解方法。還有其他工作提供了當前使用L(V)LMs在自動駕駛汽車(Yang等人,2023b)和機器人學(Zeng等人,2023;Zhang等人,2023a)中的用例示例。Wang等人(2023a)對多種基礎模型的可信度進行了深入分析,而Chen和Shu(2024)提供了LLMs內幻覺的分類,但兩者都排除了通用決策問題的應用。據我們所知,我們是第一個提出可以靈活調整以適應任何特定部署設置的幻覺的一般定義,包括常見的應用到QA或信息檢索,以及在規劃或控制中的最新發展。此外,沒有現有工作總結了決策制定和規劃任務中的幻覺檢測和緩解方法的最新技術。 在本工作的剩余部分,我們將在第2節討論基礎模型在決策制定任務中的當前使用,第3節定義幻覺并提供示例,第4節和第5節分別識別當前的檢測方法和評估它們的地方,并在第6節探索可能的研究方向。
基礎模型做出決策
最初由Bommasani等人(2022)提出,“基礎模型”這一術語指的是“在廣泛數據上進行大規模訓練,以便它們可以適應廣泛的下游任務”的模型。這種方法與設計和在一小部分數據上訓練模型以部署到特定任務的工作形成對比(楊等人,2024)。關鍵區別在于,基礎模型經過一個在大規模數據集上的預訓練程序,該數據集包含來自多種可能部署領域的信息,通過這種方式,它們預期將學習更通用的特征和對應關系,這些在更廣泛的任務集上的測試時可能有用(周等人,2023;趙等人,2023)。現有的預訓練基礎模型的示例涵蓋了語言(Devlin等人,2019;Brown等人,2020;Touvron等人,2023a)、視覺(Caron等人,2021;Oquab等人,2024;Kirillov等人,2023)和多模態(Radford等人,2021;Achiam等人,2023)輸入。在本節中,我們簡要概述了基礎模型在機器人、自動駕駛汽車和其他決策系統中的現有用例。我們還簡潔地指出了這些工作中發現的幻覺,并在3.2節中留下更長的討論。讀者應參考楊等人(2023b)、曾等人(2023)和張等人(2023a)的作品,以更深入地回顧應用領域。
檢測與緩解策略
幻覺檢測和緩解方法可以根據算法可用的輸入被分類為三種類型(白盒、灰盒和黑盒)。通常情況下,在給定一些上下文后,基礎模型輸出預測的令牌序列、每個令牌對應的概率以及來自網絡中間層的生成的嵌入。白盒幻覺檢測方法假設可以訪問所有三種輸出類型,灰盒需要令牌概率,而黑盒只需要預測的令牌序列。因為不是所有基礎模型都提供對其隱藏狀態的訪問,甚至令牌的輸出概率分布(例如,ChatGPT的網絡界面),黑盒算法在測試時更加靈活。在本節中,我們按輸入類型聚集現有的檢測和緩解方法進行介紹。雖然這些工作中的許多在問答和對象檢測設置中顯示出希望,但它們中的許多在決策制定任務上需要進一步驗證,我們將指出這些方法的出現。 本節的工作在表2中總結。
大型模型在多個應用領域代表了突破性的進步,使得各種任務都取得了顯著的成就。然而,它們前所未有的規模帶來了重大的計算成本。這些模型通常包含數十億參數,需要大量計算資源來執行。特別是,它們龐大的規模和計算需求在為特定的下游任務定制時,尤其是在計算能力受限的硬件平臺上,提出了相當大的挑戰。參數高效微調(PEFT)提供了一個實用的解決方案,通過高效地適應各種下游任務來調整大型模型。具體來說,PEFT指的是調整預訓練大型模型的參數以將其適應于特定任務或領域的過程,同時最小化引入的額外參數數量或所需的計算資源。這種方法在處理參數計數高的大型語言模型時尤為重要,因為從頭開始微調這些模型可能在計算上代價高昂且資源密集,給支持系統平臺設計帶來了相當大的挑戰。在這項綜述中,我們對各種PEFT算法進行了全面的研究,檢查了它們的性能和計算開銷。此外,我們提供了使用不同PEFT算法開發的應用程序的概覽,并討論了用于減輕PEFT的計算成本的常見技術。除了算法視角,我們還概述了各種現實世界的系統設計,以調查與不同PEFT算法相關的實施成本。這項綜述是希望理解PEFT算法及其系統實現的研究人員不可或缺的資源,提供了關于最近進展和實際應用的詳細見解。
近期,大型模型(LMs)引起了廣泛的公眾興趣。它們理解上下文和細微差別的能力,使其能夠熟練地處理跨多個領域的多樣化任務,包括自然語言處理(NLP)、計算機視覺(CV)等。在NLP領域,大型語言模型(LLMs)在包括文本生成[10]、[243]、翻譯[239]、[61]、個性化聊天機器人[192]、[103]、[187]和摘要[212]等各種任務上取得了重大進步,展現了非凡的熟練度。
早期研究[10]表明,LLMs表現出高水平的泛化能力,能夠將其獲得的知識應用于原始訓練中未包括的新任務。這種能力通常被稱為零樣本學習。盡管如此,為了進一步提升LLMs在新用戶數據集和任務上的最佳性能,微調仍然是必不可少的。由于其規模,微調LLMs的廣泛采用策略涉及調整有限數量的LLM參數,同時保持其余部分不變。這種技術,稱為參數高效微調(PEFT),涉及選擇性地調整少部分參數,同時保持其余部分不變。此外,PEFT的應用范圍不僅限于NLP領域,并迅速吸引了CV社區的興趣,用于處理具有大量參數的視覺模型的微調,例如視覺變換器(ViT)和擴散模型,以及跨學科模型,如視覺-語言模型。
在這項綜述中,我們系統地回顧和分類了PEFT算法的最新進展,以及與各種PEFT算法相關的系統實現成本。圖1展示了本綜述的概覽內容。在第II部分,我們介紹了LLM和PEFT的一些基本概念,包括LLM的計算流程、PEFT的基礎知識,以及常用的數據集和任務。
我們在第III部分根據它們的計算流程將所有類型的PEFT算法進行了分類。在第III-A部分,我們介紹了添加型算法,這類算法要么引入額外的權重參數,要么修改激活函數。對于那些僅需使用現有參數進行微調的算法,它們被歸類為選擇性方法,其介紹可以在第III-B部分找到。在第III-C部分,我們探討了重參數化PEFT,它構造了原始模型參數的(低維)重參數化以進行訓練,同時變換權重以保持推理速度。此外,還存在結合上述技術的算法,我們將這些分類為混合方法,在第III-D部分對它們進行了闡述。我們還在第IV部分調查了進一步降低不同PEFT算法計算復雜度的策略,包括KV緩存管理、剪枝、量化和內存優化。
在第V部分,我們將這項綜述的范圍擴展到計算視角之外,涉及各種潛在的應用場景。我們探索了將PEFT技術應用于不同模型架構的創新,包括LLMs(第V-A部分)、視覺變換器(第V-B部分)、視覺-語言對齊模型(第V-C部分)和擴散模型(第V-D部分),用于各種下游任務,強調了PEFT在多種場景中的多功能性和適用性。
在第VI部分,我們探討了PEFT方法的系統設計挑戰。討論包括三種先進的系統解決方案,用于PEFT的實際部署:分布式調整(第VI-B部分)、PEFT查詢服務(第VI-C部分)和并發PEFT調整(第VI-D部分)。 在最后的第VII部分,我們總結了我們的綜述,并從算法和系統視角提出了幾個潛在的未來方向,希望為該領域的進一步研究和發展提供有價值的見解。
參數高效微調(PEFT)概覽
為了提升LLM在未見用戶數據集和任務上的性能,微調仍然是必不可少的。隨著模型大小的增長(例如,從GPT-2的1.5B增長到GPT-3的175B),標準的全微調范式需要成千上萬的GPU并行工作,這在高度效率和可持續性方面是極其低效的。一種名為參數高效微調(PEFT)的算法應運而生,旨在通過調整最少的參數在下游任務上實現比全面微調更好的性能。
在視覺和多模態領域,大規模預訓練模型的并行發展同樣展示了它們有效的表示學習能力,使得從大數據集到小數據集或跨不同數據模態的適應通過微調變得可行。因此,這種能力使得PEFT越來越吸引更廣泛的研究社區。
我們根據它們的操作將PEFT算法分類為加法、選擇性、重參數化和混合微調。如圖3所示,通常使用三種主要的加法微調算法:(1)適配器;(2)軟提示;(3)其他。它們在不同的額外可調模塊或參數方面有所不同。另一方面,選擇性微調不需要任何額外的參數,它從骨干模型中選擇一小部分參數,并僅使它們在下游任務的微調過程中可調,同時保持大多數參數不受影響。我們基于所選參數的分組將選擇性微調進行了分類:(1)非結構化遮罩;(2)結構化遮罩。重參數化代表在兩種等效形式之間轉換模型參數。具體而言,重參數化微調在訓練期間引入額外的低秩可訓練參數,然后這些參數在推理時與原始模型集成。這種方法被歸類為兩種主要策略:(1)低秩分解,和(2)LoRA衍生物。混合微調探索不同PEFT方法的設計空間,并結合它們的優點。
PEFT策略可以廣泛地分為四個類別:加法PEFT(第III-A節),通過注入新的可訓練模塊或參數來修改模型架構;選擇性PEFT(第III-B節),在微調期間使參數子集成為可訓練的;重參數化PEFT(第III-C節),為訓練構造原始模型參數的(低維)重參數化,然后等效地將其轉換回推理;以及混合PEFT(第III-D節),結合不同PEFT方法的優點來構建統一的PEFT模型。不同類型PEFT算法的概覽在圖4中展示。
標準的全面微調需要大量的計算開銷,并且還可能損害模型的泛化能力。為了緩解這個問題,一個廣泛采用的方法是保持預訓練的骨干網絡不變,并且僅在模型架構中的戰略位置引入最小數量的可訓練參數。在針對特定下游任務進行微調時,只有這些額外模塊或參數的權重被更新,這導致存儲、內存和計算資源需求的大幅減少。由于它們的特點是增加參數,這些技術可以被稱為加法調整,如圖4(a)所示。接下來,我們將討論幾種流行的加法PEFT算法。與通過增加更多參數提高模型復雜性的加法PEFT不同,選擇性PEFT微調現有參數的一個子集,以提升模型在下游任務上的性能,如圖4(b)所示。重參數化代表通過轉換其參數,等效地將模型架構從一種轉換到另一種。在PEFT的背景下,這通常意味著構造一個低秩參數化以在訓練期間實現參數效率的目標。對于推理,可以將模型轉換為其原始的權重參數化,確保推理速度不變。這一過程在圖4(c)中展示。
將文本和視覺模態連接起來在生成智能中扮演著至關重要的角色。因此,受到大型語言模型成功的啟發,大量研究努力正被投入到多模態大型語言模型(MLLMs)的開發中。這些模型能夠無縫整合視覺和文本模態,無論是作為輸入還是輸出,同時提供基于對話的界面和遵循指令的能力。在這篇論文中,我們提供了近期基于視覺的MLLMs的全面回顧,分析它們的架構選擇、多模態對齊策略和訓練技巧。我們還對這些模型在廣泛的任務范圍內進行了詳細分析,包括視覺定位、圖像生成和編輯、視覺理解和領域特定應用。此外,我們編制并描述了訓練數據集和評估基準,就性能和計算需求在現有模型之間進行了比較。總的來說,這篇綜述提供了當前藝術狀態的全面概述,為未來MLLMs的發展奠定了基礎。
//www.zhuanzhi.ai/paper/3c58ed684809b9b936259fd61a4bb074
注意力操作符和Transformer架構(Vaswani et al., 2017)的引入,使得創建能夠處理各種模態的模型成為可能,并且這種處理能力在不斷擴大的規模上得到應用。這一進步很大程度上歸功于操作符的多功能性和架構的適應性。最初,這一突破被用于語言特定模型(Devlin et al., 2018; Brown et al., 2020),但很快擴展到支持視覺處理骨干(Dosovitskiy et al., 2021),最終用于集成多種模態的模型(Radford et al., 2021)。復雜大型語言模型(LLMs)的涌現,特別是它們進行上下文學習的能力,鼓勵研究人員將這些模型的應用范圍拓寬到多模態,包括作為輸入和輸出。這一擴展導致了如GPT-4V(Achiam et al., 2023)和Gemini(Anil et al., 2023)等尖端模型的開發,展示了最先進的性能。多模態大型語言模型(MLLMs)的開發涉及將視覺和語言的單模態架構合并,通過視覺到語言的適配器建立它們之間的有效連接,并設計創新的訓練方法。這些方法對于確保模態對齊和準確遵循指令的能力至關重要。在新模型快速發布的背景下,我們的目標是提供關于MLLM領域的全面概述,重點關注利用視覺模態的模型。這一概述既是對當前狀態的更新,也是對未來發展的靈感來源。我們確定了定義這些模型的三個核心方面:它們的架構、訓練方法以及它們被設計來執行的任務。我們首先詳細介紹了流行的視覺編碼器選擇和為LLMs裝備跨模態能力的適配器模塊。接著,我們深入訓練過程和使用的數據。然后,我們探索MLLMs處理的任務范圍。綜述以對該領域持續存在的挑戰和未來研究的有希望方向的討論結束。關于訓練數據、評估數據集以及性能和計算要求的進一步細節在補充材料中報告。
賦予大型語言模型多模態能力
** 前言**
大型語言模型。Brown等人(2020)發現上下文學習,即在提示前附加一些示例以演示大型語言模型(LLM)的期望輸出(Chowdhery等人,2023;Hoffmann等人,2022;Tay等人,2022),可以提高其性能,特別是在未見過的任務上。通過為每個訓練樣本提供所需任務的自然語言描述,可以進一步提高泛化能力。這種技術,稱為指令調優(Chung等人,2022;Wang等人,2022b,a;Jiang等人,2024),對于使LLM的行為與人類的行為對齊至關重要,目前賦能了最先進的LLM,最終通過來自人類反饋的強化學習(RLHF)(Ouyang等人,2022;Achiam等人,2023;Chen等人,2023j;Bai等人,2023a)得到提升。PEFT。當一個預訓練的LLM需要適應特定領域或應用時,參數高效微調(PEFT)方案代表了訓練整個LLM的一個重要替代方案,因為這些策略只引入少量新參數。其中,提示調優(Hambardzumyan等人,2021;Lester等人,2021;Li和Liang,2021;Liu等人,2023j)學習一小組向量作為軟提示在輸入文本之前輸入模型。不同的是,LoRA(Hu等人,2021)通過學習低秩矩陣限制了新權重的數量。這種技術與如QLoRA(Dettmers等人,2023)等量化方法正交,進一步減少了LLM的內存占用,與通常的半精度權重相比。走向多模態LLM。MLLM的發展與LLM的發展路徑類似,Flamingo(Alayrac等人,2022)是首個在視覺-語言領域探索大規模上下文學習的模型。然后,視覺指令調優(Liu等人,2023e)迅速成為多模態領域中最突出的訓練范式,以及使用PEFT技術微調LLM。任何MLLM至少包含三個組件(圖1):作為與用戶接口的LLM主干,一個(或多個)視覺編碼器,以及一個或多個視覺到語言的適配器模塊。對LLM主干的流行選擇通常屬于LLaMA家族(Touvron等人,2023a,b),鑒于它們的權重是自由可獲取的,它們僅在公開數據上進行了訓練,并且它們擁有不同的大小以適應各種用例。此外,它們的衍生版本也很受歡迎,例如Alpaca(Taori等人,2023)和Vicuna(Chiang等人,2023)。前者在GPT-3編寫的指令上微調LLaMA,而后者利用用戶與ChatGPT(OpenAI,2022)的共享對話。其他選擇包括OPT(Zhang等人,2022b),Magneto(Wang等人,2023b),MPT(MosaicML,2023),以及經過指令調優(Chung等人,2022)或多語言(Xue等人,2020)版本的T5(Raffel等人,2020),一種為多個任務預訓練的編解碼器語言模型。 本調查中涵蓋的MLLM的總結報告在表1中,指出每個模型基于哪個LLM,視覺編碼器,用于連接視覺和語言組件的適配器,MLLM是否經過視覺指令調優訓練,以及主要任務和能力的簡短列表。視覺編碼器在MLLM中,一個關鍵組件是視覺編碼器,它專門設計用于為LLM提供提取的視覺特征。通常采用凍結的預訓練視覺編碼器,同時只訓練一個可學習的接口,將視覺特征與底層LLM連接起來。最常用的視覺編碼器基于預訓練的Vision Transformer(ViT)模型,具有CLIP-based目標,以利用CLIP嵌入的固有對齊。流行的選擇包括CLIP(Radford等人,2021)的ViT-L模型,OpenCLIP(Wortsman等人,2022)的ViT-H主干,以及EVA-CLIP(Fang等人,2023)的ViT-g版本。CLIP和OpenCLIP編碼器在從網絡收集的圖像上訓練,采用對比方法對正確的圖像-文本對進行對齊。相反,EVA-CLIP是一系列模型,提供了訓練CLIP模型的實用有效解決方案。特別是,EVA模型預訓練為重建被遮擋的圖像-文本對齊視覺特征,條件是可見的圖像塊。 正如(Li等人,2023f)所示,更強大的圖像編碼器導致更好的性能。基于這一見解,Lin等人(2023b)和Gao等人(2024)提出了一個凍結視覺主干的集合,以捕獲魯棒的視覺表示和不同級別的信息粒度。同時,PaLI模型(Chen等人,2023i,g),注意到語言和視覺參數之間的不平衡,分別提出將視覺主干擴展到4億和220億參數的ViT。使用如此大且強大的模型是通過在訓練期間保持視覺編碼器凍結的常見做法變得可行的,如(Li等人,2023f;Huang等人,2023a;Gao等人,2023;Chen等人,2023f)中所觀察到的。然而,使用凍結的視覺編碼器有一些局限性,主要是由于參數數量有限,導致視覺和語言模態之間對齊不足。具體來說,從視覺模型提取的密集特征可能會碎片化細粒度圖像信息,并由于輸入語言模型的長序列而帶來大量計算。為了緩解這個問題,其他方法(Ye等人,2023c,d)采用兩階段訓練范式。在第一階段,他們結合了可訓練的視覺主干,同時保持預訓練的LLM凍結。根據他們的發現,使視覺編碼器可訓練可以提高諸如視覺問題回答或視覺描述等任務的性能。然而,它可能導致其他任務的性能下降,表明一定程度的遺忘和對通用視覺表示的損害。
視覺到語言的適配器
來自不同模態的輸入的同時存在強調了需要納入一個能夠勾畫出這些單模態領域內潛在對應關系的模塊的必要性。這些模塊,稱為“適配器”,旨在促進視覺和文本領域之間的互操作性。在常見的MLLM中使用了不同適配器的范圍,從基本架構(如線性層或MLP)到高級方法(如基于Transformer的解決方案),如Q-Former模型,以及添加到LLM的條件交叉注意力層。線性和MLP投影。將視覺輸入投影到文本嵌入中的最直接方法涉及學習線性映射,將視覺特征轉換為與文本對應部分相同的維度。一些方法,如LLaMA-Adapter(Gao等人,2023)和FROMAGe(Koh等人,2023b)只使用單個線性層來執行多模態連接,而LLaVA-1.5(Liu等人,2023d)采用了兩層MLP,顯示出改進的多模態能力。盡管在早期MLLM中廣泛采用線性投影,但即使在對視覺輸入有更深入理解的最新方法中,線性投影的使用也被證明非常有效(Chen等人,2023f;Lin等人,2023a;Wang等人,2023c;You等人,2023;Zhao等人,2023a)。因此,它是一種簡單而有效的技術,用于將視覺特征與文本對應部分對齊。不同的方法(Cha等人,2023)提議用卷積層替換線性層,顯示出適度的改進。 Q-Former。它是BLIP-2(Li等人,2023f)中提出的基于Transformer的模型,然后在幾種其他方法(Chen等人,2023d;Dai等人,2023;Hu等人,2024)中使用。它的特點是具有可適應的架構,由兩個共享相互注意力層的Transformer塊組成,促進視覺和文本表示之間的對齊過程。它涉及一組可學習的查詢,在自注意力層內部交互,并通過交叉注意力機制與視覺特征接口。文本和視覺元素通過模塊內的共享自注意進行通信。從Q-Former中汲取靈感,引入了各種修改版本。在這方面,mPLUG-Owl模型(Ye等人,2023c,d)簡化了Q-Former架構,并提出了一個視覺抽象器組件,通過將視覺信息壓縮為不同的可學習令牌來操作,以獲得更富語義的視覺表示。同一線上,Qwen-VL(Bai等人,2023b)使用具有可學習查詢的單層交叉注意力模塊壓縮視覺特征,還結合了2D位置編碼。附加交叉注意力層。這種方法在Flamingo(Alayrac等人,2022)中被提出,通過在現有預訓練LLM層中集成密集交叉注意力塊。新添加的層通常與零初始化的tanh門控機制結合使用,以確保在初始化時,條件模型的行為如其原始版本。使用附加交叉注意力層需要從頭開始訓練它們,與其他替代方案相比,增加了可訓練參數的數量。為了減少計算復雜性,這種策略通常與基于Perceiver的組件(Jaegle等人,2021)配對使用,該組件在將視覺令牌輸入LLM之前減少了它們的數量。自從引入以來,幾個模型(Awadalla等人,2023;Chen等人,2023b;Lauren?on等人,2023;Li等人,2023a)采用這種技術將視覺模態與底層LLM連接起來,顯示出提高了訓練穩定性和改善了性能。
多模態訓練
從預訓練的LLM開始,MLLM的訓練經歷了單階段或兩階段過程。在這兩種情況下,都使用標準的交叉熵損失來預測下一個令牌,作為自回歸目標。 單階段訓練。這種可能性由LLaMA-Adapter(Gao等人,2023)探索,它引入了額外的可訓練參數以封裝視覺知識并同時管理僅文本指令學習。為了實現這一點,模型使用圖像-文本對和指令進行聯合訓練,操作獨立的參數。同時,(Koh等人,2023b)中提出的模型通過整合兩個對比損失來適應最終損失函數,用于圖像-文本檢索。在訓練期間,只更新三個線性層。另一方面,Kosmos-1(Huang等人,2023a)考慮了一個凍結的視覺主干,并從頭開始訓練1.3B參數的語言模型。 Flamingo(Alayrac等人,2022)及其開源變體(Awadalla等人,2023;Lauren?on等人,2023),相反,訓練交叉注意力層和基于Perceiver的組件以將視覺特征與凍結的LLM塊連接起來。此外,Otter(Li等人,2023a)擴展了Flamingo的訓練以增加其上下文能力。 鑒于目前可用的訓練數據量,像SPHINX-X(Gao等人,2024)這樣的方法選擇執行單一的一體化訓練階段,在此階段更新所有模型組件,可能還使用僅文本數據以保留LLM的對話能力。
兩階段訓練。在兩個訓練階段中的第一個,目標是將圖像特征與文本嵌入空間對齊。經過這一階段后,輸出往往是碎片化的且不連貫的。因此,進行第二步以提高多模態對話能力。LLaVA(Liu等人,2023e,d)是首批引入視覺指令遵循訓練方案的方法之一,作為第二訓練階段執行,更新多模態適配器和LLM的參數。在第一階段,相反,只有多模態適配器是可訓練的。不同的是,MiniGPT4(Zhu等人,2023a)值得注意的是,在兩個階段中僅訓練負責多模態對齊的線性層。在第二階段,它使用經過模型自身在第一階段后收集和精煉的過濾數據。
另一種方法,如InstructBLIP(Dai等人,2023)所示,涉及凍結視覺編碼器和LLM。在兩個訓練階段中,只有Q-Former和連接模塊是可訓練的。與之前保持視覺主干凍結的方法相比,mPLUG-Owl(Ye等人,2023c,d)在初始階段更新它,便于捕獲低層次和高層次的視覺信息。此外,在第二階段聯合使用僅文本和多模態數據以增加對齊。不同地,Shikra(Chen等人,2023f)在兩個階段中更新所有權重,唯一的例外是視覺主干保持凍結。
訓練數據。在第一階段(或單一階段)訓練中,通常使用來自不同來源的圖像-文本對,使用的數據集包括LAION-2B(Schuhmann等人,2022)、LAION-400M(Schuhmann等人,2021)、Conceptual Captions(Sharma等人,2018)、COYO-700M(Byeon等人,2022)和DataComp(Gadre等人,2023)。一些方法(Lin等人,2023a)將這些與一個或多個數據集結合使用,這些數據集的特點是文本與圖像交錯,通常從網絡上抓取,如WebLI(Chen等人,2023i)、MMC4(Zhu等人,2023d)、MMDialog(Feng等人,2023b)和OBELICS(Lauren?on等人,2023)。
為了解決以前數據集中的偏差和噪聲問題,StableLLaVA(Li等人,2023h)引入了在第一階段使用的新收集數據。這種方法利用ChatGPT生成包含圖像生成提示和基于內容的對話的數據,并使用Stable Diffusion(Rombach等人,2022)生成相應的圖像。隨后的階段則利用數據集進行視覺指令調優。其中,常用的LLaVA-Instruct(Liu等人,2023e)擴展了COCO(Lin等人,2014)并加入了由GPT-4生成的指令。遵循這一趨勢,Zhao等人(2023a)通過結合手動生成的數據和高質量多樣性的數據,擴大了尺寸。此外,還提出了其他多輪對話數據集,如(Dai等人,2023)中介紹的將26個公開可用數據集轉換為其視覺指令遵循版本的數據集,LRV-Instruction(Liu等人,2023c)旨在通過更穩健的指令減少幻覺,而LLaVAR(Zhang等人,2023h)則專注于文本豐富的圖像。
用多模態大型語言模型處理視覺任務
標準的多模態大型語言模型可以處理視覺理解任務,例如視覺問答(VQA)、圖像描述和多輪對話。然而,最近對處理更細粒度的視覺任務,如視覺定位和圖像生成,有了更大的興趣。
結論與未來方向
在本綜述中,我們提供了最近多模態大型語言模型(MLLMs)進化的全面概述,首先關注如何為LLMs裝備多模態能力,然后探討這些模型處理的主要任務。基于所呈現的分析,以下我們概述了重要的開放挑戰和有前景的未來研究方向,以進一步增強MLLMs的能力。 修正幻覺現象。幾項研究(Liu等人,2023b;Zhu等人,2023a)表明MLLMs傾向于展現高幻覺率,特別是在生成較長的描述時。盡管一些解決方案正在出現以緩解這個問題(Liu等人,2023b;Wang等人,2023a;Wu等人,2023c;Yin等人,2023a),但理解和糾正幻覺的根本原因仍然是一個重要的開放挑戰,值得解決,以允許這些模型在更關鍵的背景中(例如,醫學)應用,并保證它們的準確性和可信度。 預防有害和有偏見的生成。確保大規模模型的安全性和公平性是社區的基本興趣。近期工作表明,基于網絡爬取數據訓練的模型傾向于生成不適當和有偏見的內容。盡管最近正在努力在文本到圖像生成模型中減少這種現象(Schramowski等人,2023;Friedrich等人,2023),但需要進一步探索以防止MLLMs中出現相同的行為(Pi等人,2024)。 減少計算負荷。如補充材料所示,MLLMs高度依賴于計算。需要有效的策略(Chu等人,2024)來減少計算需求,使MLLMs的開發更加易于獲取。可能的方向包括減少訓練要求,無論是在模型規模還是數據量方面,以及優化推理階段。
大型模型,包括大型語言模型和擴散模型,已在接近人類智能方面展現出卓越的潛力,引起了學術界和工業界的極大興趣。然而,這些大型模型的訓練需要大量的高質量數據,而且隨著這些模型的持續更新,現有的高質量數據資源可能很快就會耗盡。這一挑戰促使人們大量研究數據增強方法。利用大型模型,這些數據增強技術已超越傳統方法。本文提供了一篇關于大型模型驅動的數據增強方法的全面綜述。我們首先建立了相關研究的分類,分為三個主要類別:**圖像增強、文本增強和配對數據增強。**接著,我們深入探討了與基于大型模型的數據增強相關的各種數據后處理技術。我們的討論隨后擴展到這些數據增強方法在自然語言處理、計算機視覺和音頻信號處理等領域的應用范圍。我們繼續評估基于大型模型的數據增強在不同場景中的成功與局限性。在我們的綜述中,我們突出了數據增強領域未來探索的潛在挑戰和途徑。我們的目標是為研究人員提供關鍵洞察,最終有助于更復雜大型模型的發展。我們持續維護相關的開源材料在: //github.com/MLGroup-JLU/LLM-data-aug-survey。
數據增強,作為機器學習中的關鍵策略,解決了用有限的標記數據訓練不同任務模型的挑戰。它涉及增強訓練樣本的充足性和多樣性,而無需顯式收集新數據,因此在提高模型泛化方面起著至關重要的作用(Feng et al., 2021; Shorten and Khoshgoftaar, 2019)。數據增強的本質在于通過各種變換改變現有數據點來生成新數據。這防止了模型記憶無關的數據模式,增強的數據緊密反映了真實數據的分布(Cubuk et al., 2019; Wei and Zou, 2019)。這些技術直接適用于監督學習(Liu et al., 2021c)并且可以通過一致性規則化(Zhang et al., 2021a)在半監督學習中用于未標記數據。最初為計算機視覺(CV)開發的數據增強方法通過裁剪、旋轉和色彩調整等操作創建人工圖像(Kanwal et al., 2022; Krell and Kim, 2017; Takahashi et al., 2019)。在自然語言處理(NLP)中,類似的方法包括隨機字符插入、單詞刪除和同義詞替換(Liu et al., 2020; Shorten and Khoshgoftaar, 2019)。
數據增強的重要性在學術和工業領域引起了廣泛關注。作為一個活躍的研究領域,它解決了機器學習中對大量高質量標記數據的日益增長的需求,這一需求在現實世界中往往無法滿足。盡管在過去幾十年中,特別是在深度學習技術方面,數據增強取得了顯著進展,但這些方法仍然難以捕捉現實世界數據的復雜性(Feng et al., 2021),生成可擴展數據(Yang et al., 2022),并抵御對抗性示例(Qiu et al., 2020)。
為了應對這些限制,當前研究正在探索創新技術來增強數據增強方法的效果和多樣性。其中,大型模型,包括大型語言模型(Zhao et al., 2023)和擴散模型(Yang et al., 2023),顯示出相當大的潛力。大型語言模型(LLMs),如GPT-4(OpenAI, 2023a)和Llama2(Touvron et al., 2023b),已經革新了NLP。這些模型以Transformer架構(Vaswani et al., 2017)為特點,并在廣泛的語料庫上進行訓練,擅長理解和生成類似人類的文本,標志著機器學習能力的重大進步(Zhao et al., 2023)。這些擁有數十億參數的模型可以承擔包括代碼生成(Zhang et al., 2023b)和數據增強(Dai et al., 2023)在內的多樣化和復雜任務,為人工通用智能(AGI)的實現鋪平了道路。
擴散模型(Ho et al., 2020; Song et al., 2020),一種新的最先進的生成模型家族,在計算機視覺中的圖像合成方面超越了長期占據主導地位的生成對抗網絡(GANs)(Goodfellow et al., 2014)(Dhariwal and Nichol, 2021; Ho et al., 2020)。與變分自編碼器(VAEs)(Kingma and Welling, 2013)和GANs等先前模型不同,擴散模型通過迭代添加和逆轉噪聲來生成高質量的合成圖像,并已實現文本到圖像的生成(Saharia et al., 2022),擴展了數據增強的范圍。
方法論
大型模型的出現徹底改變了數據增強的方式,提供了與傳統方法相比更具多樣性的創新和有效手段來生成訓練數據。本節將現有的方法基于目標數據類型分為三個不同的類別:圖像增強、文本增強和配對數據增強。圖像增強涉及擴展圖像數據,文本增強涉及擴展文本數據,而配對數據增強則涉及兩者。這些方法反映了數據增強的最新趨勢,突出了大型模型的重要作用。
圖像增強圖像增強通過額外信息的指導來合成逼真的圖像。我們將這些技術分為基于提示的和基于主題的方法:在基于提示的類別中包括文本、視覺和多模態方法;在基于主題的類別中包括針對特定主題的策略。文本提示驅動的方法從文本描述中生成圖像,視覺提示驅動的方法使用視覺線索,而多模態提示驅動的方法結合了文本描述和視覺指導。基于主題的方法為特定主題量身定制增強。這些方法提升了深度學習任務的性能,有助于更加健壯的訓練體驗。現有方法在表3中總結。
文本增強
文本增強著重于利用大型模型的先進能力來增強文本數據集,包括兩種策略:基于標簽的和基于生成內容的。在基于標簽的方法中,模型被用于注釋文本數據,有效地豐富了文本數據集,增加了更多的標記實例。基于生成內容的策略指導模型合成新的文本數據,從而擴展了數據集,增加了新生成的文本材料。現有方法在表4中展示。
配對數據增強
MixGen(Hao et al., 2023)是一種用于視覺-語言表示學習的數據增強方法,通過圖像插值和文本連接生成具有保留語義關系的圖像-文本對。Bakhtiarnia等人(2023)提出了一種名為PromptMix的方法,該方法從現有數據集中提取文本描述,使用提取的文本作為輸入到潛在擴散模型以生成類似于現有數據集中的圖像,使用高性能的重量級網絡對生成的圖像進行注釋,并將這個假數據集與真實數據混合,以改善輕量級深度神經網絡的訓練。為了解決視覺語言數據集中的報告偏差問題,特別是對象屬性關聯對訓練模型的潛在有害影響,Wu等人(2023b)提出了一種稱為BigAug的雙模態增強方法。這種方法利用對象屬性解耦來合成不同的視覺語言示例,并創建跨模態的硬否定。LLM和基礎對象檢測器的整合有助于提取目標對象,其中LLM為每個對象提供詳細的屬性描述。這些描述以及相應的硬否定接著被用來通過修補模型生成圖像。這個明確的過程引入了缺失的對象和屬性以供學習,其中硬否定指導模型區分對象屬性。
總結
在本節中,我們提供了對我們在第3、4和5節中審查的主要發現的綜合概述。 基于大型模型的數據增強仍然是一個充滿機會和挑戰的領域。本調查旨在全面審查基于大型模型的數據增強方法,伴隨的數據后處理技術以及在下游任務中的應用。 它還仔細分類了現有的基于大型模型的數據增強方法。通過總結和分析當前的研究工作,我們確定了當前方法的成功和失敗,并辨別了基于大型模型的數據增強的新趨勢。此外,我們總結了用于評估基于大型模型的數據增強的現有方法。最重要的是,這些總結可以幫助提出未來研究的新挑戰和機會。
過去十年里,深度神經網絡通過使用小批量隨機梯度下降(mini-batch stochastic gradient descent)訓練方案在大型數據集上展現了顯著的成功。在此基礎上,研究者開始大量探索神經網絡在其他學習場景中的應用。一個受到廣泛關注的框架是元學習(meta-learning)。通常被描述為“學會學習”,元學習是一種以數據為驅動,優化學習算法的方法。其他感興趣的分支包括持續學習(continual learning)和在線學習(online learning),這兩者都涉及使用流數據逐步更新模型。雖然這些框架最初是獨立開發的,但最近的工作開始探討它們的結合,提出新穎的問題設置和學習算法。然而,由于復雜性的提高和缺乏統一術語,即使是經驗豐富的研究人員也可能難以辨識這些學習框架之間的差異。為了促進清晰的理解,本文提供了一份全面的綜述,使用一致的術語和正式描述來組織各種問題設置。通過概述這些學習范式,我們的工作旨在促進這一研究領域的進一步發展。
近年來,深度神經網絡的成功主要基于離線學習框架,該框架涉及使用從大型數據集中以獨立同分布(i.i.d.)方式采樣的小批量進行隨機梯度下降(SGD)。另一方面,人類展示出了令人印象深刻的遞增學習能力,即使是從高度非靜態數據流中也能學習,并且不像深度神經網絡那樣需要大量的訓練數據。此外,人類可以隨著知識和經驗的積累不斷提升其學習能力。因此,已有大量努力致力于使深度神經網絡適應這些類人學習場景。在線學習[1]和持續學習[2],[3]是應對這些挑戰的研究領域的例子。這兩者都通過從數據流中學習來逐步更新模型,但它們在目標和假設上有細微差別。最顯著的是,在線學習假設一個靜態流,而持續學習旨在減輕從非靜態流學習時的災難性遺忘。
另一個重要的研究領域是元學習[4]。與傳統機器學習不同,后者通過訓練集優化模型,元學習專注于以數據驅動的方式優化學習算法,使其產生比手工制作的學習算法更好的模型。因此,它通常被描述為“學會學習”。標準學習只涉及一個學習階段,而元學習包括多個學習階段,這些階段被分為元訓練集和元測試集。通過利用元訓練集中的多個階段提取的元知識,元學習旨在改進元測試集中每個階段的學習。元學習也與多個其他領域密切相關,如小樣本學習[5],[6],[7]和遷移學習[8],[9]。
雖然這些學習框架已經進行了廣泛的單獨研究,但最近在它們的協同結合方面出現了濃厚的興趣,導致了新問題設置和方法的出現。例如,在元持續學習的情況下,傳統元學習的每個階段被替換為一個持續學習階段。這種設置可以被稱為“學會持續學習”。另一個例子是在線元學習,其中學習階段不是一次性提供的,而是作為一系列階段呈現,可以總結為“順序學會學習”。
盡管這些框架每個都具有獨特的特點和重要性,但由于幾個原因它們可能容易混淆。首先,結合多個框架不可避免地增加了問題表述的復雜性。其次,即使問題設置的基本結構相同,個別論文經常引入一些變體,使它們更難以分類。最后,缺乏統一的術語和表述加劇了混淆。
在這種背景下,我們的主要目標是提供一個全面概述,涉及在線學習、持續學習和元學習之間的交叉點。我們建立了統一的符號來組織現有學習框架到一個明確定義的分類中。使用我們的符號,我們首先定義了四個基本學習框架,即離線學習、在線學習、持續學習和元學習。然后,我們將它們的組合分類為五個主要分支:元在線學習、元持續學習、在線元學習、持續元學習和持續雙層學習。對于這些組合學習框架中的每一個,我們提供了一個正式定義,并綜述了相關論文。
雖然我們確實解釋了基本學習框架的概念,但這項工作主要關注它們的組合,目前尚缺乏全面的綜述。雖然不是嚴格必要的,但參考現有的綜述可以促進對話題的更深入理解。我們建議參考在線學習的綜述[1],持續學習的[2],[3],以及元學習的[4]。總而言之,我們的貢獻可以概括如下。首先,我們為在線、持續和元學習的組合定義了清晰的學習框架分類。其次,我們提供了每個類別的全面綜述,識別了各種研究分支。第三,我們探討了剩余的挑戰,并提出了在這個有前景的領域未來工作的潛在途徑。
本文的其余部分安排如下。在§2中,我們介紹了學習框架的定義和分類。我們用正式算法和數據結構的圖形說明補充了描述。在§3-§6中,我們提供了每個學習框架的全面綜述和討論。在§7中,我們討論了剩余的挑戰,并提出了潛在的研究方向。最后,在§8中,我們以一般討論和未來的評論結束。
本節定義了相關學習框架的問題表述。我們根據它們的問題設置,將學習框架分類為八個主要分支:離線學習、在線學習、持續學習(CL)、元學習、元在線學習(MOL)、元持續學習(MCL)、在線元學習(OML)和持續元學習(CML)。解決這些問題的方法將分別在§3-6中描述。圖1展示了每個學習框架的關鍵特征和數據結構,表1總結了我們在本文中使用的統一符號。
開放領域生成系統在會話人工智能領域(例如生成式搜索引擎)引起了廣泛關注。本文對這些系統,特別是大型語言模型所采用的歸因機制進行了全面回顧。盡管歸因或引用可以提高事實性和可驗證性,但模糊的知識庫、固有偏見以及過度歸因的缺點等問題可能會妨礙這些系統的有效性。本綜述的目標是為研究人員提供有價值的見解,幫助改進歸因方法,以增強開放領域生成系統生成的響應的可靠性和真實性。我們認為這個領域仍處于初級階段,因此我們維護了一個倉庫,以跟蹤正在進行的研究,網址為
//github.com/HITsz-TMG/awesome-llm-attributions。
自從由大型語言模型(LLMs)驅動的開放領域生成系統出現以來(Anil等人,2023;OpenAI,2022,2023),解決潛在不準確或虛構內容的連貫生成一直是一個持續存在的挑戰(Rawte等人,2023;葉等人,2023;張等人,2023b)。社區通常將這種問題稱為“幻覺”問題,其中生成的內容呈現出扭曲或虛構的事實,缺乏可信的信息來源(Peskoff和Stewart,2023)。這在信息搜索和知識問答場景中尤為明顯,用戶依賴大型語言模型獲取專業知識(Malaviya等人,2023)。
幻覺問題的實質可能源于事先訓練的模型是從廣泛、未經過濾的現實世界文本中獲取的(Penedo等人,2023)。這些人類生成的文本固有地包含不一致性和虛假信息。事先訓練的目標僅僅是預測下一個單詞,而不是明確建模生成內容的真實性。即使在利用人類反饋的強化學習之后(Ouyang等人,2022),模型仍然可能出現外部幻覺(Bai等人,2022)。為了解決外部幻覺的問題,研究人員已經開始采用外部參考文獻等措施來增強聊天機器人的真實性和可靠性(Thoppilan等人,2022;Menick等人,2022;Nakano等人,2021)。顯式歸因和強化學習之間的區別不僅在于需要人工驗證和遵從,還在于認識到生成的內容可能隨著時間變化而變得過時或無效。歸因可以利用實時信息來確保相關性和準確性。然而,歸因的基本挑戰圍繞著兩個基本要求(Liu等人,2023):
考慮到這些要求,我們可以將模型處理歸因的主要方式分為三種類型:
超越對文本幻覺的一般討論(Zhang等人,2023b;葉等人,2023;Rawte等人,2023),我們的研究深入探討了大型語言模型的歸因問題。我們探討了它的起源、支撐技術以及評估標準。此外,我們也涉及了諸如偏見和過度引用的挑戰。我們相信,通過關注這些歸因問題,我們可以使模型更加可信賴和容易理解。我們這項研究的目標是以一種更加清晰的方式來闡述歸因問題,鼓勵對這一主題進行更深入的思考。
歸因是指一個實體(如文本模型)生成并提供證據的能力,這些證據通常以引用或參考文獻的形式出現,用以支撐它所產生的聲明或陳述。這些證據來源于可識別的源頭,確保這些聲明可以從一個基礎語料庫中邏輯推斷出來,使得它們對于普通受眾而言是可以理解和驗證的。歸因本身與搜索任務相關(Brin 和 Page, 1998;Page 等人, 1999;Tay 等人, 2022),在這種任務中只有幾個網頁會被返回。然而,歸因的主要目的包括使用戶能夠驗證模型所做的聲明,促進生成與引用源高度一致的文本以提高準確性和減少錯誤信息或幻覺,以及建立一個結構化的框架來評估支持證據的完整性和相關性,與所提出的聲明相比較。歸因的準確性核心在于所產生的陳述是否完全由引用源支持。Rashkin 等人(2021)還提出了歸因于已識別來源(AIS)的評估框架,以評估特定陳述是否由所提供的證據支持。Bohnet 等人(2022)提出了歸因問答,模型在這里接受一個問題,并產生一對配對的回答,即答案字符串及其從特定語料庫,如段落中得到的支持證據。
直接生成的歸因 來自參數化知識的直接生成歸因可以幫助減少幻覺現象并提高生成文本的真實性。通過要求模型進行自我檢測和自我歸因,一些研究發現生成的文本更加基于事實,并且在下游任務中的表現也有所提升。最近,研究人員發現,大型語言模型在回答特定領域的知識性問題時,不能清楚地提供知識來源或證據(Peskoff 和 Stewart, 2023; Zuccon 等人, 2023)。在大多數情況下,模型只能提供一個與問題中的關鍵詞松散相關或與當前主題無關的知識來源。即使模型正確回答了問題,它提供的證據仍然可能存在錯誤。Weller 等人(2023)嘗試通過提出根據提示方法,將模型生成的文本基于其預訓練數據,發現這種方法可以影響模型的根據性,從而影響信息尋求任務的表現。Anonymous(2023)引入了一個中間規劃模塊,要求模型生成一系列問題作為當前問題的藍圖。模型首先提出一個藍圖,然后結合基于藍圖問題生成的文本作為最終答案。藍圖模型允許在每個回答問題的步驟中采用不同形式的歸因,可以期望更具解釋性。
**檢索后回答 **
多篇研究論文已經調查了歸因的檢索后回答方法(Chen 等人,2017年;Lee 等人,2019年;Khattab 和 Zaharia,2020年)。SmartBook 框架(Reddy 等人,2023年)提出了一種方法,該方法利用大量新聞數據自動生成結構化的情況報告。SmartBook 確定了情況分析的關鍵問題,并從新聞文章中檢索相關信息。報告按時間線組織,每個時間線包括重大事件、戰略問題和由事實證據支持的概括性總結。為了解決用戶查詢和存儲知識之間的不一致問題,MixAlign(張等人,2023a)提出了一個框架,該框架結合了自動問題知識對齊和用戶澄清,增強了檢索增強生成模型的性能,并減輕了語言模型的幻覺。此外,SearChain(徐等人,2023年)引入了一個新穎的框架,它將大型語言模型(LLMs)與信息檢索(IR)結合起來,提高了復雜知識密集型任務的準確性、可信度和可追溯性。SearChain 采用檢索然后回答的方法,通過生成全球推理鏈(CoQ)并利用 IR 來驗證答案和提供缺失的知識。
生成后歸因
為了在不損害最新一代模型所提供的強大優勢的情況下促進準確的歸因,一些研究致力于生成后的歸因,這些研究使用搜索引擎或文檔檢索系統,基于輸入問題和生成的答案來搜索證據。這種方法允許研究人員評估或提高答案的事實性,而無需直接訪問模型的參數。生成后歸因的工作流程如圖3所示。RARR(高等,2023a)自主識別任何文本生成模型輸出的歸因,并執行后期編輯以糾正不支持的內容,同時努力在最大程度上保留原始輸出。在霍等人(2023)的工作中,材料是基于粗粒度的句子或細粒度的事實陳述從語料庫中檢索的。然后利用這些檢索到的材料提示LLM,以驗證生成的回應與檢索到的材料之間的一致性,并進行必要的編輯以減少幻覺。陳等人(2023b)介紹了一個全自動化的管道,旨在驗證復雜的政治聲明,這是通過從網上檢索原始證據、生成聚焦聲明的摘要并利用它們進行聲明驗證來實現的。
多模態3D場景理解由于其在自動駕駛和人機交互等多個領域的廣泛應用而受到了廣泛關注。與傳統的單一模態3D理解相比,引入額外的模態不僅提高了場景解釋的豐富性和精確性,而且確保了更為魯棒和有彈性的理解。在多變和具有挑戰性的環境中,這尤為重要,因為僅依賴3D數據可能是不夠的。盡管在過去三年中,多模態3D方法的發展呈現上升趨勢,尤其是那些整合多攝像頭圖像(3D+2D)和文本描述(3D+語言)的方法,但值得注意的是,缺乏一個全面且深入的綜述。在這篇文章中,我們提供了最近進展的系統性調研,以填補這一空白。我們首先簡要介紹一個背景,正式定義各種3D多模態任務并總結其固有的挑戰。之后,我們提出了一個新穎的分類法,根據模態和任務對現有方法進行了全面分類,探索了它們各自的優勢和局限性。此外,我們還提供了最近方法在幾個基準數據集上的比較結果,以及深入的分析。最后,我們討論了尚未解決的問題,并為未來的研究提供了幾個可能的方向。
//www.zhuanzhi.ai/paper/db0ef107bb8313585581f0bab52ab996
給定一個3D點云和來自另一模態的信息,如2D圖像和自然語言,多模態3D場景理解旨在理解每個物體及其周圍環境的語義含義 [1], [2], [3]。對3D場景的全面理解使代理能夠識別實體的類別和位置,并創建場景的新品牌內容和風格。與僅使用3D點云相比,2D圖像的加入提供了額外的顏色和紋理信息,而自然語言的引入則實現了人機交互。因此,多模態3D場景理解已成為計算機視覺中的一個重要研究領域,應用于自動駕駛[4]、機器人導航[5]和人機交互[6]。
多模態3D場景理解可進一步分為:(1) 3D+2D場景理解。3D LiDAR點云提供了充足的深度和幾何結構信息,這有助于獲得3D物體的形狀和姿態。但它們缺乏顏色信息和紋理細節,對于遠距離的物體往往稀疏而無序[7], [8], [9], [10], [11]。相反,2D相機圖像通常包含豐富的顏色、紋理和背景,但缺乏幾何信息,且易受天氣和光線條件的影響[12], [13], [14], [15]。自然地,利用LiDAR點云和相機圖像之間的互補性可以更好地、更完整地感知3D環境。但這兩種傳感器捕獲的同一個3D場景的表示之間經常會出現差異,因為LiDAR傳感器通過360度旋轉捕獲點云,而相機從透視視圖捕獲圖像,沒有深度感[16]。為了解決這個問題,提出了一些3D+2D場景理解方法,通過基于幾何的對齊[17]和基于語義的對齊[18]來進行LiDAR-相機融合。基于融合的特征,這些方法可以進一步執行3D物體檢測和分割[19], [20], [21],這通常用于自動駕駛和機器人導航。(2) 3D+語言場景理解。傳統的3D場景理解通常要求用戶具有專業知識,這對普通用戶不友好[22], [23], [24], [25], [26], [27]。用戶現在期望有一種更便捷的方式將他們的意圖傳達給計算機,實現信息交換并獲得個性化的結果。為了實現便捷的人機交互,研究人員提出了3D+語言場景理解。它結合3D視覺信息和自然語言作為輸入[28], [29], [30],因為自然語言可以作為背景知識和查詢條件來反映用戶意圖。通過多模態交互,經常采用如Transformer[31], [32]或圖神經網絡[33], [34]等技術,3D+語言場景理解方法不僅可以定位用戶提到的實體(例如,視覺定位和開放詞匯識別),還可以生成用戶所需的內容(例如,密集字幕,視覺問題回答,場景生成)。
盡管近年來出現了眾多方法,但多模態3D場景理解的很大一部分仍然分散在不同的任務中,并且沒有此類系統的調查存在。因此,有必要系統地總結近期的研究,全面評估不同方法的性能,并有前瞻性地指出未來的研究方向。這激發了本次調查,將填補這一空白。本文的主要貢獻可以總結為:
? 關于多模態3D場景理解的系統性調查。據我們所知,這是第一篇全面討論多模態3D場景理解近期進展的調查。為了使讀者對我們的文章有清晰的理解,我們從所需數據模態和目標下游任務的角度將算法分類為不同的分類,如圖1所示。
? 全面的性能評估和分析。我們比較了幾個公開可用的數據集上現有的多模態3D場景理解方法。我們的深入分析可以幫助研究者為其特定應用選擇合適的基線,同時也提供了關于修改現有方法的有價值的見解。
?** 對未來前景的有洞察力的討論**。基于系統調查和全面的性能比較,討論了一些有前途的未來研究方向,包括大規模3D基礎模型、數據高效訓練、3D建模的計算效率以及添加額外模態。
本文的結構組織如下。第2節總結了多模態3D場景理解中的問題定義和主要挑戰。第3節和第4節分別對3D+2D和3D+語言場景理解中用于不同下游任務的典型方法進行了深入探討。第5節介紹了基準數據集、評估指標以及不同技術的比較分析。最后,第6節總結了這篇文章并討論了未來研究的有前途的方向。
3D+2D多模態場景理解可以細分為多模態室外/室內3D對象檢測和多模態室外/室內3D語義分割。從2020年至今的現有3D+2D多模態方法的時間性概述如圖2所示。
3D+語言多模態場景理解可以分為3D視覺錨定、3D密集標注、3D問題回答、文本驅動的3D場景生成、開放詞匯的3D識別以及其他類別。從2020年至今的現有3D+語言多模態方法的時間性概述如圖5所示。
**結論與展望 **
本綜述為您提供了多模態3D場景理解的最新深入了解。我們首先總結了3D+2D和3D+語言情況下的任務定義和固有挑戰。接著是對每個任務的關鍵技術的結構化分類。此外,我們提供了對幾個基準數據集的最新進展的比較結果,并提供了有洞察力的觀察。我們希望這項調查能為新手和經驗豐富的從業者提供一個全面的指導。在多模態3D場景理解中,仍有許多進一步探索的可能性。以下提供了一些有前途的未來研究方向。 大規模3D-語言基礎模型。基于2D到3D轉移的當前3D VLMs在零射擊能力和下游應用中受到限制,主要是由于數據規模有限和幾何信息保留不足[41]。這強調了大規模3D-語言基礎模型的必要性。解決這一挑戰的主要解決方案在于創建可以支持從零開始訓練VLMs的大型數據集。此外,高效的遷移學習方法,包括像提示調整[177]和LORA[178]這樣的技術,通過利用預訓練的知識為特定任務提供了很大的應用前景。
數據高效訓練。考慮到與數據收集和注釋相關的顯著成本,當前的許多研究都局限于小規模數據集。因此,強調為有限數據量量身定制的健壯模型訓練和優化的開發變得越來越重要,從而減少對大規模數據集的依賴。最近的研究已經在解決數據注釋挑戰方面展現出了有前途的結果,通過無監督和弱監督學習方法。此外,使用文本到圖像或文本到3D生成合成逼真樣本有望進一步被研究,這可能緩解數據收集問題。
3D建模的計算效率。鑒于點云的大量體積,計算需求可能會顯著增加。因此,計算效率高的3D模型變得至關重要。為了應對這一挑戰,采用模型壓縮技術,如量化[179]、修剪[180]和高效結構[181],對于減少計算復雜性至關重要。此外,利用硬件優化如Flash attention[182]可以促進應用在邊緣設備上的部署,為提高效率提供另一種途徑。
納入其他模式。盡管在多模態3D建模方面取得了令人印象深刻的進展,但主要的重點仍然是圖像和語言。我們設想將更多的模式,如音頻,納入一個綜合模型來適應它們的聯合分布,這對于理解復雜的3D場景更為有助。鑒于訓練新模型時的復雜訓練要求和成對數據的稀缺,提高現有的多模態3D模型的效果可能更為有效,通過集成其他模式。一個可行的方法[183]是使用最小的成對數據集對齊每一個定義良好的、特定模式的模型。
人工智能(AI)的歷史見證了高質量數據對各種深度學習模型的重大影響,例如ImageNet對于AlexNet和ResNet。最近,AI社區的關注點已從設計更復雜的神經結構(即模型為中心的方法)轉移到了數據為中心的方法,這種方法重點在于更好地處理數據以增強神經模型的能力。圖學習,操作于無處不在的拓撲數據上,也在深度學習時代中起到了重要作用**。在這次綜述中,我們從數據為中心的角度全面回顧了圖學習方法,并旨在回答兩個關鍵問題**:(1)何時修改圖數據以及(2)如何修改圖數據以發掘各種圖模型的潛力。因此,我們提出了一個基于圖學習流程中的階段的新分類法,并強調了圖數據中不同數據結構的處理方法,即拓撲、特征和標簽。此外,我們分析了嵌入在圖數據中的一些潛在問題,并討論了如何以數據為中心的方式解決它們。最后,我們為數據為中心的圖學習提供了一些建議的未來方向。
最近在非歐幾里得領域的進展引起了人工智能(AI)社區的大量關注。圖,作為典型的非歐幾里得數據,在現實世界中無處不在,并已在許多領域中得到廣泛應用,例如推薦、安全、生物信息學等。在過去的十年中,由于圖模型的創新,圖相關研究得到了推動,從圖核心[1][2]到圖嵌入[3][4],再到最新的圖神經網絡(GNNs)[5][6]。相反,關于圖數據的固有方面的研究較少,包括質量、多樣性、安全性等。 通常,AI的革命始終是由大量高質量數據的可用性引發的,隨后是強大的模型。一個顯著的例子是ImageNet[7]的成功,它為深度卷積神經網絡的發展做出了重要貢獻,例如AlexNet[8]和ResNet[9]。隨著數據的重要性得到越來越多的認可,最近,AI社區的關注點從以模型為中心的方法轉移到了以數據為中心的方法[10][11]。
新興的以數據為中心的AI強調產生適當的數據以提高給定模型的性能。“如何處理圖數據以發揮圖模型的全部潛力?”一個了解情況的答案可以幫助我們理解圖數據與圖模型之間的關系。然而,與圖像和表格數據等歐幾里得數據不同,圖的不規則性為以數據為中心的圖學習提出了幾個問題:首先,在什么時候我們應該修改圖數據以使圖模型受益?數據修改可能會在圖學習的不同階段發生。例如,我們可以在訓練之前啟發式地擾動邊,而在訓練期間我們也可以從節點表示中估計新的圖結構。其次,我們應該修改圖數據的哪一部分?圖數據涉及各種結構,包括邊、節點、特性和標簽,每一個都在圖表示學習中起到了重要作用。第三,如何防止圖模型受到有問題的圖數據的影響?由于手工定義的關系和特性,圖數據可能不可避免地引入噪聲和偏見,這使得模型變得不可靠。 本綜述系統地調研和分類了從數據中心的角度存在的圖學習方法。具體地說,為了回答第一個問題,我們將圖學習過程分為四個階段:準備、預處理、訓練和推斷,如圖1所示。我們討論了每個階段對圖數據的重要性。接下來,我們進一步從結構的角度對現有方法進行分類,以解決第二個問題。具體來說,我們考慮如何處理圖數據的拓撲、特征和標簽。最后,我們分析了現有圖數據中的潛在問題,包括脆弱性、不公平性、選擇偏見和異質性。并進一步討論如何從數據為中心的方式解決這些問題。
本文的貢獻可以總結如下:
? 新的分類法。我們按圖學習流程中的各個階段對現有的數據中心圖學習方法進行分類,包括預處理、訓練和推理。對于每個階段,我們都介紹了其在數據中心圖學習中的目標和重要性。 ? 多角度觀察。我們強調如何處理圖數據中的不同數據結構,包括拓撲、特征和標簽,以發揮給定圖模型的潛力。 ? 全面的討論。我們分析了有問題的圖數據對圖模型的潛在影響,并討論了如何以數據為中心的方式緩解這些問題。此外,我們提出了四個可能的數據中心圖學習的未來方向,這可能有助于這個領域的發展。 組織. 本調查的其余部分組織如下:第2節概述了數據中心圖學習的背景,并描述了如何手動處理圖數據。第3-5節分別介紹了預處理、訓練和推理階段的數據中心圖學習方法。第6節介紹了圖數據的潛在問題,并討論了如何處理這些問題。最后,第7節對本文進行了總結,并提出了一些有前途的未來方向。
2. 預處理階段
在本節中,我們將討論圖數據預處理階段的數據中心方法。具體來說,我們將現有的方法分為兩類:基于修改的方法和基于分布的方法。第一類旨在通過修改圖數據實例來提高圖模型的性能。第二類則著重于幫助圖模型捕捉數據集的分布,同時保持圖實例不變。此外,我們還考慮了不同的數據結構,包括拓撲、特征和標簽。相關方法列示在表1中。
圖的簡化 (Graph Reduction)
隨著圖的規模的增大,其計算所消耗的時間和空間也會增加。因此,如何在不失去太多有用信息的前提下減少圖的節點或邊成為了一個有價值的問題。圖的簡化可以加速模型的訓練,減少過擬合,并允許在更簡單的硬件條件下對模型進行訓練。圖的簡化可以分為兩大類:邊的簡化和節點的簡化。邊的簡化指的是圖的稀疏化,而節點的簡化包括圖的粗糙化和圖的凝縮。
圖的增強 (Graph Augmentation)
在深度學習中,數據增強被認為是非常重要的。由于圖數據的稀缺性和稀疏性相當嚴重,因此一個好的增強方法的重要性更為明顯。與其他數據形式相比,直接操作圖結構的圖增強是最具特色的圖數據增強類型。在這里,我們將介紹一些脫離訓練的啟發式方法。它們可能很簡單,但證明是非常有效和受歡迎的。 特征增強 (Feature Augmentation)
通過創建或修改節點特征,特征增強可以使后續模型避免過擬合并提高其性能。 對于已經有特征的圖,我們可以做一些直觀的調整來加強它們,例如特征損壞 [143]-[145],特征洗牌,特征掩碼 [66], [87], [146],特征添加,特征重寫 [147], [148],特征傳播,特征混合 [149]等 [15]。 對于最初沒有特征的節點,有適當生成特征的方法。為了獲取結構信息,Perozzi 提出了基于 word2vec [150] 的 deepwalk [3],它從每個節點開始,多次隨機走動,最后使用所有路徑為節點通過 word2vec [150]c 生成節點嵌入。接著,node2vec [4] 來自 deepwalk [3],它為節點添加了一個隨機行走的概率。另一條與隨機行走無關的線是 SDNE [151]。他們通過編碼器-解碼器架構得到圖的結構。具體來說,他們將鄰接矩陣的每一列作為初始節點嵌入,這是編碼器的輸入。并計算模型在初始嵌入和解碼嵌入之間的損失。 在非標記圖中,特征增強是通過無監督學習實現的。例如,GREET [211] 將原始圖分割成兩個子圖,一個包含同質邊,另一個包含異質邊,然后通過兩個單獨的 GNN 得到子圖嵌入,再連接這些子圖嵌入來獲取節點特征。 總的來說,特征增強是多種多樣和任意的,特殊的特征增強可以根據特定問題的需要進行定制。 位置編碼 (Position Encoding)
眾所周知,信息傳遞神經網絡 (MPNNs) 的表達能力受到1-Weisfeiler-Lehman (WL) 測試的限制,不能區分同構圖 [212]。為了打破這個限制,一個受歡迎的方法是用一些位置信息來增強節點特征,這被稱為位置編碼。在本節中,我們將介紹兩種類型的位置編碼:絕對方法和相對方法。 標簽混合 (Label Mixing)
標簽混合旨在將帶有標簽或嵌入的兩個不同實例混合為一個新的實例,并使用這些混合的實例來訓練模型。這樣得到的模型更具泛化性,不容易過擬合。 Mixup 在圖分類和節點分類任務中都扮演著重要的角色。一方面,面對圖分類任務,我們可以采用各種方法來增強模型。一種方法 [174] 涉及混合多個預先存在的圖嵌入。或者,我們可以隨機選擇一個子圖,并用另一個圖中的相應子圖替代它,同時保留原始圖的嵌入,使模型更好地集中于數據的相關方面 [175], [176]。另一方面,一些工作 [177] 提議將鄰近節點的標簽或嵌入進行混合,用于節點分類任務。 圖的課程學習 (Graph Curriculum Learning) 課程學習 (CL) [215] 是一種模仿人類學習過程的訓練策略,主張模型從簡單樣本開始學習,然后逐漸過渡到復雜樣本。這種策略可以幫助模型更快地收斂,并提高模型的泛化能力。圖的課程學習 (Graph CL) [216] 是一種基于圖的課程學習方法,主要用于圖神經網絡的訓練和優化。大多數 CL 方法有兩個重要功能,難度測量器和訓練調度器。難度測量器可以評估訓練數據的難度,以給予學習優先權,而訓練調度器決定如何從簡單到困難地進行學習。根據這兩者是否自動設計,CL 方法可以分為兩類,即預定義的 CL 和自動的 CL。在本節中,我們將介紹預定義的 Graph CL。 圖采樣 (Graph Sampling) 圖采樣方法使用不同的策略對節點進行采樣,并在計算節點的表示時僅聚合部分節點的信息,這加速了模型的收斂并減少了內存開銷。在這部分中,我們將討論啟發式采樣方法,這些方法可以進一步劃分為兩個類別:隨機采樣和重要性采樣。 圖生成 (Graph Generation) 在現實世界中,某些圖數據集對于圖模型來說太小,無法有效地理解其分布。圖生成器 [219], [220] 可以通過生成額外的圖數據來幫助緩解這個問題。圖生成的方法可以分為兩種類型:自回歸 (autoregressive) 和一次性生成 (one-shot)。 3. 訓練階段 (TRAINING STAGE)
在本節中,我們介紹了訓練階段的圖數據修改方法,其中數據修改模塊和信息傳遞模塊合作以提高性能。具體而言,我們介紹了三種模型-數據協同的訓練范式,包括聯合訓練 (joint training)、自訓練 (self training) 和雙層訓練 (bi-level training)。相關方法可以在表格 1 (Table 1) 中查看。 4. 推斷階段 (INFERENCE STAGE)
推斷階段是指使用預訓練的圖模型進行下游任務的階段。在這個階段,我們重新定義下游任務為一個統一的模板,以與我們的預訓練模型對齊。這有助于彌合我們的預文本任務與下游任務之間的差距,實現高質量的知識轉移和多任務適應。此外,推斷數據是指在預訓練模型的推斷階段使用的圖數據。從數據中心的角度看,調整推斷數據作為提示可以幫助在不改變模型參數的情況下獲得期望的目標。在本節中,我們討論了在圖的背景下逐漸受到歡迎的提示學習方法。為了詳細說明,我們將現有的圖提示方法分為兩類:預提示 (pre-prompt) 和后提示 (post-prompt),這取決于任務特定的提示是在信息傳遞模塊之前還是之后操作,如圖 1 (Figure 1) 所示。 結論 (CONCLUSION)
在這篇綜述中,我們對數據中心的圖學習進行了全面的回顧。我們從兩個角度對現有方法進行分類:一個是學習階段,包括預處理、訓練和推斷;另一個是數據結構,包括拓撲、特征和標簽。通過這兩個視角,我們仔細解釋了何時修改圖數據以及如何修改圖數據,以釋放圖模型的潛力。此外,我們還介紹了圖數據的一些潛在問題,并討論了如何用數據中心的方法解決它們。最后,我們提出了該領域的幾個有前景的未來方向。總的來說,我們相信數據中心的人工智能是通向一般人工智能的可行路徑,并且數據中心的圖學習將在圖數據挖掘中發揮重要作用。
深度模型融合/合并是一種新興的技術,它將多個深度學習模型的參數或預測合并成一個。它結合了不同模型的能力,以補償單一模型的偏差和錯誤,以實現更好的性能。然而,對于大規模深度學習模型(例如,LLMs 和基礎模型)的深度模型融合面臨著幾個挑戰,包括高計算成本、高維參數空間、不同異構模型之間的干擾等。盡管模型融合由于其解決復雜實際任務的潛力而引起了廣泛關注,但關于這種技術的完整和詳細的調查研究仍然缺乏。因此,為了更好地理解模型融合方法并推動其發展,我們提出了一項全面的調查以總結最近的進展。具體來說,我們將現有的深度模型融合方法分類為四種:(1)“模式連接”,通過非遞增損失的路徑連接權重空間中的解,以獲得模型融合的更好初始化;(2)“對齊”匹配神經網絡之間的單元以為融合創造更好的條件;(3)“權重平均”,一種經典的模型融合方法,對多個模型的權重進行平均,以獲得更接近最優解的精確結果。 (4)**“集成學習”**結合了多種模型的輸出,這是一種改善最終模型的準確性和魯棒性的基礎技術。另外,我們分析了深度模型融合面臨的挑戰,并提出了未來模型融合的可能研究方向。我們的評論對于深入理解不同模型融合方法之間的關系和實際應用方法是有幫助的,這可以啟發深度模型融合領域的研究。
//www.zhuanzhi.ai/paper/43bab5b376b2213134e1f99b305d4deb
近年來,深度神經網絡(DNNs)[129] 取得了顯著的發展,廣泛應用于計算機視覺(CV)[175]、自然語言處理(NLP)[30] 等領域。一般來說,單一深度學習模型通常具有一定的局限性,不能完全捕獲復雜網絡背后的所有潛在信息[195]。因此,經典的集成學習[15, 193, 198] 合并多個模型的輸出,以改善深度學習(DL)中模型的最終性能。但在測試時存儲和運行多個模型的成本很高[65, 204],尤其是模型的復雜性和大小增加時。例如,GPT-3[172] 有數十億參數,PaLM[31] 甚至達到5400億參數和7800億令牌。此外,從深度神經網絡[134, 196] 的損失景觀的角度來看,梯度優化的解通常聚集在寬平區域的邊界附近的點,而不是中心點[99]。這意味著經過訓練的網絡并不完全接近具有最小測試錯誤的最優解。需要融合相對最優點附近的解,以得到更好的結果。這激發了研究人員不僅將融合范圍限制于預測(例如,logits等),而且還包括模型參數的融合,而無需訪問訓練數據或保持所有單獨模型[110]。因此,深度模型融合[111, 159] 旨在將多個DNNs融合成一個網絡,保留其原始功能,甚至超越多任務訓練[3, 135]。此外,深度模型融合可以減少單一模型過度擬合特定樣本或噪聲的傾向,從而提高預測的準確性、多樣性和穩健性[207, 223]。由于數據隱私和實際節約資源的問題,深度模型融合引起了越來越多的關注。盡管深度模型融合的發展帶來了許多技術突破,但它也產生了一系列的挑戰,例如高計算負荷、模型異構性和通過組合優化對齊的速度慢[133, 204]等。
有些方法僅限于特定場景[227, 254],這激發了研究人員研究不同案例中模型融合的原理。然而,目前缺乏綜合評論來總結方法,以指示深度模型融合的內部機制。一些工作只關注從單一視角(例如,特征融合等)[45, 195] 和特定場景[213] 的模型融合,或者不同方式的信息融合(多模態融合[1, 103])而不是參數的融合。為了給開發者深入了解深度模型融合,我們分析了深度模型融合的原理和方法。此外,我們回顧了最近的進展和代表性應用,例如聯邦學習(FL)[160] 和微調[29] 等。我們的調查旨在說明深度模型融合的最新趨勢和潛在方向,并為研究人員提供指南,以提高性能和降低成本。因此,我們根據內部機制和目的將方法分為四類,如圖1所示。對于相互之間不在附近的獨立訓練的模型,“模式連接”和“對齊”使解更加接近,以獲得更好的平均原始條件。對于權重空間中存在某些差異的類似模型,“權重平均(WA)”傾向于直接平均模型,并在損失函數值較低的參數空間區域獲得更接近最優點的解[118]。此外,對于現有模型的預測,“集成學習”集成了模型的不同形式的預測,以獲得更好的結果。具體來說,這四個類別如下:
模式連接性指的是通過基于梯度的優化得到的解可以在權重空間中通過一條無障礙的路徑(連接器)進行連接。我們可以沿著低損失路徑獲得更適合模型融合的其他模型。根據路徑的數學形式和連接器所在的空間,我們將此部分劃分為“線性模式連接性”,“非線性模式連接性”和“子空間中的模式連接性”。模式連接性可以在訓練過程中解決局部優化問題。模式連接性的路徑的幾何關系也可以用來加速優化過程,如隨機梯度下降(SGD)的收斂、穩定性和準確性。簡而言之,模式連接性為解釋和理解模型融合的行為提供了一個新的視角。但是,特別是在大數據集上訓練模型時,應解決計算復雜性和參數調整的困難。
對齊是將多個模型的單元進行匹配,并對模型進行平均以獲得最終模型。對齊后,不同模型之間的特定數學度量(例如,歐幾里得距離)可以更為接近,從而減小模型之間的差異,進而增強深度模型融合的效果。對齊可分為“激活匹配”和“權重匹配”,取決于是否需要考慮數據分布。此外,Re-basin基于對齊引入,探討解決方案可以通過排列不變性被傳輸到一個單一的盆地(即,參數空間中相對低損失的區域)。然而,對齊通常面臨著計算量大、組合優化速度慢和架構差異的障礙,使得它不易擴展到具有不同目標的其他場景。例如,伴隨圖匹配而來的記憶負擔限制了深度模型融合的應用。
權重平均是將幾個母網絡融合成一個單一網絡的最直接和高效的方式。與模式連接性和對齊相比,權重平均不需要額外的計算復雜性或訓練來找到一個優越的起點,在模型包含一定程度的相似性時表現良好。根據聚合空間,權重平均可分為“權重平均”和“子空間中的平均”。此外,典型的方法“模型湯”,“模型算術”和“隨機權重平均”也對現有方法進行了顯著改進。然而,當參數被規范化和合并時,可能會在模型結構或參數數量存在較大差異的情況下引入一些偏差。盡管如此,權重平均仍然是深度模型融合的主流方法,因為它簡單且高效。
集成學習結合了幾種不同模型的輸出,以改善預測性能和魯棒性。我們專注于深度學習中的集成學習。基于集成學習,“模型重用”為每個模型提供了規格,這樣在給定新的學習任務時,有用的模型可以從模型池中被識別和合并。集成學習具有各種框架和便捷的界面,經常用于實際領域,例如物體檢測等。盡管集成學習需要維護多個訓練過的模型并在測試時運行每個模型,但它仍然是在深度學習中被廣泛采用的強大技術之一。
作為一項提高深度模型的準確性和魯棒性的技術,模型融合促進了許多應用領域的改進。聯邦學習,一種在中央服務器上聚合客戶端模型的應用,使得各方可以貢獻數據到功能的計算中(例如,各種統計、分類器),而無需泄露隱私。微調對預訓練模型進行小的調整,結合模型融合以減少訓練成本并適應特定任務或領域的需求。模型融合還涉及到“蒸餾”。即,將來自多個復雜模型的軟目標知識結合起來,為特定要求訓練一個小模型。模型融合在foundation/LLMs上的應用包括在大型基礎模型或大型語言模型(LLMs)上的工作,例如視覺變壓器(ViT)和GPT等。模型融合的應用幫助開發人員適應各種任務和領域的需求,并促進深度學習的發展。簡而言之,我們的調查回顧了深度模型融合技術。在前三節“模式連接性”,“對齊”和“權重平均”中,我們主要從模型參數融合的角度進行全面研究。在“集成學習”中,我們主要從模型輸出聚合的角度探討了這個問題。
本工作的主要貢獻總結如下:
? 我們從“模式連接性”,“對齊”,“權重平均”和“集成學習”的角度提出了一種新的深度模型融合分類方法,該方法涵蓋了模型融合的理論綜合方法,并為實現DNNs的高泛化和準確訓練提供了指導。
? 我們比較了融合方法的優缺點,并解釋了它們之間的機制和關系,為未來設計先進的模型融合方法提供了靈感。
? 我們總結了深度模型融合的廣泛應用。我們還討論了當前的研究趨勢,以便在未來引起更多的關注和反思。此外,本文的其余部分組織如下:在第2節到第5節,我們根據“模式連接性”、“對齊”、“權重平均”和“集成學習”的四個角度介紹深度模型融合的方法。第6節介紹了深度模型融合的應用:“聯邦學習”、“微調”、“蒸餾”和“在foundation/LLMs上的模型融合”。最后,在第7節中,我們總結了深度模型融合,并討論了未來的挑戰和潛在方向。另外,我們在全文中說明了符號及其相應的定義。Wi是第i個具有權重Wi ∈ R^d(i = 1, 2, ...k)和偏置項b的神經網絡。λ表示加權參數。σ表示非線性神經元激活函數。L是損失函數,用于量化預測值和實際值之間的差異。