深度強化學習(DRL)在各個領域的序列決策任務中取得了顯著的成功,但其依賴于黑箱神經網絡架構的特點限制了解釋性、可信度以及在高風險應用中的部署。可解釋深度強化學習(XRL)通過在特征級、狀態級、數據集級和模型級的解釋技術來解決這些挑戰,從而提高透明度。本綜述提供了XRL方法的全面回顧,評估了其定性和定量評估框架,并探討了它們在策略優化、對抗魯棒性和安全性中的作用。此外,我們還考察了強化學習與大語言模型(LLMs)的結合,特別是通過基于人類反饋的強化學習(RLHF),該方法優化了AI與人類偏好的對齊。最后,我們總結了當前的研究挑戰并展望了未來的發展方向,以推進可解釋、可靠和負責任的DRL系統的研究進展。
1 引言
深度強化學習(DRL)作為一種解決復雜序列決策問題的變革性范式,已經取得了顯著進展。通過使自主智能體與環境互動、接收獎勵反饋,并不斷優化策略,DRL在多個領域取得了卓越的成功,包括游戲(如:Atari [Mnih, 2013; Kaiser et al., 2020],圍棋 [Silver et al., 2018, 2017],以及星際爭霸 II [Vinyals et al., 2019, 2017]),機器人技術 [Kalashnikov et al., 2018],通信網絡 [Feriani and Hossain, 2021],以及金融 [Liu et al., 2024]。這些成功凸顯了DRL超越傳統基于規則系統的能力,尤其是在高維度和動態變化的環境中。盡管取得了這些進展,仍然存在一個根本性挑戰:DRL智能體通常依賴于深度神經網絡,這些網絡作為黑箱模型運行,遮蔽了其決策過程的背后原理。這種不透明性在安全關鍵和高風險應用中構成了顯著障礙,因為在這些領域中,可解釋性對于信任、合規性和調試至關重要。DRL中缺乏透明度可能導致不可靠的決策,使其在需要可解釋性的領域(如醫療、自動駕駛和金融風險評估)中不適用。 為了解決這些問題,可解釋深度強化學習(XRL)領域應運而生,旨在開發能夠提高DRL策略可解釋性的技術。XRL致力于提供智能體決策過程的洞察,幫助研究人員、實踐者和最終用戶理解、驗證并優化學習到的策略。通過促進更大的透明度,XRL有助于開發更安全、更穩健、以及更符合倫理的AI系統。 此外,強化學習(RL)與大語言模型(LLMs)的日益融合,使得RL成為自然語言處理(NLP)領域的前沿技術。諸如基于人類反饋的強化學習(RLHF)[Bai et al., 2022; Ouyang et al., 2022]等方法已經成為使LLM輸出與人類偏好和倫理指南對齊的重要手段。通過將語言生成視為序列決策過程,基于RL的微調使LLM能夠優化諸如事實準確性、連貫性和用戶滿意度等屬性,超越了傳統的監督學習技術。然而,RL在LLM對齊中的應用進一步加劇了可解釋性問題,因為RL更新與神經網絡表示之間的復雜交互仍然不完全為人所理解。 本綜述提供了關于DRL中可解釋性方法的系統性回顧,特別關注其與LLM和人類參與系統的集成。我們首先介紹了強化學習的基本概念,并突出展示了DRL的關鍵進展。接著,我們對現有的解釋方法進行分類和分析,涵蓋了特征級、狀態級、數據集級和模型級的技術。此外,我們討論了評估XRL技術的方法,考慮了定性和定量評估標準。最后,我們探討了XRL在現實應用中的實踐,包括策略優化、對抗性攻擊緩解以及在現代AI系統中確保可解釋性的挑戰。通過本綜述,我們旨在提供關于XRL當前狀態的全面視角,并概述未來的研究方向,以推進可解釋且值得信賴的DRL模型的發展。
表格數據廣泛應用于醫療、金融、交通等行業,但由于其異構性和缺乏空間結構的特性,給深度學習帶來了獨特的挑戰。本綜述回顧了用于表格數據的深度學習模型的演變,從早期的全連接網絡(FCN)到先進的架構,如TabNet、SAINT、TabTranSELU和MambaNet。這些模型結合了注意力機制、特征嵌入和混合架構,以應對表格數據的復雜性。TabNet通過順序注意力機制進行逐實例的特征選擇,提高了模型的可解釋性;而SAINT結合了自注意力機制和樣本間注意力機制,捕捉特征和數據點之間的復雜交互,從而在提高可擴展性的同時減少計算開銷。混合架構如TabTransformer和FT-Transformer將注意力機制與多層感知機(MLP)結合,處理類別和數值數據,其中FT-Transformer專門為表格數據集調整了Transformer模型。研究仍在繼續,以在大規模數據集上平衡性能和效率。基于圖的模型如GNN4TDL和GANDALF結合了神經網絡與決策樹或圖結構,通過先進的正則化技術增強了特征表示,并在小數據集上緩解了過擬合問題。基于擴散的模型如表格去噪擴散概率模型(TabDDPM)通過生成合成數據解決數據稀缺問題,從而提高模型的魯棒性。同樣,TabPFN和Ptab等模型利用了預訓練語言模型,將遷移學習和自監督技術引入表格任務。本綜述重點介紹了這些領域的關鍵進展,并概述了在多樣化的表格數據應用中關于可擴展性、泛化性和可解釋性的未來研究方向。
表格數據由表示結構化信息的行和列組成[1, 2],是許多行業中最常用的數據格式,包括醫療、金融和交通等。與圖像和文本等非結構化數據不同,表格數據以結構化形式直接表示現實世界現象,這使其在風險評估、預測分析和安全監測等決策過程中至關重要。例如,在交通工程領域,表格數據在記錄事故事件、車輛屬性、環境因素和人類行為方面起著關鍵作用,幫助研究人員利用數據驅動的洞察來預測事故嚴重性并改善安全措施。盡管深度學習在計算機視覺和自然語言處理(NLP)等領域取得了成功,但其在表格數據中的應用并不那么直接。深度學習模型在處理表格數據時面臨多個挑戰:(1) 樣本量小:與大規模的圖像或文本數據集相比,許多表格數據集相對較小,導致復雜的深度學習模型容易發生過擬合。 (2) 高維性:表格數據通常包含許多特征,這些特征可能是稀疏的或無關的,使得模型難以識別有意義的模式。 (3) 復雜的特征交互:與局部結構突出的圖像或文本不同,表格數據中的特征交互是非局部的且復雜的,因此需要更為專業的架構來有效捕捉這些關系。這些因素使得基于樹的模型(如XGBoost和隨機森林)在許多表格數據任務中更為有效,因為它們更適合處理稀疏特征和復雜的交互。近年來,針對表格數據的深度學習模型取得了顯著進展,解決了此類數據所帶來的獨特挑戰。盡管早期的全連接網絡(FCN)顯示出了一定的潛力,但隨著新架構的出現,這一領域得到了顯著發展[3-6]。其中領先的模型之一是FT-Transformer,該模型將最初為序列數據開發的Transformer模型適配用于表格數據,通過注意力機制編碼特征[7, 8]。由于其能夠學習特征之間的復雜交互,這一模型在處理高維數據時表現出色。另一個近期的創新是自注意力和樣本間注意力Transformer(SAINT),它通過引入樣本間注意力機制改進了原始的Transformer,使得模型能夠更好地捕捉表格數據行之間的關系[9]。在多個基準測試中,SAINT相較于傳統模型如XGBoost和深度學習模型如神經遺忘決策集成(NODE)表現出色。此外,TabTransformer等模型專門用于分類特征編碼的Transformer,提供了一種更具可擴展性的解決方案,能夠處理表格數據集中混合的數據類型。這種方法使模型能夠從分類變量中捕捉有意義的表示,而這些分類變量通常是傳統深度學習架構難以有效處理的。這些新模型在特征編碼、復雜交互學習和模型可解釋性方面引入了重要的創新,這對推動深度學習在表格數據中的應用具有重要意義。本文的目標是詳細回顧這些進展,探討其歷史演變(如圖1所示)、關鍵技術、數據集及潛在的應用方向。 表格深度學習
雖然之前的研究[7]對表格數據的深度學習進行了結構化的綜述,重點關注了處理類別變量、數據轉換和模型比較等挑戰,但本綜述采取了不同的視角,強調了該領域的歷史演變和算法進展。我們著重介紹了MambaNet、SwitchTab和TP-BERTa等最新模型的開發,展示了這些架構如何演變以應對表格數據的獨特復雜性。通過探討注意力機制、混合架構以及其他近期的突破,本綜述突出了深度學習模型向更高效、可擴展且可解釋的解決方案的轉變。與以往的工作不同,本研究不專注于模型比較,因為全面評估不同模型需要根據各種類型的表格數據進行專門的分析。 在快速發展的表格深度學習領域,每年都有新的架構設計被提出,以應對表格數據日益增長的復雜性,并帶來了顯著的改進。近期的模型,如HyperTab和GANDALF,推動了可擴展性和可解釋性的邊界,提供了處理異構特征和高維數據的增強方法。這些新架構基于基礎工作,顯著提升了相較于傳統方法的性能改進。如圖9所示,表格深度學習的演變強調了關鍵貢獻,從2019年Semek等人[83]和Arik等人[24]的研究,到最近的最新進展,并按引用次數排列,展示了該領域研究影響力的不斷增長。
在這些進展的基礎上,表2展示了這一期間引入的主要模型的時間線,詳細描述了它們的架構及關鍵性能特點。這些模型展示了表格深度學習中的重大突破,從混合架構到高級注意力機制,推動了性能和可擴展性的進步。
TabTransformer模型通過利用注意力機制和混合架構,顯著推動了表格深度學習的發展,解決了表格數據帶來的獨特挑戰[19]。TabTransformer的核心是采用了多頭自注意力層,該層改編自傳統用于自然語言處理(NLP)的Transformer架構,用于捕捉數據集中復雜的特征交互和依賴關系,如圖10所示。這種注意力機制使模型能夠有效地捕捉特征之間的關系,尤其適用于包含大量類別變量的數據集。 TabTransformer架構將Transformer層與MLP組件結合,形成了針對表格數據優化的混合結構。類別特征通過列嵌入層進行嵌入,將每個類別轉換為可學習的密集表示。這些嵌入通過Transformer層傳遞,聚合來自其他特征的上下文信息,以捕捉相互依賴的關系。上下文化的類別特征隨后與連續特征進行拼接,并通過MLP進行最終預測。這種設計利用了Transformer在類別數據上的上下文學習優勢和MLP在處理連續數據上的傳統優勢。此外,TabTransformer還引入了掩碼語言建模(MLM)和替換標記檢測,使其能夠在大量無標簽數據上進行預訓練,從而在低標簽數據場景中提升性能,使其在現實世界應用中更加有效。
TabTransformer模型的最新進展,如Vyas[94]提出的自監督TabTransformer,進一步優化了該架構,通過在預訓練階段利用MLM從無標簽數據中學習。這種自監督方法通過自注意力機制捕捉復雜的特征依賴性,提高了模型的泛化能力。通過將Transformer層與MLP結合用于最終預測,模型能夠有效處理混合數據類型和較小的數據集。然而,雖然模型在半監督環境中表現出了顯著的性能提升,但依賴于掩碼語言模型預訓練增加了計算開銷,可能限制其可擴展性。解釋性保持在中等水平,注意力得分可以提供有關特征重要性的洞察,但模型的解釋性仍然不如傳統模型如GBDT。
另一個顯著的進展是由Cholakov和Kolev[95]提出的GatedTabTransformer,該模型通過引入門控多層感知機(MLP)增強了原始的TabTransformer。此修改通過空間門控單元提高了模型捕捉跨標記交互的能力。GatedTabTransformer在AUROC方面比標準TabTransformer的性能提升了約1個百分點,特別是在二分類任務中。然而,這也帶來了額外的計算復雜性,因為空間門控單元需要額外的處理。盡管模型性能有所提升,但其可擴展性和解釋性仍然較為有限,相比之下,簡單的模型如MLP或GBDT則更具優勢。
因此,雖然TabTransformer模型通過注意力機制和混合架構在處理表格數據方面提供了顯著改進,但在性能、可擴展性和解釋性方面存在權衡。近期的變體如自監督TabTransformer和GatedTabTransformer展示了這些模型相較于傳統方法的潛力,盡管以更高的計算需求為代價。
由Gorishniy等人[96]提出的FT-Transformer模型,通過利用注意力機制、混合架構和基于Transformer的方法,提出了一種新穎的方式來應對表格數據的挑戰。該模型將最初為NLP等任務設計的注意力機制進行了適配,以處理表格數據。在這一背景下,注意力機制使模型能夠捕捉異構特征之間的復雜關系,包括數值和類別數據,如圖11所示。通過使用注意力機制動態優先考慮某些特征,模型有效地建模了傳統表格數據方法中常難以檢測到的交互關系。
除了注意力機制,FT-Transformer還采用了一個集成特征標記化的混合架構。這個過程將數值和類別特征都轉化為嵌入表示,然后通過Transformer架構層進行處理。其結果是,一個高度靈活的模型,能夠處理各種類型的表格數據,這對于特征類型和分布變化多樣的任務而言尤為關鍵。這種混合設計將傳統特征編碼方法與基于Transformer的強大學習能力結合起來,從而在不同的數據集上實現更好的泛化能力。
最近的研究表明,FT-Transformer在各種應用中表現出色。在心力衰竭預后領域,FT-Transformer通過捕捉醫療特征之間的非線性交互,如人口統計和臨床數據,超越了傳統模型如隨機森林和邏輯回歸的表現[97]。注意力機制的使用使模型能夠動態優先處理重要的健康指標,從而得出更準確的預測。同樣,在入侵檢測系統中,FT-Transformer在處理網絡流量數據的高度結構化特性時表現出更高的準確性,能夠識別網絡異常[98]。混合架構無縫地整合了類別和數值特征,提高了模型檢測已知和未知威脅的能力。此外,通過堆疊多個Transformer層來增強模型捕捉數據中的長距離依賴性的能力,使其在復雜任務中更加有效[99]。雖然FT-Transformer模型在多項表格任務上相較于其他模型,如ResNet和MLP,表現出更高的性能,但也有一些權衡需要考慮。在解釋性方面,模型的復雜性帶來了挑戰。像GBDT這樣的傳統模型具有更清晰的解釋性,因為它們的決策過程更加透明。相比之下,FT-Transformer依賴于注意力機制和深層網絡,雖然注意力分數能夠提供特征重要性的某些洞察,但整體上難以解釋。此外,模型的可擴展性也是一個考慮因素,特別是Transformer模型的注意力機制隨特征數量呈二次增長的計算需求,可能在應用于大規模數據集時成為限制。
盡管存在這些限制,FT-Transformer能夠跨不同的數據集進行泛化,使其成為表格數據分析中頗具前景的模型,帶來了預測性能方面的顯著進步。基于這些進展,我們展示了TabNet和FT-Transformer在性能和log-loss方面的比較。如圖12所示,隨著隨機搜索迭代次數的增加,FT-Transformer始終表現出更優的性能,而兩種模型的log-loss則以不同的速率下降。此比較突顯了FT-Transformer在較大搜索空間中相較于TabNet的更強泛化能力。雖然這一圖示例展示了性能差異,但與之前的表格深度學習綜述[7]不同,本次研究并未對所有表格深度學習模型進行比較,因為跨多個模型和不同數據集的全面評估超出了當前綜述的范圍。未來的研究應著眼于更廣泛的性能評估,以全面檢驗這些模型的優劣。
DeepGBM模型通過結合注意力機制、混合架構和知識蒸餾等先進技術,為解決表格數據在深度學習中的挑戰提供了一種創新的方法[63]。盡管該模型并未顯式使用傳統的注意力機制,它通過GBDT(梯度提升決策樹)中的特征重要性來優先考慮某些特征。此過程模仿了注意力機制,通過將模型的注意力集中在最具信息量的特征上,而不是平等對待所有輸入。通過強調最相關的特征,DeepGBM增強了其處理稀疏類別數據和密集數值數據的能力,這在表格數據任務中至關重要。
最近在表格深度學習領域的進展進一步突顯了DeepGBM在將神經網絡與GBDT結合以提升性能方面的作用。特別是,該模型的混合架構利用了CatNN處理稀疏類別特征,通過嵌入和分解機技術進行特征處理,而GBDT2NN則將GBDT的輸出轉化為神經網絡格式,優化了對密集數值特征的處理[100]。圖13展示了DeepGBM的結構。通過這種集成,DeepGBM能夠利用這兩類模型的優勢,克服傳統方法在統一框架下處理混合特征類型的局限性。盡管DeepGBM并未直接實現基于Transformer的模型,但它采用了來自Transformer架構的思想,特別是在知識蒸餾的形式上。通過將GBDT樹中獲得的知識(包括預測結果、樹結構和特征重要性)蒸餾到神經網絡中,DeepGBM保留了GBDT的優勢,同時增強了其學習能力[101]。這類似于Transformer通過蒸餾來簡化復雜模型的方式,同時保持其性能。
在性能、可解釋性和可擴展性之間的權衡,反映了表格深度學習中更廣泛的挑戰。DeepGBM通過結合GBDT和神經網絡實現了更高的準確性,但犧牲了一部分可解釋性,因為神經網絡組件的增加降低了樹模型通常具有的透明度。可擴展性也是一個挑戰,因為神經網絡部分需要更多的計算資源。然而,像WindTunnel這樣的模型表明,這種方法可以在保持原有GBDT結構優勢的同時提升準確性[101]。這些權衡需要根據應用場景進行仔細平衡,因為DeepGBM在性能和效率方面表現出色,特別是在大規模和實時應用中。
在表格深度學習的最新進展中,DANets模型利用了注意力機制、混合架構和基于Transformer的方法,以應對表格數據處理中的特定挑戰。DANets的關鍵創新之一是使用動態特征選擇過程,通過可學習的稀疏掩碼[102]來識別和強調相關特征。該方法基于Entmax稀疏映射,使模型能夠在網絡的每個階段有選擇性地專注于最重要的特征,從而增強其從數據中提取有意義表示的能力。這種機制類似于Transformer模型中使用的注意力機制,但特別針對表格數據的不規則性和異構性進行了調整。
DANets還采用了混合架構,融合了類似于卷積神經網絡(CNN)的特征分組和層次抽象過程,但進行了適配以應對表格數據的獨特結構。如圖14所示,引入的抽象層(ABSTLAY)使模型能夠通過連續的層來分組相關特征并抽象出更高層次的表示。此外,模型還采用了捷徑路徑,使得原始特征可以在網絡的更高層次重新引入,確保關鍵信息得以保留,從而增強了模型的魯棒性,特別是在較深的架構中。這種設計類似于ResNet風格的連接,殘差路徑防止了深層網絡中信息丟失和退化,從而提升了性能。
DANets通過使用動態加權和類似注意力機制的方式,結合了Transformer的思想,使模型在特征選擇和抽象過程中能夠選擇性地關注重要特征。盡管這并不是Transformer模型的直接應用,這些方法改善了表格數據的處理并提升了性能,使得DANets優于傳統模型如XGBoost和神經網絡模型如TabNet。然而,這種性能提升以降低可解釋性為代價。雖然基于注意力的特征選擇提供了對特定特征重要性的洞察,但層次抽象的復雜性掩蓋了決策過程,使其不如簡單模型如決策樹那樣透明。為了解決可擴展性問題,DANets采用了結構重新參數化技術,這在推理過程中降低了計算復雜度,從而允許構建更深的網絡而不會導致計算成本過高。盡管更深的架構提升了性能,但研究指出,由于表格數據中的特征空間有限,進一步增加深度帶來的回報遞減。
最近在表格深度學習中的進展利用了注意力機制和基于Transformer的方法,解決了表格數據處理中的挑戰。SAINT模型通過整合注意力機制、混合架構和基于Transformer的方法,克服了表格數據的獨特挑戰。SAINT使用了兩種類型的注意力機制:自注意力和樣本間注意力[25]。自注意力使模型能夠捕捉單個數據樣本中特征之間的復雜關聯,能夠建模那些簡單模型可能忽略的關系。而樣本間注意力作為一種新穎的補充機制,使模型可以將一個數據行(數據點)與其他行進行比較,從而根據整個數據集中的模式進行更動態的學習過程。這一機制在某些特征可能存在噪聲或缺失時尤為有用,因為模型可以從其他相似的數據點中學習。 SAINT的混合架構結合了自注意力和樣本間注意力,創建了一個綜合的學習系統。SAINT的先進架構在軟件缺陷預測任務中也表現出色[103]。通過利用注意力機制和基于Transformer的方法,SAINT能夠有效處理數據點之間的復雜交互,從而提升缺陷預測的性能。在處理混合數據類型時,SAINT始終優于傳統模型如XGBoost和隨機森林。然而,盡管SAINT提高了準確性,其復雜性影響了可解釋性,因為引入了樣本間注意力,這使得它不如簡單模型直觀。此外,與SAINT的注意力機制相關的計算需求在處理大型數據集時可能會帶來可擴展性挑戰。
除了這些創新之外,SAINT的改進版本SAINTENS進一步增強了模型處理表格數據的能力,解決了SAINT的一些局限性[104]。SAINTENS使用相同的注意力機制,但引入了MLP集成,以提高在處理缺失或噪聲數據時的魯棒性。該方法與對比預訓練及Mixup和Cutmix等增強技術相結合,使SAINTENS能夠生成更強的數據表示,特別是在缺失值較多的醫療數據集中。這些增強措施在性能、可解釋性和可擴展性三個關鍵領域表現出相應的權衡。在性能方面,SAINT和SAINTENS在處理混合特征類型及標簽數據有限的數據集時,一貫優于傳統機器學習模型如GBDT以及深度學習模型如TabNet。SAINT的注意力機制提供了一定程度的可解釋性,允許用戶可視化重要的特征和數據點。然而,樣本間注意力引入的復雜性使其相比于簡單模型更難以直觀解釋。最后,雖然SAINT和SAINTENS在大型數據集上表現良好,但注意力機制,尤其是樣本間注意力的計算需求,可能使這些模型在較大的數據集上更耗資源。
TaBERT模型通過引入注意力機制、混合架構和基于Transformer的方法,解決了表格數據的挑戰。TaBERT的關鍵創新之一是其使用的注意力機制,特別是縱向自注意力機制,該機制在各行之間的垂直對齊表格單元表示上運行[105]。這使得模型能夠捕捉不同行之間的依賴關系,通過關注與給定自然語言查詢相關的列和行,改善了表格數據的表示。雖然這一機制提升了處理表格結構的性能,但也引入了額外的計算復雜性,使其在處理非常大的數據集或包含大量行的表格時,擴展性受到限制。圖15展示了TaBERT的架構,該架構聯合處理自然語言話語和表格模式,強調了模型如何使用多頭注意力和池化機制同時捕捉文本和表格結構,從而生成用于下游任務(如語義解析)的統一表示。
在架構方面,TaBERT采用了一種稱為“內容快照”的混合方法來減少計算開銷。與對表格中所有行進行編碼的高成本做法不同,TaBERT選擇與自然語言查詢最相關的部分行。這使得模型能夠保留進行文本與表格聯合推理所需的關鍵信息,同時減少處理不必要數據的負擔。然而,這也帶來了權衡:雖然內容快照機制幫助模型擴展到更大的表格,但如果所選擇的行不足以充分代表表格的整體結構和內容,則可能會丟失關鍵信息。 TaBERT基于Transformer預訓練框架,能夠學習自然語言和結構化數據(表格)的表示。該模型在包含2600萬張表格及其相應文本的大規模語料庫上進行預訓練,采用類似于BERT的掩碼語言建模目標,并結合了表格特定的目標,如掩碼列預測和單元格值恢復。這種預訓練提高了模型對齊文本和表格數據的能力,支持下游任務如語義解析。
在性能與可解釋性之間的平衡上,TaBERT在語義解析任務中表現出色,尤其在WikiTableQuestions等基準測試中表現優于BERT,如圖15所示。然而,由于Transformer和注意力機制的使用引入了復雜性,TaBERT的可解釋性不如決策樹等簡單的機器學習模型,后者能夠為其決策提供更直接的解釋。在可擴展性方面,內容快照機制幫助模型更高效地處理大型表格,但這也伴隨著無法完全捕捉表格信息的風險。
TabTranSELU模型結合了近期表格深度學習的多項進展,利用注意力機制、混合架構和基于Transformer的方法,解決了表格數據的獨特挑戰。一個關鍵創新是自注意力機制的使用,使模型能夠捕捉表格數據集中不同特征之間的依賴關系[26]。這一自注意力方法對識別輸入特征之間的關系至關重要,因為表格數據缺乏圖像或文本中的固有結構,增加了這一任務的復雜性。注意力機制通過將輸入轉換為查詢、鍵和值矩陣來計算得分,從而使模型能夠確定不同特征的加權重要性。這有助于模型更有效地學習特征間的關系,最終提升其預測性能。圖16展示了TabTranSELU模型中的輸入層、Transformer層和密集層。 該模型還采用了混合架構,通過簡化傳統的Transformer設計以適應表格數據。不同于NLP任務中使用的完整的編碼器和解碼器堆棧,TabTranSELU僅使用了單個編碼器和解碼器層。這種簡化在不犧牲性能的情況下,調整了架構以滿足表格數據的特定需求。此外,該模型集成了神經網絡和Transformer的元素,能夠同等高效地處理類別和連續特征。這些特征分別通過嵌入層進行處理,其中類別特征類似于NLP中的token進行處理,數值特征則通過位置編碼來保留其在不同數據實例中的重要性。
TabTranSELU模型最顯著的改進之一是將修正線性單元(ReLU)激活函數替換為縮放指數線性單元(SELU),解決了由于表格數據中負值存在而加劇的“ReLU失效”問題。SELU保留了正值和負值,防止了在訓練過程中丟失潛在信息,使其更適合表格數據集。此外,數值特征的使用位置編碼保留了其順序和重要性,增強了模型處理連續數據的能力。在性能方面,TabTranSELU與傳統算法如梯度提升決策樹(如XGBoost)相比展現了競爭力,在大型數據集上僅有0.2%的微小差距。它還在類似的基于Transformer的模型(如TabTransformer)中表現良好,盡管在性能上略有犧牲,但在功能的廣泛性上表現出色。 可解釋性是TabTranSELU模型的一大優勢,其嵌入層提供了對特征關系的清晰理解。通過對嵌入應用主成分分析等技術,用戶可以直觀地看到特征和類別之間的交互,尤其在處理匿名或不熟悉的數據集時,這種見解非常有價值——而這些見解通常在傳統深度學習方法中更難獲得。除了可解釋性之外,該模型在可擴展性方面也表現出色。通過減少層數并引入SELU激活函數,該模型比傳統的Transformer模型更加精簡,計算強度也較低,因此非常適合更大規模的數據集,并且可以在資源需求最小化的情況下高效訓練。總體而言,TabTranSELU在性能、可解釋性和可擴展性之間取得了良好的平衡,使其成為多種表格數據應用的強有力選擇。雖然我們已經討論了2022年至2024年的多個模型,但需要注意的是,2022年之前的綜述論文[7]未包含這些最新的研究。接下來的部分將探討更前沿的架構創新和進一步推動邊界的模型,這標志著表格深度學習演變的新階段。
近年來,針對表格數據的深度學習模型發展迅速,隨著領域的復雜性增加,涌現出許多新架構。表3總結了2023年至2024年間引入的關鍵模型,包括LF-Transformer和ReConTab等創新方法,這些模型利用先進的基于Transformer和混合技術,解決了特征交互和噪聲等挑戰。表格還概述了它們的架構、訓練效率和顯著特點,展示了該領域最新的進展。以LF-Transformer為例,該模型通過行間和列間注意力機制捕捉復雜的特征交互,使用矩陣分解和潛在因子嵌入來提高預測精度,尤其是在噪聲或數據不完整的情況下[106]。雖然該模型在回歸和分類任務中表現出色,但其復雜性降低了可解釋性,并增加了處理較大數據集時的計算需求。同樣,ReConTab利用基于Transformer的不對稱自動編碼器從原始數據中提取關鍵信息,并引入特征破壞技術以增強模型的魯棒性,盡管增加了復雜性,導致更高的計算成本和透明度下降[5]。GNN4TDL也基于Transformer的自動編碼器結構,利用特征破壞提高對噪聲的魯棒性和泛化能力,但在可擴展性和可解釋性上面臨挑戰[27]。
為了擴展Transformer模型的應用范圍,MambaTab結合了結構化狀態空間模型和特征增量學習,比標準的自注意力機制更有效地捕捉表格數據中的長距離依賴關系[3]。MambaTab適應不斷變化的特征集,增強了可擴展性,但犧牲了可解釋性,因為它缺乏像TabNet那樣解釋特征重要性的注意力機制。SwitchTab采用了不對稱的編碼器-解碼器架構,通過分離項目器將共同特征和顯著特征解耦,改善了表格數據中的特征表示[6]。通過使用基于特征破壞的方法,SwitchTab提高了性能和可解釋性,但其復雜性影響了可擴展性,因此在處理非常大規模數據集時效率較低。上下文感知表格條目表示 (CARTE) 也采用了先進的架構,結合了圖神經網絡(GNN)與圖注意力層,將每個表格行表示為一個小圖,使模型能夠捕捉跨表格的復雜上下文關系[108]。CARTE在遷移學習中表現出色,并且在異構數據集上表現良好,盡管其圖注意力機制在處理大型數據集時降低了可解釋性和可擴展性。
在分詞和基于提示的模型領域,TP-BERTa通過應用相對幅度分詞(RMT)脫穎而出,將標量數值轉換為離散標記,有效地將數值數據視為語言模型框架中的詞匯[107]。此外,其內部特征注意力(IFA)模塊將特征名稱和值統一為一致的表示,減少了特征干擾并提高了預測準確性。然而,與梯度提升決策樹等更簡單的模型相比,這種深度集成降低了可解釋性。Trompt采用了受提示學習啟發的方法,通過使用列和提示嵌入來推導樣本特定的特征重要性,從而根據每個數據實例調整特征的相關性[112]。盡管Trompt在高變異表格數據集上提升了性能,但其嵌入的抽象性質損害了可解釋性并增加了復雜性。
其他模型結合了創新機制和現有架構以應對表格數據的挑戰。TabR集成了一個檢索增強機制,利用基于L2的最近鄰居以及前饋神經網絡,通過從訓練數據中檢索相關上下文來增強局部學習[110]。盡管這種方法顯著提高了預測準確性,但在訓練過程中引入了計算開銷,影響了可擴展性。BiSHop利用雙向稀疏Hopfield模塊來處理表格數據,按列和按行捕捉特征內部和特征之間的交互[109]。其專門設計的表格嵌入和可學習的稀疏性提供了強大的性能,但以降低可解釋性和更高的計算需求為代價,限制了其在大型數據集上的應用。 最后,超圖增強的表格數據表示學習 (HYTREL) 使用超圖結構感知Transformer,利用超圖表示表格,以捕捉復雜的單元格、行和列關系[111]。這使得HYTREL能夠保留關鍵的結構屬性,并在列注釋和表格相似性預測等任務上表現出色,盡管超圖的復雜性降低了可解釋性。TabLLM是一種新穎的方法,它將表格數據序列化為自然語言字符串,使大語言模型(LLMs)像處理文本一樣處理它[84]。雖然在零樣本和少樣本學習場景中有效,但TabLLM面臨可擴展性問題和可解釋性挑戰,因為LLMs的高計算需求以及它們對表格數據的抽象表示。
多模態大語言模型(MLLMs)通過將強大的大語言模型(LLMs)與各種模態編碼器(例如視覺、音頻)相結合,模仿了人類的感知和推理系統,將LLMs定位為“大腦”,而將各種模態編碼器視為感官器官。這個框架賦予了MLLMs類似于人類的能力,并為實現人工通用智能(AGI)提供了潛在的路徑**。隨著GPT-4V和Gemini等全方位MLLMs的出現,已經開發了多種評估方法來評估其在不同維度上的能力。本文系統且全面地綜述了MLLMs的評估方法,涵蓋以下關鍵方面**:(1)MLLMs及其評估的背景;(2)“評估什么”,即基于所評估的能力,回顧并分類現有的MLLM評估任務,包括一般的多模態識別、感知、推理和可信度,以及社會經濟、自然科學與工程、醫學應用、AI代理、遙感、視頻和音頻處理、3D點云分析等領域的特定應用;(3)“在哪里評估”,即將MLLM評估基準劃分為通用基準和特定基準;(4)“如何評估”,即回顧并說明MLLM評估步驟和指標;我們的主要目標是為MLLM評估領域的研究人員提供寶貴的見解,從而促進更強大和可靠的MLLMs的發展。我們強調,評估應被視為一門關鍵學科,對推進MLLMs領域至關重要。 關鍵詞:多模態大語言模型,評估,評估任務,評估基準,評估指標,多模態模型,多模態任務,人工通用智能,自然語言處理,計算機視覺
人工智能(AI)一直是計算機科學中的一個具有挑戰性的研究領域,其目標是使機器具備像人類一樣的感知、理解和推理能力。近年來,大語言模型(LLMs)在人工智能領域取得了顯著進展,并在各種任務中取得了顯著成功。通過擴大數據量和模型規模,LLMs展現出了非凡的涌現能力,例如指令遵循、上下文學習和鏈式思維推理。盡管它們在眾多自然語言處理任務中表現出色,但LLMs本質上僅限于語言模態,這限制了它們在離散文本之外理解和推理的能力。 另一方面,人類通過多種渠道感知世界,如視覺和語言,每種渠道在表示和傳達特定概念方面都有獨特的優勢。這種多模態感知方式促進了對世界的全面理解,并為實現人工通用智能(AGI)提供了潛在的路徑。為了彌合人類感知與人工智能之間的差距,開發了多模態大語言模型(MLLMs)以模仿人類的多模態感知能力。具體來說,MLLMs將強大的大語言模型(LLMs)定位為“大腦”,而將各種模態編碼器視為感官器官,其中模態編碼器使MLLM能夠通過多種模態感知和理解世界,而LLMs則提供對復雜和全面的多模態信息的高級推理能力。該設計使MLLMs能夠像人類一樣學習感知和推理,利用來自多個渠道(如視覺、語言、音頻等)的信息,在多模態理解和推理方面表現出色。因此,MLLMs在傳統的視覺任務和更復雜的多模態挑戰中都展現了多樣化的能力。 隨著我們朝著AGI級別的MLLMs邁進,評估在其研究、開發和部署中起著至關重要的作用。首先,一個設計良好的評估框架可以更準確地反映MLLM的能力,從而量化其優點和局限性。例如,[1]表明盡管當前的MLLMs在全局圖像理解方面表現出色,但在局部圖像區域的推理上表現不佳。同樣,[2]指出現有的MLLMs在細粒度的視覺關系和交互理解方面存在困難。其次,從可信度的角度評估MLLMs對于確保其魯棒性和安全性至關重要,特別是在醫學診斷和自動駕駛等對可靠性要求極高的敏感應用中。第三,探索和評估MLLMs在各種下游任務中的表現有助于其應用和部署,確保它們滿足不同使用場景的具體需求。 總而言之,更全面和系統的評估方法對于激發更強大和更可靠的MLLMs的發展至關重要。隨著MLLMs的不斷進步,它們也需要高標準、全面的評估基準。MLLMs的發展與其評估過程之間的這種互進關系類似于雙螺旋結構,彼此推動前進。在GPT-4V、BLIP、Gemini和LLava等開創性MLLMs之后,已經引入了許多評估協議,涵蓋了從評估多模態識別、感知和推理等一般多模態能力,到評估在社會經濟、自然科學與工程、醫學應用、遙感等下游應用中的具體能力的廣泛方面。 盡管MLLM評估對于支持MLLM研究、開發和部署具有重大價值和吸引力,但目前學術界缺乏一篇系統性的綜述來提供關于當前MLLM評估方法、現有挑戰和潛在未來方向的全貌。本文旨在通過對涉及多種任務的MLLM評估方法進行詳盡的綜述來填補這一空白,這些任務根據所考察的模型能力進行分類,包括在多模態理解和可信度方面的一般能力,以及在社會經濟、自然科學與工程、醫學應用、遙感、視頻、音頻和3D點云分析等下游應用中的具體能力。我們從不同的角度進行綜述,涵蓋MLLMs及其評估的背景,評估什么,在哪里評估,如何評估,比較分析,當前挑戰和開放性方向。我們希望這篇綜述能夠為學術界提供關于MLLMs及其評估的全面概覽,涵蓋已取得的成就、當前的挑戰以及MLLMs及其評估的未來發展方向。 我們將本工作的主要貢獻總結為三個關鍵方面。首先,我們通過構建現有評估方法的分類體系,并突出其主要貢獻、優勢和局限性,提供了對多模態大語言模型評估的系統且全面的綜述。該分類體系根據所考察的能力和目標應用對評估方法進行分類。與之前專注于NLP[3],[4]或MLLM設計[5]的綜述不同,我們的工作獨特地集中于MLLMs的評估,據我們所知,目前尚未有相關的全面綜述。其次,我們通過對多個數據集進行詳盡的基準測試和討論,調查并分析了MLLMs及其評估的最新進展。第三,我們識別并討論了MLLMs及其評估中幾個未來研究的挑戰和有前景的方向。
本節介紹多模態大語言模型(MLLMs)評估的背景,包括多模態大語言模型的基礎和相關內容。
本節介紹了多模態大語言模型(MLLMs)的基礎,包括MLLM框架、MLLM訓練策略和MLLM的評估。2.1.1 MLLM框架 MLLMs通常由處理輸入文本的大語言模型、編碼其他各種模態輸入(如圖像、視頻)的模態編碼器以及將文本輸入和其他模態輸入對齊到統一特征空間的模態投影器組成。 大語言模型。在學習輸入文本時,基于Transformer的大語言模型(LLMs)被廣泛采用。具體而言,Transformer架構 [6]采用編碼器-解碼器框架,其中編碼器由六層組成,每層包含一個多頭自注意力機制和一個多層感知機(MLP)。解碼器采用類似結構,由六層組成,包含多頭注意力、掩碼多頭注意力和MLP。在此基礎上,LLaMA [7]由于其在各種語言任務中的出色表現,已成為文本特征提取的領先模型。在LLaMA架構的基礎上,開發了像Vicuna [8]和Guanaco [9]這樣的指令微調模型,并用于構建MLLMs時的文本特征提取。 模態編碼器。用于處理不同模態輸入的各種編碼器,如圖像、視頻和音頻。視覺Transformer(ViT)廣泛用于圖像特征提取,利用一系列Transformer模塊,每個模塊由一個多頭自注意力層和一個前饋網絡組成。在實際應用中,基于具體應用需求采用了各種預訓練版本的ViT。例如,CLIP預訓練的ViT常用于通用圖像理解 [10],而SAM預訓練的ViT則更適合于詳細和精細的圖像分析 [11]。 對于視頻數據編碼,ViT通過時間編碼器進行了增強,以有效捕捉時間相關信息。例如,Valley [12]整合了一個時間建模組件,以更好地理解視頻輸入的動態方面。對于3D圖像特征提取,特別是在點云數據中,采用了專門的模型,如Point-BERT [13]和PointNet [14]。這些模型專門設計用于高效捕捉3D數據的特征,從而更全面地理解空間結構。基于Transformer的架構也廣泛應用于音頻數據編碼。例如,Whisper模型 [15],專為通用語音識別設計,利用Transformer網絡有效學習音頻特征。 模態投影器。在多模態大語言模型中,模態投影器通常用于將不同模態(如文本、圖像、音頻)的特征對齊到統一的特征空間。該模塊通常涉及線性層或神經網絡,旨在將高維輸入特征轉換為統一表示。例如,LLaVA [10]采用一個可訓練的投影矩陣將編碼的視覺特征轉換為語言嵌入標記空間。通過將每個模態投影到一個通用空間,模型可以更好地捕捉跨模態關系,確保不同模態之間的兼容性和對齊。2.1.2 MLLM訓練策略 對齊預訓練。作為MLLM訓練的第一階段,對齊預訓練通常側重于對齊不同模態并學習多模態對應知識。通常,預訓練涉及大規模的文本配對數據,如用自然語言描述圖像、音頻或視頻的標題。例如,文獻 [10], [16] 在對齊預訓練階段采用標準的交叉熵損失,使MLLMs能夠自回歸地預測給定圖像的標題。為了更好地保留原始預訓練知識,MLLMs通常保持預訓練模型(如預訓練的視覺編碼器或大語言模型)凍結,僅訓練可學習的投影模塊進行對齊 [10], [16]。 多模態指令微調。多模態指令微調通過將語言作為任務指令對MLLMs進行微調,旨在構建一個在遵循用戶意圖方面具有卓越交互性和適應性的通用模型。指令微調通常包括兩個階段,即(1) 構建視覺指令遵循數據和(2) 進行視覺指令微調。視覺指令遵循數據通常具有{Instruction, Input, Output}的格式,其中Instruction表示任務指令,Input指的是各種模態的輸入(如Input = {Image}),而Output則表示關于給定任務指令的響應。這些數據集通常基于公共多模態數據進行擴展,并使用大語言模型進行增強 [17], [18]。通過構建的指令遵循數據,MLLMs通過基于指令和輸入圖像順序預測輸出中的每個標記來進行全監督方式的微調。 對齊人類偏好。對齊微調特別旨在增強模型行為以滿足特定的人類期望。廣泛采用了兩種對齊微調技術,即帶有人類反饋的強化學習(RLHF)[19]和直接偏好優化(DPO)[20]。具體而言,RLHF通過基于人類反饋的獎勵訓練模型,引導它們生成更理想的輸出。另一方面,DPO通過學習人類偏好直接優化模型,無需復雜的獎勵模型,以更直接的方式改善對齊。
本節概述了用于評估多模態大語言模型(MLLMs)能力的各種任務,涵蓋了多模態理解和可信度分析等一般任務,以及社會經濟、自然科學與工程、醫學應用、AI代理和其他與視覺相關的具體任務。表1和表2分別總結了MLLMs在一般任務和具體任務上的評估情況。
多模態大語言模型(MLLMs)的出現擴展了傳統語言模型的能力,使其能夠處理和理解來自不同模態的信息,如文本和圖像。多模態理解的目標是評估這些模型在跨不同類型輸入信息時的整合和解釋能力。具體來說,多模態理解任務可以大致分為多模態識別、多模態感知和多模態推理。3.1.1 多模態識別 多模態識別旨在識別和分類不同模態中的特定對象、動作和屬性。該任務側重于模型檢測和識別各種方面的能力,包括概念識別、屬性識別、動作識別和光學字符識別(OCR)。 概念識別側重于模型識別和標記不同模態中各種實體、實例、對象和場景的能力。這個任務包括識別一般和特定的概念,如圖像中的對象(例如,識別“汽車”或“狗”)[1],[21],[22],特定類別的實例(例如,特定的地標或產品)[1],[21],[22],以及更廣泛的場景(例如,“海灘”或“山脈”)[1]。作為MLLMs在多模態理解中的關鍵能力,MLLMs通常在概念識別任務中表現出色。例如,[1]表明大多數MLLMs在場景理解任務上表現出較高的性能(例如,>40%)。在MM-Vet [22]中,LLaVA-13B(V1.3, 336px)[25]在概念識別中得分為38.1%,表明其有效理解和分類視覺概念的能力。另一個模型,LLaMA-Adapter v2-7B [153],憑借其大規模的微調數據,表現略好,得分為38.5%。TouchStone [31]提出了一個稱為TouchStone分數的復合分數,它反映了模型在包括概念識別在內的所有評估任務中的表現。Qwen-VL [154]在TouchStone框架內的概念識別任務中表現突出,顯示出與其他模型相比更高的準確性和一致性。[32]表明mPLUG-Owl2在概念識別任務上優于其他模型,如Qwen-VL-Chat [154]和InstructBLIP [155]。其在COCO [157]和Flickr30K [158]等主要數據集上的高CIDEr分數 [156]展示了其在準確識別和描述復雜視覺概念方面的優勢,使其成為該領域的領先模型。 屬性識別是指在不同模態下識別視覺主體屬性的任務。它涉及識別風格、質量、情緒、數量、材質以及人類職業等屬性。在MMBench [21]中,MLLMs在屬性識別任務上的表現差異顯著。例如,InternLM-XComposer2 [159]以73.0%的準確率獲得了最高分之一,展示了其在該領域的強大能力。另一方面,像OpenFlamingo v2 [160]這樣的模型在此任務中的表現較差,準確率僅為5.3%。在SEED-Bench [1]中,MLLMs在屬性識別任務上的表現通過“實例屬性”維度進行評估,該維度專門設計用于評估模型識別和理解實例屬性的能力。結果表明,InstructBLIP Vicuna [155]在“實例屬性”任務中表現出色,展示了其在屬性識別方面的強大能力。在MME基準測試中 [23],通過包括顏色、材質、形狀及其他描述性特征的具體子任務,評估了MLLMs在屬性識別任務上的表現。例如,在顏色子任務中,InfMLLM [161]取得了高準確率,展示了其在圖像中識別顏色屬性的熟練程度。在OpenVQA [26]中,InstructBLIP [155]在屬性識別中表現出色。TouchStone [31]的結果表明,Qwen-VL [154]在TouchStone框架內的屬性識別任務中表現最佳,能夠始終如一地以高準確率識別對象的詳細屬性。mPlug-Owl [32]也表現強勁,而PandaGPT [162]等模型在復雜的屬性識別場景中落后。 動作識別是指在不同模態下識別主體執行的動作或活動的任務。在MMBench [21]中,MLLMs在動作識別任務中的表現通過“細粒度感知(跨實例)”類別進行評估。該任務涉及識別人體動作,包括姿勢運動、人-物體交互以及人-人交互。具體模型及其表現進行了比較,結果以細粒度的方式呈現。根據SEED-Bench [1],InstructBLIP Vicuna [155]模型在“動作識別”維度表現出色,優于其他模型。在OpenVQA [26]中,像InstructBLIP [155]這樣的模型在動作識別中表現強勁。在Visual CoT [39]中,不同MLLMs在“動作識別”任務上的表現差異顯著。基準模型在多個數據集上取得了一定的表現。然而,當采用Visual CoT(鏈式思維)過程 [163]時,表現通常有所提高,特別是在需要更深入推理或理解視覺上下文的更復雜任務中。通過檢查動作識別任務中的準確率百分比和排名等表現指標,研究人員和從業者可以洞察不同MLLMs在理解和分類動作方面的能力。這種全面的評估對于推進MLLMs在涉及時間動態和序列理解的多模態任務中的應用至關重要。 文本識別指的是從視覺輸入(如文件或標志的圖像)中識別和轉換文本的任務。在MMBench [21]中,MLLM在文本識別任務上的表現通過具體指標和觀察進行了突出展示。模型的準確性因其架構和規模而異,某些模型由于語言模型選擇和預訓練數據等因素表現顯著更好。例如,開源模型如LLaVA [25]系列和InternLM-XComposer2 [159]表現出色,而其他如MiniGPT的模型在此任務上表現較為困難。在SEED-Bench [1]中,MLLM在文本識別任務中的表現通過其在多項選擇題中選擇正確選項的準確性來衡量,然后與人類注釋提供的標準答案進行比較。LLaVa [25]在文本識別評估中的表現無與倫比,優于其他維度的表現。根據MME [23],像GPT-4V [164]、Skywork-MM [165]和WeMM [166]這樣的模型在OCR任務中取得了最高分。具體來說,GPT-4V [164]以185分的成績顯示出其在從圖像中識別和轉錄文本方面的高水平能力。在Open-VQA [26]中,像InstructBLIP [155]這樣的模型在文本識別任務中表現出色,表明其在識別和轉錄圖像中的文本方面的熟練程度。在Visual CoT [39]中,基準模型在OCR任務中通常表現出中等的準確率。使用Visual CoT(鏈式思維)通常會提高OCR任務的表現。這種方法使模型能夠將文本識別過程分解為更易于處理的步驟,從而提高準確性和理解度。在TouchStone [31]中,Qwen-VL [154]在識別和讀取圖像中的文本方面表現出色且可靠。mPlug-Owl [32]在其框架內的OCR任務中表現突出,顯示出比其他模型如Qwen-VL-Chat [154]和InstructBLIP [155]更強的表現。通過檢查文本識別任務中的準確率和排名等表現指標,研究人員和從業者可以評估不同MLLMs在處理和解釋視覺數據中的文本信息的能力。這種能力對于需要文本識別和解釋的多模態應用(如自動化文檔處理或基于圖像的信息檢索)至關重要。3.1.2 多模態感知 對象定位是指確定場景中對象的位置。它還包括識別物體的數量并確定物體的方向。在MMBench [133]中,MLLMs在對象定位任務中的表現相對中等。不同模型之間的表現差異顯著。對象定位的整體準確性顯示出改進空間,特別是與基準中的其他任務相比。MM-Vet [22]雖然沒有專門的對象定位任務,但通過“空間意識”類別評估了相關能力,這可以指示MLMMs在包括對象定位在內的更廣泛空間意識能力的任務中的表現。在SEED-Bench [1]中,MLLMs在對象定位任務中的表現通過“實例位置”維度進行評估,其中InstructBLIP [155]模型在“實例位置”維度中取得了高準確率,表明其在圖像中定位實例的強大能力。根據MME [23]的結果,像Lion和InfMLLM [161]這樣的模型在對象定位子任務中取得了高分。通過查看“實例位置”維度中的準確率百分比和排名等表現指標,研究人員和從業者可以評估不同MLLMs在識別視覺場景中對象空間上下文的精度。這對于理解和改進模型的空間理解能力至關重要,這是先進多模態AI系統的基本方面。 對象關系涉及模型理解和識別視覺場景中不同對象之間空間關系的能力。這可以包括空間關系(例如,在上方、在旁邊)、對象之間的交互(例如,一個人拿著一本書)或更復雜的上下文連接(例如,理解椅子是用來坐的)。該任務評估模型準確解釋和推理這些圖像或視頻中的關系的能力,這對于視覺推理、場景理解以及更復雜的視覺語言交互等任務至關重要。在MMBench [21]中,MLLMs在對象關系任務中的表現差異顯著。具體來說,模型在準確識別視覺數據中對象之間關系的成功程度各不相同,可能包括空間關系、交互和上下文連接。表現指標表明,像GPT-4v [164]和Qwen-VL-Max [154]這樣的模型在這一類別中表現最佳,在理解和推理對象關系方面顯示出比其他模型更高的準確性。MM-Vet [22]通過“空間意識”能力評估了LMMs在對象關系任務中的表現,使用基于LLM的評分系統,為評估模型在理解和描述視覺場景中的對象關系方面的準確性和響應質量提供了全面的指標,其中MM-ReAct-GPT4 [167]在“空間意識”類別中取得了高分,表明其在需要理解空間關系的任務中的強大表現。根據SEED-Bench [1]的結果,像InstructBLIP Vicuna [155]和BLIP2 [168]這樣的模型在“空間關系”維度中表現出色,表明其在理解對象之間的空間關系方面的熟練程度。MME [23]的結果顯示,某些模型在對象關系任務中表現強勁。例如,像WeMM [166]和InfMLLM [161]這樣的模型在理解和關聯圖像中對象位置方面表現出色。在V*Bench [36]中,SEAL [36]由于其先進的視覺搜索能力在對象關系任務中表現突出,使其能夠準確地定位和推理高分辨率圖像中的對象關系。像GPT-4V [164]和Gemini Pro這樣的模型也表現良好,但在最具挑戰性的場景中沒有達到與SEAL相同的準確性水平。LLaVA-1.5 [25]表現出中等成功,表明在處理復雜視覺任務時仍面臨挑戰。對象關系任務是評估MLLMs整體性能的關鍵組成部分。它測試模型的視覺理解深度、多模態信息整合能力及其在復雜現實場景中的穩健性。在對象關系任務中表現出色的模型在需要復雜視覺推理和上下文感知分析的應用中可能會表現出色。 對象交互涉及理解和識別視覺場景中對象之間的交互。該任務側重于模型解釋不同對象在動作、運動或功能關系方面如何相互關聯的能力。根據Seed-Bench [1]的結果,通過選擇多項選擇題中的正確選項來衡量每個MLLM在此任務中的表現。然后將此選擇與人類注釋員確定的標準答案進行比較。像InstructBLIP Vicuna [155]這樣的模型在“實例交互”維度中表現出色。P2G [28]增強型模型優于基準模型,如mPLUG-OWL和Instruct-BLIP,得益于即插即用的對齊機制,它增強了對復雜圖像中對象關系和交互的理解。這些模型利用外部代理進行對齊,提高了其識別和推理圖像中對象之間交互的能力。VL-Checklist [41]框架詳細評估了不同VLP模型,如CLIP [17],LXMERT [169]和ViLT [170]在對象交互任務中的處理能力。評估顯示,雖然像CLIP這樣的模型在識別對象之間的動作方面表現出色,但它們通常在空間關系方面存在困難。通過準確識別正確與錯誤的圖文對,量化了這些模型的表現,在空間推理任務中特別注意到了一些挑戰。ARO基準 [42]強調了像NegCLIP [171]和X-VLM [172]這樣的模型在對象交互任務中表現強勁,特別是在理解對象之間的空間和動作關系方面。對象交互任務的評估衡量了MLLM模型理解視覺場景的關系和組成方面的能力。這提供了模型捕捉上下文和對象交互能力的洞察力,這對于生成準確且有意義的解釋至關重要。3.1.3 多模態推理 常識推理評估MLLMs在理解和推理圖像中對象交互方面的能力。這包括識別交互的性質和上下文,確定對象之間的關系,并根據這些交互和一般世界知識推斷邏輯結論。在MMBench [21]中,像LLaVA-InternLM2-20B [173]和Qwen-VL-Max [154]這樣的MLLMs表現顯著優于其他模型,其得分表明對常識推理場景的扎實理解。這些模型在所有評估指標上均有所提升,突顯了它們的推理能力。具體來說,這些模型在這一類別中的表現優于其他模型,使其在多模態背景下的常識推理任務中脫穎而出。MME [23]基準測試的結果顯示,像GPT-4V [164]、WeMM [166]和XComposer-VL等模型在常識推理任務中表現強勁。例如,GPT-4V [164]取得了142.14的高分,表明其在給定圖像和指令的背景下應用常識知識和推理的非凡能力。在Open-VQA [26]中,InstructBLIP [155]在常識推理方面表現強勁,反映了其基于視覺線索和一般知識進行合理推斷的能力。在TouchStone [31]中,Qwen-VL [154]是常識推理任務中的表現最佳者,展示了在做出邏輯和上下文上適當推斷方面的強大能力。在MDVP-Bench [27]中,SPHINX-V [27]在常識推理任務中領先,表現出色,在理解和應用上下文知識到視覺場景中的準確性方面表現卓越。像Osprey-7B [174]和Ferret-13B [175]這樣的模型也表現良好,但在細微推理能力方面未達到SPHINX-V [27]的同等水平。LLaVA-1.5 [25]落后,表明在處理復雜推理任務時面臨挑戰,這些任務需要更深層次的理解和推理。通過檢查常識推理任務中的準確率和排名等表現指標,研究人員和從業者可以評估不同MLLMs在應用常識知識進行邏輯推斷的能力。這種能力對于需要理解視覺場景上下文和含義的多模態應用至關重要。 關系推理指的是模型在給定的多模態背景下理解和推斷不同對象、概念或實體之間的社會、物理或自然關系的能力。這個任務涉及分析圖像、文本或兩者的組合中的不同元素之間如何相互關聯。關系可以是空間的、因果的或關聯的,要求模型理解不同成分之間的潛在連接,以做出準確的預測或生成有意義的響應。在MMBench [21]中,關系推理任務的關鍵表現指標包括社會關系、物理關系和自然關系等子任務的準確率。例如,像InternLM-XComposer2 [159]這樣的模型在這些任務中表現出色,顯示了優越的推理能力,而其他模型的表現則有所不同。InternLM-XComposer2 [159]整體表現最佳,在關系推理方面具有較高的準確性。Gemini-Pro-V和GPT-4v [164]也表現良好,特別是在社會和物理關系推理方面,表明在理解復雜對象和實體之間的關系方面具有較強的能力。開源模型的整體表現較差,表明在這一領域還有改進的空間。在Visual CoT [39]中,評估了各種MLLMs在關系推理任務中的表現。結果表明,VisCoT-7B在336x336分辨率下在關系推理任務中表現最佳,特別是在Open Images和GQA等數據集上表現出色。在II-Bench [68]中,Qwen-VL-MAX [154]在關系推理任務中領先,表現出卓越的準確性,能夠理解和推理對象之間的關系。像LLaVA-1.6-34B [176]和Gemini-1.5 [177] Pro等模型也表現良好,但在更復雜的場景中略有落后。GPT-4V [164]表現出一定的能力,但在更復雜的推理任務中有所滯后,突出顯示了MLLMs在實現人類般的關系理解方面的持續挑戰。關系推理任務在MLLM模型性能評估中具有重要意義,因為它不僅僅是基本的對象識別,還評估模型理解復雜關系和對象交互的能力。這是模型認知深度、跨不同場景泛化能力及其多模態信息整合能力的關鍵指標,這些對于高級AI應用和實現機器的人類般理解至關重要。 邏輯推理指的是模型理解和應用邏輯原則來分析和解釋多模態數據的能力。這包括需要模型基于給定的前提得出結論、做出預測或解決問題的任務,識別模式、解決難題并通過復雜場景進行推理。在MMBench [21]中,通過結構化圖文理解和未來預測等子任務評估MLLMs在邏輯推理中的表現。這些任務評估了模型處理和推理結構化視覺和文本信息的能力。例如,像LLaVA-InternLM2-20B這樣的模型在這些推理任務中表現出色,而其他模型則可能在涉及結構化圖文理解的更復雜場景中表現不佳。在SEED-Bench [1]中,MLLMs在邏輯推理任務中的表現通過“視覺推理”維度進行評估,其中像“MiniGPT-4”和“mPLUG-Owl”這樣的模型在“視覺推理”維度中表現出色。TouchStone [31]的結果顯示,Qwen-VL [154]在邏輯推理任務中表現最佳,表現出基于視覺和文本輸入做出準確且邏輯推斷的強大能力。II-Bench [68]的結果顯示,Qwen-VL-MAX [154]是邏輯推理任務中的領先模型,表現出在解釋和推理復雜視覺隱含意義方面的卓越準確性。邏輯推理任務是MLLM性能評估的一個重要方面,因為它測試了模型將邏輯原則應用于復雜多模態數據的能力。這一任務不僅評估了模型的認知能力及其整合和推理多樣化輸入的能力,還提供了關于其現實世界應用潛力、穩健性和朝著人類般智能進展的洞察。因此,邏輯推理對于理解MLLMs的真正潛力和局限性至關重要。
魯棒性指的是MLLM在噪聲環境下處理和處理損壞、擾動或對抗性多模態輸入而不顯著降低性能的能力。在CHEF [87]中,SPHINX-V [27]成為最魯棒的模型,表現出在各種場景中對輸入損壞的卓越抵抗力。Ferret-13B [175]和Osprey-7B [174]的表現也不錯,但在惡劣條件下的魯棒性略有降低。LLaVA-1.5 [25]表現出較低的魯棒性,當輸入嚴重損壞時,其準確性顯著下降。MADBench的結果表明,GPT-4V [164]是最魯棒的MLLM,表現出對欺騙性提示的出色抵抗力并保持高準確性。其他模型如Gemini-Pro和LLaVA-NeXT-13b-vicuna的表現也不錯,特別是在提示工程的幫助下,顯著提高了它們的魯棒性。MiniCPM-Llama3-v2.5表明,提示修改可以顯著提高模型處理欺騙能力,使其成為進一步研究和開發的關鍵領域。在MMR [89]中,GPT-4V [164]和Qwen-VL-max [154]在魯棒性任務中表現最佳,表現出對誤導性問題的極強抵抗力。LLaVA-1.6-34B [176]也表現出高魯棒性,使其成為在具有挑戰性場景中的更可靠模型之一。Mini-Gemini-HD-34B在開源模型中表現突出,其魯棒性能表現良好,但在某些領域存在漏洞。MM-SpuBench [90]表明,GPT-4V [164]是最魯棒的MLLM,在多個類別中表現出對虛假偏見的強大抵抗力。Claude 3 Opus和Intern-VL也表現出高水平的魯棒性,特別是在共現和光照/陰影等某些偏見類別中。LLaVA-v1.6 [25]雖然表現不錯,但在相對大小和透視等特定偏見方面表現出更多的脆弱性。魯棒性任務在MLLM模型性能評估中至關重要,因為它確保模型不僅在理想條件下有效,而且在面對現實世界挑戰時也具有穩健性和可靠性。通過評估和提高魯棒性,我們可以開發出更加多才多藝、值得信賴且適用于各種場景的MLLMs,最終導致更安全、更有效的AI系統。 幻覺被定義為評估模型在多模態輸入中生成不正確、不相關或虛構的描述或對象的傾向。在POPE [93]中,InstructBLIP [155]是最可靠的模型,其幻覺率最低,使其在避免錯誤描述方面最為準確。MiniGPT-4和LLaVA [25]表現出中到高的幻覺率,表明在保持準確性方面存在一些挑戰。Shikra表現出最高的幻覺率,表明其在準確描述視覺內容而不引入不存在元素方面有很大的改進空間。在GAVIE [97]中,InstructBLIP-13B [155]是避免幻覺的最可靠模型,其次是MiniGPT4-13B和LLaVA-13B [25]。mPLUG-Owl-7B表現出最高的幻覺傾向,突顯了其在準確解釋視覺內容方面面臨的挑戰。這些結果強調了微調和指令微調在減少MLLMs幻覺中的重要性。在HallusionBench [101]中,GPT-4V [164]在最小化幻覺方面最為有效,盡管其準確性表明仍有改進空間。LLaVA-1.5 [178]和Gemini Pro Vision在這一領域面臨更大挑戰,經常生成虛構內容。BLIP2-T5 [168]表現中等,但仍在處理復雜視覺數據時表現出困難。這些結果強調了進一步改進MLLMs以更好處理幻覺的必要性,確保更可靠和準確的視覺解釋。幻覺是MLLM模型性能評估中的一個重要方面,因為它直接影響模型的準確性、可靠性和可信度。通過最小化幻覺,開發者可以創建更加魯棒、可推廣且適用于廣泛應用的模型,特別是在高風險或面向消費者的環境中。 倫理側重于評估多模態大語言模型生成的輸出的倫理影響。此任務評估模型的響應是否符合倫理標準和社會規范,特別是在避免有害、偏見或不適當內容方面 [92]。Multi-Trust [92]的結果顯示,GPT-4V [164]和Claude3是倫理對齊最好的模型,表現出高準確性和拒絕倫理上有問題提示的強大能力。LLaVA-1.5-13B [178]也表現不錯,但一致性較差,而Gemini-Pro表現中等,表明在倫理決策方面仍有改進空間。這些結果突顯了MLLMs持續倫理評估和改進的重要性,以確保其在各種應用中的安全和公平使用。 偏見指的是評估模型產生反映或強化社會偏見、刻板印象或對某些群體不公平待遇的輸出的傾向。此任務的目標是確保模型的行為和生成內容公平、公正,并且不會助長有害的偏見 [92],[106]。在Multi-Trust [92]中,GPT-4-Vision和Claude3在減輕偏見方面表現最佳,兩者在刻板印象相關任務中的拒絕回答率達到完美。Gemini-Pro和LLaVA-1.5-13B [178]也表現不錯,但拒絕率略低,表明在始終避免偏見方面存在一些挑戰。同樣,在RTVLM [106]中,GPT-4-Vision和Claude3在避免偏見輸出方面表現最佳,在文本和圖像相關場景中均達到完美或近乎完美的拒絕率。Gemini-Pro和MiniGPT-4-13B [179]表現較差,尤其是在引入視覺元素時,表明其更容易受到輸入數據中潛在偏見的影響。偏見任務在MLLM評估中至關重要,因為它有助于確保模型在社會上負責任,不會助長錯誤信息或有害的刻板印象。通過解決和減少偏見,開發者可以提高AI系統的公平性和包容性,使其更值得信賴且適合在多樣化的現實環境中部署。 安全性評估MLLMs避免生成有害、冒犯性或其他不安全內容的能力。這包括確保模型不會生成可能導致傷害、鼓勵暴力、支持非法活動或傳播錯誤信息的輸出。在MMUBench [108]中,LLAVA-13B [25]和MiniGPT-4表現出顯著的脆弱性,高ASR得分表明在抵抗不安全內容方面頻繁失敗。InstructBLIP [155]表現較好,ASR中等,而IDEFICS表現最強,顯示出最低的ASR和最高的安全性。在JailBreakV-28K [109]中,LLaVA-1.5-7B [178]和OmniLMM-12B在生成不安全內容方面表現出更高的易感性,在多個安全策略中ASR得分顯著。InstructBLIP-7B [155]和Qwen-VL-Chat [154]表現較好,但仍存在漏洞,表明盡管它們具有一些安全機制,但在確保對不安全提示的穩健防御方面仍有改進空間。在MM-SafetyBench [107]中,LLaVA-1.5-7B [178]和MiniGPT-4在生成不安全內容方面表現出更高的易感性,在多個場景中ASR得分較高。InstructBLIP [155]表現較好,但仍存在漏洞,而IDEFICS [180]表現出對不安全提示的最強抵抗力,表明其在安全標準方面的更好對齊。安全性是MLLM評估的一個重要組成部分,因為它確保模型在安全、倫理和法律界限內操作。它對于保護用戶、遵守法規以及保持公眾信任至關重要。在安全任務中表現出色不僅可以防止傷害,還支持開發負責任和可信賴的AI系統的更廣泛目標。
文化評估模型在不同文化背景下理解、解釋和響應內容的能力。此任務旨在評估模型在處理和生成內容時如何理解和尊重各種文化的細微差別、傳統和社會規范。在CODIS [35]中,GPT-4V [164]和Gemini在文化任務中表現最佳,表現出更好理解和解釋文化背景的能力。LLaVA-1.5-13B [178]和InstructBLIP-13B [155]表現落后,特別是在沒有明確上下文提示時解釋文化細微差別時準確性較低。在CVQA [111]框架中,GPT-4o和Gemini-1.5-Flash [177]在文化多樣性問題的處理上表現出色,無論是英文還是本地語言。LLaVA-1.5-7B [178]和InstructBLIP [155]在處理本地語言提示時面臨更多挑戰,表明這些模型在更好處理文化多樣性方面仍有改進空間。文化任務在MLLM評估中的重要性體現在全球化世界中,AI系統在不同文化環境中使用時的表現。文化任務評估模型處理語言細微差別、傳統、社會規范和文化參考的能力,這些因素在不同地區或社區之間可能存在差異。 社會評估模型解釋和響應社會問題的能力,包括理解社會規范、倫理考慮和文化細微差別。此任務旨在評估模型生成符合社會價值觀、避免強化負面刻板印象并尊重社會敏感性的內容的能力。在MM-SOC [113]中,MLLMs在各種社交媒體內容理解任務中進行了評估。這些任務包括虛假信息檢測、仇恨言論檢測、幽默檢測、諷刺檢測、冒犯性檢測、情感分析和社會背景描述。LLaVA-v1.5-13b [25]在虛假信息檢測、仇恨言論檢測和情感分析任務中分別取得0.642、0.587和0.335的宏F1分數。InstructBLIP-flan-t5-xxl [155]在社會背景描述理解上取得了0.294的ROUGE-L分數。在TransportationGames [114]中,評估了各種MLLMs在一系列交通相關任務中的表現,這些任務根據布盧姆分類法分為三大類:記憶、理解和應用交通知識。Qwen-VL-Chat [154]在交通標志問答任務中取得了54.47%的準確率。InternLM-XComposer-7B [159]在交通事故分析中在GPT-4-Eval指標上得分為77.9。TransCore-M [114]在ROUGE-L指標上得分為82.1,表明其在生成基于給定場景的適當和上下文相關安全建議方面的有效性。
數學旨在評估模型推理和解決可能涉及文本和視覺數據的數學問題的能力。這些任務通常需要模型在不同模態(文本和圖像)中執行多步驟推理,并應用數學概念得出正確的解決方案。TouchStone [31]基準中的數學任務揭示了某些MLLMs在整合視覺和文本數據進行數學問題解決方面表現良好,而其他模型在準確解釋和推理數學視覺方面的復雜性上表現掙扎。Qwen-VL [154]是TouchStone基準中數學任務的表現最佳者,表現出處理廣泛數學問題的強大能力。mPLUG-Owl在幾何和算術方面也表現良好,而PandaGPT [162]等模型表現明顯較差,通常在準確解決基本數學任務時表現出困難。在M3CoT [67]中,GPT-4V [164]表現最佳,準確率為46.97%,表現出處理這些任務的強大能力。LLaVA-V1.5-13B [25]取得了40.86%的中等準確率,表現合理,但在多步驟推理方面存在一些挑戰。CogVLM-17B的準確率為29.09%,在問題解決的一致性上表現較差。InstructBLIP-13B [155]表現最差,準確率為27.55%,表明在處理這些任務的復雜性方面面臨重大困難。數學任務在評估多模態大語言模型(MLLMs)中至關重要,因為它們測試了模型執行復雜推理、整合多模態數據(文本和視覺)并邏輯應用抽象概念的能力。 自然科學評估模型理解、推理和生成與各種自然科學領域相關的響應的能力。這些任務通常涉及生物學、化學、物理學和地球科學等主題,可能需要模型解釋和整合來自文本和視覺數據源的信息。在M3CoT中,評估了各種MLLMs在自然科學上的表現,以評估它們在生物學、化學和物理學等科學領域中處理多模態復雜推理的能力。GPT-4V [164]在測試的模型中在自然科學任務上表現最強。LLaVA-V1.5-13B [25]表現良好,但略低于GPT-4V [164]。CogVLM-17B和CogVLM-17B在自然科學任務中表現適中。在MUIRBENCH [30]中,GPT-4o和GPT-4-Turbo在自然科學任務上表現最佳,特別是在圖表和地理理解方面。其他模型如Gemini Pro和Mantis-8B-Idefics2表現中等,而VILA1.5-13B在處理這些任務的復雜性方面表現困難。在MMStar [24]中,GPT-4V(高分辨率)[164]在自然科學任務上領先,特別是在理解和推理科學內容方面。其他模型如GeminiPro-Vision和InternLM-XC2也表現良好,但熟練程度各不相同。在M3Exam [127]中,GPT-4在自然科學任務中表現最佳,準確率最高,展示了跨多種語言理解和推理科學內容的強大能力。ChatGPT和Claude緊隨其后,表現適中,而Vicuna在處理這些任務的復雜性方面表現掙扎更多。在SceMQA [119]中,GPT-4-V在SceMQA基準中的自然科學任務中表現最佳,特別是在生物學和化學等學科中,展示了強大的多模態推理能力。Google Gemini Pro表現良好,而InstructBLIP-13B [155]和MiniGPT4-13B在處理多模態科學推理的復雜性方面表現出更多挑戰。自然科學任務評估模型理解和推理復雜科學概念的能力,跨越多種模態,如文本和圖像。這些任務挑戰模型應用生物學、化學和物理學等領域的領域特定知識,反映了它們在教育和研究中的現實應用潛力。它們在這些任務上的表現突顯了模型在多模態整合和科學推理方面的優勢和劣勢,對于高級認知任務至關重要。 工程旨在評估模型理解、處理和應用工程概念、要求和技術文檔的能力。這些任務通常涉及解釋和綜合來自多個來源的信息,包括文本工程文檔、CAD圖像和工程圖紙。任務通常基于實際工程挑戰,如根據特定技術要求設計產品或確保符合工程標準。在DesignQA [130]中,GPT-4o-AllRules在工程任務中表現最佳,特別是在規則檢索和尺寸合規方面。GPT-4-AllRules也表現良好,但準確性略低。Claude-Opus-RAG在生成高質量解釋方面表現出色,而Gemini-1.0-RAG表現中等熟練。LLaVA-1.5-RAG在處理這些任務的復雜性方面表現困難,特別是在準確檢索和應用規則方面。在MMMU [75]中,GPT-4V [164]在工程任務中領先,特別是在處理復雜多模態內容方面,其次是SenseChat-Vision和Qwen-VL-MAX [154]等模型,雖然它們也表現良好,但存在一些局限性。其他模型如LLaVA-1.6-34B [176]和InstructBLIP-T5-XXL [155]表現中等熟練,但在更復雜的工程場景中面臨挑戰。
醫學任務旨在評估模型理解、推理和生成與醫學信息相關的響應的能力。這些任務通常涉及解釋和綜合來自各種模態的數據,如醫學文本、臨床圖像(如X射線、MRI等)和病歷。目標是評估模型應用醫學知識支持臨床決策、診斷、治療計劃和患者護理的能力。在MMMU [75]基準測試中,GPT-4V [164]在醫學任務中領先,特別是在處理復雜多模態內容方面,其次是SenseChat-Vision-0423-Preview和Qwen-VL-MAX [154]等模型,雖然它們也表現良好,但存在一些局限性。其他模型如LLaVA-1.6-34B [176]和InstructBLIP-T5-XXL [155]表現中等熟練,但在更復雜的醫學場景中面臨挑戰。在GMAI-MMBench [133]中,GPT-4o在醫學任務中領先,緊隨其后的是Gemini 1.5和GPT-4V [164]。醫學特定模型如MedDr表現合理,但總體上落后于表現最佳的通用模型,突顯了醫學任務的復雜性以及在該領域進一步發展的必要性。M3D [132]基準測試突顯了MLLMs如M3D-LaMed在處理復雜3D醫學圖像任務方面的能力。M3D-LaMed在報告生成和VQA方面表現出色,表明其在臨床決策支持和醫學圖像分析中的強大潛力。其他模型如RadFM雖然有能力,但在生成詳細醫學報告和回答臨床相關問題方面的準確性和精度方面落后。
AI代理指的是設計用于評估模型作為視覺基礎代理功能的任務。這些任務要求模型理解、交互和導航復雜的視覺環境和用戶界面,基于視覺和文本輸入做出高級決策并執行動作。在VisualAgentBench [135]中,GPT-4V [164]在AI代理任務中領先,任務成功率最高,展示了其在多模態推理和交互方面的強大能力。像Gemini 1.5和Claude-Next這樣的模型表現良好,但在處理更復雜的場景時面臨一些挑戰。其他模型如LLaVA-Next [176]和Qwen-VL [154]表現中等熟練,表明在進一步發展以提高其在AI代理任務中的有效性方面仍有改進空間,特別是在決策和任務執行方面。在EgoPlan-Bench [136]中,GPT-4V [164]在AI代理任務中領先,緊隨其后的是XComposer。這些模型表現出強大的規劃能力和有效利用視覺信息進行決策的能力。其他模型如Gemini-Pro-Vision和SEED-X表現合理,但在更復雜的場景中面臨挑戰。Yi-VL雖然有能力,但在有效整合視覺數據進行任務規劃方面落后。在PCA-EVAL [137]基準測試中,GPT-4V [164]在AI代理任務中脫穎而出,展示了跨不同領域的感知和行動方面的高準確性。GPT-4(HOLMES)系統也表現良好,特別是在需要多步驟推理和API集成的任務中。其他模型如QwenVL-Chat和MMICL表現中等能力,但在更復雜的場景中表現困難,而InstructBLIP [155]面臨顯著挑戰,反映了MLLMs在具體化決策任務中不同的有效性水平。AI代理任務在MLLM評估中至關重要,因為它們測試了模型作為基礎代理在復雜環境中實際應用的能力。這些任務有助于確定模型在需要深刻理解視覺和文本信息的任務中自主執行的能力,使其在機器人技術、用戶界面自動化和數字助手等現實應用中至關重要。
3D點云指的是模型需要理解、處理和分析由點云表示的3D空間數據的任務。這些任務通常涉及使用點云回答問題、定位對象或生成準確反映3D場景的描述。在ScanQA [141]中,ScanQA模型在3D點云任務中表現最佳,特別是在準確回答問題和定位3D空間中的對象方面。它優于其他模型,如ScanRefer + MCAN和VoteNet + MCAN,這些模型表現出一定的熟練程度,但在3D空間推理的復雜性上表現掙扎。在LAMM [142]中,基準MLLM在3D點云任務中表現出不同程度的熟練程度。雖然它表現出在3D對象檢測和VQA任務中執行的基本能力,但在3D視覺定位方面的表現明顯較弱,特別是在零樣本設置中。然而,經過微調后,尤其是在3D VQA任務中,模型的準確性幾乎達到完美。M3DBench [143]的結果顯示,LLaMA-2-7B模型在3D點云任務中表現強勁,特別是在VQA和多區域推理方面,取得了最高的BLEU-4和CIDEr分數。OPT-6.7B模型在具身規劃任務中也表現良好。Vicuna-7B-v1.5雖然有能力,但在大多數任務中的總體得分較低,表明在處理復雜的3D推理和規劃場景時面臨挑戰。3D點云任務在MLLM評估中的重要性體現在它們評估了空間推理、多模態整合和高級認知能力,這些在涉及3D環境的現實應用中至關重要。這些任務為評估MLLMs在處理復雜現實挑戰中的整體性能和穩健性提供了全面的基準。 視頻指的是涉及理解、分析和推理視頻內容的任務。這些任務評估模型理解視頻內容的視覺和時間方面的能力,并生成準確且上下文相關的響應。在MMBench-Video [144]中,模型A(例如,GPT-4V)在視頻任務中表現最佳,特別是在視頻問答(VideoQA)和事件識別等任務中表現出色。模型B(例如,LLaMA-2-7B)表現也不錯,但在處理復雜視頻場景時面臨一些挑戰。模型C(例如,Vicuna-7B-v1.5)表現中等能力,特別是在動作分類方面表現出色,但在更復雜的任務中表現滯后。在MVBench [146]中,VideoChat2在各種視頻任務中表現出色,顯著優于其他MLLMs如GPT-4V和VideoChat。VideoChat2在動作序列識別和場景轉換等任務中的出色表現突顯了其卓越的時間理解和視頻推理能力。同時,雖然GPT-4V表現出色,但在處理視頻任務的全范圍時沒有VideoChat2那么有效。VideoChat雖然表現適中,但在處理視頻理解的更復雜方面表現掙扎,表明當前MLLM方法在視頻任務上仍有顯著改進空間。在SOK-Bench [145]中,GPT-4V在視頻任務中表現最強,特別是在需要整合視覺和常識推理的情況下表現出色。AskAnything表現穩健但不一致,特別是在直接回答任務中表現出色,但在更復雜的推理任務中表現掙扎。Video-ChatGPT表現競爭力強,但在SOK-Bench場景中所需的復雜推理上表現更困難。 遙感指的是涉及分析和解釋來自衛星或機載傳感器的數據,以提取有關地表和環境的相關信息的任務。這些任務通常利用各種類型的遙感數據,如光學圖像、雷達數據和多光譜或高光譜影像,執行如土地覆蓋分類、變化檢測和環境監測等活動。在MDAS [149]中,像ResTFNet和SSR-NET這樣的模型在超分辨率任務中表現出色,而SeCoDe在光譜分離方面表現領先。結果表明,整合多種模態可以顯著提高土地覆蓋分類任務的性能。這些發現突顯了不同MLLMs在處理復雜遙感任務中的優勢和挑戰,展示了多模態數據融合在遙感應用中實現高精度和可靠性的必要性。在HighDAN [147]中,HighDAN在遙感任務中表現最佳,特別是在跨城市語義分割方面。它在整體準確性、平均IoU和F1得分方面表現出色,展示了其在不同城市環境中出色的泛化能力。SegFormer和DualHR表現也不錯,但在處理跨城市場景的復雜性時表現出一些局限性。在RSGPT [148]中,RSGPT在圖像描述和視覺問答任務中領先,展示了在生成準確和詳細描述以及回答有關遙感圖像復雜問題方面的明顯優勢。其他模型如InstructBLIP和BLIP2表現中等,但在處理遙感數據復雜性方面表現出明顯差距。MiniGPT4表現最差,特別是在保持輸出的相關性和準確性方面表現不佳。遙感任務在MLLM評估中至關重要,因為它們測試了模型整合和分析復雜多模態數據的能力,這對于環境監測和城市規劃至關重要。在這些任務中取得成功表明了模型處理大規模高分辨率遙感數據并根據多樣化信息源做出明智決策的能力。 音頻指的是設計用于評估模型理解、解釋和生成基于音頻信號的響應的特定任務。這些任務涉及各種類型的音頻數據,包括人類語音、自然聲音和音樂,并評估模型處理和與這些聽覺信息交互的能力。在AIR-Bench [150]中,Qwen-Audio Turbo和Qwen-Audio-Chat在音頻任務中的整體表現最佳,表現出在基礎音頻理解和復雜交互方面的強大能力。SALMONN和BLSP表現也不錯,特別是在處理聊天基準中的混合音頻方面。PandaGPT雖然在某些領域表現出色,但在任務上表現不穩定,表明在處理更復雜的音頻交互時仍有改進空間。在Dynamic-superb [151]中,Whisper-LLM和ImageBind-LLM在見過和未見過的音頻任務上表現強勁,特別是在說話人識別和副語言學方面表現出色。Whisper在內容相關任務中表現出色,但在推廣到新音頻任務上表現較為困難。BERT-GSLM和ASR-ChatGPT表現中等,在未見過的音頻任務中表現出顯著的弱點,突顯了這些模型在適應新場景方面面臨的挑戰。在MuChoMusic [152]中,Qwen-Audio在音頻任務中的表現領先,特別是在音樂理解的知識和推理維度上表現出色。M2UGen和SALMONN也表現良好,在各自的重點領域中表現強勁。像MuLLaMa和MusiLingo這樣的模型表現較低,突顯了這些模型在充分利用多模態音頻輸入以實現強大音樂理解方面面臨的挑戰。通過檢查音頻任務中的準確率和F1得分等表現指標,研究人員和從業者可以評估不同MLLMs在處理和解釋聽覺信息方面的能力。這種能力對于需要理解和響應復雜聽覺線索的多模態應用(如語音識別、音樂分析和基于聲音的決策系統)至關重要。
為了全面評估多模態大語言模型(MLLMs)的性能和能力,已經開發了各種基準測試。這些基準測試評估了一系列任務,從一般的多模態理解到特定的任務導向評估。在本節中,我們介紹了這些基準測試,分為兩類:一般基準測試,提供跨多個任務的廣泛評估,以及專門基準測試,側重于多模態模型性能的特定方面。
一般基準測試旨在提供對MLLMs在各種任務中的綜合評估,包括識別、推理和可信度。這些基準測試不僅評估模型的核心能力,還評估其可靠性和倫理考量,這對于將AI系統部署到現實場景中至關重要。例如,MMBench [21]評估MLLMs在基本識別任務中的表現,包括概念識別、屬性識別和動作識別。它提供了一個全面的框架,用于評估模型準確處理和理解視覺和文本信息的能力。MM-Vet [22]側重于模型的魯棒性和泛化能力,評估模型在不同條件下的表現,確保模型不過度依賴于特定數據集或場景。Seed-Bench [1]評估模型基于多模態輸入生成上下文相關和連貫輸出的能力,使其成為生成模型的一個重要基準測試。MME [23]提供了對MLLMs的廣泛評估,涵蓋了需要推理、感知和識別的任務。TouchStone [31]評估了模型在多個任務中的表現,提供了對其在各種多模態場景中表現的細致理解。MMStar [24]側重于結構化推理,評估模型在不同模態中進行邏輯推理的能力,確保多模態解釋的連貫性和準確性。LogicVista [34]測試多模態框架中的邏輯推理,挑戰模型導航復雜關系并生成邏輯一致的輸出的能力。 此外,還提出了幾個用于評估MLLMs可信度的基準測試。例如,POPE [93]專門評估大型視覺-語言模型中的對象幻覺。它評估了模型在響應視覺輸入時生成不正確對象的頻率和嚴重性,幫助識別和減輕模型輸出中與幻覺相關的問題。CHEF [87]提供了一個標準化的評估框架,用于評估MLLMs在一系列任務中的表現。它旨在提供一致且徹底的評估,確保模型符合既定的有效性和可信度標準。Multi-Trust [92]通過評估模型在公平性、偏見和倫理考量方面的表現,來評估MLLMs的可信度。 一般基準測試是評估MLLMs整體性能和可靠性的有效工具。它們確保模型能夠處理多樣化任務,同時保持高標準的可信度,使其適用于廣泛的應用。通過全面的評估,這些基準測試在推動穩健和倫理多模態模型的發展中發揮了關鍵作用。
專門基準測試旨在評估MLLMs在特定任務或領域中的表現,通常側重于需要專業評估的領域,如社會經濟、科學、醫學任務和其他應用。這些基準測試提供了對模型特定能力的詳細見解。 CVQA [111]專注于跨文化視覺問答,評估模型在多樣化文化背景下解釋和回答問題的能力。TransportationGames [114]基準測試評估模型在交通相關知識上的表現,測試它們在與交通相關的場景中解釋和應用信息的能力,強調實用推理和基于場景的理解。MathVerse [115]引入了一個綜合的視覺數學基準,旨在嚴格評估MLLMs的數學推理能力。ScienceQA [124]專門設計用于評估MLLMs執行科學問答任務的能力,這些任務需要多模態推理和鏈式思維(CoT)解釋。GMAI-MMBench [133]提供了一個專門用于評估MLLMs在醫學領域表現的基準。 專門基準測試提供了對于確保MLLMs能夠在各種專業領域中表現出色至關重要的評估。通過聚焦這些特定領域,如數學、科學、工程以及涉及醫學、3D點云和視頻數據的應用,這些基準測試補充了一般基準測試,提供了對模型能力的更深入見解,確保其在多樣化應用中的可靠性和有效性。
在本節中,我們介紹了MLLMs評估中常用的設置和任務,包括人工評估、GPT-4評估和指標評估。
人工評估 [25]在評估MLLMs的能力中起著至關重要的作用,尤其是對于那些需要高水平理解且難以通過傳統指標量化的任務。人工評估允許在多個維度上對MLLMs進行全面評估,包括:(1) 相關性:評估響應是否與預期指令一致;(2) 連貫性:確定響應是否在邏輯上結構合理且一致;(3) 流暢性:評估生成的輸出是否自然且語法正確。
盡管人工評估提供了有價值的見解,但它往往資源密集。為了解決這一問題,最近的一些研究 [25]利用了GPT-4 [181]的高級指令遵循能力,作為評估模型生成輸出質量的有效替代方法。GPT-4根據幫助性、相關性、準確性和細節等關鍵維度評估MLLMs,評分范圍為1到10,分數越高表示性能越優。此外,GPT-4可以為其評估提供詳細解釋,提供對模型優勢和改進領域的細致理解。
雖然人工評估和GPT-4評估提供了定性見解,但傳統評估指標對于定量評估MLLMs的性能仍然至關重要。這些指標提供了標準化和客觀的衡量標準,使其成為在不同任務中比較模型的可靠基準。具體來說,為了評估模型的識別能力,采用了多種指標,如準確率和平均精度 [1],[182],[183];而為了評估模型的感知能力,采用了如mIoU、mAP和Dice等指標 [184]。此外,為了評估模型生成文本或圖像的能力,廣泛采用了如BLEU、ROUGE和METEOR等指標 [185],[186],這些指標清楚地指示了模型在各種應用中的性能。
多模態大語言模型通過將強大的LLMs與各種模態編碼器(如視覺、音頻等)結合在一起,模仿了人類的感知系統,使模型具備了類似人類的能力,并暗示了實現人工通用智能的潛在途徑。隨著我們朝著AGI級別的MLLMs邁進,評估在其研究、開發和部署中起著至關重要的作用。在這篇綜述中,我們從不同角度廣泛回顧了MLLMs的評估方法,從背景到評估什么、在哪里評估以及如何評估。通過總結評估任務、基準測試和指標,我們的目標是增強對當前MLLMs狀態的理解,闡明其貢獻、優勢和局限性,并為未來MLLMs及其評估的研究提供見解。
視覺-語言基礎模型(VLFMs)在圖像字幕生成、圖文檢索、視覺問答和視覺定位等各種多模態任務上取得了顯著進展。然而,大多數方法依賴于使用通用圖像數據集進行訓練,缺乏地理空間數據導致在地球觀測方面表現不佳。最近提出了許多地理空間圖文對數據集和在其上進行微調的VLFMs。這些新方法旨在利用大規模多模態地理空間數據構建具有多樣地理感知能力的多功能智能模型,我們稱之為視覺-語言地理基礎模型(VLGFMs)。本文全面回顧了VLGFMs,匯總并分析了該領域的最新發展。特別是,我們介紹了VLGFMs興起的背景和動機,突出了其獨特的研究意義。然后,我們系統總結了VLGFMs采用的核心技術,包括數據構建、模型架構和各種多模態地理空間任務的應用。最后,我們總結了關于未來研究方向的見解、問題和討論。據我們所知,這是VLGFMs的首次綜合文獻綜述。我們持續追蹤相關工作:
//github.com/zytx121/Awesome-VLGFM。
在過去的十年中,研究人員在幾乎所有地理空間任務上都取得了顯著進展,例如場景分類[1]、目標檢測[2][3]、變化檢測[4]、去噪[5]、土地利用分割[6]、災害管理[7]和地理空間定位[8],這些進步是由深度學習和其他人工智能技術推動的。然而,這些模型是專門為特定任務設計和訓練的,因此難以直接應用于其他任務。即使是相似的任務,這些模型通常也表現出較差的泛化能力。
例如,遙感目標檢測是地球觀測的核心任務之一。它需要手動標注每個目標的位置和類別,這是一個耗時且勞動密集的過程。遙感圖像(RSIs)是由天基或空基傳感器從上方視角拍攝的,與自然圖像相比,這些圖像呈現了獨特的視角,導致了定向目標檢測的發展。由于該任務使用旋轉邊界框來表示目標,因此需要帶有旋轉邊界框標注的遙感數據集,如DOTA[9],來支持其訓練。此外,模型架構[10]、損失函數[11]、后處理函數和加速操作器[12]也必須基于標準目標檢測[13]進行修改。從這個角度來看,特定模型的應用場景似乎相當有限,缺乏跨任務甚至是相似任務之間的泛化能力。
為了減少為每個任務從頭開始訓練特定模型所浪費的資源,基礎模型[14]應運而生。這些模型在大規模圖像上進行預訓練,使它們能夠通過微調小規模的定制數據集來處理各種視覺任務。在遙感領域,先前對純視覺基礎模型的研究揭示了地球觀測通用模型的巨大潛力,稱為視覺地理基礎模型(VGFMs)。VGFMs在從單模態到多模態、從靜態到時態的全面評估中表現出顯著的泛化能力。盡管這些模型表現出強大的感知能力,但它們缺乏像人類一樣進行推理的能力。例如,沒有相應的標注樣本支持VGFM訓練,它無法通過考慮周圍環境和常識來確定遙感圖像中建筑物的具體功能,而人類則可以。類似地,沒有標注樣本,VGFM無法根據航空影像中的特征識別汽車的品牌或型號,而人類可以。
近年來,大型語言模型(LLMs)的發展徹底改變了人機交互。像BERT[16]這樣的LLMs利用大量文本數據來開發推理能力,顯示出在自然語言處理的各種任務中的顯著泛化能力。然而,LLMs只處理離散的文本數據,無法處理圖像,而視覺基礎模型雖然能夠處理圖像數據,但缺乏推理能力。為了彌合這些差距,引入了視覺-語言基礎模型(VLFMs)的概念。這些創新模型旨在進行感知和推理,整合來自文本和圖像的輸入。自從GPT-4 Vision發布以來,VLFMs的研究熱度不斷高漲,受到其強大能力的啟發。VLFMs的研究主要分為對比、對話和生成范式。下面,我們將簡要介紹三個方向中最具影響力的工作。具體而言,CLIP[17]采用對比范式,將視覺和文本信息投射到統一的表示空間,從而促進了下游視覺-語言任務的橋梁。LLaVA[18]體現了對話范式,使LLMs能夠在文本和視覺模態中進行上下文感知對話。Stable Diffusion[19],作為生成范式的代表,利用深度學習從文本描述中生成高質量、詳細的圖像,從而提升了圖像合成和創意視覺應用的能力。 當VLFMs應用于地球觀測時,本文將其稱為視覺-語言地理基礎模型(VLGFMs)。截至目前,VLGFMs也可以分為對比型、對話型和生成型。圖1列出了開發的代表性VLGFM及其發布時間。可以看出,VLGFMs首次出現在2023年第二季度。目前,相關工作的數量正處于快速增長期。值得注意的是,目前VLGFM的創新主要集中在收集訓練數據上,對模型架構的修改相對較少。大多數工作涉及基于LLaVA[18]和MiniGPT-4[20]框架,使用定制的遙感指令跟隨數據集進行微調。
隨著VLGFM的快速發展并展示出令人印象深刻的成果,追蹤和比較VLGFM的最新研究是值得的。它通過自然語言對話實現了人類與計算機的端到端交互,改變了依賴于預定義程序接口的傳統人機交互方式。據我們所知,目前沒有綜述全面總結VLGFMs的最新進展,包括數據管道、架構、基準和能力。我們的工作旨在填補這一空白。
貢獻。鑒于VLGFM的快速進展和令人鼓舞的成果,我們編寫了這篇綜述,旨在使研究人員了解VLGFMs的基本概念、主要方法和當前進展。這篇綜述提取了共同的技術細節,并涵蓋了VLGFMs領域最具代表性的工作。它還對背景和相關概念,包括VGFMs和遙感LLM驅動的代理進行了比較分析。此外,我們將VLGFMs的表現能力分為三個層次。據我們所知,這是關于VLGFMs的首次綜述。
綜述流程。在第2節中,我們提供了背景知識,包括定義、數據集、指標和相關研究領域。在第3節中,我們對基于不同數據收集方法、網絡架構和能力的各種方法進行了全面回顧。在第4節中,我們識別了挑戰和未來方向。
多任務學習(MTL)是一種學習范式,有效地利用任務特定和共享信息同時解決多個相關任務。與單任務學習(STL)相比,MTL提供了一系列優勢,增強了訓練過程和推理效率。MTL的主要優點包括流線型模型架構、性能提升和跨領域泛化能力。在過去二十年中,MTL已廣泛被認為是在包括計算機視覺、自然語言處理、推薦系統、疾病預測與診斷及機器人技術等多個領域中,一種靈活有效的方法。本綜述全面概述了MTL的演變,涵蓋了從傳統方法到深度學習乃至最新趨勢的預訓練基礎模型的技術層面。我們的綜述有條不紊地將MTL技術分類為五個關鍵領域:正則化、關系學習、特征傳播、優化和預訓練。這種分類不僅按時間順序概述了MTL的發展,還深入探討了每個類別內的各種專門策略。此外,綜述揭示了MTL如何從處理固定任務集合轉變為不受任務或模態限制的更靈活方法。它探討了任務可提示和任務不可知訓練的概念,以及零樣本學習的能力,這些都釋放了這一歷史上備受推崇的學習范式的未開發潛力。總的來說,我們希望這份綜述能為研究社區提供自1997年以來MTL進展的全面概覽,直至2023年。我們討論了當前挑戰,并展望未來的可能性,從廣泛的角度揭示了MTL研究的機遇和潛在途徑。這個項目可以在 //github.com/junfish/AwesomeMultitask-Learning 公開獲取。
在介紹中,我們希望在回顧多任務學習(MTL)的方法論之前回答以下五個研究問題(RQs): * RQ1:多任務學習的概念和定義是什么?(見§ 1.1) * RQ2:多任務學習如何從其他學習范式中區分出來?(見§ 1.2) * RQ3:在學習場景中使用多任務學習的動機是什么?(見§ 1.3) * RQ4:多任務學習的有效性依賴于哪些基本原理?(見§ 1.4) * RQ5:我們的綜述與以往的研究有何不同?(見§ 1.5)
在§ 1.1中,我們逐步介紹多任務學習(MTL),從廣義上開始,最終給出一個正式定義。隨后,§ 1.2探討了MTL在機器學習(ML)領域中的定位,與轉移學習(TL)、少樣本學習(FSL)、終身學習、多視圖學習(MVL)等相關范式進行比較。§ 1.3深入探討了采用MTL的動機,從明顯和微妙的角度提供見解,同時也討論了MTL如何惠及相關任務。在§ 1.4中,我們更深入地探討了支撐MTL的基本機制和理論,具體包括:1) 正則化,2) 歸納偏見,以及3) 特征共享,為理解其基本原理提供了解釋。最后,§ 1.5回顧了關于MTL的現有綜述,強調我們綜述的獨特貢獻,并為本文的其余部分制定了一個結構化的路線圖。我們綜述的結構在圖2中描述。在深入本綜述之前,讀者可以快速參考表1,了解與數據集、機構和新提出的方法無關的首字母縮寫詞列表,而數學符號概述則提供在表3和表6中。
在過去幾十年中,MTL的日益流行在圖3中得到了明顯體現,該圖顯示了與關鍵詞搜索“allintitle: 'multitask learning' OR 'multi-task learning'”相關的論文數量的趨勢,數據來源于谷歌學術。正如其名稱所示,MTL是ML的一個子領域,在此多個任務被共同學習。通過這種方式,我們希望利用這些相關任務之間的有用信息,并打破傳統的各任務獨立執行的做法。在單任務學習(STL)中,手頭任務的特定數據是支撐學習者的唯一來源。然而,MTL可以方便地轉移從其他任務學到的額外知識。MTL的本質在于通過結合數據資源和共享知識,利用任務之間的共識和補充信息。這揭示了一種更好的學習范式,可以減少內存負擔和數據消耗,并提高訓練速度和測試性能。例如,同時學習圖像中的單眼深度估計(測量到相機的距離)(Eigen等,2014年)和語義分割(為每個像素值分配一個類別標簽)(傅克勝和梅玉,1981年)是有益的,因為這兩個任務都需要感知有意義的對象。隨著實驗和理論分析持續驗證其有前途的結果,MTL已變得越來越普遍。例如,使用面部ID解鎖iPhone是一個典型但不易察覺的MTL應用,涉及同時定位用戶的面部和識別用戶。通常,當我們在優化階段嘗試處理兩個或更多的目標時,就會發生多任務處理。 因此,即使在執行帶有正則化的STL時,MTL也無處不在于ML中。這可以理解為有一個目標任務和一個額外的人為任務,例如通過?2正則化器學習受限模型或通過?1正則化器學習簡約模型。這些假設偏好可以作為歸納偏見,增強歸納學習者(Caruna, 1993)。在MTL的早期探索中(R. Caruana, 1997),所涉及任務提供的額外信息被視為其他任務的特定領域歸納偏見。由于從其他任務收集訓練信號比從模型設計或人類專業知識獲得歸納偏見更實際,因此我們可以通過這種MTL范式增強任何ML模型。 動機和好處: MTL可以從以下五個具有不同好處的角度受到激勵:認知/社會心理學、數據增強、學習效率、現實世界場景和學習理論。
從心理學角度看,人類天生具有適應新問題和環境的靈活性,因為人類學習過程可以將一種經驗中的知識轉移到另一種經驗中(Council等,2000)。因此,MTL的靈感來自于模擬這一過程,賦予模型多任務處理的潛力。巧合的是,這種知識轉移也發生在組織之間(Argote等,2000)。已證明,具有更有效知識轉移的組織更具生產力,并且更有可能生存下來。這些在其他領域的轉移或互惠的先前成功鼓勵了ML中任務的聯合學習(R. Caruana, 1997)。
在大數據時代之前,現實世界的問題通常由小型但高維的數據集表示(樣本數 < 特征數)。這種數據瓶頸迫使早期方法學習一個稀疏結構的模型,總是導致對數據不足問題的簡約解決方案。然而,MTL的出現是為了聚合來自不同領域或任務的標記數據,以擴大訓練數據集,對抗過擬合。
追求效率和效果也是動機之一。MTL可以將來自不同來源的數據聚合在一起,多任務的聯合訓練過程可以節省計算和存儲資源。此外,性能提升的潛力使其在研究社區中廣受歡迎。簡而言之,可以從多源數據中學習任何任務的通用表征,并在學習成本和性能方面惠及所有任務。
由于大多數現實世界問題自然是多模態或多任務的,MTL被提出來補救STL只單獨模擬部分問題而達到的次優。例如,預測阿爾茨海默病(AD)生物標志物對輕度認知障礙(MCI)風險和臨床診斷的進展同時基于多模態數據,如計算機斷層掃描(CT)、磁共振成像(MRI)和正電子發射斷層掃描(PET)(H. Chen等,2022;Jie等,2015;Kwak等,2018)。自動駕駛是另一個例子,也涉及多個子任務來計算最終預測(Chowdhuri等,2019;Z. Yang等,2018),包括識別周圍物體、根據交通條件調整最快路線、效率與安全之間的平衡等。
從學習理論的角度看,已證明無偏學習是不可能的(Mitchell,1980),因此我們可以通過使用相關任務的額外訓練信號來激發MTL。通常,MTL是通過多任務協助實現歸納轉移的方式之一,它可以提高學習速度和泛化能力。具體來說,在多任務聯合訓練過程中,某些任務可以從其他相關任務獲得歸納偏見,這些較強的歸納偏見(與通用正則化器相比,例如?2)能夠實現知識轉移,并在固定訓練數據集上產生更多的泛化能力。換句話說,與任務相關的偏見使學習者更傾向于可以解釋多個任務的假設,并防止特定任務過擬合。
機制與解釋。 在本節中,我們將探討三個關鍵機制——正則化、歸納偏見和特征共享——這些機制揭示了MTL如何操作以在多個任務中實現性能增強。
正則化。在MTL中,總損失函數是針對每個任務的多個損失項的組合。相關任務充當正則化器的角色,增強了跨任務的泛化能力。MTL模型的假設空間因同時處理多個任務而被限制在更狹窄的范圍內。因此,對假設空間這種約束減少了模型復雜性,減輕了過擬合的風險。
歸納偏見。共訓練任務的訓練信號由于它們共享的領域信息而充當相互歸納偏見。這些偏見在訓練期間促進跨任務知識轉移,引導模型偏好與任務相關的概念而不是任務本身。因此,這擴展了模型的視野,超越單一任務,增強了其對未見分布(OOD)數據的泛化能力。
特征共享。MTL可以在相關任務之間實現特征共享。一種方法涉及選擇重疊特征并最大化其在所有任務中的利用率。這被稱為“竊聽”(Ruder,2017),考慮到某些特征可能對特定任務不可用,但可以由相關任務學習的特征替代。另一種方式是將不同任務提取的所有特征合并在一起;這些特征可以通過線性組合或非線性轉換在任務之間整體使用。
總的來說,通過正則化、歸納轉移和特征共享,MTL可以是提升ML模型在多個任務上性能的一種高效且有效的方式。 貢獻與亮點。
現有綜述。Ruder (2017) 的研究是MTL的先鋒綜述,提供了MTL的廣泛概述,并專注于2015年到2017年深度神經網絡的進展。Thung和Wee (2018) 從輸入輸出變體的分類學角度回顧了MTL方法,主要集中在2016年之前的傳統MTL。這兩篇綜述可以相輔相成。Vafaeikia等人 (2020) 是一份不完整的綜述,簡要回顧了近期的深度MTL方法,特別關注于選擇輔助任務以增強學習性能。Crawshaw (2020) 從應用的角度介紹了2020年之前的成熟和先進的MTL方法。Vandenhende等人 (2021) 提供了在密集預測任務中深度MTL的全面綜述,這些任務生成像素級預測,如在語義分割和單眼深度估計中。Y. Zhang和Yang (2021) 首先從基于特征和基于參數的方法的分類學提供了MTL模型的全面概述,但對深度學習(DL)方法的包含有限。值得注意的是,所有這些綜述都忽略了過去三到四年MTL的發展,即大型PFMs(預訓練基礎模型)時代(Bommasani等,2021;C. Zhou等,2023),以GPT系列模型為代表(Brown等,2020;OpenAI,2023;Radford等,2018,2019)。
路線圖。本綜述采用了一個組織良好的結構,區別于其前輩們,展示了MTL從傳統方法到DL以及由PFMs引入的創新范式轉變的演變之旅,如圖1所示。在§ 2.1中,我們提供了傳統MTL技術的全面總結,包括特征選擇、特征轉換、分解、低秩因子化、先驗共享和任務聚類。接下來,§ 2.2致力于探索深度MTL方法的關鍵維度,包括特征融合、級聯、知識蒸餾、跨任務注意力、標量化、多目標優化(MOO)、對抗訓練、專家混合(MoE)、基于圖的方法和NAS。§ 2.3介紹了PFMs的最新進展,分類基于任務可泛化微調、任務可提示工程以及任務不可知統一。此外,我們在§ 3中提供了MTL的雜項方面的簡潔概述。§ 4提供了寶貴的資源和工具,以增強研究人員和實踐者與MTL的互動。我們的討論和未來方向在§ 5中呈現,隨后是我們在§ 6中的結論。這篇綜述的目標是三重的:1) 為新來者提供MTL的全面理解;2) 作為工程實踐者的工具箱或手冊;3) 通過提供對MTL未來方向和潛力的洞察,激發專家的靈感。
大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。
近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):
在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。
組織結構
本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。
結論
在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。
檢索增強型生成(Retrieval-Augmented Generation, RAG) 將檢索方法與深度學習的進展結合起來,旨在解決大型語言模型(LLMs)的靜態限制,通過動態整合最新的外部信息。這種方法主要關注文本領域,提供了一個成本效益高的解決方案,用以改進LLMs生成的可能正確但實際錯誤的回答,從而通過使用真實世界數據提高其輸出的準確性和可靠性。隨著RAG在復雜性上的增長,并融入多個可能影響其性能的概念,本文將RAG范式組織為四個類別:預檢索(pre-retrieval)、檢索(retrieval)、后檢索(post-retrieval)和生成(generation),從檢索的視角提供了詳細的觀點。文中概述了RAG的發展,并通過分析重要研究討論了該領域的進展。此外,本文還介紹了對RAG的評估方法,討論了所面臨的挑戰,并提出了未來的研究方向。通過提供一個有組織的框架和分類,該研究旨在整合現有關于RAG的研究,闡明其技術基礎,并強調其擴展LLMs的適應性和應用潛力。
//www.zhuanzhi.ai/paper/64e819fddc014c8a615b8e9beb7c5deb
ChatGPT的出現因其交互能力和廣泛的應用而顯著影響了學術界和工業界,已成為領先的人工智能工具(Laskar等人,2023年;Jahan等人,2023年;Huang與Huang,2024年)。ChatGPT的核心是大型語言模型(LLM)GPT-4,正如(OpenAI等人,2023年)所詳述,它在其前身的基礎上進行了多項增強,展示了在各種自然語言處理(NLP)任務中的卓越能力(Laskar等人,2020年)。盡管有這些進步,LLMs的采用突顯了幾個關鍵問題,主要是由于它們依賴于大量數據集。這種依賴限制了它們在訓練后納入新信息的能力,導致三個主要挑戰。首先,側重于廣泛和通用數據以最大化可訪問性和適用性,結果在專業領域的性能不佳。其次,網絡數據的快速創建,加上數據注釋和模型訓練所需的大量資源,阻礙了LLMs的更新能力。第三,LLMs易于生成令人信服但不準確的回答,這種情況被稱為“幻覺”,可能會誤導用戶。 解決這些挑戰對于LLMs在各個領域的有效利用至關重要。一個有前景的解決方案是整合檢索增強型生成(Retrieval-Augmented Generation,RAG)技術,該技術通過在回應查詢時獲取外部數據來補充模型,從而確保輸出更準確、更及時。圖1演示了RAG如何使ChatGPT能夠提供超出其初始訓練數據的精確答案。自從Lewis等人(Lewis等人,2020b)在2020年引入RAG技術以來,特別是受到ChatGPT成功的影響,RAG技術已經取得了重大進展。然而,在文獻中關于RAG機制的徹底分析以及后續研究所取得的進展方面存在明顯的差距。此外,該領域的研究重點多樣,對類似方法使用的術語含糊其辭,導致混淆。本文旨在通過提供RAG的結構化概述、分類各種方法,并對這一研究領域提供深入理解,以闡明這些方面。本綜述主要關注RAG的文本應用,反映了當前這一領域研究工作的重點. RAG結合檢索方法和先進的深度學習來解決兩個主要問題:有效檢索相關信息和生成準確的回應。RAG的工作流程在第2節中概述,將方法分類為預檢索、檢索、后檢索和生成階段。從第3節到第6節,對這些階段內的技術進行了深入分析。第7節提供了所審查研究的總結,以及使用的檢索器和生成器。第8節詳述了RAG的評估方法。第9節探討未來研究方向,專注于基于文本的研究,并擴展到圖像和多模態數據的考慮。結論在第10節提出。 本文的貢獻有三個方面:本文為理解RAG領域提供了一個全面的框架,確定了改進的領域和未來研究的挑戰。它對RAG的核心技術進行了詳細分析,考察了它們在解決檢索和生成問題上的優勢。此外,它介紹了RAG研究中使用的評估方法,突出了當前的挑戰,并提出了未來研究的有希望的方向。 2 RAG框架
幻覺問題主要歸因于LLMs無法獲取最新信息的問題。這一限制源自模型依賴其訓練數據集。RAG通過利用檢索模型補充LLM的訓練數據與外部來源的當前信息,提出了解決這一問題的方案,從而使生成的回答更準確。RAG提供了一個成本效率更高的選擇,相比通常需要的大量訓練和微調過程而言。它允許通過傳統的檢索方法或預訓練的語言模型(LMs),動態地合并新鮮信息,無需直接將這些新數據整合到LLM中。這一特性使RAG具有靈活性和可擴展性,便于在不同的LLM上針對各種目的進行應用。通過RAG檢索的信息來自實際的人類編寫的數據,這不僅簡化了生成過程,還提高了生成回答的可靠性。圖2展示了統一的RAG框架以及基本工作流程和范式。 Khandelwal等人的研究(Khandelwal等人,2020年)表明,從訓練數據集本身獲取相關信息可以顯著提高LLM的性能,凸顯了RAG的有效性。隨著時間的推移,RAG已從提供補充信息的手段發展成為使檢索和生成組件之間進行多次交互的工具。這涉及進行多輪檢索以提煉檢索信息的準確性,并迭代提高生成輸出的質量。如LangChain1和LlamaIndex2等平臺已將RAG方法模塊化,增強了其適應性并擴展了應用范圍。盡管這些平臺采用多種方法解決RAG的不同方面——從多次搜索迭代到迭代生成——它們保持對基本RAG工作流程的遵守。這種一致性對于理解它們的操作和指明進一步發展的機會至關重要。
2.1 基本RAG工作流程RAG的基本工作流程從創建一個包含外部資源的索引開始。這個索引是基于特定查詢通過檢索模型檢索相關信息的基礎。最終步驟涉及一個生成模型,該模型將檢索到的信息與查詢結合,以產生所需的輸出。 2.1.1 索引高效的檢索始于全面的索引,其中數據準備是關鍵。這一階段涉及文本規范化過程,如分詞、詞干提取和停用詞移除,以增強文本的索引適用性(Manning等人,2008年)。然后,文本段落被組織成句子或段落,以便進行更有針對性的搜索,允許精確定位包含相關關鍵詞的段落。深度學習的整合通過使用預訓練的語言模型為文本生成語義向量表示,徹底革新了索引技術。這些向量被存儲,使從龐大的數據集中快速且精確地檢索成為可能,顯著提高了檢索效率。
2.1.2 檢索傳統的檢索方法,如BM25算法(Hancock-Beaulieu等人,1996年),側重于文檔排名的術語頻率和存在性,但通常忽視了查詢的語義信息。當前策略利用像BERT(Devlin等人,2019年)這樣的預訓練語言模型,更有效地捕捉查詢的語義本質。這些模型通過考慮同義詞和短語結構,提高搜索精度,通過檢測語義相似性來精細化文檔排名。這通常是通過測量文檔和查詢之間的向量距離實現的,將傳統檢索指標與語義理解結合,以產生既相關又符合用戶意圖的搜索結果。
2.1.3 生成生成階段的任務是產生既與查詢相關又反映檢索文檔中信息的文本。常用方法包括將查詢與檢索信息連接起來,然后輸入到一個LLM中進行文本生成(Li等人,2022年)。盡管確保生成文本的一致性和準確性面臨挑戰,但在嚴格遵循源材料和注入輸出創造性之間找到平衡也是必要的。生成的文本應準確傳達檢索文檔的信息并與查詢意圖一致,同時也提供引入未在檢索數據中明確包含的新見解或視角的靈活性。 2.2 RAG范式RAG范式在領域內組織研究,提供一個簡單而強大的框架以增強LLM的性能。RAG的核心是其搜索機制,對生成高質量結果至關重要。因此,從檢索角度看,這一范式被結構化為四個主要階段:預檢索、檢索、后檢索和生成。單跳和多跳檢索方法,包括迭代檢索-生成周期,遵循這四個階段的結構。圖3是RAG核心技術的分類樹。
2.2.1 預檢索檢索增強生成的預檢索階段為成功的數據和查詢準備奠定基礎,確保信息檢索的效率。這一階段包括準備有效數據訪問的必要任務。索引:過程從索引開始,建立一個有組織的系統,以實現信息的快速和準確檢索。索引的具體性取決于任務和數據類型。例如,針對問答系統,句子級索引有助于精確定位答案,而文檔級索引更適合于總結文檔以理解其主要概念和思想。查詢操作:索引后,進行查詢操作以更好地匹配索引數據。這涉及查詢重構(Jansen等人,2009年;Yu等人,2020年),它重寫查詢以更緊密地符合用戶意圖;查詢擴展(Huang等人,2013年),通過同義詞或相關術語擴展查詢以捕獲更相關的結果;以及查詢規范化,解決拼寫或術語上的差異以實現一致的查詢匹配。數據修改:數據修改在提高檢索效率方面也至關重要。這一步包括預處理技術,如移除無關或冗余信息以提高結果質量,并通過如元數據等附加信息豐富數據,以增強檢索內容的相關性和多樣性(Bevilacqua等人,2022a)。
2.2.2 檢索搜索與排名:檢索階段是搜索與排名的結合。它專注于從數據集中選擇和優先考慮文檔,以提高生成模型輸出的質量。這一階段使用搜索算法來導航索引數據,查找與用戶查詢匹配的文檔。識別相關文檔后,開始對這些文檔進行初步排名,按其與查詢的相關性進行排序。
2.2.3 后檢索后檢索階段旨在完善最初檢索的文檔,提高文本生成的質量。這一階段包括重新排序和過濾,每項都旨在優化文檔選擇以完成最終的生成任務。重新排序:在重新排序步驟中,之前檢索的文檔被重新評估、評分并重新組織。其目標是更準確地突出與查詢最相關的文檔,并降低不太相關文檔的重要性。這一步涉及結合額外的度量和外部知識源以提高精確性。在這種情況下,可以有效地使用精確度更高但效率較低的預訓練模型,因為可用的候選文檔集有限(Huang和Hu,2009年)。過濾:過濾旨在移除未達到特定質量或相關性標準的文檔。這可以通過幾種方法完成,例如設定最低相關性分數閾值以排除低于某一相關性級別的文檔。此外,使用用戶或先前相關性評估的反饋有助于調整過濾過程,確保只保留用于文本生成的最相關文檔(Khattab和Zaharia,2020年;Huang和Huang,2023年)。
2.2.4 生成生成階段是RAG流程的關鍵組成部分,負責利用檢索到的信息增強生成響應的質量。這一階段包括幾個旨在產生可讀、吸引人及富有信息量的內容的子步驟。增強:生成階段的核心是增強步驟,其目標是將檢索到的信息與用戶的查詢合并,創建一個連貫且相關的響應。這包括闡述過程,向檢索內容添加額外的細節以豐富它。努力專注于通過重述和重組等方法提高輸出的質量,增加其清晰度、連貫性和風格吸引力。將來自各種來源的信息結合在一起,提供全面的視角,并進行驗證,以確保內容的準確性和相關性。定制:定制是一個可選步驟,涉及調整內容以符合用戶的特定偏好或請求的上下文。這種調整包括根據目標觀眾的需求或內容呈現的格式調整內容,并壓縮信息以簡潔地傳達內容的本質。這個過程還包括創建強調關鍵點或論點的摘要或概要,確保輸出既信息豐富又簡潔。
圖是一種自然表示方式,適用于基于連接實體之間關系的系統。當考慮與感興趣的過程相關的目標函數時,會出現組合優化問題,這些問題通常具有挑戰性,因為解決方案空間的迅速增長。強化學習的試錯范式最近已經成為一種有前景的替代傳統方法,如精確算法和(元)啟發式算法,用于在化學、計算機科學和統計學等多種學科中發現更好的決策策略。盡管這些技術源自截然不同的領域,但它們具有顯著的共性。因此,我們著手將這些工作綜合在我們稱之為圖強化學習的統一視角中,將其解釋為圖問題的一種構造性決策方法。在介紹相關的技術背景后,我們回顧了這些研究工作,并沿著是否旨在優化給定過程的圖結構,或在固定圖結構下優化過程本身的結果這一分界線進行了評述。最后,我們討論了該領域面臨的共同挑戰和開放性研究問題。與其他綜述不同,本工作關注于非典型圖問題,對于這些問題,通常沒有已知的高效算法,而強化學習能夠提供高效且有效的解決方案。
圖是一個數學概念,用于形式化由關系(邊)連接的實體(節點)的系統。超越原始拓撲結構,圖中的節點和邊常常與屬性相關聯:例如,一個邊可以與距離度量的值相關聯(Barthélemy, 2011)。通過這樣的特性增強,圖成為了一種強大的形式主義,能夠表示各種系統。這種靈活性使得它們被廣泛應用于計算機科學、生物學和社會科學等多樣的領域(Newman, 2018)。這種類型的數學建模可以用來分析性地檢查網絡的結構和行為,構建預測模型和算法,并將它們應用于實際問題。除了描述在圖上發生的過程外,一個自然的問題是如何介入網絡以優化給定過程的結果。這類在離散結構上的組合優化問題通常具有挑戰性,因為解決方案空間的迅速增長。一個著名的例子是旅行商問題(TSP),它要求在一個完全連通的圖中找到一個哈密頓回路,使得路徑長度總和最小化。
近年來,機器學習(ML)開始作為解決組合優化問題的有價值工具而興起,研究人員預計其影響將是革命性的(Bengio et al., 2021; Cappart et al., 2021)。特別是,強化學習(RL)的范式已顯示出通過試錯發現能夠勝過傳統精確方法和(元)啟發式方法的算法的潛力。一個常見的模式是將感興趣的問題表達為一個馬爾可夫決策過程(MDP),在其中,一個代理逐步構建解決方案,并根據其優化目標函數的能力獲得獎勵。從MDP公式開始,可以透明地應用各種RL算法,這使得這種方法在可以解決的問題類型上非常靈活。與此同時,開始出現了使用RL解決圖組合優化問題的工作,涵蓋了從化學(You et al., 2018a),計算機科學(Valadarsky et al., 2017),經濟學(Darvariu et al., 2021b)到統計學(Zhu et al., 2020)等多種科學領域。
本綜述的目標是提出一個統一框架,我們稱之為圖強化學習(Graph RL),用于處理圖上的決策問題。我們將綜合可以在這個新興范式的背景下解釋的各種方法。我們將討論幾個組合優化問題,重點是那些通常不知道有效、高性能算法的非典型問題。事實上,最近的綜述關注的是應用RL解決典型問題的作品,我們使用“典型問題”這一術語來指代可能已經被研究了幾十年的問題。例如,僅關于解決上述TSP的研究就可以追溯到近70年前Dantzig等人的論文(1954),并且存在非常有效的算法可以最優地(Applegate et al., 2009)或近似地(Lin & Kernighan, 1973; Helsgaun, 2000)解決多達數千萬節點的實例。其他值得注意的典型問題包括最大獨立集(Ahn et al., 2020)、最大割(Khalil et al., 2017; Ahn et al., 2020)以及諸如車輛路徑問題(VRP)(Kool et al., 2019; Kim & Park, 2021)等路由問題。除了少數例外,盡管在這些基準問題上的工作對于推動基于ML方法的極限很重要,但目前它們還不能直接與成熟的、高度優化的啟發式和精確求解器競爭。因此,本文與其他綜述(Mazyavkina et al., 2021; Wang & Tang, 2021)和觀點(Bengio et al., 2021; Cappart et al., 2021)相輔相成,無論是在提出統一范式還是關注非典型問題方面。
本文的其余部分如下組織。在第2節中,我們提供了關于圖上的組合優化問題及其使用RL方法的相關技術背景。隨后,在第3節中,我們回顧了考慮優化圖結構的工作(即,從頭開始創建圖或修改現有圖)以使目標函數最大化。然后,在第4節中,我們綜述了在固定圖結構下優化過程的論文。第5節討論了在應用這些技術時面臨的常見挑戰,這些也可以視為未來工作中需要解決的重要研究問題,此外還總結了一些關鍵的應用領域。我們在第6節以圖強化學習作為解決圖上組合優化問題的統一范式的討論來結束本文。
圖結構優化在機器學習(ML)處理典型圖組合優化問題的工作中,一個共有的特點是它們通常不涉及對圖的拓撲結構進行改變。具體來說,需要在假設網絡結構保持固定的情況下找到解決方案。學習構建圖或修改其結構以優化給定目標函數的問題在ML文獻中相對較少關注。在這一部分,我們回顧了處理修改圖拓撲結構以優化感興趣的量的問題的工作,并使用強化學習(RL)來發現實施這一過程的策略。這是通過與環境的互動來執行的。
在高層次上,這類問題可以被表述為尋找滿足argmaxG∈G F(G)的圖G,其中G是要搜索的可能圖的集合,F如前所述,是目標函數。我們在圖2中示意了這一過程。精確的框架取決于問題,并可能涉及從一個空圖開始還是從一個現有的圖開始選擇,以及對圖的有效性如空間限制、非循環性或平面性施加約束。如圖3所示,動作空間的設計也可以變化。代理可能被允許進行邊的添加、移除和重連,或者這些操作的某種組合。 鑒于范圍的自然限制,我們只考慮那些(1)使用圖表示問題;(2)通過RL訓練策略進行結構優化的工作。讓我們簡要討論一下相關但不在討論范圍內的一系列工作。ML文獻中的幾項工作考慮了生成與提供的數據集具有類似屬性的圖。這通常使用深度生成模型執行,并可被視為經典圖生成模型的基于ML的替代方法,例如Barabási & Albert(1999)的模型。這些工作主要使用最終圖(即“成品”)的示例數據集,并不使用中間的,從某種意義上說,對應于生成過程本身的步驟。它們還需要大量相關的示例集合,這些可能并不總是可用的,具體取決于領域。
在這一領域,使用自回歸模型(如LSTM或GRU)的工作類似于MDP公式;例如添加邊的決策可以被視為序列中的一個標記,由模型學習。這一領域的一些值得注意的工作包括Li等人(2018)提出的技術,GraphRNN(You等人,2018b),以及圖重復注意網絡(Liao等人,2019)。其他類型的生成模型,如變分自編碼器和生成對抗網絡,也被用于生成分子(Kusner等人,2017; Guimaraes等人,2018; De Cao & Kipf, 2018; Jin等人,2018)。
本節的其余部分深入回顧了相關論文,按問題家族分組。我們涵蓋了旨在學習如何攻擊GNN、設計網絡結構、發現因果圖和構建分子圖的工作。考慮的論文根據其采用的技術和特點在表1中進行了總結。 在這項綜述中,我們討論了圖強化學習這一新興領域,這是一種通過試錯學習來解決圖上計算挑戰性優化問題的方法。我們特別關注那些尚未知曉高效算法的問題,以及傳統的啟發式和元啟發式算法通常無法提供滿意性能的問題。我們將這些工作分為兩類。第一類是圖結構優化,包括需要找到最優圖結構的問題,這在對抗性攻擊圖神經網絡、網絡設計、因果發現和分子優化等領域有顯著應用。第二類是圖過程優化,將圖結構視為固定不變,代理在離散的可能控制行動空間中進行搜索,以優化過程的結果。這包括網絡路由、游戲、傳播過程和圖搜索等問題。最后,我們討論了該領域面臨的主要挑戰,其解決可能具有非常重大的影響。
多標簽學習是一個迅速發展的研究領域,旨在從單個輸入數據點預測多個標簽。在大數據時代,涉及多標簽分類(MLC)或排名的任務提出了重大而復雜的挑戰,在多個領域吸引了相當多的注意力。MLC固有的困難包括處理高維數據、解決標簽相關性和處理部分標簽,傳統方法在這些方面效果不佳。近年來,采用深度學習(DL)技術來更有效地解決MLC中的這些挑戰的嘗試顯著增加。值得注意的是,有一個增長中的努力旨在利用DL的強大學習能力,以改進對標簽依賴性及MLC中其他挑戰的建模。 然而,值得注意的是,專門針對多標簽學習的DL的綜合研究相對有限。因此,這項綜述旨在徹底回顧DL在多標簽學習中的最新進展,以及MLC中開放研究問題的總結。 該綜述整合了DL在MLC中的現有研究努力,包括深度神經網絡、變換器(Transformer)、自編碼器、卷積和循環架構。最后,該研究提出了現有方法的比較分析,以提供有洞察力的觀察,并激發該領域未來研究方向的思考。
在許多實際應用中,一個對象可能同時與多個標簽關聯,這類問題被認為是多標簽學習(MLL)【1】。MLL是標準單標簽學習范式的擴展,在這個范式中,通常有一個有限的潛在標簽集,這些標簽可以應用于多標簽數據(MLD)的實例。基本目標是同時預測給定單個輸入的輸出向量,這意味著它可以解決更復雜的決策問題。這與單標簽分類相對,單標簽分類中每個實例只與一個標簽關聯。在多標簽任務的上下文中,一個實例通常與一組標簽相關聯,構成稱為相關標簽(活動標簽)的不同組合,而與實例未鏈接的標簽被稱為不相關標簽。相關和不相關標簽都表示為一個二進制向量,其大小與MLD中標簽的總數對齊。根據目標的不同,MLL中存在兩個主要任務:多標簽分類(MLC)和多標簽排名(MLR)【2】。MLC是主要的學習任務,涉及學習一個模型,該模型輸出一個標簽集的二分劃分,將其分為與查詢實例相關和不相關的標簽。另一方面,MLR關注于學習一個模型,該模型輸出類標簽的排序,根據它們對查詢實例的相關性進行排序。
盡管MLC應用傳統上集中在文本分析、多媒體和生物學上,但它們的重要性正在逐漸增長,涵蓋了多個領域,如文檔分類【3】【4】【5】、醫療保健【6】【7】【8】、環境建模【9】【10】、情感識別【11】【12】、商業【13】【14】、社交媒體【15】【16】【17】等。許多其他要求嚴格的應用,如視頻注釋、網頁分類和語言建模,也可以從被構建為MLC任務中獲益,這涉及到數百、數千甚至數百萬的標簽。如此廣泛的標簽空間提出了研究挑戰,例如與數據稀疏性和可擴展性相關的問題。MLC還包含額外的復雜性,包括建模標簽相關性【18】【19】、不平衡標簽【20】和噪聲標簽【21】。傳統的MLC方法,如問題轉換和算法適配【22】【23】,在解決這些挑戰時表現出次優性能。
除了傳統方法外,深度學習(DL)技術在解決MLC挑戰中越來越受歡迎。深度學習的強大學習能力特別適用于解決MLC挑戰,這通過它們在解決單標簽分類任務中的顯著成功得到了證明。目前,MLC中的一個主要趨勢是廣泛地結合DL技術,即使是對于更具挑戰性的問題,如極端MLC【24】【25】【26】、不平衡MLC【27】【28】、弱監督MLC【29】【30】【31】和缺失標簽的MLC【32】【33】。有效地利用DL的強大學習能力對于更好地理解和建模標簽相關性至關重要,從而使DL能夠有效地解決MLC問題。一些研究表明,專門設計用于捕獲標簽依賴性的MLC方法通常展示出更優越的預測性能【34】【19】。本文對現有文獻進行了簡要回顧,旨在識別一系列基于DL的技術用于MLC問題,以激發對MLC的創新DL基方法的進一步探索。已有一些關于MLC傳統方法的綜述,如在【35】【23】【36】中引用的那些。此外,還有一些綜述包含了傳統方法和DL方法【37】【38】,但這些綜述對MLC的DL方法的覆蓋有限,并且集中在特定領域。然而,本文獨特地關注于一系列DL架構,包括循環和卷積網絡、變換器、自編碼器和混合模型,用于解決多個領域中的MLC挑戰。在圖1中,我們提出了一個包含傳統方法和DL方法的多標簽學習方法的分類。
本文的主要貢獻可以概括如下:
據作者所知,本綜述是第一個全面覆蓋用于解決MLC任務的DL方法的,涵蓋了多種領域和數據模態,包括文本、音樂、圖像和視頻。
提供了一個關于多個公開可用數據集上最新DL方法的綜合總結(表I、II和III),簡要概述了每種DL方法并進行了深刻的討論。因此,本綜述為讀者提供了最先進的方法。
我們提供了當前面臨MLC領域挑戰的簡要描述。此外,我們還總結了在MLC中使用的多標簽數據集,以及評估這些數據集特性所用的屬性定義。 最后,本文提供了一項涉及各種DL技術的現有方法的比較研究,并調查了每種方法的優缺點(表V)。它提供了可以指導選擇合適技術和在未來研究中開發更好DL方法的見解。 本文的后續部分組織如下。 第II部分介紹多標簽學習的基本概念。第III部分介紹了研究方法論,重點是數據來源和搜索策略、選擇標準以及出版物的統計趨勢。第IV部分是本綜述的主要部分,討論了解決MLC挑戰的各種DL方法。第V部分關注MLC中的開放性挑戰和數據集。第VI部分提供了解決方案的比較分析,包括優勢和局限。最后,第VII部分給出了本文的結論。
近年來,DL(深度學習)的進步顯著豐富了MLC(多標簽分類)的領域景觀。DL架構在生成輸入特征和輸出空間的嵌入表示方面發揮了關鍵作用。DL的強大學習能力在各個領域的MLC任務中得到了廣泛應用,例如圖像、文本、音樂和視頻。用于MLC的最常用DL方法包括深度神經網絡、卷積、循環、自編碼器和變壓器架構,以及混合模型。有效地利用這些DL方法的優勢對于解決MLC中的標簽依賴性和其他挑戰至關重要。本節提供了這些突出DL方法在MLC中的應用概覽,并對每種技術進行了專門針對MLC的詳細考察。
目前的測試和評估(T&E)方法包括以黑盒方式處理系統,即向系統提供樣本輸入,觀察相應的輸出,并將其與期望值進行比較。雖然這種方法對傳統的靜態系統很有效,但由于智能體的動態環境、單個智能體的適應性學習行為、智能體和操作環境之間的復雜互動、測試黑盒機器學習(ML)模型的困難,以及快速發展的ML模型和人工智能算法,自主智能系統的測試和評估提出了艱巨的挑戰[1, 2]。
這項研究的目的是開發設計測試和評估(T&E)計劃以及為基于學習的系統獲取數據/模型的方法。主要目標是了解增加政府對系統設計中使用的模型和學習代智能體(人工智能算法)的訪問可能會減少測試的需要和費用,并增加對結果的信心。在這個孵化器項目中研究的主要假設是,如果我們能夠獲得模型本身(數學或軟件),那么測試人工智能/ML模型達到可接受的可靠程度所需的樣本數量可以減少,如果我們也能獲得用于訓練模型的算法和數據,則可以進一步減少,如果我們也能獲得系統模型和數字工程過程的其他工件,則可以進一步減少。因此,如果T&E計劃是基于獲得人工智能/ML系統的技術數據/算法的成本和測試這些系統的成本之間的最佳平衡,那么采購的成本可以大大降低。
這個項目建立了理論和方法,以探索T&E要求如何能夠和應該作為測試團隊對人工智能系統的技術規格知識的功能而改變。項目開發了基于系統的理論,通過系統形態的概念來捕捉系統的變化和它所處的狀態空間。洋蔥模型描述了不同層次的系統知識和定義系統抽象的背景。該項目通過兩個試點場景進行實驗,以展示多個測試階段如何促進對人工智能系統的評估。最后,我們提出了貝葉斯的分析框架,用于結合多個測試階段的信息。這個分析框架也反映了不斷變化的系統配置和背景。總之,這項工作基本上構成了在未來階段調查現實系統的測試數據收集的成本效益的基石。
進行人工智能系統研究的一個主要挑戰是,在T&E研究中需要物理實現。未來的工作可以利用Silverfish測試平臺,該平臺是在SERC先前的任務下開發的,并將測試平臺擴展到物理實現。除了MBSE表示的物理實現,還可以在Silverfish測試平臺上直接執行一個T&E程序。未來的工作還應該包括有目的地改變系統知識(基于洋蔥模型),系統的復雜性和它的操作環境(形態的數量),并確定作為這些變量的函數的最小充分測試。
當前的深度學習研究以基準評價為主。如果一種方法在專門的測試集上有良好的經驗表現,那么它就被認為是有利的。這種心態無縫地反映在連續學習的重現領域,在這里研究的是持續到達的基準數據集。核心挑戰是如何保護之前獲得的表示,以免由于迭代參數更新而出現災難性地遺忘的情況。然而,各個方法的比較是與現實應用程序隔離的,通常通過監視累積的測試集性能來判斷。封閉世界的假設仍然占主導地位。假設在部署過程中,一個模型保證會遇到來自與用于訓練的相同分布的數據。這帶來了一個巨大的挑戰,因為眾所周知,神經網絡會對未知的實例提供過于自信的錯誤預測,并在數據損壞的情況下崩潰。在這個工作我們認為值得注意的教訓來自開放數據集識別,識別的統計偏差以外的數據觀測數據集,和相鄰的主動學習領域,數據增量查詢等預期的性能收益最大化,這些常常在深度學習的時代被忽略。基于這些遺忘的教訓,我們提出了一個統一的觀點,以搭建持續學習,主動學習和開放集識別在深度神經網絡的橋梁。我們的結果表明,這不僅有利于每個個體范式,而且突出了在一個共同框架中的自然協同作用。我們從經驗上證明了在減輕災難性遺忘、主動學習中查詢數據、選擇任務順序等方面的改進,同時在以前提出的方法失敗的地方展示了強大的開放世界應用。****