隨著大型語言模型(LLM)的快速發展及其模擬人類認知和行為的能力逐步提高,基于 LLM 的框架和工具應運而生,并因其在認知、決策以及社會交互等傳統由人類執行的任務中的表現而被評估和應用。本綜述全面探討了以人為中心的 LLM 能力,重點研究其在個人任務(LLM 作為單個人類的替代者)和集體任務(多個 LLM 協作以模擬群體動態)中的表現。
我們首先評估了 LLM 在推理、感知和社會認知等關鍵領域的能力,并將其與人類技能進行對比。接著,我們深入探討了 LLM 在行為科學、政治科學和社會學等以人為中心的領域中的實際應用,評估其在復制人類行為和互動方面的有效性。最后,我們明確了當前存在的挑戰和未來研究方向,例如提高 LLM 的適應性、情商和文化敏感性,同時解決其固有的偏見,并優化人機協作框架。
本綜述旨在從以人為中心的視角出發,提供對 LLM 的基礎性理解,揭示其當前能力及未來發展的潛力。
關鍵詞: 大型語言模型,以人為中心的計算。
1 引言
隨著大型語言模型(LLM)[1, 2](如 OpenAI 的 GPT 系列 [3, 4] 和 Meta 的 LLaMA [5, 6])不斷發展,其模擬、分析和影響人類行為的能力正以前所未有的速度提升。這些模型不僅能夠處理和生成類人文本,還能在許多場景下完成與人類表現相當的認知任務,為理解人類認知、決策和社會動態提供了全新工具。 因此,本綜述旨在從以人為中心的視角對 LLM 進行全面評估,重點研究其在模擬、補充和增強人類認知與行為(包括個人和群體層面)的能力。盡管 LLM 起初主要應用于計算機科學和工程領域 [7, 8],但隨著其在模擬類人推理、決策和社會互動方面的日益精進,其用途逐漸擴展至以人為核心的領域。研究人員借助這些模型解決了許多過去因過于復雜或抽象而無法通過計算分析解決的問題。例如,在政治學領域,LLM 被用于分析政治話語、檢測偏見以及建模選舉結果 [9];在社會學領域,它們幫助理解社交媒體對話、公眾情緒和群體行為 [10];在心理學領域,它們用于建模人類認知和決策過程 [11]。此外,LLM 在語言學領域也引發了革命,使大規模的語言分析成為可能,從語法到語義再到語用 [12];在經濟學領域,它們能對政策與社會結果之間的復雜互動進行建模 [13]。 為系統化探討這一主題,本文分為兩個主要部分。首先,我們評估以人為中心的 LLM 的認知、感知、社會和文化能力。本部分研究 LLM 在推理、感知、情感意識和社會理解等常與人類認知相關的任務中的表現,分析其在結構化推理、模式識別和創造力等方面的優勢,并指出其在實時學習、共情能力以及復雜多步驟邏輯處理等方面的不足。通過將 LLM 的表現與人類標準進行對比,我們揭示了其優劣所在以及改進方向。 其次,我們探討 LLM 在以人為中心的實際應用領域中的表現,關注其在傳統需要人類參與的現實場景中的應用。本部分分為兩類研究:以個體為中心和以群體為中心。個體研究關注 LLM 在執行通常由單個人類完成的任務(如決策、問題解決或內容創作)中的表現,而群體研究則探索多個 LLM 如何協作以模擬群體行為、互動或協作任務,提供對社會動態、組織行為和多代理協作的洞見。在這兩種背景下,我們分析了諸如基本提示、多人提示、多代理提示及微調等方法,以及指導這些應用的理論框架,包括博弈論、社會學習理論和心理理論等。 最終,本文旨在深入理解 LLM 如何更好地契合人類行為和社會背景,明確其優勢與改進空間。通過這樣做,我們為提升 LLM 的效能、倫理性及現實適用性提供了新的見解,無論是用于個體還是群體的以人為中心的研究與實際應用。
第 2 節概述了以人工智能為動力的以人為中心的研究與 LLM 的發展;第 3 節評估了 LLM 在認知、感知、分析、執行和社會技能方面的能力;第 4 節討論了 LLM 在不同跨學科場景中的應用,既能促進模型開發,也能輔助人類任務;第 5 節探討了開放性挑戰并提出未來研究方向;第 6 節總結了關鍵洞見,強調了跨學科協作的重要性,以增強 LLM 對人類行為的理解。
摘要—基于大規模預訓練基礎模型(PFMs)的生成性人工智能(AI)系統,如視覺-語言模型、大型語言模型(LLMs)、擴散模型和視覺-語言-行動(VLA)模型,已經展示了在廣泛領域和情境中解決復雜且真正非平凡的AI問題的能力。特別是,多模態大型語言模型(MLLMs)通過從大量且多樣的數據源中學習,能夠提供豐富且細致的世界表示,從而具備廣泛的能力,包括推理、進行有意義的對話、與人類及其他代理共同協作解決復雜問題,并理解人類的社會和情感方面。盡管取得了這一令人印象深刻的成就,但基于大規模數據集訓練的最先進LLMs的認知能力仍然表面化且脆弱。因此,通用LLMs在其通才能力方面存在嚴重限制。要使LLMs實現人類級別的通用智能,需要解決一些基礎性問題——具身性、符號基礎、因果性和記憶機制。這些概念更符合人類認知,并為LLMs提供了固有的人類認知特性,從而支持實現具有物理可行性、語義意義、靈活性和更強泛化能力的知識和智能。在本研究中,我們討論了上述基礎性問題,并綜述了實現這些概念的最先進方法。具體而言,我們討論了如何利用具身性、符號基礎、因果性和記憶的原則,以有機的方式促進人工通用智能(AGI)的實現。
關鍵詞—大型語言模型、具身性、符號基礎、因果推理、記憶機制、人工通用智能。
智能與一個系統(無論是生物系統還是其他類型的系統)在特定環境(或多個環境)中實現一個或多個預期目標的能力相關。一個智能系統能夠推斷自身的狀態以及環境的狀態,并能夠將這些推斷轉化為適當的響應,從而實現預期目標。智能是高級生物體的獨特特征,在開發其人工對應物——人工智能的過程中,研究人員常常借鑒生物學的概念。生物智能的一個重要特征是其普遍性,即它能夠處理廣泛不同的問題,適應多種環境。尤其是人類的智能,其復雜性、豐富性和多樣性令人驚嘆,能夠輕松處理許多新穎的任務。人類智能相較于其他高級動物的普遍優越性,主要源于人類通過社會和文化構建(如藝術、規范、儀式、信仰體系和習俗)來組織和傳遞知識的能力 [1]。語言在這些過程中起著至關重要的作用。 盡管創造這種類型的通用智能的想法具有吸引力,但在機器中實現如此高度的復雜性和普適性是極其具有挑戰性的。直到最近,取得顯著成果的AI技術往往集中于特定領域或受限領域,解決單一問題(如面部識別、醫學圖像分割、文本翻譯、股市預測、行人跟蹤等)。近來,基于變分自編碼器(VAE) [2] 和生成對抗網絡(GAN) [3] 的生成式AI技術在革命化AI能力方面作出了巨大貢獻,使得單一模型能夠同時處理多種復雜任務 [4]。更近期的進展是,大規模預訓練基礎模型的出現,如大型語言模型(LLMs) [5]、擴散模型(DMs) [6]、視覺-語言模型(VLMs) [7] 和視覺-語言-行動(VLA)模型 [8],為復制人工智能中的通用性特征帶來了現實的前景。由于它們能夠處理廣泛的開放領域問題 [9],[10],[11],[12],尤其是多模態大型語言模型,大規模預訓練基礎模型重新激發了對發展人工通用智能的興趣 [10]。本文的主要目的是介紹支撐人工通用智能實現的認知基本原理,并綜述在大型語言模型中實現這些概念的最先進技術。
1.2.1 語言作為知識獲取、表示和組織的媒介 研究表明,使用自然語言進行交流是學習現實世界通用知識最有效的方式之一 [13],雖然人類的感官和運動能力通常不優于其他高級動物(包括靈長類動物)(見 [14],[15],[16],[17],[18],[19],[20]),但人類的認知能力遠遠超越其他動物。人類認知能力優于其他動物王國成員,尤其是與人類最親近的靈長類動物,這主要歸因于人類使用語言的能力 [21],[22],[23]。 語言在人體內的抽象概念表示、解釋和推理中發揮著核心作用 [24]。在人的社會中,語言最重要的功能之一是促進新知識的獲取與共享。通過語言——無論是文學、演講還是藝術——人類能夠輕松從他人處學習,不僅通過觀察或與世界的互動,還能獲取其他人積累的知識。此外,語言為表示和內化知識提供了概念框架 [22]。研究表明,一個群體所使用的特定語言結構和詞匯會影響他們對世界的推理和解釋。實際上,語言差異(例如詞匯差異)已被證明影響不同語言群體成員如何記住和描述他們的經歷 [25],[26],[27],[28]。在這方面,語言可以塑造或重塑認知 [29],從而影響主體如何理解和與世界互動 [30],[31]。1.2.2 語言作為認知信息處理工具
除了創建抽象表示來組織感知信息和知識的表示外,語言在促進認知計算操作中起著根本作用 [24]。Lupyan [31] 認為,基本語言元素(如詞語)為其他認知成分提供了構建意義的線索。因此,語言不僅僅是一個用于指代現實世界物體、現象和經驗的靜態符號集合,它還是一個操作這些符號的工具。Clark [24] 專門描述了語言在促進人類認知信息處理和推理中的六種不同方式。研究表明,語言不僅有助于晶化智能(即與表示相關的認知機制),如經驗/刺激的分類 [26] 和記憶 [25],[28],還促進流動智能(即分析性問題解決技能),如感知 [32],[33],[34] 和推理 [24],[31]。此外,接觸多種語言框架已被證明能夠拓寬個體的視野,并幫助他們以更細致的方式理解概念。由于其在生物學認知能力中的中心地位,語言被多次描述為“認知接口” [21]、“智能放大器” [35],并且人類認知本身也被描述為“語言增強的認知” [31]。
雖然文獻中對人工通用智能(AGI)有不同的解釋 [9],[36],[37],[38],[39],[40],但這一概念通常理解為具有廣泛智力能力的AI系統,能夠執行高級認知任務,如感知——包括情境理解和一定程度的自我意識 [41],[42],推理、規劃,以及在新情境下應用學習到的知識。AGI系統是能夠在多個領域成功完成復雜和多樣化的認知任務的強大模型,無需額外訓練。術語“人類水平的智能” [37],[43],[44] 經常被松散地用來指代展示通用智能的AI系統。AGI不應理解為超級全知和全能的機器。這種假設級別的能力被稱為人工超智能 [45],[46]。實際的AGI系統是具備有限但足夠強大且靈活的知識系統,能夠解決涉及傳感-運動控制、感知、情境理解、常識和分析推理能力的廣泛問題。對人工通用智能的這種理解,實際上反映了不僅在嵌入或學習所有相關知識和技能時的實際困難,也反映了這種方法的性能限制。此外,將人工通用智能概念化為有限范圍但適應性強、靈活且可擴展,與生物智能在高級生物體(如人類)中的性質和特性是一致的。盡管文獻中有各種定義,但幾乎對AGI的一些定義特征達成了一致。具體而言,典型AGI系統的最重要特征是(參見例如 [9],[36],[43],[47],[48]):它能夠學習并靈活應用有限且不確定的知識,解決不同情境下的廣泛問題;它的學習和行動是自主且目標驅動的;它能在記憶中保留并積累相關信息,并在未來任務中重新使用這些知識;它能夠理解情境并執行高級認知任務,如抽象和常識推理。 需要強調的是,AGI本質上與強AI(參見 [49],[50],[51])不同。AGI的重點是開發具有廣泛認知能力、能夠解決真正非平凡問題的智能系統,而強AI旨在創造極其強大的智能,不僅在功能層面模仿人類的認知能力,還具有如內在心理狀態和主觀經驗(包括意圖性、道德、情感和自我意識等) [52],[53],在意識和感知方面具有真實的人類認知特征。對此感興趣的讀者可以參考 [54],[55],[56],[57],[58],以獲得關于強AI概念的更詳細討論,包括意識 [54],[56],[57],意識 [55],[57],[59] 和AI系統的道德問題 [60],[61]。
在這項工作中,我們詳細討論了實現通用智能的核心原理。我們還討論了在人工智能和LLM系統中實現這些概念的各種方法。這里討論的概念不是實現AGI的算法解決方案,而是生物智能的一般原理和特性,這些原理和特性必須嵌入到基于大型語言模型的AI系統中 事實上,這些核心概念本質上是與算法無關的,即它們的實現并不局限于任何特定的技術或一組方法。然而,需要注意的是,特定的認知功能(如感知、推理、規劃、行動等)可以通過這些通用概念和原理得到增強。本文的其余部分安排如下: 在第2節,我們概述了大型語言模型(LLM)的關鍵要素,這些要素使其具有強大的能力,并能夠解決需要人類水平通用智能的復雜問題。 第3至第6節討論了實現通用智能所需的重要基礎性原則,包括具身性(第3節)、符號基礎(第4節)、因果性(第5節)和記憶機制(第6節)。 在第7節,我們探討了這些認知原則之間的相互關系和交互作用,并基于這些相互作用合成了一個整體的認知模型。 最后,在第8節中,我們對所討論的概念進行了總結,并在第9節給出了結論。
C2SIM Autonomous Systems(C2SIM自主系統)團隊已著手進行一項探索性研究,采用大型語言模型(LLM)GPT-4來促進場景開發,為擴展本體論奠定基礎。本文概述了 GPT-4 在生成特定場景方面的初步應用結果,并強調了其實用性和局限性。詳細介紹了指導 GPT-4 輸出所采用的方法,包括 “0-shot 學習 ”和 “提示工程”,它們是根據 C2SIM 要求策劃場景內容的技術。這些方法提供了一種新穎的方法,不僅可以總結文獻中的現有知識,還可以從模型中提取嵌入式領域知識,從而為用戶引導的動態場景完善過程做出貢獻。這項調查的洞察力揭示了在場景生成中部署 LLM 的實際意義,從而為后續以合成數據對本體開發的貢獻為重點的研究軌跡提供了信息。最后,本文根據目前在該領域應用 LLMs 的經驗教訓,規劃了未來研究的潛在途徑。
本文利用 OpenAI 的 GPT-4 模型作為生成自主系統場景的輔助工具。使用零樣本方法來檢驗該模型的能力,沒有通過樣本(少數幾次)或其他定制對模型進行微調。塑造 GPT-4 響應的主要方法是 “提示工程”。提示是對輸出的自然語言描述,但經過精心設計,可引導模型產生所需的結果。根據提示中的措辭、詳細程度或指示,結果可能會有所不同,有時甚至會大相徑庭。因此,對提示的改進需要采用迭代開發方法。
提示符的開發遵循一個循環,即逐步完善提示符,以解決評估過程中發現的問題。開發工作在 OpenAI 的 Playground 中進行,這是一個簡單而有效的網絡環境,用于定義和測試提示。Playground 界面用于定義包含提示指令的 “助手”。所有助手都使用了 “gpt-4-turbo-preview ”模型。
提示的演變基于 OpenAI 文檔中列出的最佳實踐。創建并測試了多個提示版本,并逐步添加、編輯或刪除細節,以解決生成的輸出中存在的缺陷。提示語的詳細信息見第 4.1.1 節和第 4.3.1 節。
理想情況下,對提示版本(或一般微調模型)的評估應基于可量化的測量結果,如在已知預期結果的測試用例集上,被評估版本產生的正確結果所占的百分比。在這里,沒有精確的典型情景可用作基準,因為沒有一種單一的方法來描述情景。因此,對結果的評估是基于對每個版本根據所需的標準情景格式的不同部分所產生的輸出結果進行的定性分析。
開發工作主要是通過評估論文中情景提取任務(第 4.1 節)的提示質量來進行的,因此可以根據模型結果與論文本身所表達的內容的匹配程度來進行評估。我們考慮了以下問題,評分標準為 0 至 5 分:
結果是否包含標準場景模板的所有要素?評估是否有遺漏(或添加)的要素偏離預期結果。
結果是否只反映了文件中包含的場景?評估是否成功地從論文更廣泛的考慮和討論中提取了方案。在許多情況下,假設只是整個論文的一小部分,可能僅用于說明目的,這給提取帶來了困難。
描述是否是對論文場景的公平總結?評估生成的摘要與論文描述的 “要點 ”的匹配程度,以及是否包含幻想的細節(“幻覺”)。
根據上下文,生成的目標和績效衡量標準是否合理?
步驟是否反映了情景的邏輯時間進程?
鑒于對相同輸入進行連續運行會產生不同的結果,評估考慮了每個提示版本五次運行的平均值。下一節概述了所進行的實驗。
表格數據廣泛應用于醫療、金融、交通等行業,但由于其異構性和缺乏空間結構的特性,給深度學習帶來了獨特的挑戰。本綜述回顧了用于表格數據的深度學習模型的演變,從早期的全連接網絡(FCN)到先進的架構,如TabNet、SAINT、TabTranSELU和MambaNet。這些模型結合了注意力機制、特征嵌入和混合架構,以應對表格數據的復雜性。TabNet通過順序注意力機制進行逐實例的特征選擇,提高了模型的可解釋性;而SAINT結合了自注意力機制和樣本間注意力機制,捕捉特征和數據點之間的復雜交互,從而在提高可擴展性的同時減少計算開銷。混合架構如TabTransformer和FT-Transformer將注意力機制與多層感知機(MLP)結合,處理類別和數值數據,其中FT-Transformer專門為表格數據集調整了Transformer模型。研究仍在繼續,以在大規模數據集上平衡性能和效率。基于圖的模型如GNN4TDL和GANDALF結合了神經網絡與決策樹或圖結構,通過先進的正則化技術增強了特征表示,并在小數據集上緩解了過擬合問題。基于擴散的模型如表格去噪擴散概率模型(TabDDPM)通過生成合成數據解決數據稀缺問題,從而提高模型的魯棒性。同樣,TabPFN和Ptab等模型利用了預訓練語言模型,將遷移學習和自監督技術引入表格任務。本綜述重點介紹了這些領域的關鍵進展,并概述了在多樣化的表格數據應用中關于可擴展性、泛化性和可解釋性的未來研究方向。
表格數據由表示結構化信息的行和列組成[1, 2],是許多行業中最常用的數據格式,包括醫療、金融和交通等。與圖像和文本等非結構化數據不同,表格數據以結構化形式直接表示現實世界現象,這使其在風險評估、預測分析和安全監測等決策過程中至關重要。例如,在交通工程領域,表格數據在記錄事故事件、車輛屬性、環境因素和人類行為方面起著關鍵作用,幫助研究人員利用數據驅動的洞察來預測事故嚴重性并改善安全措施。盡管深度學習在計算機視覺和自然語言處理(NLP)等領域取得了成功,但其在表格數據中的應用并不那么直接。深度學習模型在處理表格數據時面臨多個挑戰:(1) 樣本量小:與大規模的圖像或文本數據集相比,許多表格數據集相對較小,導致復雜的深度學習模型容易發生過擬合。 (2) 高維性:表格數據通常包含許多特征,這些特征可能是稀疏的或無關的,使得模型難以識別有意義的模式。 (3) 復雜的特征交互:與局部結構突出的圖像或文本不同,表格數據中的特征交互是非局部的且復雜的,因此需要更為專業的架構來有效捕捉這些關系。這些因素使得基于樹的模型(如XGBoost和隨機森林)在許多表格數據任務中更為有效,因為它們更適合處理稀疏特征和復雜的交互。近年來,針對表格數據的深度學習模型取得了顯著進展,解決了此類數據所帶來的獨特挑戰。盡管早期的全連接網絡(FCN)顯示出了一定的潛力,但隨著新架構的出現,這一領域得到了顯著發展[3-6]。其中領先的模型之一是FT-Transformer,該模型將最初為序列數據開發的Transformer模型適配用于表格數據,通過注意力機制編碼特征[7, 8]。由于其能夠學習特征之間的復雜交互,這一模型在處理高維數據時表現出色。另一個近期的創新是自注意力和樣本間注意力Transformer(SAINT),它通過引入樣本間注意力機制改進了原始的Transformer,使得模型能夠更好地捕捉表格數據行之間的關系[9]。在多個基準測試中,SAINT相較于傳統模型如XGBoost和深度學習模型如神經遺忘決策集成(NODE)表現出色。此外,TabTransformer等模型專門用于分類特征編碼的Transformer,提供了一種更具可擴展性的解決方案,能夠處理表格數據集中混合的數據類型。這種方法使模型能夠從分類變量中捕捉有意義的表示,而這些分類變量通常是傳統深度學習架構難以有效處理的。這些新模型在特征編碼、復雜交互學習和模型可解釋性方面引入了重要的創新,這對推動深度學習在表格數據中的應用具有重要意義。本文的目標是詳細回顧這些進展,探討其歷史演變(如圖1所示)、關鍵技術、數據集及潛在的應用方向。 表格深度學習
雖然之前的研究[7]對表格數據的深度學習進行了結構化的綜述,重點關注了處理類別變量、數據轉換和模型比較等挑戰,但本綜述采取了不同的視角,強調了該領域的歷史演變和算法進展。我們著重介紹了MambaNet、SwitchTab和TP-BERTa等最新模型的開發,展示了這些架構如何演變以應對表格數據的獨特復雜性。通過探討注意力機制、混合架構以及其他近期的突破,本綜述突出了深度學習模型向更高效、可擴展且可解釋的解決方案的轉變。與以往的工作不同,本研究不專注于模型比較,因為全面評估不同模型需要根據各種類型的表格數據進行專門的分析。 在快速發展的表格深度學習領域,每年都有新的架構設計被提出,以應對表格數據日益增長的復雜性,并帶來了顯著的改進。近期的模型,如HyperTab和GANDALF,推動了可擴展性和可解釋性的邊界,提供了處理異構特征和高維數據的增強方法。這些新架構基于基礎工作,顯著提升了相較于傳統方法的性能改進。如圖9所示,表格深度學習的演變強調了關鍵貢獻,從2019年Semek等人[83]和Arik等人[24]的研究,到最近的最新進展,并按引用次數排列,展示了該領域研究影響力的不斷增長。
在這些進展的基礎上,表2展示了這一期間引入的主要模型的時間線,詳細描述了它們的架構及關鍵性能特點。這些模型展示了表格深度學習中的重大突破,從混合架構到高級注意力機制,推動了性能和可擴展性的進步。
TabTransformer模型通過利用注意力機制和混合架構,顯著推動了表格深度學習的發展,解決了表格數據帶來的獨特挑戰[19]。TabTransformer的核心是采用了多頭自注意力層,該層改編自傳統用于自然語言處理(NLP)的Transformer架構,用于捕捉數據集中復雜的特征交互和依賴關系,如圖10所示。這種注意力機制使模型能夠有效地捕捉特征之間的關系,尤其適用于包含大量類別變量的數據集。 TabTransformer架構將Transformer層與MLP組件結合,形成了針對表格數據優化的混合結構。類別特征通過列嵌入層進行嵌入,將每個類別轉換為可學習的密集表示。這些嵌入通過Transformer層傳遞,聚合來自其他特征的上下文信息,以捕捉相互依賴的關系。上下文化的類別特征隨后與連續特征進行拼接,并通過MLP進行最終預測。這種設計利用了Transformer在類別數據上的上下文學習優勢和MLP在處理連續數據上的傳統優勢。此外,TabTransformer還引入了掩碼語言建模(MLM)和替換標記檢測,使其能夠在大量無標簽數據上進行預訓練,從而在低標簽數據場景中提升性能,使其在現實世界應用中更加有效。
TabTransformer模型的最新進展,如Vyas[94]提出的自監督TabTransformer,進一步優化了該架構,通過在預訓練階段利用MLM從無標簽數據中學習。這種自監督方法通過自注意力機制捕捉復雜的特征依賴性,提高了模型的泛化能力。通過將Transformer層與MLP結合用于最終預測,模型能夠有效處理混合數據類型和較小的數據集。然而,雖然模型在半監督環境中表現出了顯著的性能提升,但依賴于掩碼語言模型預訓練增加了計算開銷,可能限制其可擴展性。解釋性保持在中等水平,注意力得分可以提供有關特征重要性的洞察,但模型的解釋性仍然不如傳統模型如GBDT。
另一個顯著的進展是由Cholakov和Kolev[95]提出的GatedTabTransformer,該模型通過引入門控多層感知機(MLP)增強了原始的TabTransformer。此修改通過空間門控單元提高了模型捕捉跨標記交互的能力。GatedTabTransformer在AUROC方面比標準TabTransformer的性能提升了約1個百分點,特別是在二分類任務中。然而,這也帶來了額外的計算復雜性,因為空間門控單元需要額外的處理。盡管模型性能有所提升,但其可擴展性和解釋性仍然較為有限,相比之下,簡單的模型如MLP或GBDT則更具優勢。
因此,雖然TabTransformer模型通過注意力機制和混合架構在處理表格數據方面提供了顯著改進,但在性能、可擴展性和解釋性方面存在權衡。近期的變體如自監督TabTransformer和GatedTabTransformer展示了這些模型相較于傳統方法的潛力,盡管以更高的計算需求為代價。
由Gorishniy等人[96]提出的FT-Transformer模型,通過利用注意力機制、混合架構和基于Transformer的方法,提出了一種新穎的方式來應對表格數據的挑戰。該模型將最初為NLP等任務設計的注意力機制進行了適配,以處理表格數據。在這一背景下,注意力機制使模型能夠捕捉異構特征之間的復雜關系,包括數值和類別數據,如圖11所示。通過使用注意力機制動態優先考慮某些特征,模型有效地建模了傳統表格數據方法中常難以檢測到的交互關系。
除了注意力機制,FT-Transformer還采用了一個集成特征標記化的混合架構。這個過程將數值和類別特征都轉化為嵌入表示,然后通過Transformer架構層進行處理。其結果是,一個高度靈活的模型,能夠處理各種類型的表格數據,這對于特征類型和分布變化多樣的任務而言尤為關鍵。這種混合設計將傳統特征編碼方法與基于Transformer的強大學習能力結合起來,從而在不同的數據集上實現更好的泛化能力。
最近的研究表明,FT-Transformer在各種應用中表現出色。在心力衰竭預后領域,FT-Transformer通過捕捉醫療特征之間的非線性交互,如人口統計和臨床數據,超越了傳統模型如隨機森林和邏輯回歸的表現[97]。注意力機制的使用使模型能夠動態優先處理重要的健康指標,從而得出更準確的預測。同樣,在入侵檢測系統中,FT-Transformer在處理網絡流量數據的高度結構化特性時表現出更高的準確性,能夠識別網絡異常[98]。混合架構無縫地整合了類別和數值特征,提高了模型檢測已知和未知威脅的能力。此外,通過堆疊多個Transformer層來增強模型捕捉數據中的長距離依賴性的能力,使其在復雜任務中更加有效[99]。雖然FT-Transformer模型在多項表格任務上相較于其他模型,如ResNet和MLP,表現出更高的性能,但也有一些權衡需要考慮。在解釋性方面,模型的復雜性帶來了挑戰。像GBDT這樣的傳統模型具有更清晰的解釋性,因為它們的決策過程更加透明。相比之下,FT-Transformer依賴于注意力機制和深層網絡,雖然注意力分數能夠提供特征重要性的某些洞察,但整體上難以解釋。此外,模型的可擴展性也是一個考慮因素,特別是Transformer模型的注意力機制隨特征數量呈二次增長的計算需求,可能在應用于大規模數據集時成為限制。
盡管存在這些限制,FT-Transformer能夠跨不同的數據集進行泛化,使其成為表格數據分析中頗具前景的模型,帶來了預測性能方面的顯著進步。基于這些進展,我們展示了TabNet和FT-Transformer在性能和log-loss方面的比較。如圖12所示,隨著隨機搜索迭代次數的增加,FT-Transformer始終表現出更優的性能,而兩種模型的log-loss則以不同的速率下降。此比較突顯了FT-Transformer在較大搜索空間中相較于TabNet的更強泛化能力。雖然這一圖示例展示了性能差異,但與之前的表格深度學習綜述[7]不同,本次研究并未對所有表格深度學習模型進行比較,因為跨多個模型和不同數據集的全面評估超出了當前綜述的范圍。未來的研究應著眼于更廣泛的性能評估,以全面檢驗這些模型的優劣。
DeepGBM模型通過結合注意力機制、混合架構和知識蒸餾等先進技術,為解決表格數據在深度學習中的挑戰提供了一種創新的方法[63]。盡管該模型并未顯式使用傳統的注意力機制,它通過GBDT(梯度提升決策樹)中的特征重要性來優先考慮某些特征。此過程模仿了注意力機制,通過將模型的注意力集中在最具信息量的特征上,而不是平等對待所有輸入。通過強調最相關的特征,DeepGBM增強了其處理稀疏類別數據和密集數值數據的能力,這在表格數據任務中至關重要。
最近在表格深度學習領域的進展進一步突顯了DeepGBM在將神經網絡與GBDT結合以提升性能方面的作用。特別是,該模型的混合架構利用了CatNN處理稀疏類別特征,通過嵌入和分解機技術進行特征處理,而GBDT2NN則將GBDT的輸出轉化為神經網絡格式,優化了對密集數值特征的處理[100]。圖13展示了DeepGBM的結構。通過這種集成,DeepGBM能夠利用這兩類模型的優勢,克服傳統方法在統一框架下處理混合特征類型的局限性。盡管DeepGBM并未直接實現基于Transformer的模型,但它采用了來自Transformer架構的思想,特別是在知識蒸餾的形式上。通過將GBDT樹中獲得的知識(包括預測結果、樹結構和特征重要性)蒸餾到神經網絡中,DeepGBM保留了GBDT的優勢,同時增強了其學習能力[101]。這類似于Transformer通過蒸餾來簡化復雜模型的方式,同時保持其性能。
在性能、可解釋性和可擴展性之間的權衡,反映了表格深度學習中更廣泛的挑戰。DeepGBM通過結合GBDT和神經網絡實現了更高的準確性,但犧牲了一部分可解釋性,因為神經網絡組件的增加降低了樹模型通常具有的透明度。可擴展性也是一個挑戰,因為神經網絡部分需要更多的計算資源。然而,像WindTunnel這樣的模型表明,這種方法可以在保持原有GBDT結構優勢的同時提升準確性[101]。這些權衡需要根據應用場景進行仔細平衡,因為DeepGBM在性能和效率方面表現出色,特別是在大規模和實時應用中。
在表格深度學習的最新進展中,DANets模型利用了注意力機制、混合架構和基于Transformer的方法,以應對表格數據處理中的特定挑戰。DANets的關鍵創新之一是使用動態特征選擇過程,通過可學習的稀疏掩碼[102]來識別和強調相關特征。該方法基于Entmax稀疏映射,使模型能夠在網絡的每個階段有選擇性地專注于最重要的特征,從而增強其從數據中提取有意義表示的能力。這種機制類似于Transformer模型中使用的注意力機制,但特別針對表格數據的不規則性和異構性進行了調整。
DANets還采用了混合架構,融合了類似于卷積神經網絡(CNN)的特征分組和層次抽象過程,但進行了適配以應對表格數據的獨特結構。如圖14所示,引入的抽象層(ABSTLAY)使模型能夠通過連續的層來分組相關特征并抽象出更高層次的表示。此外,模型還采用了捷徑路徑,使得原始特征可以在網絡的更高層次重新引入,確保關鍵信息得以保留,從而增強了模型的魯棒性,特別是在較深的架構中。這種設計類似于ResNet風格的連接,殘差路徑防止了深層網絡中信息丟失和退化,從而提升了性能。
DANets通過使用動態加權和類似注意力機制的方式,結合了Transformer的思想,使模型在特征選擇和抽象過程中能夠選擇性地關注重要特征。盡管這并不是Transformer模型的直接應用,這些方法改善了表格數據的處理并提升了性能,使得DANets優于傳統模型如XGBoost和神經網絡模型如TabNet。然而,這種性能提升以降低可解釋性為代價。雖然基于注意力的特征選擇提供了對特定特征重要性的洞察,但層次抽象的復雜性掩蓋了決策過程,使其不如簡單模型如決策樹那樣透明。為了解決可擴展性問題,DANets采用了結構重新參數化技術,這在推理過程中降低了計算復雜度,從而允許構建更深的網絡而不會導致計算成本過高。盡管更深的架構提升了性能,但研究指出,由于表格數據中的特征空間有限,進一步增加深度帶來的回報遞減。
最近在表格深度學習中的進展利用了注意力機制和基于Transformer的方法,解決了表格數據處理中的挑戰。SAINT模型通過整合注意力機制、混合架構和基于Transformer的方法,克服了表格數據的獨特挑戰。SAINT使用了兩種類型的注意力機制:自注意力和樣本間注意力[25]。自注意力使模型能夠捕捉單個數據樣本中特征之間的復雜關聯,能夠建模那些簡單模型可能忽略的關系。而樣本間注意力作為一種新穎的補充機制,使模型可以將一個數據行(數據點)與其他行進行比較,從而根據整個數據集中的模式進行更動態的學習過程。這一機制在某些特征可能存在噪聲或缺失時尤為有用,因為模型可以從其他相似的數據點中學習。 SAINT的混合架構結合了自注意力和樣本間注意力,創建了一個綜合的學習系統。SAINT的先進架構在軟件缺陷預測任務中也表現出色[103]。通過利用注意力機制和基于Transformer的方法,SAINT能夠有效處理數據點之間的復雜交互,從而提升缺陷預測的性能。在處理混合數據類型時,SAINT始終優于傳統模型如XGBoost和隨機森林。然而,盡管SAINT提高了準確性,其復雜性影響了可解釋性,因為引入了樣本間注意力,這使得它不如簡單模型直觀。此外,與SAINT的注意力機制相關的計算需求在處理大型數據集時可能會帶來可擴展性挑戰。
除了這些創新之外,SAINT的改進版本SAINTENS進一步增強了模型處理表格數據的能力,解決了SAINT的一些局限性[104]。SAINTENS使用相同的注意力機制,但引入了MLP集成,以提高在處理缺失或噪聲數據時的魯棒性。該方法與對比預訓練及Mixup和Cutmix等增強技術相結合,使SAINTENS能夠生成更強的數據表示,特別是在缺失值較多的醫療數據集中。這些增強措施在性能、可解釋性和可擴展性三個關鍵領域表現出相應的權衡。在性能方面,SAINT和SAINTENS在處理混合特征類型及標簽數據有限的數據集時,一貫優于傳統機器學習模型如GBDT以及深度學習模型如TabNet。SAINT的注意力機制提供了一定程度的可解釋性,允許用戶可視化重要的特征和數據點。然而,樣本間注意力引入的復雜性使其相比于簡單模型更難以直觀解釋。最后,雖然SAINT和SAINTENS在大型數據集上表現良好,但注意力機制,尤其是樣本間注意力的計算需求,可能使這些模型在較大的數據集上更耗資源。
TaBERT模型通過引入注意力機制、混合架構和基于Transformer的方法,解決了表格數據的挑戰。TaBERT的關鍵創新之一是其使用的注意力機制,特別是縱向自注意力機制,該機制在各行之間的垂直對齊表格單元表示上運行[105]。這使得模型能夠捕捉不同行之間的依賴關系,通過關注與給定自然語言查詢相關的列和行,改善了表格數據的表示。雖然這一機制提升了處理表格結構的性能,但也引入了額外的計算復雜性,使其在處理非常大的數據集或包含大量行的表格時,擴展性受到限制。圖15展示了TaBERT的架構,該架構聯合處理自然語言話語和表格模式,強調了模型如何使用多頭注意力和池化機制同時捕捉文本和表格結構,從而生成用于下游任務(如語義解析)的統一表示。
在架構方面,TaBERT采用了一種稱為“內容快照”的混合方法來減少計算開銷。與對表格中所有行進行編碼的高成本做法不同,TaBERT選擇與自然語言查詢最相關的部分行。這使得模型能夠保留進行文本與表格聯合推理所需的關鍵信息,同時減少處理不必要數據的負擔。然而,這也帶來了權衡:雖然內容快照機制幫助模型擴展到更大的表格,但如果所選擇的行不足以充分代表表格的整體結構和內容,則可能會丟失關鍵信息。 TaBERT基于Transformer預訓練框架,能夠學習自然語言和結構化數據(表格)的表示。該模型在包含2600萬張表格及其相應文本的大規模語料庫上進行預訓練,采用類似于BERT的掩碼語言建模目標,并結合了表格特定的目標,如掩碼列預測和單元格值恢復。這種預訓練提高了模型對齊文本和表格數據的能力,支持下游任務如語義解析。
在性能與可解釋性之間的平衡上,TaBERT在語義解析任務中表現出色,尤其在WikiTableQuestions等基準測試中表現優于BERT,如圖15所示。然而,由于Transformer和注意力機制的使用引入了復雜性,TaBERT的可解釋性不如決策樹等簡單的機器學習模型,后者能夠為其決策提供更直接的解釋。在可擴展性方面,內容快照機制幫助模型更高效地處理大型表格,但這也伴隨著無法完全捕捉表格信息的風險。
TabTranSELU模型結合了近期表格深度學習的多項進展,利用注意力機制、混合架構和基于Transformer的方法,解決了表格數據的獨特挑戰。一個關鍵創新是自注意力機制的使用,使模型能夠捕捉表格數據集中不同特征之間的依賴關系[26]。這一自注意力方法對識別輸入特征之間的關系至關重要,因為表格數據缺乏圖像或文本中的固有結構,增加了這一任務的復雜性。注意力機制通過將輸入轉換為查詢、鍵和值矩陣來計算得分,從而使模型能夠確定不同特征的加權重要性。這有助于模型更有效地學習特征間的關系,最終提升其預測性能。圖16展示了TabTranSELU模型中的輸入層、Transformer層和密集層。 該模型還采用了混合架構,通過簡化傳統的Transformer設計以適應表格數據。不同于NLP任務中使用的完整的編碼器和解碼器堆棧,TabTranSELU僅使用了單個編碼器和解碼器層。這種簡化在不犧牲性能的情況下,調整了架構以滿足表格數據的特定需求。此外,該模型集成了神經網絡和Transformer的元素,能夠同等高效地處理類別和連續特征。這些特征分別通過嵌入層進行處理,其中類別特征類似于NLP中的token進行處理,數值特征則通過位置編碼來保留其在不同數據實例中的重要性。
TabTranSELU模型最顯著的改進之一是將修正線性單元(ReLU)激活函數替換為縮放指數線性單元(SELU),解決了由于表格數據中負值存在而加劇的“ReLU失效”問題。SELU保留了正值和負值,防止了在訓練過程中丟失潛在信息,使其更適合表格數據集。此外,數值特征的使用位置編碼保留了其順序和重要性,增強了模型處理連續數據的能力。在性能方面,TabTranSELU與傳統算法如梯度提升決策樹(如XGBoost)相比展現了競爭力,在大型數據集上僅有0.2%的微小差距。它還在類似的基于Transformer的模型(如TabTransformer)中表現良好,盡管在性能上略有犧牲,但在功能的廣泛性上表現出色。 可解釋性是TabTranSELU模型的一大優勢,其嵌入層提供了對特征關系的清晰理解。通過對嵌入應用主成分分析等技術,用戶可以直觀地看到特征和類別之間的交互,尤其在處理匿名或不熟悉的數據集時,這種見解非常有價值——而這些見解通常在傳統深度學習方法中更難獲得。除了可解釋性之外,該模型在可擴展性方面也表現出色。通過減少層數并引入SELU激活函數,該模型比傳統的Transformer模型更加精簡,計算強度也較低,因此非常適合更大規模的數據集,并且可以在資源需求最小化的情況下高效訓練。總體而言,TabTranSELU在性能、可解釋性和可擴展性之間取得了良好的平衡,使其成為多種表格數據應用的強有力選擇。雖然我們已經討論了2022年至2024年的多個模型,但需要注意的是,2022年之前的綜述論文[7]未包含這些最新的研究。接下來的部分將探討更前沿的架構創新和進一步推動邊界的模型,這標志著表格深度學習演變的新階段。
近年來,針對表格數據的深度學習模型發展迅速,隨著領域的復雜性增加,涌現出許多新架構。表3總結了2023年至2024年間引入的關鍵模型,包括LF-Transformer和ReConTab等創新方法,這些模型利用先進的基于Transformer和混合技術,解決了特征交互和噪聲等挑戰。表格還概述了它們的架構、訓練效率和顯著特點,展示了該領域最新的進展。以LF-Transformer為例,該模型通過行間和列間注意力機制捕捉復雜的特征交互,使用矩陣分解和潛在因子嵌入來提高預測精度,尤其是在噪聲或數據不完整的情況下[106]。雖然該模型在回歸和分類任務中表現出色,但其復雜性降低了可解釋性,并增加了處理較大數據集時的計算需求。同樣,ReConTab利用基于Transformer的不對稱自動編碼器從原始數據中提取關鍵信息,并引入特征破壞技術以增強模型的魯棒性,盡管增加了復雜性,導致更高的計算成本和透明度下降[5]。GNN4TDL也基于Transformer的自動編碼器結構,利用特征破壞提高對噪聲的魯棒性和泛化能力,但在可擴展性和可解釋性上面臨挑戰[27]。
為了擴展Transformer模型的應用范圍,MambaTab結合了結構化狀態空間模型和特征增量學習,比標準的自注意力機制更有效地捕捉表格數據中的長距離依賴關系[3]。MambaTab適應不斷變化的特征集,增強了可擴展性,但犧牲了可解釋性,因為它缺乏像TabNet那樣解釋特征重要性的注意力機制。SwitchTab采用了不對稱的編碼器-解碼器架構,通過分離項目器將共同特征和顯著特征解耦,改善了表格數據中的特征表示[6]。通過使用基于特征破壞的方法,SwitchTab提高了性能和可解釋性,但其復雜性影響了可擴展性,因此在處理非常大規模數據集時效率較低。上下文感知表格條目表示 (CARTE) 也采用了先進的架構,結合了圖神經網絡(GNN)與圖注意力層,將每個表格行表示為一個小圖,使模型能夠捕捉跨表格的復雜上下文關系[108]。CARTE在遷移學習中表現出色,并且在異構數據集上表現良好,盡管其圖注意力機制在處理大型數據集時降低了可解釋性和可擴展性。
在分詞和基于提示的模型領域,TP-BERTa通過應用相對幅度分詞(RMT)脫穎而出,將標量數值轉換為離散標記,有效地將數值數據視為語言模型框架中的詞匯[107]。此外,其內部特征注意力(IFA)模塊將特征名稱和值統一為一致的表示,減少了特征干擾并提高了預測準確性。然而,與梯度提升決策樹等更簡單的模型相比,這種深度集成降低了可解釋性。Trompt采用了受提示學習啟發的方法,通過使用列和提示嵌入來推導樣本特定的特征重要性,從而根據每個數據實例調整特征的相關性[112]。盡管Trompt在高變異表格數據集上提升了性能,但其嵌入的抽象性質損害了可解釋性并增加了復雜性。
其他模型結合了創新機制和現有架構以應對表格數據的挑戰。TabR集成了一個檢索增強機制,利用基于L2的最近鄰居以及前饋神經網絡,通過從訓練數據中檢索相關上下文來增強局部學習[110]。盡管這種方法顯著提高了預測準確性,但在訓練過程中引入了計算開銷,影響了可擴展性。BiSHop利用雙向稀疏Hopfield模塊來處理表格數據,按列和按行捕捉特征內部和特征之間的交互[109]。其專門設計的表格嵌入和可學習的稀疏性提供了強大的性能,但以降低可解釋性和更高的計算需求為代價,限制了其在大型數據集上的應用。 最后,超圖增強的表格數據表示學習 (HYTREL) 使用超圖結構感知Transformer,利用超圖表示表格,以捕捉復雜的單元格、行和列關系[111]。這使得HYTREL能夠保留關鍵的結構屬性,并在列注釋和表格相似性預測等任務上表現出色,盡管超圖的復雜性降低了可解釋性。TabLLM是一種新穎的方法,它將表格數據序列化為自然語言字符串,使大語言模型(LLMs)像處理文本一樣處理它[84]。雖然在零樣本和少樣本學習場景中有效,但TabLLM面臨可擴展性問題和可解釋性挑戰,因為LLMs的高計算需求以及它們對表格數據的抽象表示。
多模態大語言模型(MLLMs)通過將強大的大語言模型(LLMs)與各種模態編碼器(例如視覺、音頻)相結合,模仿了人類的感知和推理系統,將LLMs定位為“大腦”,而將各種模態編碼器視為感官器官。這個框架賦予了MLLMs類似于人類的能力,并為實現人工通用智能(AGI)提供了潛在的路徑**。隨著GPT-4V和Gemini等全方位MLLMs的出現,已經開發了多種評估方法來評估其在不同維度上的能力。本文系統且全面地綜述了MLLMs的評估方法,涵蓋以下關鍵方面**:(1)MLLMs及其評估的背景;(2)“評估什么”,即基于所評估的能力,回顧并分類現有的MLLM評估任務,包括一般的多模態識別、感知、推理和可信度,以及社會經濟、自然科學與工程、醫學應用、AI代理、遙感、視頻和音頻處理、3D點云分析等領域的特定應用;(3)“在哪里評估”,即將MLLM評估基準劃分為通用基準和特定基準;(4)“如何評估”,即回顧并說明MLLM評估步驟和指標;我們的主要目標是為MLLM評估領域的研究人員提供寶貴的見解,從而促進更強大和可靠的MLLMs的發展。我們強調,評估應被視為一門關鍵學科,對推進MLLMs領域至關重要。 關鍵詞:多模態大語言模型,評估,評估任務,評估基準,評估指標,多模態模型,多模態任務,人工通用智能,自然語言處理,計算機視覺
人工智能(AI)一直是計算機科學中的一個具有挑戰性的研究領域,其目標是使機器具備像人類一樣的感知、理解和推理能力。近年來,大語言模型(LLMs)在人工智能領域取得了顯著進展,并在各種任務中取得了顯著成功。通過擴大數據量和模型規模,LLMs展現出了非凡的涌現能力,例如指令遵循、上下文學習和鏈式思維推理。盡管它們在眾多自然語言處理任務中表現出色,但LLMs本質上僅限于語言模態,這限制了它們在離散文本之外理解和推理的能力。 另一方面,人類通過多種渠道感知世界,如視覺和語言,每種渠道在表示和傳達特定概念方面都有獨特的優勢。這種多模態感知方式促進了對世界的全面理解,并為實現人工通用智能(AGI)提供了潛在的路徑。為了彌合人類感知與人工智能之間的差距,開發了多模態大語言模型(MLLMs)以模仿人類的多模態感知能力。具體來說,MLLMs將強大的大語言模型(LLMs)定位為“大腦”,而將各種模態編碼器視為感官器官,其中模態編碼器使MLLM能夠通過多種模態感知和理解世界,而LLMs則提供對復雜和全面的多模態信息的高級推理能力。該設計使MLLMs能夠像人類一樣學習感知和推理,利用來自多個渠道(如視覺、語言、音頻等)的信息,在多模態理解和推理方面表現出色。因此,MLLMs在傳統的視覺任務和更復雜的多模態挑戰中都展現了多樣化的能力。 隨著我們朝著AGI級別的MLLMs邁進,評估在其研究、開發和部署中起著至關重要的作用。首先,一個設計良好的評估框架可以更準確地反映MLLM的能力,從而量化其優點和局限性。例如,[1]表明盡管當前的MLLMs在全局圖像理解方面表現出色,但在局部圖像區域的推理上表現不佳。同樣,[2]指出現有的MLLMs在細粒度的視覺關系和交互理解方面存在困難。其次,從可信度的角度評估MLLMs對于確保其魯棒性和安全性至關重要,特別是在醫學診斷和自動駕駛等對可靠性要求極高的敏感應用中。第三,探索和評估MLLMs在各種下游任務中的表現有助于其應用和部署,確保它們滿足不同使用場景的具體需求。 總而言之,更全面和系統的評估方法對于激發更強大和更可靠的MLLMs的發展至關重要。隨著MLLMs的不斷進步,它們也需要高標準、全面的評估基準。MLLMs的發展與其評估過程之間的這種互進關系類似于雙螺旋結構,彼此推動前進。在GPT-4V、BLIP、Gemini和LLava等開創性MLLMs之后,已經引入了許多評估協議,涵蓋了從評估多模態識別、感知和推理等一般多模態能力,到評估在社會經濟、自然科學與工程、醫學應用、遙感等下游應用中的具體能力的廣泛方面。 盡管MLLM評估對于支持MLLM研究、開發和部署具有重大價值和吸引力,但目前學術界缺乏一篇系統性的綜述來提供關于當前MLLM評估方法、現有挑戰和潛在未來方向的全貌。本文旨在通過對涉及多種任務的MLLM評估方法進行詳盡的綜述來填補這一空白,這些任務根據所考察的模型能力進行分類,包括在多模態理解和可信度方面的一般能力,以及在社會經濟、自然科學與工程、醫學應用、遙感、視頻、音頻和3D點云分析等下游應用中的具體能力。我們從不同的角度進行綜述,涵蓋MLLMs及其評估的背景,評估什么,在哪里評估,如何評估,比較分析,當前挑戰和開放性方向。我們希望這篇綜述能夠為學術界提供關于MLLMs及其評估的全面概覽,涵蓋已取得的成就、當前的挑戰以及MLLMs及其評估的未來發展方向。 我們將本工作的主要貢獻總結為三個關鍵方面。首先,我們通過構建現有評估方法的分類體系,并突出其主要貢獻、優勢和局限性,提供了對多模態大語言模型評估的系統且全面的綜述。該分類體系根據所考察的能力和目標應用對評估方法進行分類。與之前專注于NLP[3],[4]或MLLM設計[5]的綜述不同,我們的工作獨特地集中于MLLMs的評估,據我們所知,目前尚未有相關的全面綜述。其次,我們通過對多個數據集進行詳盡的基準測試和討論,調查并分析了MLLMs及其評估的最新進展。第三,我們識別并討論了MLLMs及其評估中幾個未來研究的挑戰和有前景的方向。
本節介紹多模態大語言模型(MLLMs)評估的背景,包括多模態大語言模型的基礎和相關內容。
本節介紹了多模態大語言模型(MLLMs)的基礎,包括MLLM框架、MLLM訓練策略和MLLM的評估。2.1.1 MLLM框架 MLLMs通常由處理輸入文本的大語言模型、編碼其他各種模態輸入(如圖像、視頻)的模態編碼器以及將文本輸入和其他模態輸入對齊到統一特征空間的模態投影器組成。 大語言模型。在學習輸入文本時,基于Transformer的大語言模型(LLMs)被廣泛采用。具體而言,Transformer架構 [6]采用編碼器-解碼器框架,其中編碼器由六層組成,每層包含一個多頭自注意力機制和一個多層感知機(MLP)。解碼器采用類似結構,由六層組成,包含多頭注意力、掩碼多頭注意力和MLP。在此基礎上,LLaMA [7]由于其在各種語言任務中的出色表現,已成為文本特征提取的領先模型。在LLaMA架構的基礎上,開發了像Vicuna [8]和Guanaco [9]這樣的指令微調模型,并用于構建MLLMs時的文本特征提取。 模態編碼器。用于處理不同模態輸入的各種編碼器,如圖像、視頻和音頻。視覺Transformer(ViT)廣泛用于圖像特征提取,利用一系列Transformer模塊,每個模塊由一個多頭自注意力層和一個前饋網絡組成。在實際應用中,基于具體應用需求采用了各種預訓練版本的ViT。例如,CLIP預訓練的ViT常用于通用圖像理解 [10],而SAM預訓練的ViT則更適合于詳細和精細的圖像分析 [11]。 對于視頻數據編碼,ViT通過時間編碼器進行了增強,以有效捕捉時間相關信息。例如,Valley [12]整合了一個時間建模組件,以更好地理解視頻輸入的動態方面。對于3D圖像特征提取,特別是在點云數據中,采用了專門的模型,如Point-BERT [13]和PointNet [14]。這些模型專門設計用于高效捕捉3D數據的特征,從而更全面地理解空間結構。基于Transformer的架構也廣泛應用于音頻數據編碼。例如,Whisper模型 [15],專為通用語音識別設計,利用Transformer網絡有效學習音頻特征。 模態投影器。在多模態大語言模型中,模態投影器通常用于將不同模態(如文本、圖像、音頻)的特征對齊到統一的特征空間。該模塊通常涉及線性層或神經網絡,旨在將高維輸入特征轉換為統一表示。例如,LLaVA [10]采用一個可訓練的投影矩陣將編碼的視覺特征轉換為語言嵌入標記空間。通過將每個模態投影到一個通用空間,模型可以更好地捕捉跨模態關系,確保不同模態之間的兼容性和對齊。2.1.2 MLLM訓練策略 對齊預訓練。作為MLLM訓練的第一階段,對齊預訓練通常側重于對齊不同模態并學習多模態對應知識。通常,預訓練涉及大規模的文本配對數據,如用自然語言描述圖像、音頻或視頻的標題。例如,文獻 [10], [16] 在對齊預訓練階段采用標準的交叉熵損失,使MLLMs能夠自回歸地預測給定圖像的標題。為了更好地保留原始預訓練知識,MLLMs通常保持預訓練模型(如預訓練的視覺編碼器或大語言模型)凍結,僅訓練可學習的投影模塊進行對齊 [10], [16]。 多模態指令微調。多模態指令微調通過將語言作為任務指令對MLLMs進行微調,旨在構建一個在遵循用戶意圖方面具有卓越交互性和適應性的通用模型。指令微調通常包括兩個階段,即(1) 構建視覺指令遵循數據和(2) 進行視覺指令微調。視覺指令遵循數據通常具有{Instruction, Input, Output}的格式,其中Instruction表示任務指令,Input指的是各種模態的輸入(如Input = {Image}),而Output則表示關于給定任務指令的響應。這些數據集通常基于公共多模態數據進行擴展,并使用大語言模型進行增強 [17], [18]。通過構建的指令遵循數據,MLLMs通過基于指令和輸入圖像順序預測輸出中的每個標記來進行全監督方式的微調。 對齊人類偏好。對齊微調特別旨在增強模型行為以滿足特定的人類期望。廣泛采用了兩種對齊微調技術,即帶有人類反饋的強化學習(RLHF)[19]和直接偏好優化(DPO)[20]。具體而言,RLHF通過基于人類反饋的獎勵訓練模型,引導它們生成更理想的輸出。另一方面,DPO通過學習人類偏好直接優化模型,無需復雜的獎勵模型,以更直接的方式改善對齊。
本節概述了用于評估多模態大語言模型(MLLMs)能力的各種任務,涵蓋了多模態理解和可信度分析等一般任務,以及社會經濟、自然科學與工程、醫學應用、AI代理和其他與視覺相關的具體任務。表1和表2分別總結了MLLMs在一般任務和具體任務上的評估情況。
多模態大語言模型(MLLMs)的出現擴展了傳統語言模型的能力,使其能夠處理和理解來自不同模態的信息,如文本和圖像。多模態理解的目標是評估這些模型在跨不同類型輸入信息時的整合和解釋能力。具體來說,多模態理解任務可以大致分為多模態識別、多模態感知和多模態推理。3.1.1 多模態識別 多模態識別旨在識別和分類不同模態中的特定對象、動作和屬性。該任務側重于模型檢測和識別各種方面的能力,包括概念識別、屬性識別、動作識別和光學字符識別(OCR)。 概念識別側重于模型識別和標記不同模態中各種實體、實例、對象和場景的能力。這個任務包括識別一般和特定的概念,如圖像中的對象(例如,識別“汽車”或“狗”)[1],[21],[22],特定類別的實例(例如,特定的地標或產品)[1],[21],[22],以及更廣泛的場景(例如,“海灘”或“山脈”)[1]。作為MLLMs在多模態理解中的關鍵能力,MLLMs通常在概念識別任務中表現出色。例如,[1]表明大多數MLLMs在場景理解任務上表現出較高的性能(例如,>40%)。在MM-Vet [22]中,LLaVA-13B(V1.3, 336px)[25]在概念識別中得分為38.1%,表明其有效理解和分類視覺概念的能力。另一個模型,LLaMA-Adapter v2-7B [153],憑借其大規模的微調數據,表現略好,得分為38.5%。TouchStone [31]提出了一個稱為TouchStone分數的復合分數,它反映了模型在包括概念識別在內的所有評估任務中的表現。Qwen-VL [154]在TouchStone框架內的概念識別任務中表現突出,顯示出與其他模型相比更高的準確性和一致性。[32]表明mPLUG-Owl2在概念識別任務上優于其他模型,如Qwen-VL-Chat [154]和InstructBLIP [155]。其在COCO [157]和Flickr30K [158]等主要數據集上的高CIDEr分數 [156]展示了其在準確識別和描述復雜視覺概念方面的優勢,使其成為該領域的領先模型。 屬性識別是指在不同模態下識別視覺主體屬性的任務。它涉及識別風格、質量、情緒、數量、材質以及人類職業等屬性。在MMBench [21]中,MLLMs在屬性識別任務上的表現差異顯著。例如,InternLM-XComposer2 [159]以73.0%的準確率獲得了最高分之一,展示了其在該領域的強大能力。另一方面,像OpenFlamingo v2 [160]這樣的模型在此任務中的表現較差,準確率僅為5.3%。在SEED-Bench [1]中,MLLMs在屬性識別任務上的表現通過“實例屬性”維度進行評估,該維度專門設計用于評估模型識別和理解實例屬性的能力。結果表明,InstructBLIP Vicuna [155]在“實例屬性”任務中表現出色,展示了其在屬性識別方面的強大能力。在MME基準測試中 [23],通過包括顏色、材質、形狀及其他描述性特征的具體子任務,評估了MLLMs在屬性識別任務上的表現。例如,在顏色子任務中,InfMLLM [161]取得了高準確率,展示了其在圖像中識別顏色屬性的熟練程度。在OpenVQA [26]中,InstructBLIP [155]在屬性識別中表現出色。TouchStone [31]的結果表明,Qwen-VL [154]在TouchStone框架內的屬性識別任務中表現最佳,能夠始終如一地以高準確率識別對象的詳細屬性。mPlug-Owl [32]也表現強勁,而PandaGPT [162]等模型在復雜的屬性識別場景中落后。 動作識別是指在不同模態下識別主體執行的動作或活動的任務。在MMBench [21]中,MLLMs在動作識別任務中的表現通過“細粒度感知(跨實例)”類別進行評估。該任務涉及識別人體動作,包括姿勢運動、人-物體交互以及人-人交互。具體模型及其表現進行了比較,結果以細粒度的方式呈現。根據SEED-Bench [1],InstructBLIP Vicuna [155]模型在“動作識別”維度表現出色,優于其他模型。在OpenVQA [26]中,像InstructBLIP [155]這樣的模型在動作識別中表現強勁。在Visual CoT [39]中,不同MLLMs在“動作識別”任務上的表現差異顯著。基準模型在多個數據集上取得了一定的表現。然而,當采用Visual CoT(鏈式思維)過程 [163]時,表現通常有所提高,特別是在需要更深入推理或理解視覺上下文的更復雜任務中。通過檢查動作識別任務中的準確率百分比和排名等表現指標,研究人員和從業者可以洞察不同MLLMs在理解和分類動作方面的能力。這種全面的評估對于推進MLLMs在涉及時間動態和序列理解的多模態任務中的應用至關重要。 文本識別指的是從視覺輸入(如文件或標志的圖像)中識別和轉換文本的任務。在MMBench [21]中,MLLM在文本識別任務上的表現通過具體指標和觀察進行了突出展示。模型的準確性因其架構和規模而異,某些模型由于語言模型選擇和預訓練數據等因素表現顯著更好。例如,開源模型如LLaVA [25]系列和InternLM-XComposer2 [159]表現出色,而其他如MiniGPT的模型在此任務上表現較為困難。在SEED-Bench [1]中,MLLM在文本識別任務中的表現通過其在多項選擇題中選擇正確選項的準確性來衡量,然后與人類注釋提供的標準答案進行比較。LLaVa [25]在文本識別評估中的表現無與倫比,優于其他維度的表現。根據MME [23],像GPT-4V [164]、Skywork-MM [165]和WeMM [166]這樣的模型在OCR任務中取得了最高分。具體來說,GPT-4V [164]以185分的成績顯示出其在從圖像中識別和轉錄文本方面的高水平能力。在Open-VQA [26]中,像InstructBLIP [155]這樣的模型在文本識別任務中表現出色,表明其在識別和轉錄圖像中的文本方面的熟練程度。在Visual CoT [39]中,基準模型在OCR任務中通常表現出中等的準確率。使用Visual CoT(鏈式思維)通常會提高OCR任務的表現。這種方法使模型能夠將文本識別過程分解為更易于處理的步驟,從而提高準確性和理解度。在TouchStone [31]中,Qwen-VL [154]在識別和讀取圖像中的文本方面表現出色且可靠。mPlug-Owl [32]在其框架內的OCR任務中表現突出,顯示出比其他模型如Qwen-VL-Chat [154]和InstructBLIP [155]更強的表現。通過檢查文本識別任務中的準確率和排名等表現指標,研究人員和從業者可以評估不同MLLMs在處理和解釋視覺數據中的文本信息的能力。這種能力對于需要文本識別和解釋的多模態應用(如自動化文檔處理或基于圖像的信息檢索)至關重要。3.1.2 多模態感知 對象定位是指確定場景中對象的位置。它還包括識別物體的數量并確定物體的方向。在MMBench [133]中,MLLMs在對象定位任務中的表現相對中等。不同模型之間的表現差異顯著。對象定位的整體準確性顯示出改進空間,特別是與基準中的其他任務相比。MM-Vet [22]雖然沒有專門的對象定位任務,但通過“空間意識”類別評估了相關能力,這可以指示MLMMs在包括對象定位在內的更廣泛空間意識能力的任務中的表現。在SEED-Bench [1]中,MLLMs在對象定位任務中的表現通過“實例位置”維度進行評估,其中InstructBLIP [155]模型在“實例位置”維度中取得了高準確率,表明其在圖像中定位實例的強大能力。根據MME [23]的結果,像Lion和InfMLLM [161]這樣的模型在對象定位子任務中取得了高分。通過查看“實例位置”維度中的準確率百分比和排名等表現指標,研究人員和從業者可以評估不同MLLMs在識別視覺場景中對象空間上下文的精度。這對于理解和改進模型的空間理解能力至關重要,這是先進多模態AI系統的基本方面。 對象關系涉及模型理解和識別視覺場景中不同對象之間空間關系的能力。這可以包括空間關系(例如,在上方、在旁邊)、對象之間的交互(例如,一個人拿著一本書)或更復雜的上下文連接(例如,理解椅子是用來坐的)。該任務評估模型準確解釋和推理這些圖像或視頻中的關系的能力,這對于視覺推理、場景理解以及更復雜的視覺語言交互等任務至關重要。在MMBench [21]中,MLLMs在對象關系任務中的表現差異顯著。具體來說,模型在準確識別視覺數據中對象之間關系的成功程度各不相同,可能包括空間關系、交互和上下文連接。表現指標表明,像GPT-4v [164]和Qwen-VL-Max [154]這樣的模型在這一類別中表現最佳,在理解和推理對象關系方面顯示出比其他模型更高的準確性。MM-Vet [22]通過“空間意識”能力評估了LMMs在對象關系任務中的表現,使用基于LLM的評分系統,為評估模型在理解和描述視覺場景中的對象關系方面的準確性和響應質量提供了全面的指標,其中MM-ReAct-GPT4 [167]在“空間意識”類別中取得了高分,表明其在需要理解空間關系的任務中的強大表現。根據SEED-Bench [1]的結果,像InstructBLIP Vicuna [155]和BLIP2 [168]這樣的模型在“空間關系”維度中表現出色,表明其在理解對象之間的空間關系方面的熟練程度。MME [23]的結果顯示,某些模型在對象關系任務中表現強勁。例如,像WeMM [166]和InfMLLM [161]這樣的模型在理解和關聯圖像中對象位置方面表現出色。在V*Bench [36]中,SEAL [36]由于其先進的視覺搜索能力在對象關系任務中表現突出,使其能夠準確地定位和推理高分辨率圖像中的對象關系。像GPT-4V [164]和Gemini Pro這樣的模型也表現良好,但在最具挑戰性的場景中沒有達到與SEAL相同的準確性水平。LLaVA-1.5 [25]表現出中等成功,表明在處理復雜視覺任務時仍面臨挑戰。對象關系任務是評估MLLMs整體性能的關鍵組成部分。它測試模型的視覺理解深度、多模態信息整合能力及其在復雜現實場景中的穩健性。在對象關系任務中表現出色的模型在需要復雜視覺推理和上下文感知分析的應用中可能會表現出色。 對象交互涉及理解和識別視覺場景中對象之間的交互。該任務側重于模型解釋不同對象在動作、運動或功能關系方面如何相互關聯的能力。根據Seed-Bench [1]的結果,通過選擇多項選擇題中的正確選項來衡量每個MLLM在此任務中的表現。然后將此選擇與人類注釋員確定的標準答案進行比較。像InstructBLIP Vicuna [155]這樣的模型在“實例交互”維度中表現出色。P2G [28]增強型模型優于基準模型,如mPLUG-OWL和Instruct-BLIP,得益于即插即用的對齊機制,它增強了對復雜圖像中對象關系和交互的理解。這些模型利用外部代理進行對齊,提高了其識別和推理圖像中對象之間交互的能力。VL-Checklist [41]框架詳細評估了不同VLP模型,如CLIP [17],LXMERT [169]和ViLT [170]在對象交互任務中的處理能力。評估顯示,雖然像CLIP這樣的模型在識別對象之間的動作方面表現出色,但它們通常在空間關系方面存在困難。通過準確識別正確與錯誤的圖文對,量化了這些模型的表現,在空間推理任務中特別注意到了一些挑戰。ARO基準 [42]強調了像NegCLIP [171]和X-VLM [172]這樣的模型在對象交互任務中表現強勁,特別是在理解對象之間的空間和動作關系方面。對象交互任務的評估衡量了MLLM模型理解視覺場景的關系和組成方面的能力。這提供了模型捕捉上下文和對象交互能力的洞察力,這對于生成準確且有意義的解釋至關重要。3.1.3 多模態推理 常識推理評估MLLMs在理解和推理圖像中對象交互方面的能力。這包括識別交互的性質和上下文,確定對象之間的關系,并根據這些交互和一般世界知識推斷邏輯結論。在MMBench [21]中,像LLaVA-InternLM2-20B [173]和Qwen-VL-Max [154]這樣的MLLMs表現顯著優于其他模型,其得分表明對常識推理場景的扎實理解。這些模型在所有評估指標上均有所提升,突顯了它們的推理能力。具體來說,這些模型在這一類別中的表現優于其他模型,使其在多模態背景下的常識推理任務中脫穎而出。MME [23]基準測試的結果顯示,像GPT-4V [164]、WeMM [166]和XComposer-VL等模型在常識推理任務中表現強勁。例如,GPT-4V [164]取得了142.14的高分,表明其在給定圖像和指令的背景下應用常識知識和推理的非凡能力。在Open-VQA [26]中,InstructBLIP [155]在常識推理方面表現強勁,反映了其基于視覺線索和一般知識進行合理推斷的能力。在TouchStone [31]中,Qwen-VL [154]是常識推理任務中的表現最佳者,展示了在做出邏輯和上下文上適當推斷方面的強大能力。在MDVP-Bench [27]中,SPHINX-V [27]在常識推理任務中領先,表現出色,在理解和應用上下文知識到視覺場景中的準確性方面表現卓越。像Osprey-7B [174]和Ferret-13B [175]這樣的模型也表現良好,但在細微推理能力方面未達到SPHINX-V [27]的同等水平。LLaVA-1.5 [25]落后,表明在處理復雜推理任務時面臨挑戰,這些任務需要更深層次的理解和推理。通過檢查常識推理任務中的準確率和排名等表現指標,研究人員和從業者可以評估不同MLLMs在應用常識知識進行邏輯推斷的能力。這種能力對于需要理解視覺場景上下文和含義的多模態應用至關重要。 關系推理指的是模型在給定的多模態背景下理解和推斷不同對象、概念或實體之間的社會、物理或自然關系的能力。這個任務涉及分析圖像、文本或兩者的組合中的不同元素之間如何相互關聯。關系可以是空間的、因果的或關聯的,要求模型理解不同成分之間的潛在連接,以做出準確的預測或生成有意義的響應。在MMBench [21]中,關系推理任務的關鍵表現指標包括社會關系、物理關系和自然關系等子任務的準確率。例如,像InternLM-XComposer2 [159]這樣的模型在這些任務中表現出色,顯示了優越的推理能力,而其他模型的表現則有所不同。InternLM-XComposer2 [159]整體表現最佳,在關系推理方面具有較高的準確性。Gemini-Pro-V和GPT-4v [164]也表現良好,特別是在社會和物理關系推理方面,表明在理解復雜對象和實體之間的關系方面具有較強的能力。開源模型的整體表現較差,表明在這一領域還有改進的空間。在Visual CoT [39]中,評估了各種MLLMs在關系推理任務中的表現。結果表明,VisCoT-7B在336x336分辨率下在關系推理任務中表現最佳,特別是在Open Images和GQA等數據集上表現出色。在II-Bench [68]中,Qwen-VL-MAX [154]在關系推理任務中領先,表現出卓越的準確性,能夠理解和推理對象之間的關系。像LLaVA-1.6-34B [176]和Gemini-1.5 [177] Pro等模型也表現良好,但在更復雜的場景中略有落后。GPT-4V [164]表現出一定的能力,但在更復雜的推理任務中有所滯后,突出顯示了MLLMs在實現人類般的關系理解方面的持續挑戰。關系推理任務在MLLM模型性能評估中具有重要意義,因為它不僅僅是基本的對象識別,還評估模型理解復雜關系和對象交互的能力。這是模型認知深度、跨不同場景泛化能力及其多模態信息整合能力的關鍵指標,這些對于高級AI應用和實現機器的人類般理解至關重要。 邏輯推理指的是模型理解和應用邏輯原則來分析和解釋多模態數據的能力。這包括需要模型基于給定的前提得出結論、做出預測或解決問題的任務,識別模式、解決難題并通過復雜場景進行推理。在MMBench [21]中,通過結構化圖文理解和未來預測等子任務評估MLLMs在邏輯推理中的表現。這些任務評估了模型處理和推理結構化視覺和文本信息的能力。例如,像LLaVA-InternLM2-20B這樣的模型在這些推理任務中表現出色,而其他模型則可能在涉及結構化圖文理解的更復雜場景中表現不佳。在SEED-Bench [1]中,MLLMs在邏輯推理任務中的表現通過“視覺推理”維度進行評估,其中像“MiniGPT-4”和“mPLUG-Owl”這樣的模型在“視覺推理”維度中表現出色。TouchStone [31]的結果顯示,Qwen-VL [154]在邏輯推理任務中表現最佳,表現出基于視覺和文本輸入做出準確且邏輯推斷的強大能力。II-Bench [68]的結果顯示,Qwen-VL-MAX [154]是邏輯推理任務中的領先模型,表現出在解釋和推理復雜視覺隱含意義方面的卓越準確性。邏輯推理任務是MLLM性能評估的一個重要方面,因為它測試了模型將邏輯原則應用于復雜多模態數據的能力。這一任務不僅評估了模型的認知能力及其整合和推理多樣化輸入的能力,還提供了關于其現實世界應用潛力、穩健性和朝著人類般智能進展的洞察。因此,邏輯推理對于理解MLLMs的真正潛力和局限性至關重要。
魯棒性指的是MLLM在噪聲環境下處理和處理損壞、擾動或對抗性多模態輸入而不顯著降低性能的能力。在CHEF [87]中,SPHINX-V [27]成為最魯棒的模型,表現出在各種場景中對輸入損壞的卓越抵抗力。Ferret-13B [175]和Osprey-7B [174]的表現也不錯,但在惡劣條件下的魯棒性略有降低。LLaVA-1.5 [25]表現出較低的魯棒性,當輸入嚴重損壞時,其準確性顯著下降。MADBench的結果表明,GPT-4V [164]是最魯棒的MLLM,表現出對欺騙性提示的出色抵抗力并保持高準確性。其他模型如Gemini-Pro和LLaVA-NeXT-13b-vicuna的表現也不錯,特別是在提示工程的幫助下,顯著提高了它們的魯棒性。MiniCPM-Llama3-v2.5表明,提示修改可以顯著提高模型處理欺騙能力,使其成為進一步研究和開發的關鍵領域。在MMR [89]中,GPT-4V [164]和Qwen-VL-max [154]在魯棒性任務中表現最佳,表現出對誤導性問題的極強抵抗力。LLaVA-1.6-34B [176]也表現出高魯棒性,使其成為在具有挑戰性場景中的更可靠模型之一。Mini-Gemini-HD-34B在開源模型中表現突出,其魯棒性能表現良好,但在某些領域存在漏洞。MM-SpuBench [90]表明,GPT-4V [164]是最魯棒的MLLM,在多個類別中表現出對虛假偏見的強大抵抗力。Claude 3 Opus和Intern-VL也表現出高水平的魯棒性,特別是在共現和光照/陰影等某些偏見類別中。LLaVA-v1.6 [25]雖然表現不錯,但在相對大小和透視等特定偏見方面表現出更多的脆弱性。魯棒性任務在MLLM模型性能評估中至關重要,因為它確保模型不僅在理想條件下有效,而且在面對現實世界挑戰時也具有穩健性和可靠性。通過評估和提高魯棒性,我們可以開發出更加多才多藝、值得信賴且適用于各種場景的MLLMs,最終導致更安全、更有效的AI系統。 幻覺被定義為評估模型在多模態輸入中生成不正確、不相關或虛構的描述或對象的傾向。在POPE [93]中,InstructBLIP [155]是最可靠的模型,其幻覺率最低,使其在避免錯誤描述方面最為準確。MiniGPT-4和LLaVA [25]表現出中到高的幻覺率,表明在保持準確性方面存在一些挑戰。Shikra表現出最高的幻覺率,表明其在準確描述視覺內容而不引入不存在元素方面有很大的改進空間。在GAVIE [97]中,InstructBLIP-13B [155]是避免幻覺的最可靠模型,其次是MiniGPT4-13B和LLaVA-13B [25]。mPLUG-Owl-7B表現出最高的幻覺傾向,突顯了其在準確解釋視覺內容方面面臨的挑戰。這些結果強調了微調和指令微調在減少MLLMs幻覺中的重要性。在HallusionBench [101]中,GPT-4V [164]在最小化幻覺方面最為有效,盡管其準確性表明仍有改進空間。LLaVA-1.5 [178]和Gemini Pro Vision在這一領域面臨更大挑戰,經常生成虛構內容。BLIP2-T5 [168]表現中等,但仍在處理復雜視覺數據時表現出困難。這些結果強調了進一步改進MLLMs以更好處理幻覺的必要性,確保更可靠和準確的視覺解釋。幻覺是MLLM模型性能評估中的一個重要方面,因為它直接影響模型的準確性、可靠性和可信度。通過最小化幻覺,開發者可以創建更加魯棒、可推廣且適用于廣泛應用的模型,特別是在高風險或面向消費者的環境中。 倫理側重于評估多模態大語言模型生成的輸出的倫理影響。此任務評估模型的響應是否符合倫理標準和社會規范,特別是在避免有害、偏見或不適當內容方面 [92]。Multi-Trust [92]的結果顯示,GPT-4V [164]和Claude3是倫理對齊最好的模型,表現出高準確性和拒絕倫理上有問題提示的強大能力。LLaVA-1.5-13B [178]也表現不錯,但一致性較差,而Gemini-Pro表現中等,表明在倫理決策方面仍有改進空間。這些結果突顯了MLLMs持續倫理評估和改進的重要性,以確保其在各種應用中的安全和公平使用。 偏見指的是評估模型產生反映或強化社會偏見、刻板印象或對某些群體不公平待遇的輸出的傾向。此任務的目標是確保模型的行為和生成內容公平、公正,并且不會助長有害的偏見 [92],[106]。在Multi-Trust [92]中,GPT-4-Vision和Claude3在減輕偏見方面表現最佳,兩者在刻板印象相關任務中的拒絕回答率達到完美。Gemini-Pro和LLaVA-1.5-13B [178]也表現不錯,但拒絕率略低,表明在始終避免偏見方面存在一些挑戰。同樣,在RTVLM [106]中,GPT-4-Vision和Claude3在避免偏見輸出方面表現最佳,在文本和圖像相關場景中均達到完美或近乎完美的拒絕率。Gemini-Pro和MiniGPT-4-13B [179]表現較差,尤其是在引入視覺元素時,表明其更容易受到輸入數據中潛在偏見的影響。偏見任務在MLLM評估中至關重要,因為它有助于確保模型在社會上負責任,不會助長錯誤信息或有害的刻板印象。通過解決和減少偏見,開發者可以提高AI系統的公平性和包容性,使其更值得信賴且適合在多樣化的現實環境中部署。 安全性評估MLLMs避免生成有害、冒犯性或其他不安全內容的能力。這包括確保模型不會生成可能導致傷害、鼓勵暴力、支持非法活動或傳播錯誤信息的輸出。在MMUBench [108]中,LLAVA-13B [25]和MiniGPT-4表現出顯著的脆弱性,高ASR得分表明在抵抗不安全內容方面頻繁失敗。InstructBLIP [155]表現較好,ASR中等,而IDEFICS表現最強,顯示出最低的ASR和最高的安全性。在JailBreakV-28K [109]中,LLaVA-1.5-7B [178]和OmniLMM-12B在生成不安全內容方面表現出更高的易感性,在多個安全策略中ASR得分顯著。InstructBLIP-7B [155]和Qwen-VL-Chat [154]表現較好,但仍存在漏洞,表明盡管它們具有一些安全機制,但在確保對不安全提示的穩健防御方面仍有改進空間。在MM-SafetyBench [107]中,LLaVA-1.5-7B [178]和MiniGPT-4在生成不安全內容方面表現出更高的易感性,在多個場景中ASR得分較高。InstructBLIP [155]表現較好,但仍存在漏洞,而IDEFICS [180]表現出對不安全提示的最強抵抗力,表明其在安全標準方面的更好對齊。安全性是MLLM評估的一個重要組成部分,因為它確保模型在安全、倫理和法律界限內操作。它對于保護用戶、遵守法規以及保持公眾信任至關重要。在安全任務中表現出色不僅可以防止傷害,還支持開發負責任和可信賴的AI系統的更廣泛目標。
文化評估模型在不同文化背景下理解、解釋和響應內容的能力。此任務旨在評估模型在處理和生成內容時如何理解和尊重各種文化的細微差別、傳統和社會規范。在CODIS [35]中,GPT-4V [164]和Gemini在文化任務中表現最佳,表現出更好理解和解釋文化背景的能力。LLaVA-1.5-13B [178]和InstructBLIP-13B [155]表現落后,特別是在沒有明確上下文提示時解釋文化細微差別時準確性較低。在CVQA [111]框架中,GPT-4o和Gemini-1.5-Flash [177]在文化多樣性問題的處理上表現出色,無論是英文還是本地語言。LLaVA-1.5-7B [178]和InstructBLIP [155]在處理本地語言提示時面臨更多挑戰,表明這些模型在更好處理文化多樣性方面仍有改進空間。文化任務在MLLM評估中的重要性體現在全球化世界中,AI系統在不同文化環境中使用時的表現。文化任務評估模型處理語言細微差別、傳統、社會規范和文化參考的能力,這些因素在不同地區或社區之間可能存在差異。 社會評估模型解釋和響應社會問題的能力,包括理解社會規范、倫理考慮和文化細微差別。此任務旨在評估模型生成符合社會價值觀、避免強化負面刻板印象并尊重社會敏感性的內容的能力。在MM-SOC [113]中,MLLMs在各種社交媒體內容理解任務中進行了評估。這些任務包括虛假信息檢測、仇恨言論檢測、幽默檢測、諷刺檢測、冒犯性檢測、情感分析和社會背景描述。LLaVA-v1.5-13b [25]在虛假信息檢測、仇恨言論檢測和情感分析任務中分別取得0.642、0.587和0.335的宏F1分數。InstructBLIP-flan-t5-xxl [155]在社會背景描述理解上取得了0.294的ROUGE-L分數。在TransportationGames [114]中,評估了各種MLLMs在一系列交通相關任務中的表現,這些任務根據布盧姆分類法分為三大類:記憶、理解和應用交通知識。Qwen-VL-Chat [154]在交通標志問答任務中取得了54.47%的準確率。InternLM-XComposer-7B [159]在交通事故分析中在GPT-4-Eval指標上得分為77.9。TransCore-M [114]在ROUGE-L指標上得分為82.1,表明其在生成基于給定場景的適當和上下文相關安全建議方面的有效性。
數學旨在評估模型推理和解決可能涉及文本和視覺數據的數學問題的能力。這些任務通常需要模型在不同模態(文本和圖像)中執行多步驟推理,并應用數學概念得出正確的解決方案。TouchStone [31]基準中的數學任務揭示了某些MLLMs在整合視覺和文本數據進行數學問題解決方面表現良好,而其他模型在準確解釋和推理數學視覺方面的復雜性上表現掙扎。Qwen-VL [154]是TouchStone基準中數學任務的表現最佳者,表現出處理廣泛數學問題的強大能力。mPLUG-Owl在幾何和算術方面也表現良好,而PandaGPT [162]等模型表現明顯較差,通常在準確解決基本數學任務時表現出困難。在M3CoT [67]中,GPT-4V [164]表現最佳,準確率為46.97%,表現出處理這些任務的強大能力。LLaVA-V1.5-13B [25]取得了40.86%的中等準確率,表現合理,但在多步驟推理方面存在一些挑戰。CogVLM-17B的準確率為29.09%,在問題解決的一致性上表現較差。InstructBLIP-13B [155]表現最差,準確率為27.55%,表明在處理這些任務的復雜性方面面臨重大困難。數學任務在評估多模態大語言模型(MLLMs)中至關重要,因為它們測試了模型執行復雜推理、整合多模態數據(文本和視覺)并邏輯應用抽象概念的能力。 自然科學評估模型理解、推理和生成與各種自然科學領域相關的響應的能力。這些任務通常涉及生物學、化學、物理學和地球科學等主題,可能需要模型解釋和整合來自文本和視覺數據源的信息。在M3CoT中,評估了各種MLLMs在自然科學上的表現,以評估它們在生物學、化學和物理學等科學領域中處理多模態復雜推理的能力。GPT-4V [164]在測試的模型中在自然科學任務上表現最強。LLaVA-V1.5-13B [25]表現良好,但略低于GPT-4V [164]。CogVLM-17B和CogVLM-17B在自然科學任務中表現適中。在MUIRBENCH [30]中,GPT-4o和GPT-4-Turbo在自然科學任務上表現最佳,特別是在圖表和地理理解方面。其他模型如Gemini Pro和Mantis-8B-Idefics2表現中等,而VILA1.5-13B在處理這些任務的復雜性方面表現困難。在MMStar [24]中,GPT-4V(高分辨率)[164]在自然科學任務上領先,特別是在理解和推理科學內容方面。其他模型如GeminiPro-Vision和InternLM-XC2也表現良好,但熟練程度各不相同。在M3Exam [127]中,GPT-4在自然科學任務中表現最佳,準確率最高,展示了跨多種語言理解和推理科學內容的強大能力。ChatGPT和Claude緊隨其后,表現適中,而Vicuna在處理這些任務的復雜性方面表現掙扎更多。在SceMQA [119]中,GPT-4-V在SceMQA基準中的自然科學任務中表現最佳,特別是在生物學和化學等學科中,展示了強大的多模態推理能力。Google Gemini Pro表現良好,而InstructBLIP-13B [155]和MiniGPT4-13B在處理多模態科學推理的復雜性方面表現出更多挑戰。自然科學任務評估模型理解和推理復雜科學概念的能力,跨越多種模態,如文本和圖像。這些任務挑戰模型應用生物學、化學和物理學等領域的領域特定知識,反映了它們在教育和研究中的現實應用潛力。它們在這些任務上的表現突顯了模型在多模態整合和科學推理方面的優勢和劣勢,對于高級認知任務至關重要。 工程旨在評估模型理解、處理和應用工程概念、要求和技術文檔的能力。這些任務通常涉及解釋和綜合來自多個來源的信息,包括文本工程文檔、CAD圖像和工程圖紙。任務通常基于實際工程挑戰,如根據特定技術要求設計產品或確保符合工程標準。在DesignQA [130]中,GPT-4o-AllRules在工程任務中表現最佳,特別是在規則檢索和尺寸合規方面。GPT-4-AllRules也表現良好,但準確性略低。Claude-Opus-RAG在生成高質量解釋方面表現出色,而Gemini-1.0-RAG表現中等熟練。LLaVA-1.5-RAG在處理這些任務的復雜性方面表現困難,特別是在準確檢索和應用規則方面。在MMMU [75]中,GPT-4V [164]在工程任務中領先,特別是在處理復雜多模態內容方面,其次是SenseChat-Vision和Qwen-VL-MAX [154]等模型,雖然它們也表現良好,但存在一些局限性。其他模型如LLaVA-1.6-34B [176]和InstructBLIP-T5-XXL [155]表現中等熟練,但在更復雜的工程場景中面臨挑戰。
醫學任務旨在評估模型理解、推理和生成與醫學信息相關的響應的能力。這些任務通常涉及解釋和綜合來自各種模態的數據,如醫學文本、臨床圖像(如X射線、MRI等)和病歷。目標是評估模型應用醫學知識支持臨床決策、診斷、治療計劃和患者護理的能力。在MMMU [75]基準測試中,GPT-4V [164]在醫學任務中領先,特別是在處理復雜多模態內容方面,其次是SenseChat-Vision-0423-Preview和Qwen-VL-MAX [154]等模型,雖然它們也表現良好,但存在一些局限性。其他模型如LLaVA-1.6-34B [176]和InstructBLIP-T5-XXL [155]表現中等熟練,但在更復雜的醫學場景中面臨挑戰。在GMAI-MMBench [133]中,GPT-4o在醫學任務中領先,緊隨其后的是Gemini 1.5和GPT-4V [164]。醫學特定模型如MedDr表現合理,但總體上落后于表現最佳的通用模型,突顯了醫學任務的復雜性以及在該領域進一步發展的必要性。M3D [132]基準測試突顯了MLLMs如M3D-LaMed在處理復雜3D醫學圖像任務方面的能力。M3D-LaMed在報告生成和VQA方面表現出色,表明其在臨床決策支持和醫學圖像分析中的強大潛力。其他模型如RadFM雖然有能力,但在生成詳細醫學報告和回答臨床相關問題方面的準確性和精度方面落后。
AI代理指的是設計用于評估模型作為視覺基礎代理功能的任務。這些任務要求模型理解、交互和導航復雜的視覺環境和用戶界面,基于視覺和文本輸入做出高級決策并執行動作。在VisualAgentBench [135]中,GPT-4V [164]在AI代理任務中領先,任務成功率最高,展示了其在多模態推理和交互方面的強大能力。像Gemini 1.5和Claude-Next這樣的模型表現良好,但在處理更復雜的場景時面臨一些挑戰。其他模型如LLaVA-Next [176]和Qwen-VL [154]表現中等熟練,表明在進一步發展以提高其在AI代理任務中的有效性方面仍有改進空間,特別是在決策和任務執行方面。在EgoPlan-Bench [136]中,GPT-4V [164]在AI代理任務中領先,緊隨其后的是XComposer。這些模型表現出強大的規劃能力和有效利用視覺信息進行決策的能力。其他模型如Gemini-Pro-Vision和SEED-X表現合理,但在更復雜的場景中面臨挑戰。Yi-VL雖然有能力,但在有效整合視覺數據進行任務規劃方面落后。在PCA-EVAL [137]基準測試中,GPT-4V [164]在AI代理任務中脫穎而出,展示了跨不同領域的感知和行動方面的高準確性。GPT-4(HOLMES)系統也表現良好,特別是在需要多步驟推理和API集成的任務中。其他模型如QwenVL-Chat和MMICL表現中等能力,但在更復雜的場景中表現困難,而InstructBLIP [155]面臨顯著挑戰,反映了MLLMs在具體化決策任務中不同的有效性水平。AI代理任務在MLLM評估中至關重要,因為它們測試了模型作為基礎代理在復雜環境中實際應用的能力。這些任務有助于確定模型在需要深刻理解視覺和文本信息的任務中自主執行的能力,使其在機器人技術、用戶界面自動化和數字助手等現實應用中至關重要。
3D點云指的是模型需要理解、處理和分析由點云表示的3D空間數據的任務。這些任務通常涉及使用點云回答問題、定位對象或生成準確反映3D場景的描述。在ScanQA [141]中,ScanQA模型在3D點云任務中表現最佳,特別是在準確回答問題和定位3D空間中的對象方面。它優于其他模型,如ScanRefer + MCAN和VoteNet + MCAN,這些模型表現出一定的熟練程度,但在3D空間推理的復雜性上表現掙扎。在LAMM [142]中,基準MLLM在3D點云任務中表現出不同程度的熟練程度。雖然它表現出在3D對象檢測和VQA任務中執行的基本能力,但在3D視覺定位方面的表現明顯較弱,特別是在零樣本設置中。然而,經過微調后,尤其是在3D VQA任務中,模型的準確性幾乎達到完美。M3DBench [143]的結果顯示,LLaMA-2-7B模型在3D點云任務中表現強勁,特別是在VQA和多區域推理方面,取得了最高的BLEU-4和CIDEr分數。OPT-6.7B模型在具身規劃任務中也表現良好。Vicuna-7B-v1.5雖然有能力,但在大多數任務中的總體得分較低,表明在處理復雜的3D推理和規劃場景時面臨挑戰。3D點云任務在MLLM評估中的重要性體現在它們評估了空間推理、多模態整合和高級認知能力,這些在涉及3D環境的現實應用中至關重要。這些任務為評估MLLMs在處理復雜現實挑戰中的整體性能和穩健性提供了全面的基準。 視頻指的是涉及理解、分析和推理視頻內容的任務。這些任務評估模型理解視頻內容的視覺和時間方面的能力,并生成準確且上下文相關的響應。在MMBench-Video [144]中,模型A(例如,GPT-4V)在視頻任務中表現最佳,特別是在視頻問答(VideoQA)和事件識別等任務中表現出色。模型B(例如,LLaMA-2-7B)表現也不錯,但在處理復雜視頻場景時面臨一些挑戰。模型C(例如,Vicuna-7B-v1.5)表現中等能力,特別是在動作分類方面表現出色,但在更復雜的任務中表現滯后。在MVBench [146]中,VideoChat2在各種視頻任務中表現出色,顯著優于其他MLLMs如GPT-4V和VideoChat。VideoChat2在動作序列識別和場景轉換等任務中的出色表現突顯了其卓越的時間理解和視頻推理能力。同時,雖然GPT-4V表現出色,但在處理視頻任務的全范圍時沒有VideoChat2那么有效。VideoChat雖然表現適中,但在處理視頻理解的更復雜方面表現掙扎,表明當前MLLM方法在視頻任務上仍有顯著改進空間。在SOK-Bench [145]中,GPT-4V在視頻任務中表現最強,特別是在需要整合視覺和常識推理的情況下表現出色。AskAnything表現穩健但不一致,特別是在直接回答任務中表現出色,但在更復雜的推理任務中表現掙扎。Video-ChatGPT表現競爭力強,但在SOK-Bench場景中所需的復雜推理上表現更困難。 遙感指的是涉及分析和解釋來自衛星或機載傳感器的數據,以提取有關地表和環境的相關信息的任務。這些任務通常利用各種類型的遙感數據,如光學圖像、雷達數據和多光譜或高光譜影像,執行如土地覆蓋分類、變化檢測和環境監測等活動。在MDAS [149]中,像ResTFNet和SSR-NET這樣的模型在超分辨率任務中表現出色,而SeCoDe在光譜分離方面表現領先。結果表明,整合多種模態可以顯著提高土地覆蓋分類任務的性能。這些發現突顯了不同MLLMs在處理復雜遙感任務中的優勢和挑戰,展示了多模態數據融合在遙感應用中實現高精度和可靠性的必要性。在HighDAN [147]中,HighDAN在遙感任務中表現最佳,特別是在跨城市語義分割方面。它在整體準確性、平均IoU和F1得分方面表現出色,展示了其在不同城市環境中出色的泛化能力。SegFormer和DualHR表現也不錯,但在處理跨城市場景的復雜性時表現出一些局限性。在RSGPT [148]中,RSGPT在圖像描述和視覺問答任務中領先,展示了在生成準確和詳細描述以及回答有關遙感圖像復雜問題方面的明顯優勢。其他模型如InstructBLIP和BLIP2表現中等,但在處理遙感數據復雜性方面表現出明顯差距。MiniGPT4表現最差,特別是在保持輸出的相關性和準確性方面表現不佳。遙感任務在MLLM評估中至關重要,因為它們測試了模型整合和分析復雜多模態數據的能力,這對于環境監測和城市規劃至關重要。在這些任務中取得成功表明了模型處理大規模高分辨率遙感數據并根據多樣化信息源做出明智決策的能力。 音頻指的是設計用于評估模型理解、解釋和生成基于音頻信號的響應的特定任務。這些任務涉及各種類型的音頻數據,包括人類語音、自然聲音和音樂,并評估模型處理和與這些聽覺信息交互的能力。在AIR-Bench [150]中,Qwen-Audio Turbo和Qwen-Audio-Chat在音頻任務中的整體表現最佳,表現出在基礎音頻理解和復雜交互方面的強大能力。SALMONN和BLSP表現也不錯,特別是在處理聊天基準中的混合音頻方面。PandaGPT雖然在某些領域表現出色,但在任務上表現不穩定,表明在處理更復雜的音頻交互時仍有改進空間。在Dynamic-superb [151]中,Whisper-LLM和ImageBind-LLM在見過和未見過的音頻任務上表現強勁,特別是在說話人識別和副語言學方面表現出色。Whisper在內容相關任務中表現出色,但在推廣到新音頻任務上表現較為困難。BERT-GSLM和ASR-ChatGPT表現中等,在未見過的音頻任務中表現出顯著的弱點,突顯了這些模型在適應新場景方面面臨的挑戰。在MuChoMusic [152]中,Qwen-Audio在音頻任務中的表現領先,特別是在音樂理解的知識和推理維度上表現出色。M2UGen和SALMONN也表現良好,在各自的重點領域中表現強勁。像MuLLaMa和MusiLingo這樣的模型表現較低,突顯了這些模型在充分利用多模態音頻輸入以實現強大音樂理解方面面臨的挑戰。通過檢查音頻任務中的準確率和F1得分等表現指標,研究人員和從業者可以評估不同MLLMs在處理和解釋聽覺信息方面的能力。這種能力對于需要理解和響應復雜聽覺線索的多模態應用(如語音識別、音樂分析和基于聲音的決策系統)至關重要。
為了全面評估多模態大語言模型(MLLMs)的性能和能力,已經開發了各種基準測試。這些基準測試評估了一系列任務,從一般的多模態理解到特定的任務導向評估。在本節中,我們介紹了這些基準測試,分為兩類:一般基準測試,提供跨多個任務的廣泛評估,以及專門基準測試,側重于多模態模型性能的特定方面。
一般基準測試旨在提供對MLLMs在各種任務中的綜合評估,包括識別、推理和可信度。這些基準測試不僅評估模型的核心能力,還評估其可靠性和倫理考量,這對于將AI系統部署到現實場景中至關重要。例如,MMBench [21]評估MLLMs在基本識別任務中的表現,包括概念識別、屬性識別和動作識別。它提供了一個全面的框架,用于評估模型準確處理和理解視覺和文本信息的能力。MM-Vet [22]側重于模型的魯棒性和泛化能力,評估模型在不同條件下的表現,確保模型不過度依賴于特定數據集或場景。Seed-Bench [1]評估模型基于多模態輸入生成上下文相關和連貫輸出的能力,使其成為生成模型的一個重要基準測試。MME [23]提供了對MLLMs的廣泛評估,涵蓋了需要推理、感知和識別的任務。TouchStone [31]評估了模型在多個任務中的表現,提供了對其在各種多模態場景中表現的細致理解。MMStar [24]側重于結構化推理,評估模型在不同模態中進行邏輯推理的能力,確保多模態解釋的連貫性和準確性。LogicVista [34]測試多模態框架中的邏輯推理,挑戰模型導航復雜關系并生成邏輯一致的輸出的能力。 此外,還提出了幾個用于評估MLLMs可信度的基準測試。例如,POPE [93]專門評估大型視覺-語言模型中的對象幻覺。它評估了模型在響應視覺輸入時生成不正確對象的頻率和嚴重性,幫助識別和減輕模型輸出中與幻覺相關的問題。CHEF [87]提供了一個標準化的評估框架,用于評估MLLMs在一系列任務中的表現。它旨在提供一致且徹底的評估,確保模型符合既定的有效性和可信度標準。Multi-Trust [92]通過評估模型在公平性、偏見和倫理考量方面的表現,來評估MLLMs的可信度。 一般基準測試是評估MLLMs整體性能和可靠性的有效工具。它們確保模型能夠處理多樣化任務,同時保持高標準的可信度,使其適用于廣泛的應用。通過全面的評估,這些基準測試在推動穩健和倫理多模態模型的發展中發揮了關鍵作用。
專門基準測試旨在評估MLLMs在特定任務或領域中的表現,通常側重于需要專業評估的領域,如社會經濟、科學、醫學任務和其他應用。這些基準測試提供了對模型特定能力的詳細見解。 CVQA [111]專注于跨文化視覺問答,評估模型在多樣化文化背景下解釋和回答問題的能力。TransportationGames [114]基準測試評估模型在交通相關知識上的表現,測試它們在與交通相關的場景中解釋和應用信息的能力,強調實用推理和基于場景的理解。MathVerse [115]引入了一個綜合的視覺數學基準,旨在嚴格評估MLLMs的數學推理能力。ScienceQA [124]專門設計用于評估MLLMs執行科學問答任務的能力,這些任務需要多模態推理和鏈式思維(CoT)解釋。GMAI-MMBench [133]提供了一個專門用于評估MLLMs在醫學領域表現的基準。 專門基準測試提供了對于確保MLLMs能夠在各種專業領域中表現出色至關重要的評估。通過聚焦這些特定領域,如數學、科學、工程以及涉及醫學、3D點云和視頻數據的應用,這些基準測試補充了一般基準測試,提供了對模型能力的更深入見解,確保其在多樣化應用中的可靠性和有效性。
在本節中,我們介紹了MLLMs評估中常用的設置和任務,包括人工評估、GPT-4評估和指標評估。
人工評估 [25]在評估MLLMs的能力中起著至關重要的作用,尤其是對于那些需要高水平理解且難以通過傳統指標量化的任務。人工評估允許在多個維度上對MLLMs進行全面評估,包括:(1) 相關性:評估響應是否與預期指令一致;(2) 連貫性:確定響應是否在邏輯上結構合理且一致;(3) 流暢性:評估生成的輸出是否自然且語法正確。
盡管人工評估提供了有價值的見解,但它往往資源密集。為了解決這一問題,最近的一些研究 [25]利用了GPT-4 [181]的高級指令遵循能力,作為評估模型生成輸出質量的有效替代方法。GPT-4根據幫助性、相關性、準確性和細節等關鍵維度評估MLLMs,評分范圍為1到10,分數越高表示性能越優。此外,GPT-4可以為其評估提供詳細解釋,提供對模型優勢和改進領域的細致理解。
雖然人工評估和GPT-4評估提供了定性見解,但傳統評估指標對于定量評估MLLMs的性能仍然至關重要。這些指標提供了標準化和客觀的衡量標準,使其成為在不同任務中比較模型的可靠基準。具體來說,為了評估模型的識別能力,采用了多種指標,如準確率和平均精度 [1],[182],[183];而為了評估模型的感知能力,采用了如mIoU、mAP和Dice等指標 [184]。此外,為了評估模型生成文本或圖像的能力,廣泛采用了如BLEU、ROUGE和METEOR等指標 [185],[186],這些指標清楚地指示了模型在各種應用中的性能。
多模態大語言模型通過將強大的LLMs與各種模態編碼器(如視覺、音頻等)結合在一起,模仿了人類的感知系統,使模型具備了類似人類的能力,并暗示了實現人工通用智能的潛在途徑。隨著我們朝著AGI級別的MLLMs邁進,評估在其研究、開發和部署中起著至關重要的作用。在這篇綜述中,我們從不同角度廣泛回顧了MLLMs的評估方法,從背景到評估什么、在哪里評估以及如何評估。通過總結評估任務、基準測試和指標,我們的目標是增強對當前MLLMs狀態的理解,闡明其貢獻、優勢和局限性,并為未來MLLMs及其評估的研究提供見解。
在許多科學領域,大型語言模型(LLMs)徹底改變了處理文本和其他數據模式(例如分子和蛋白質)的方式,在各種應用中實現了卓越的性能,并增強了科學發現過程。然而,以往關于科學LLMs的綜述往往集中在一到兩個領域或單一模式上。本文旨在通過揭示科學LLMs在其架構和預訓練技術方面的跨領域和跨模式連接,提供一個更全面的研究視角。為此,我們全面調查了250多種科學LLMs,討論了它們的共性和差異,并總結了每個領域和模式的預訓練數據集和評估任務。此外,我們還探討了LLMs如何部署以促進科學發現。與本綜述相關的資源可在//github.com/yuzhimanhua/Awesome-Scientific-Language-Models獲取。
大型語言模型(LLMs)的出現(Zhao et al., 2023c)為自然語言處理(NLP)帶來了新的范式,取代了為每個任務設計的專用模型,使用統一的模型來有效地解決廣泛的問題。在科學領域,這種范式不僅重塑了人們處理與自然語言相關任務(如科學論文、醫療記錄和氣候報告)的策略,還激發了處理其他類型數據(如分子、蛋白質、表格和元數據)的類似想法。除了理解現有的科學數據外,LLMs還展示了通過生成、規劃等方式加速科學發現的潛力(Wang et al., 2023c; Zhang et al., 2023f; Wang et al., 2024b)。 鑒于LLMs在各種科學領域和多種模式中的廣泛而深遠的影響,有必要全面回顧這一方向的相關工作。然而,現有的科學LLMs綜述通常只關注一到兩個領域(如生物醫學(Wang et al., 2023a; He et al., 2024; Pei et al., 2024)和化學(Xia et al., 2023; Zhang et al., 2024c))或單一模式(如文本(Ho et al., 2024))。事實上,如果我們全面觀察研究領域,可以看到不同領域和模式中開發LLMs所使用的類似和相互關聯的技術。
圖1展示了三種主要的科學LLM預訓練策略(即第1到3列),每種策略我們給出4個例子(即A到D類型)。在第1列,繼BERT(Devlin et al., 2019)和RoBERTa(Liu et al., 2019)之后,現有研究使用掩碼語言模型(MLM)來預訓練編碼器語言模型。這里,輸入可以是自然序列(如各領域的論文、FASTA格式(Lipman and Pearson, 1985)的蛋白質/DNA/RNA序列)或人為線性化的序列(如SMILES格式(Weininger, 1988)的分子、引文圖中的場所/作者/參考節點序列)。
在第2列,受到GPT(Brown et al., 2020)和LLaMA(Touvron et al., 2023a)的啟發,先前的研究采用下一個標記預測來預訓練(編碼器-)解碼器語言模型,其中一些進一步采用指令微調和偏好優化(Ouyang et al., 2022)。除了純文本輸入(如知識庫或考試中的問答對)外,我們看到更多序列化復雜科學數據的方法,如展平表格單元格并使用粒子坐標描述晶體。即使是圖像,在數學(Gao et al., 2023)和生物醫學(Li et al., 2023a)中也有研究利用視覺編碼器將圖像投射到幾個視覺標記上,并將它們作為線性化的LLM輸入預先附加到文本標記前。
在第3列,繼DPR(Karpukhin et al., 2020)和CLIP(Radford et al., 2021)之后,兩個編碼器通過對比學習預訓練,以使相關數據對在潛在空間中更接近。
當兩種模態都是序列化的(例如文本-文本或文本-蛋白質)時,模型建立在兩個LLM編碼器之上。當我們希望保持一種模式的非序列性質時(例如分子圖(Edwards et al., 2021)、胸部X光(Zhang et al., 2022)和航拍圖像(Yan et al., 2024)),可以采用相應的圖形或圖像編碼器。總之,跨領域跨模式的綜述將更準確地描繪不同科學LLMs之間的聯系,展示它們的共性,并可能指導其未來的設計。
貢獻:在本文中,受上述討論的啟發,我們系統地調查了250多種科學LLMs,涵蓋了各個領域(如一般科學、數學、物理、化學、材料科學、生物學、醫學和地球科學)、模式(如語言、圖形、視覺、表格、分子、蛋白質、基因組和氣候時間序列)和規模(從約1億到約1000億參數)。對于每個領域/模式,我們研究了科學LLMs常用的預訓練數據集、模型架構和評估任務。基于我們的動機,當我們詳細討論模型架構時,會將它們與圖1聯系起來,構建跨領域跨模式的連接。此外,我們在表A1-表A6(附錄A)中提供了這些科學LLMs的結構化總結。此外,對于不同領域,我們介紹了LLMs如何通過增強科學發現過程的不同方面和階段(如假設生成、定理證明、實驗設計、藥物發現和天氣預報)來促進科學進步。
科學LLMs最常用的預訓練語料庫是來自書目數據庫的研究論文,例如AMiner(Tang et al., 2008)、Microsoft Academic Graph(MAG)(Sinha et al., 2015)和Semantic Scholar(Ammar et al., 2018)。其中一些來源(如S2ORC(Lo et al., 2020))包含論文的全文信息,而其他來源則僅有標題和摘要。
科學LLMs的發展與通用領域LLMs的發展具有相似性。具體來說,早期模型在預訓練期間以自監督的方式利用論文文本,旨在從大規模未標注語料庫中獲取科學知識。例如,掩碼語言模型(MLM)是基于BERT骨干的科學LLMs的默認預訓練任務(圖1中的類型1.A,如SciBERT(Beltagy et al., 2019));下一個標記預測被廣泛用于基于GPT的科學LLMs(圖1中的類型2.A,如SciGPT(Luu et al., 2021))。最近,受到LLMs可以被訓練成遵循自然語言指令這一事實的啟發(Wei et al., 2022a;Ouyang et al., 2022),研究人員更多地投入于通過指令調優LLMs以解決復雜的科學問題(類型2.A,如Galactica(Taylor et al., 2022)和SciGLM(Zhang et al., 2024a))。指令調優數據通常來自下游任務的數據集,如考試問答(Welbl et al., 2017),并由人類或現有的LLMs(如GPT-4(Achiam et al., 2023))進一步過濾/增強。
通用科學LLMs通常在常見的NLP任務上進行評估,例如命名實體識別(NER)、關系抽取(RE)(Luan et al., 2018)、問答(QA)(Wang et al., 2023g)和分類(Cohan et al., 2019)。
除了純文本外,科學論文還關聯有豐富的元數據,包括出版地點、作者和引用(Zhang et al., 2023h)。這些元數據將論文連接成一個圖,補充文本信號以表征論文語義。為了利用元數據,一些研究(類型1.B,如OAG-BERT(Liu et al., 2022b))將論文文本與出版地點/作者作為輸入進行MLM;其他研究(類型3.A,如SPECTER(Cohan et al., 2020))將引用鏈接作為監督,訓練LLMs使鏈接的論文在嵌入空間中更接近。最近的方法進一步修改了LLMs中的Transformer架構,使用適配器(Adapters)(Singh et al., 2023)、嵌入GNN的Transformers(Jin et al., 2023b)和專家混合Transformers(Mixture-of-Experts Transformers)(Zhang et al., 2023g)以更好地捕捉圖信號。
圖感知的科學LLMs通常在涉及兩個文本單元(如論文-論文或查詢-論文)關系的任務上進行評估,包括鏈接預測、檢索、推薦和作者名消歧。SciDocs(Cohan et al., 2020)和SciRepEval(Singh et al., 2023)是廣泛采用的基準數據集。
高性能的科學LLMs可以在整個科學發現過程中與研究人員協同工作。在后續章節將詳細討論領域特定的應用,這里強調LLMs在頭腦風暴和評估中的一般用途:Lahav et al.(2022)將LLMs集成到搜索引擎中,用于發現科學挑戰和方向;Wang et al.(2023f)和Baek et al.(2024)利用LLMs生成基于先前文獻的新科學思想;Zhang et al.(2023i)依靠LLMs為每篇投稿找到專家評審;Liu and Shah(2023)、Liang et al.(2023a)和D'Arcy et al.(2024)探索了GPT-4在提供研究論文反饋以促進自動評審生成方面的能力。
3.1 語言
數學LLMs的預訓練文本語料庫可以分為兩類:(1)多項選擇問答,代表數據集包括MathQA(Amini et al., 2019)、Ape210K(Zhao et al., 2020)和Math23K(Wang et al., 2017);(2)生成式問答,代表數據集包括GSM8K(Cobbe et al., 2021a)、MATH(Hendrycks et al., 2021)和MetaMathQA(Yu et al., 2023b)。
類似于通用科學LLMs,早期數學LLMs的骨干模型是BERT(類型1.A,如GenBERT(Geva et al., 2020)和MathBERT(Shen et al., 2021))。這些模型大多通過MLM進行訓練,唯一的例外是BERT-TD(Li et al., 2022c),其中采用了對比損失。對于基于GPT的數學LLMs(類型2.A,如GSM8K-GPT(Cobbe et al., 2021b)和NaturalProver(Welleck et al., 2022)),我們發現預訓練任務多樣化:監督微調、下一個標記預測和指令微調。最新的數學LLMs(類型2.A,如Rho-Math(Lin et al., 2024a)和MAmmoTH2(Yue et al., 2024))基于LLaMA并被訓練成遵循自然語言指令。然而,當可用的預訓練數據集非常龐大(如550億標記)時,下一個標記預測仍然是唯一的預訓練任務(Azerbayev et al., 2023;Lin et al., 2024a)或用于構建基礎模型的輔助任務(Shao et al., 2024;Ying et al., 2024)。
問答(QA)和數學世界問題(MWP)一直是最常見的評估任務。此外,定量推理包含更難的問題,因為模型必須提供完整且自洽的解決方案而不依賴外部工具(Shao et al., 2024;Lin et al., 2024a)。GSM8K和MATH在問答中占主導地位,而MathQA和Math23K則在數學世界問題中占主導地位。對于定量推理,MMLU-STEM(Hendrycks et al., 2020)和Big-Bench Hard(Suzgun et al., 2023)是最廣泛采用的。
幾何學是數學中最重要的分支之一,它通過文本和圖表共同表達。因此,幾何LLMs必須涉及視覺模式。幾何LLMs最常用的預訓練數據集包括Geometry3K(Lu et al., 2021)和GeoQA(Chen et al., 2021),它們都包含多項選擇的幾何問題。
將視覺模式融入LLMs的關鍵是對圖像進行編碼并獲得線性化的視覺表示。具體而言,InterGPS(Lu et al., 2021)(類型2.D)使用RetinaNet(Lin et al., 2017)將圖像轉換為一組關系,然后應用BART(Lewis et al., 2020a)生成解決方案;G-LLaVA(Gao et al., 2023)(類型2.D)通過預訓練的視覺Transformer(ViT)對視覺輸入進行編碼,將視覺嵌入與文本嵌入連接,然后將連接結果輸入LLaMA-2(Touvron et al., 2023b)。這些模型默認通過序列到序列任務進行預訓練,其中問題作為輸入,真實答案和可選的推理作為輸出。為了更好地進行視覺建模,可以選擇添加輔助損失,如掩碼圖像建模、圖像構建或文本-圖像匹配。
幾何LLMs通過解決幾何問題進行評估,模型需要在給定圖表及其說明、問題和答案選項的情況下選擇正確答案。著名的評估數據集包括Geometry3K(Lu et al., 2021)、GEOS(Seo et al., 2015)和MathVista(Lu et al., 2023b)。
大量數學知識以表格數據的形式存儲。對于“表格”模式,預訓練的著名資源包括WikiTableQuestions(Pasupat and Liang, 2015)、WikiSQL(Zhong et al., 2017)和WDC Web Table(Lehmberg et al., 2016)。
表格中的挑戰與圖表中的相似,即獲得線性化的表格表示。在大多數情況下,表格被壓縮成線性文本序列,作為上下文的一部分,并在模型輸入中加入問題文本。作為這一研究領域的首批工作之一,TAPAS(Herzig et al., 2020)(類型1.A)采用MLM對象來預測文本和表格上下文中的掩碼標記。最近的發展(Li et al., 2023c;Zhang et al., 2024d)類似于TableLlama(Zhang et al., 2023d)(類型2.B)的設計,以LLaMA-2為骨干,并以指令微調作為預訓練任務。
表格LLMs通過表格問答進行驗證,模型需要在給定表格結構、數據值和問題文本的情況下生成正確答案。大多數現有研究在WikiTableQuestions和WikiSQL數據集上進行了評估。TableInstruct(Zhang et al., 2023d)是最新開發的綜合基準,集成了跨11個任務的14個數據集。
數學LLMs具有很大的潛力來輔助人類提供潛在的解決方案。例如,AlphaGeometry(Trinh et al., 2024)將LLM與符號推理引擎結合,LLM生成有用的構造,符號引擎應用形式邏輯來尋找解決方案。AlphaGeometry解決了國際數學奧林匹克競賽的30個經典幾何問題中的25個。Sinha et al.(2024)通過添加吳氏方法(Wu's method)(Chou, 1988)擴展了AlphaGeometry,進一步解決了30個中的27個,超過了人類金牌得主。FunSearch(Romera-Paredes et al., 2024)將LLM與程序搜索結合起來。FunSearch的一個顯著成就是能夠找到組合優化中帽子集問題的新解決方案。這些生成的解決方案比人類專家設計的更快更有效。在Li et al.(2024a)中,LLMs通過利用上下文學習和鏈式推理(Wei et al., 2022b)迭代提出和評估統計模型。
現有的物理LLMs主要集中在天文學和“語言”模式上。作為BERT的衍生產品,astroBERT(Grezes et al., 2021)(類型1.A)通過MLM和下一句預測進一步使用與天文學相關的論文進行預訓練。它在命名實體識別(NER)任務上進行評估。同樣,AstroLLaMA(Nguyen et al., 2023b)(類型2.A)使用來自arXiv的超過30萬篇天文學摘要對LLaMA-2進行微調。它在論文生成和論文推薦任務上進行評估。AstroLLaMA-chat(Perkowski et al., 2024)(類型2.A)是AstroLLaMA的聊天版本。它在GPT-4生成的特定領域對話數據集上持續訓練。
化學和材料科學領域的LLMs預訓練語料庫通常來自研究論文和數據庫(例如,Materials Project(Jain et al., 2013))。此外,最近的工作采用了從PubChem(Kim et al., 2019)、MoleculeNet(Wu et al., 2018)等來源派生的領域特定指令微調數據集(例如,MolInstructions(Fang et al., 2023a)和SMolInstruct(Yu et al., 2024))。
早期的化學LLMs大多采用中等規模的僅編碼器架構,通過MLM預訓練(類型1.A,如ChemBERT(Guo et al., 2022)、MatSciBERT(Gupta et al., 2022)和BatteryBERT(Huang and Cole, 2022))。這些模型通常在下游任務上進行評估,包括反應角色標注(Guo et al., 2022)和摘要分類(Gupta et al., 2022)。最近,研究人員更多地關注通過下一個標記預測和指令微調訓練的大規模僅解碼器LLMs(類型2.A)。示例包括ChemDFM(Zhao et al., 2024)、ChemLLM(Zhang et al., 2024b)和LlaSMol(Yu et al., 2024)。鑒于這些模型的廣泛推廣能力,它們在多樣化的任務集上進行評估,如名稱轉換(Kim et al., 2019)、反應預測(Jin et al., 2017)、逆合成(Schneider et al., 2016)、基于文本的分子設計(Edwards et al., 2022)和晶體生成(Antunes et al., 2023;Flam-Shepherd和Aspuru-Guzik, 2023;Gruver et al., 2024)。
圖是表征分子的合適數據結構(Jin et al., 2023a)。包含分子圖的流行數據集包括ChEBI-20(Edwards et al., 2021, 2022)、ZINC(Sterling和Irwin, 2015)和PCDes(Zeng et al., 2022)。 在某些場景中,分子圖與文本信息同時出現,因此現有工作探索了如何有效地編碼兩者。第一類模型采用GNN作為圖編碼器,LLM作為文本編碼器。兩種模式通過對比學習連接(Liu et al., 2023d)(類型3.C)。例如,Text2Mol(Edwards et al., 2021)使用GCN(Kipf和Welling, 2016)和SciBERT分別編碼分子及其相應的自然語言描述,以進行文本到分子的檢索。第二類模型同時使用LLM編碼文本和圖(Zeng et al., 2022)。圖可以線性化為SMILES字符串(Edwards et al., 2022)(類型2.C),或通過圖編碼器投射到虛擬標記上(Zhao et al., 2023a;Liu et al., 2023f)(類型2.D)。例如,3D-MoLM(Li et al., 2024b)使用3D分子編碼器將分子表示為標記,并與指令一起輸入LLaMA-2以進行分子到文本的檢索和分子描述。
補充文本和圖模式,分子圖像構成了化學中的視覺模式。現有工作采用類似于BLIP-2(Li et al., 2023b)的理念,將每個圖像表示為標記并輸入LLM(類型2.D)。例如,GIT-Mol(Liu et al., 2024)將包括圖和圖像在內的所有模式投射到潛在文本空間,并使用T5(Raffel et al., 2020)進行編碼和解碼。
不同于5.2節,本節介紹不含相關文本信息的分子模型。也就是說,受到LLMs啟發的類似方法被用來開發分子語言模型(Flam-Shepherd et al., 2022)。具體來說,大多數研究采用SMILES或SELFIES(Krenn et al., 2020)字符串作為分子的序列表示。類似于“語言”模式的趨勢,先驅分子LLMs關注雙向Transformer編碼器的表示學習(類型1.C,如SMILES-BERT(Wang et al., 2019)和MoLFormer(Ross et al., 2022))。例如,ChemBERTa(Chithrananda et al., 2020)采用與RoBERTa(Liu et al., 2019)類似的架構和預訓練策略。這些模型在分子理解任務中表現出色,如分子性質預測(例如毒性分類(Wu et al., 2018)和原子化能量回歸(Ramakrishnan et al., 2014))以及虛擬篩選(Riniker和Landrum, 2013)。后來的工作探索了以自回歸方式表示分子(類型2.C,如BARTSmiles(Chilingaryan et al., 2022)和ChemGPT(Frey et al., 2023))。例如,T5Chem(Lu和Zhang, 2022)采用T5骨干和序列到序列預訓練目標。這些模型在生成任務中進行評估,包括分子生成(Gaulton et al., 2017)、反應預測和逆合成。除了線性化分子,還有研究修改Transformer架構以接納分子圖,如MAT(Maziarka et al., 2020)和R-MAT(Maziarka et al., 2024)。
先前的研究表明,LLMs促進了自主化學研究。例如,Bran et al.(2024)提出了一個化學LLM代理ChemCrow,可以集成專家設計的工具用于有機合成、藥物發現和材料設計;Boiko et al.(2023)開發了一個由LLM驅動的智能系統Coscientist,可以設計、規劃和執行化學研究。LLMs還幫助藥物和催化劑設計。例如,ChatDrug(Liu et al., 2023e)探索了使用LLMs進行藥物編輯,采用提示模塊、領域反饋模塊和對話模塊;DrugAssist(Ye et al., 2023a)被提議為一種基于LLM的交互模型,通過人機對話進行分子優化;Sprueill et al.(2023, 2024)使用LLMs作為代理,通過蒙特卡羅樹搜索和原子神經網絡模型的反饋尋找有效催化劑。
生物醫學LLMs的預訓練語料庫包括研究文章(例如,來自PubMed的標題/摘要(Lu, 2011)和PMC的全文(Beck和Sequeira, 2003))、電子健康記錄(例如,MIMIC-III(Johnson et al., 2016),MIMIC-IV(Johnson et al., 2023))、知識庫(例如,UMLS(Bodenreider, 2004))以及健康相關的社交媒體帖子(例如,COVID-19推文(Müller et al., 2023))。最近的研究進一步從醫學考試問題、知識圖譜和醫生-患者對話中收集監督微調和偏好優化數據集。例子包括ChiMed(Ye et al., 2023b),MedInstruct-52k(Zhang et al., 2023e),以及BiMed1.3M(Acikgoz et al., 2024),其中許多包含非英語成分(例如中文和阿拉伯語)。
生物醫學LLMs發展的分水嶺時刻是十億參數架構和指令微調的出現。在此之前,探索了各種中等規模的骨干,包括基于編碼器的(類型1.A,例如,BioBERT(Lee et al., 2020),Bio-ELECTRA(Ozyurt, 2020),BioRoBERTa(Lewis et al., 2020b),BioALBERT(Naseem et al., 2022),以及Clinical-Longformer(Li et al., 2022a))和基于編碼器-解碼器的(類型2.A,例如,SciFive(Phan et al., 2021),BioBART(Yuan et al., 2022a),以及BioGPT(Luo et al., 2022))。這些模型的評估任務從生物醫學命名實體識別、關系抽取、句子相似度估計、文檔分類和問答(即BLURB基準(Gu et al., 2021))到自然語言推理(NLI)(Romanov和Shivade, 2018)和實體鏈接(Dogan et al., 2014)。分水嶺之后的趨勢是指令微調十億參數LLMs(類型2.A,例如,Med-PaLM(Singhal et al., 2023a),MedAlpaca(Han et al., 2023),以及BioMistral(Labrak et al., 2024))。相應地,評估任務變為單輪問答(Jin et al., 2021;Pal et al., 2022)和多輪對話(Wang et al., 2023h)。與此同時,有研究提出了專門針對生物醫學檢索任務的雙編碼器架構(類型3.A,例如,Jin et al., 2023c和Xu et al., 2024),其基準包括NFCorpus(Boteva et al., 2016),TREC-COVID(Voorhees et al., 2021)等。
生物醫學本體捕捉了實體之間的豐富關系。類似地,引用鏈接表征了生物醫學論文之間的連接。直觀上,共同利用文本和圖信息為問答中的多跳推理鋪平了道路。例如,Yasunaga et al.(2022a)提出使用LLM和GNN分別編碼文本和本體信號,并深度融合它們(類型3.C);Yasunaga et al.(2022b)將來自兩個關聯論文的文本段落連接起來,并將序列輸入LLM進行預訓練,這本質上是將元數據鄰居(即引用)作為上下文附加到MLM中(類型1.B)。這兩種方法在需要復雜推理的問答任務上展示了顯著的改進。
生物醫學文本-圖像對通常來自兩種來源:(1)醫學報告,如胸部X光片(例如,MIMIC-CXR(Johnson et al., 2019))和病理報告(Huang et al., 2023b);以及(2)從生物醫學論文中提取的圖表-標題對(例如,ROCO(Pelka et al., 2018)和MedICaT(Subramanian et al., 2020))。
大多數生物醫學視覺語言模型利用CLIP架構(Radford et al., 2021),其中一個文本編碼器和一個圖像編碼器通過對比學習共同訓練,將配對的文本和圖像映射得更近(類型3.D)。文本編碼器的選擇從BERT(Zhang et al., 2022)和GPT-2(Huang et al., 2023b)演變到LLaMA(Wu et al., 2023)和LLaMA-2(Liu et al., 2023b),而圖像編碼器則從ResNet(Huang et al., 2021)演變到ViT(Zhang et al., 2023c)和Swin Transformer(Thawkar et al., 2023)。MLM、掩碼圖像建模和文本-文本/圖像-圖像對比學習(即,通過在語言/視覺模式內創建增強視圖)有時作為輔助預訓練任務。除了CLIP,其他通用領域的視覺語言架構,如LLaVA(Li et al., 2023a)、PaLM-E(Tu et al., 2024)和Gemini(Saab et al., 2024)也被探索。例如,LLaVA-Med(類型2.D)將圖像編碼為幾個視覺標記,并將它們附加到文本標記之前作為LLM輸入。這些模型的評估任務包括圖像分類、分割、目標檢測、視覺問答、文本到圖像/圖像到文本的檢索和報告生成,其基準包括CheXpert(Irvin et al., 2019)、PadChest(Bustos et al., 2020)、SLAKE(Liu et al., 2021a)等。
FASTA格式(Lipman和Pearson, 1985)自然地將蛋白質表示為氨基酸序列,將DNA/RNA表示為核苷酸序列,使得模型可以將它們視為“語言”。這些序列的代表資源包括蛋白質的UniRef(Suzek et al., 2015)和SwissProt(Bairoch和Apweiler, 2000),DNA的GRCh38(Harrow et al., 2012)和1000 Genomes Project(Consortium, 2015),以及RNA的RNAcentral(Consortium, 2019)。
僅編碼器的蛋白質、DNA和RNA LLMs(類型1.D),如ESM-2(Lin et al., 2023b),DNABERT(Ji et al., 2021),和RNABERT(Akiyama和Sakakibara, 2022),采用類似BERT的架構,并以MLM作為預訓練任務(即預測掩碼氨基酸、核苷酸、k-mers或密碼子);僅解碼器的模型,如ProGen(Madani et al., 2023)和DNAGPT(Zhang et al., 2023a),利用類似GPT的架構,并以下一個標記預測作為預訓練任務。也有研究共同考慮文本和蛋白質模式。例如,ProtST(Xu et al., 2023b)通過對比學習(類型3.B)將蛋白質序列與其文本描述(即名稱和功能)匹配;BioMedGPT(Luo et al., 2023c)首先將蛋白質投射到標記上,然后將這些標記與文本一起輸入LLaMA-2進行指令微調,類似于類型2.D。
現有的多組學LLMs主要集中在單細胞轉錄組學(例如scRNA-seq)數據上,例如單細胞內基因的表達水平(Franzén et al., 2019)。除了基于BERT的(例如,Geneformer(Theodoris et al., 2023))和基于GPT的(例如,scGPT(Cui et al., 2024))架構外,由于其在處理長scRNA-seq數據時的線性注意力復雜性,Performer(Yang et al., 2022a;Hao et al., 2024)被廣泛使用。
類似于化學,LLMs可以在生物學和醫學研究中自動化實驗。例如,CRISPR-GPT(Huang et al., 2024)增強了一個LLM代理的領域知識,以改進CRISPR基因編輯實驗的設計過程。
地球科學LLMs的預訓練語料庫包括地球科學研究論文、氣候相關新聞文章、維基百科頁面、企業可持續性報告、知識庫(例如,GAKG(Deng et al., 2021))和興趣點(POI)數據(例如,OpenStreetMap(Haklay and Weber, 2008))。
地球科學LLMs的初步研究主要集中在使用Transformer編碼器骨干的雙向LLMs的預訓練(類型1.A,例如,ClimateBERT(Webersinke et al., 2021),SpaBERT(Li et al., 2022b)和MGeo(Ding et al., 2023))。例如,SpaBERT和MGeo在地理實體鏈接和查詢-POI匹配中對地理位置序列執行MLM。最近,相關研究集中在擴展地球科學中自回歸LLMs的解碼風格(類型2.A,例如,K2(Deng et al., 2024),OceanGPT(Bi et al., 2023b)和GeoGalactica(Lin et al., 2024b))。例如,K2和OceanGPT分別通過領域特定指令的監督微調,將LLaMA適應于地球科學和海洋科學。這些模型的評估在地球科學基準(例如,GeoBench(Deng et al., 2024)和OceanBench(Bi et al., 2023b))上進行,涵蓋廣泛的任務,包括問答、分類、知識探測、推理、摘要和生成。
一些地球科學應用涉及圖信號,例如異構POI網絡和知識圖譜。為了共同處理這些信號和文本,ERNIE-GeoL(Huang et al., 2022)在基于BERT的架構中引入了一個基于Transformer的聚合層,以深度融合文本和POI信息;PK-Chat(Deng et al., 2023)結合LLM和指針生成網絡在知識圖譜上構建了一個知識驅動的對話系統。
航拍圖像與位置描述共同描繪了城市區域。為了共同處理語言和視覺模式,UrbanCLIP(Yan et al., 2024)考慮了CLIP架構(類型3.D),這也是生物醫學視覺語言模型廣泛采用的架構(參見6.3節),用于城市指標預測的文本-圖像對比學習。
LLMs的直覺和方法論也促進了氣候基礎模型的構建。基于氣候時間序列的ERA5(Hersbach et al., 2020)和CMIP6(Eyring et al., 2016)數據集,以前的研究利用ViT和Swin Transformer架構預訓練天氣預報的基礎模型。代表模型包括FourCastNet(Pathak et al., 2022)、Pangu-Weather(Bi et al., 2023a)等。
在地理學中,Wang et al.(2023b)和Zhou et al.(2024)強調了LLMs在可持續性、生活、經濟、災害和環境視角下城市規劃中的潛力。在地質學中,除了氣候和天氣預報外,基礎模型還應用于同時地震檢測和相位挑選(Mousavi et al., 2020)。在環境科學中,ChatClimate(Vaghefi et al., 2023)通過提供對氣候變化外部、科學準確知識的訪問,增強了GPT-4,以構建氣候科學對話AI。
在本綜述中,我們匯編了有關科學LLMs預訓練數據、架構和任務的文獻,以及科學LLMs如何應用于科學發現的下游應用。特別地,我們強調了在不同領域和模式中科學LLMs演變過程中觀察到的類似架構、任務和趨勢。除了回顧先前的研究外,我們提出了一些挑戰,以激發對這一主題的進一步探索。
大多數現有的科學LLMs針對的是一個粗粒度的領域(例如化學),而一些任務依賴于細粒度主題的高度專業知識(例如鈴木耦合)。當LLMs在更通用的語料庫上進行預訓練時,頻繁出現的信號可能主導模型參數空間,而領域特定的尾部知識可能被忽略。我們認為,自動策劃深入的、主題集中的知識圖譜(Hope et al., 2021)并用它們來指導生成過程將是解決這一問題的有前景的方向。
在科學領域,測試分布與訓練分布的變化是常見的(Zhang et al., 2023f):新發表的論文中不斷出現新的科學概念;測試期間可能出現具有不同骨架的未知分子和具有不同肽鏈數量的未知蛋白質。處理這種分布外數據仍然是預訓練科學LLMs的挑戰。據我們所知,不變學習(Arjovsky et al., 2019)可以作為分布外分析的理論基礎,如何將其整合到LLM預訓練中值得探索。
LLMs可能會生成聽起來合理但實際上不正確的輸出,這通常被稱為幻覺(Ji et al., 2023),在化學和生物醫學等高風險科學領域尤其危險。為了減輕這一問題,檢索增強生成(RAG)為LLMs提供了相關的、最新的和可信的信息。然而,以前在科學領域的RAG研究主要集中在檢索文本(Xiong et al., 2024)和知識(Jin et al., 2024),而科學數據是異構和多模式的。我們預計,跨模式RAG(例如,通過相關的化學物質和蛋白質指導文本生成)將提供額外的機會,進一步增強科學LLMs的可信性。
本綜述主要涵蓋了數學和自然科學領域的LLMs。我們知道LLMs也可以通過在代表性任務中取得顯著成績(Ziems et al., 2024)并作為社會模擬實驗的代理(Horton, 2023)顯著影響社會科學,但由于篇幅限制,我們將這些努力的綜述留作未來工作。此外,本文重點介紹了在科學數據上預訓練或通過領域特定知識增強以促進科學發現的LLMs。還有一些研究(Wang et al., 2023g;Guo et al., 2023)提出了新的科學問題基準數據集,但僅評估了通用LLMs的性能,我們未將這些工作包括在我們的綜述中。此外,根據本文的分類標準,一些LLMs可能屬于多個領域或模式類別。例如,BioMedGPT(Luo et al., 2023c)同時在生物學和化學數據上進行預訓練;GIT-Mol(Liu et al., 2024)同時考慮了語言、圖形和視覺模式。為了簡潔起見,我們僅在一個小節中介紹每個模型。
本綜述全面分析了多模態大型語言模型(MLLMs)——亦稱為大型視覺語言模型(LVLMs)——中的幻覺現象。這些模型在多模態任務中展示了顯著的進步和非凡的能力。盡管這些發展充滿希望,MLLMs常常生成與視覺內容不一致的輸出,這一挑戰被稱為幻覺,它對模型的實際部署構成了重大障礙,并引起了對其在現實世界應用中可靠性的關注。這個問題日益受到關注,促使人們努力檢測和緩解這種不準確性。我們回顧了近期在識別、評估和緩解幻覺方面的進展,提供了關于幻覺成因、評估基準、度量和應對策略的詳盡概覽。此外,我們還分析了當前的挑戰和限制,并提出了開放性問題,勾勒出未來研究的潛在途徑。通過對幻覺成因、評估基準和緩解方法進行細致的分類和概述,本綜述旨在加深對MLLMs中幻覺的理解,并激發該領域的進一步發展。通過我們徹底和深入的審查,我們為加強MLLMs的魯棒性和可靠性的持續對話做出了貢獻,為研究人員和實踐者提供了寶貴的見解和資源。資源可在以下網址獲取://github.com/showlab/Awesome-MLLM-Hallucination.
** 引言**
近年來,大型語言模型(LLMs)[29, 81, 85, 99, 132]在自然語言處理(NLP)的廣泛任務中占據了主導地位,實現了語言理解[39, 47]、生成[128, 140]和推理[20, 58, 87, 107, 115]方面的前所未有的進展。借助強大的LLMs能力,多模態大型語言模型(MLLMs)[22, 75, 111, 138],有時被稱為大型視覺語言模型(LVLMs),正在吸引越來越多的關注。MLLMs在多模態任務中表現出有希望的能力,如圖像標題生成[66]、視覺問題回答[22, 75]等。然而,隨著MLLMs的快速進展,這些模型傾向于生成幻覺[69, 76, 137],產生看似合理但實際上是虛假的內容,這一趨勢令人關注。
幻覺問題起源于LLMs本身。在NLP領域,幻覺問題被實證地分為兩類[44]:1) 真實性幻覺,強調生成內容與可驗證的現實世界事實之間的差異,通常表現為事實不一致或捏造;2) 忠實性幻覺,指生成內容與用戶指令或輸入提供的上下文的偏離,以及生成內容內部的自洽性。與純LLMs相比,MLLMs中的幻覺研究主要集中在生成文本響應與提供的視覺內容之間的差異[69, 76, 137],即跨模態不一致。這種差異表明,LLMs的研究成果不能簡單地轉移到MLLMs上。因此,全面調查MLLMs中幻覺現象的最新進展,以激發新思想并促進該領域的發展,是迫切需要的。
在計算機視覺領域,對象識別是核心任務,包括子任務如對象分類[60]、檢測[27]和分割[37]等。同樣,MLLMs中的幻覺研究主要集中在對象幻覺上。在MLLMs時代之前,有一項關于圖像標題生成中對象幻覺的開創性工作[90],通過比較標題和圖像內容評估對象存在性。在MLLMs中,對象幻覺被實證地分為三類:1) 類別,識別給定圖像中不存在或錯誤的對象類別;2) 屬性,強調對象的屬性描述,如顏色、形狀、材料等;3) 關系,評估對象之間的關系,如人與對象的互動或相對位置。需要注意的是,一些文獻可能將對象計數、對象事件等視為獨立的幻覺類別;然而,在本工作中,我們將它們歸入屬性類別。
由于LLMs中幻覺的根本原因已有眾多研究,因此,前沿MLLMs所面臨的獨特挑戰需要進行深入調查。我們的分析專門針對MLLMs中幻覺的獨特起源,涵蓋了從數據、模型、訓練到推理階段的一系列貢獻因素。此外,我們提供了專門為評估MLLMs中幻覺而設計的基準和度量的全面概述。然后,我們回顧和討論了針對識別原因量身定做的緩解幻覺問題的最新工作。
通過我們的全面綜述,我們旨在促進MLLMs領域的發展,并提供有價值的見解,加深對MLLMs中幻覺相關機會和挑戰的理解。這種探索不僅增強了我們對當前MLLMs局限性的理解,還為未來研究和開發更加穩健和可靠的MLLMs提供了重要的指導。
與現有綜述的比較。在追求可靠的生成性AI方面,幻覺作為一個主要挑戰,已經引發了一系列關于其最新進展的綜述論文。對于純LLMs,已有幾篇綜述[44, 129],描述了LLMs中幻覺的格局。相比之下,關于MLLMs領域的幻覺的綜述非常少。據我們所知,目前只有一項與我們同時進行的短期綜述[76],探討了LVLMs的幻覺問題。然而,我們的綜述在分類和范圍上都有所不同。我們呈現了一種分層且細致的幻覺分類,如圖1所示,清晰地描繪了這一領域的格局。此外,我們的方法不僅限于[76]中規定的特定模型架構,而是通過追溯各種影響因素,分析幻覺的成因。我們涵蓋了更廣泛的文獻,無論是在論文數量還是分類結構上。此外,我們的緩解策略與潛在原因緊密相關,確保了一種連貫和有針對性的方法。
本綜述的組織。在本文中,我們呈現了關于MLLMs中幻覺最新發展的全面綜述。綜述的組織如下:我們首先提供足夠的背景并定義與LLMs、MLLMs、幻覺等相關的概念。接下來,我們深入分析導致MLLMs中幻覺的各種因素。在此之后,我們展示了用于評估MLLMs中幻覺的一組度量和基準。然后,我們詳細介紹了一系列旨在緩解MLLMs中幻覺的方法。最后,我們深入探討了當前限制和未來前景的挑戰和開放問題,提供見解并勾畫出即將到來的研究路徑。
數據
數據是MLLMs的基礎,使它們能夠獲得跨模態理解和遵循指令的能力。然而,數據也可能無意中成為MLLMs幻覺的來源。這主要表現在三個方面:數量、質量和統計偏差。 1.1 數量。深度學習模型對數據的需求很大,特別是像MLLMs這樣的大模型。數據量在構建穩健和可靠的MLLMs中扮演著重要角色。目前,圖像-文本配對數據集[92]和視覺QA數據[48, 80]被用于訓練MLLMs。盡管這些數據集通常比計算機視覺中的典型數據集大,但在數量上仍遠不及用于訓練LLMs的純文本數據。數據不足可能導致問題多模態對齊,從而產生幻覺[96, 103]。 1.2 質量。鑒于對大規模訓練數據的需求日益增加,啟發式數據收集方法被用來高效地收集大量數據。雖然這些方法提供了大量數據,但它們并不保證數據質量,從而增加了幻覺的風險。與幻覺相關的數據質量可以進一步分為以下三個方面。
噪聲數據。如定義部分所述,訓練MLLMs涉及兩個階段。預訓練階段使用從網絡上爬取的圖像-文本對,這些數據樣本可能不準確、未對齊或損壞。噪聲數據將限制跨模態特征對齊[117, 120],這是MLLMs的基礎。至于指令調整數據,流行的方法如LLaVA[75]使用先進的GPT-4[82]模型生成指令。然而,ChatGPT是一個不能解釋視覺內容的語言模型,導致噪聲數據的風險。此外,語言模型本身就存在幻覺問題[44],進一步增加了風險。LLaVA-1.5[74]加入了人工注釋的QA數據進入指令遵循,顯示了改進的結果,揭示了噪聲數據的影響。
缺乏多樣性。最近的研究[73, 117]顯示,數據的多樣性也起著至關重要的作用。對于兩個訓練階段使用的數據,指令調整數據更可能有這個問題,因為它通常數量較少。一個顯著的特點是,大多數遵循指令的數據樣本都是關于圖像內容的對話。我們將這種類型的數據視為正向指令,因為它總是忠實地反映圖像內容。相比之下,負向指令數據[73]和拒絕回答響應[11]在數據集中很少。鑒于這樣的訓練數據,最近的研究[69, 73]觀察到的一個潛在缺點是,當前模型傾向于對呈現給模型的任何指令回答“是”,即使正確的答案應該是“否”,導致幻覺。這種現象表明了數據多樣性的影響。
詳細描述(開放問題)。文本描述的細節程度對這一問題的影響仍是一個開放問題。如2.2節所討論,預訓練數據中的文本,如LAION[92],通常描述突出對象的總體內容。而在指令調整階段的文本,如LLaVA-150k[75],包含更詳細的描述。這個LLaVA-150k數據集是基于視覺模型識別的對象由GPT-4生成的。最近的一項研究[16]認為,在訓練數據中,與對象位置、屬性和非突出對象相關的詳細描述通常缺失。這種屬性導致跨模態對齊不完整,剝奪了模型的基礎能力[62, 126]。然而,另一項研究[120]假設指令調整數據中的文本描述包含過多細節,超過了MLLMs的感知限制。當使用這種詳細數據進行訓練時,模型可能會試圖匹配真實標注標題的細節程度和長度分布,從而冒險表達它無法從圖像中辨識的細節,因此展現出幻覺。訓練數據的細節水平仍是一個開放問題。
1.3 統計偏差。如[23]所述,神經網絡,特別是大型語言模型,具有記憶訓練數據的內在傾向。訓練數據集中名詞(如對象)的分布對模型的行為有強烈的影響。經常出現的對象和對象共現是兩種顯著的統計偏差類型,如[69, 90, 137]所討論。例如,‘人’可能是訓練數據中出現最頻繁的對象之一。在推理過程中,即使給定的圖像中不包含人,模型仍然傾向于預測存在人。另一方面,對象共現是指模型會記住哪兩個對象通常“一起出現”的現象[90]。例如,給定一個帶有冰箱的廚房圖像,當詢問微波爐時,MLLMs傾向于回答‘是’,因為在廚房場景中冰箱和微波爐經常一起出現。大多數數據集都存在偏見。增加數據規模可能緩解這一影響,但鑒于現實世界的長尾分布,它無法完全解決。
2 模型
目前,流行的MLLMs的架構通常包括幾個組件,通常包括預訓練的視覺模型、預訓練的LLM和如上所述的對齊模塊。由于這些模型是連接在一起的,而不是從頭開始進行端到端訓練,每個模塊的錯誤都可能累積。每個模塊的不良和有問題的輸出可能導致幻覺。
弱視覺模型。如相關工作[31, 90, 103]所述,幻覺的一個主要潛在原因是視覺模型弱,這可能導致視覺概念的誤分類或誤解。即使是最強大的視覺模型在編碼過程中也可能仍會經歷信息丟失。弱視覺模型意味著感知能力弱,這從根本上破壞了多模態理解。
語言模型先驗。現代MLLMs的架構是不平衡的。通常,語言模型比視覺模型大得多,也強得多,導致傾向于優先考慮基于語言的信息[31, 63, 64, 73, 90]。一個典型的現象是,語言模型中蘊含的知識,也稱為參數知識,可以覆蓋視覺內容。例如,給定一個顯示紅色香蕉的圖像,這在現實世界中是違反直覺的,一個MLLM可能仍然回應“黃色香蕉”,因為“香蕉是黃色的”是LLM中根深蒂固的知識。這種語言/知識先驗使模型忽視視覺內容并響應幻覺。
弱對齊界面。對齊界面在MLLMs中扮演著至關重要的角色,因為它充當兩種模態之間的橋梁。一個弱的對齊界面很容易導致幻覺。一個弱對齊界面的潛在原因是數據,如前面章節所討論的。除此之外,界面架構本身和訓練損失設計也很重要[52, 77, 123]。最近的研究[52]認為,類似LLaVA的線性投影界面保留了大部分信息,但缺乏對投影特征的監督。[52]中的可視化顯示,投影層后的特征與語言嵌入仍然不同。分布差異導致跨模態交互出現問題,導致幻覺。另一方面,類似Q-former[66]的架構對提取的視覺特征有多樣化的監督,將其與語言嵌入空間對齊。然而,可學習查詢的使用不可避免地導致細粒度視覺信息的丟失。
3 訓練
MLLMs的訓練目標基本上與LLMs相同,即自回歸下一個令牌預測損失。這種損失方法直接而有效,且易于擴展,表現出在語言建模中的良好性能。然而,MLLMs領域的一些研究表明,由于視覺內容的復雜空間結構,下一個令牌預測損失可能不適合學習視覺內容[5, 16]。此外,這種損失在令牌級別進行優化,而缺乏序列級別的監督[5]。另一個觀點是,與訓練LLMs不同,訓練MLLMs的程序中缺少RLHF階段[96, 119],成為幻覺的潛在原因。
4 推理
就推理而言,一些工作也指出自回歸生成中存在潛在問題。在生成過程中,隨著序列長度的增加,自注意力將更多地聚焦于之前生成的文本令牌,即視覺內容的注意力被稀釋[45, 102-104]。通過在生成期間可視化注意力圖[45, 104],可以觀察到生成內容更多地關注之前的特殊令牌,如標點符號,而不是視覺內容令牌。'失去注意力'的問題也會導致模型的輸出響應與視覺內容無關。
結論
基于強大的大型語言模型,多模態大型語言模型在各種多模態任務中表現出卓越的性能。然而,幻覺現象對MLLMs的實際應用提出了重大挑戰,引發了關于安全性、可靠性和信任度的不可否認的擔憂。在這篇全面的綜述中,我們對多模態大型語言模型中的幻覺進行了徹底的檢查,重點關注其潛在原因、評估指標、基準和緩解方法。盡管取得了相當的進展,幻覺仍然是一個復雜且持續的問題,需要持續的研究。多模態大型語言模型中的幻覺挑戰仍然引人注目,需要持續的審視和創新。鑒于這些挑戰,我們在這個新興領域概述了幾個有希望的未來發展方向。通過導航幻覺的復雜景觀,我們希望這篇綜述能成為解決MLLMs中幻覺現象復雜性的基礎資源。我們設想這篇綜述能激勵研究人員和實踐者致力于推進研究和在這一關鍵研究領域開發穩健的解決方案。
大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。
近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):
在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。
組織結構
本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。
結論
在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。
這篇綜述論文深入探討了大型語言模型(LLM)的可解釋性領域,這是自然語言處理中的一個關鍵且充滿挑戰的方面。隨著LLM在各種應用中扮演著關鍵角色,它們的“黑盒”特性引發了關于透明度和道德使用的擔憂。本文強調增強LLM可解釋性的必要性,旨在解決公眾對這些模型的信任問題以及技術社區對深入理解這些模型的需求。我們專注于預訓練的基于Transformer的LLM,例如LLaMA(Touvron et al., 2023),它們由于規模和復雜性,呈現出獨特的解釋挑戰。我們的綜述歸類了現有的解釋性方法,并討論了它們在提高模型透明度和可靠性方面的應用。我們還討論了代表性的評估方法,強調它們的優勢和局限性。這篇綜述的目標是在理論理解和實際應用之間架起一座橋梁,為未來LLM可解釋性領域的研究和發展提供洞見。
**1 引言 **
在迅速發展的自然語言處理領域,大型語言模型(LLM)已成為一個基石,展現出在各種任務中的卓越能力。盡管它們效果顯著,LLM通常被視為“黑盒”系統,這在解釋性和透明度方面提出了重大挑戰。這種不透明性可能導致意想不到的后果,例如生成有害或誤導性內容(Gehman et al., 2020),以及模型幻覺的出現(Weidinger et al., 2021)。這些問題凸顯了增強解釋性的緊迫性,不僅是為了理解,更是為了負責任和倫理的應用。 在LLM中,解釋性具有兩個關鍵功能。對于終端用戶,它通過以非技術方式闡明模型的推理過程,增強了對其能力和潛在缺陷的理解,從而培養信任(Zhao et al., 2023)。對于開發者和研究人員,它提供了對意外偏見和改進領域的洞察,作為提升模型在下游任務上性能的工具(Bastings et al., 2022; Meng et al., 2023a; Li et al., 2023b)。然而,LLM的規模為解釋性帶來了獨特的挑戰。更大的模型、更多的參數和廣泛的訓練數據使得解釋變得更加困難。傳統的解釋方法,如SHAP值(Lundberg and Lee, 2017),對于這些大規模模型變得不太實用(Zhao et al., 2023)。此外,全面理解LLM特有現象,包括在上下文中的學習(Halawi et al., 2023; Hendel et al., 2023; Todd et al., 2023; Wang et al., 2023),以及解決模型幻覺(Ji et al., 2023; Chuang et al., 2023)和固有偏見(dev, 2023; An and Rudinger, 2023; Schick et al., 2021)等問題,對于模型設計的持續改進至關重要。 在這篇文獻綜述中,我們關注預訓練的基于Transformer的LLM的解釋性方法,這些模型通常被稱為基礎模型。這些模型通常在訓練數據上進行擴展,并擁有數十億個參數,例如GPT-2(Radford et al., 2019)、GPT-J(Chen et al., 2021)、GPT-3(Brown et al., 2020)、OPT(Yordanov et al., 2022)和LLaMA系列(Touvron et al., 2023)。在第2節中,我們根據文獻綜述對研究問題進行分類。基于這種分類,在第3節中,我們回顧了解釋性方法,隨后在第4節中討論了如何利用這些洞察。我們進一步在第5節中討論評估方法和指標。我們的目標是綜合并批判性地評估當代研究,旨在彌合理論理解與從復雜語言模型中提取的洞見的實際應用之間的差距。
2 概述
大型語言模型(LLM)領域正在迅速發展,使得解釋性不僅成為理解這些復雜系統的工具,而且對它們的改進至關重要。本節對當前的解釋性方法進行分類,強調在倫理和可控生成方面的挑戰,并提出未來探索的研究問題。 方法分類 我們在圖1中呈現了對解釋性方法及其應用的結構化分類。圖1展示了對預訓練語言模型(LM)解釋性方法的結構化分類。我們將這些方法分為兩大領域:局部分析和全局分析。局部分析涵蓋了特征歸因和Transformer塊分析,深入探討模型的詳細操作。另一方面,全局分析包括基于探針的方法和機制性解釋性,提供對模型行為和能力的全面理解。除了理解之外,我們還探索這些洞察在增強LLM能力方面的應用,重點關注模型編輯、能力增強和受控生成。
3 大型語言模型的解釋性
3.1 局部分析 LLM中的局部解釋旨在闡明模型如何為特定輸入生成特定預測,例如情感分類或令牌預測。本節將局部解釋方法分為兩類:特征歸因分析和對單個Transformer(Vaswani et al., 2017)組件的分析。
3.2 全局分析 與側重于闡明單個模型預測的局部分析不同,全局分析旨在理解和解釋模型隱藏狀態激活中編碼的知識或語言屬性。本節探討全局分析的兩種主要方法:審視模型表示的探針方法和機制性解釋性(Transformer Circuits, 2022),這是一種新興的觀點,旨在逆向工程深度神經網絡的內部工作機制。
4 利用解釋性
在本節中,我們討論如何將解釋性作為一個工具來調試和改進模型。雖然各種方法旨在通過微調或重新訓練來提高模型的能力,但我們專注于那些特別基于模型解釋性的強大基礎設計的方法。
4.1 模型編輯
盡管我們能夠訓練出熟練的大型語言模型(LLM),但確保它們的相關性和糾正錯誤的方法仍然難以捉摸。近年來,編輯LLM的技術出現了激增。其目標是在不對其他輸入的性能產生負面影響的情況下,高效地修改LLM在特定領域內的知識或行為(Yao et al., 2023)。
4.2 增強模型能力
雖然大型語言模型(LLM)在各種自然語言處理任務中表現出多樣性,但來自解釋性的洞察可以顯著增強這些能力。本節重點介紹了解釋性在最近的工作中顯示出顯著影響的兩個關鍵任務:改進長文本的利用(Xiao et al., 2023; Liu et al., 2023; Pope et al., 2022)和增強上下文中學習(In-Context Learning, ICL)的性能(Hendel et al., 2023; Halawi et al., 2023; Wang et al., 2023)。
4.3 可控生成
盡管大型語言模型在文本生成方面取得了卓越的表現,但有時它們在生成事實內容方面表現不佳。利用解釋性為構建推理時快速技術提供了機會,這些技術旨在提高生成模型的事實性、校準性和可控性,使其更符合人類偏好。
5 評估
近期,像GPT-4(OpenAI, 2023)這樣的大型語言模型展現了生成其預測的自然語言解釋的令人印象深刻的能力。然而,這些解釋是否真正幫助人類理解模型的推理過程,目前尚不明確(Zhao et al., 2023)。為了更好地評估解釋性方法(如歸因)的性能,需要專門設計的評估方法。此外,還需要校準的數據集和指標來評估解釋性在下游任務中的應用,例如真實性評估。 5.1 評估解釋的合理性 評估歸因解釋合理性的一種常見技術是移除K%估計重要性最高或最低的令牌,以觀察其對模型輸出的影響(Chen et al., 2020; Modarressi et al., 2023)。另一種評估解釋合理性的方法涉及間接方法,例如衡量模型編輯的性能,尤其是對于嚴重依賴解釋準確性的“定位-然后編輯”編輯方法。近期研究(Yao et al., 2023; Zhao et al., 2023)表明,擁有評估數據集對于評估LLM中的事實編輯至關重要。此目的常用的兩個數據集是ZsRE(Levy et al., 2017),一個通過反向翻譯生成問題改寫的問答(QA)數據集,以及CounterFact(Meng et al., 2023a),一個更具挑戰性的數據集,包含了與正確事實相比起始得分較低的反事實。 5.2 評估真實性 模型真實性是衡量生成模型可信度的重要指標。我們期望模型輸出既有信息量又事實正確且忠實。理想情況下,人類評注員會根據標準答案標記模型答案為真或假,但這通常成本較高。(Lin et al., 2022)提出使用兩個微調過的GPT-3-13B模型(GPT-judge)對每個答案進行真實或假的及有信息量或無信息量的分類。使用GPT-judge進行評估是TruthfulQA基準測試的標準做法,這是一個廣泛使用的數據集,對抗性構建以衡量語言模型在生成答案時的真實性(Askell et al., 2021; Li et al., 2023b; Chuang et al., 2023)。TruthfulQA的主要指標是真實*信息量,真實和信息量得分的乘積。這個指標不僅捕捉了有多少問題被真實地回答,還通過評估每個答案的信息量,防止模型無差別地回復“我無可奉告”。
6 結論
在本文中,我們提供了關于LLM的可解釋性及其應用的全面概述。我們總結了基于解釋目標的局部和全局分析方法。此外,我們討論了利用解釋來增強模型和評估這些方法的使用。理解LLM的主要未來研究方向包括開發針對不同語言模型的解釋方法,以及通過利用解釋性知識使LLM更值得信賴且與人類價值觀更一致。隨著LLM的不斷進步,可解釋性將變得極其重要,以確保這些模型是透明的、公平的和有益的。我們希望這篇文獻綜述為這一新興研究領域提供了有用的概述,并突出了未來研究的開放問題和方向。
這段全面的綜述探討了生成式人工智能(AI)不斷演變的格局,特別關注了混合專家模型(Mixture of Experts,MoE)、多模態學習以及朝向人工通用智能(AGI)的推測性進展的轉型影響。它嚴格審視了生成式人工智能(AI)的當前狀態和未來軌跡,探索了像谷歌的Gemini和期待中的OpenAI Q*項目這樣的創新是如何重塑研究優先事項和在各個領域的應用,包括對生成式AI研究分類法的影響分析。它評估了這些技術的計算挑戰、可擴展性和現實世界的影響,同時強調了它們在推動像醫療健康、金融和教育等領域顯著進展的潛力。它還討論了由AI主題和AI生成的預印本的擴散所帶來的新興學術挑戰,檢查了它們對同行評審過程和學術交流的影響。研究強調了在AI發展中融入倫理和以人為本的方法的重要性,確保與社會規范和福祉的一致,并概述了一個未來AI研究的戰略,該戰略聚焦于MoE、多模態和AGI在生成式AI中的平衡和審慎使用。
人工智能(AI)的歷史背景可以追溯到艾倫·圖靈的“模仿游戲”[1]、早期的計算理論[2]、[3],以及第一批神經網絡和機器學習的發展[4]、[5]、[6],這為今天的高級模型奠定了基礎。這種演變,被像深度學習和強化學習的興起這樣的關鍵時刻突出地表現出來,對塑造當代AI的趨勢至關重要,包括復雜的混合專家模型(MoE)和多模態AI系統,展示了該領域的動態和不斷演進的特性。這些進展證明了AI技術的動態和不斷發展的本質。人工智能(AI)的演化在大型語言模型(LLMs)的出現,特別是由OpenAI開發的ChatGPT,以及最近Google的Gemini[7]、[8]的揭幕,見證了一個關鍵的轉折點。這項技術不僅徹底改變了行業和學術界,還重新點燃了關于AI意識及其對人類潛在威脅的關鍵討論[9]、[10]、[11]。這樣的先進AI系統的發展,包括像Anthropic的Claude和現在的Gemini這樣的重要競爭者,它們展示了對比GPT-3和Google自己的LaMDA的幾項進步,重塑了研究格局。Gemini具有通過雙向對話學習的能力,以及其“尖峰與板塊”注意力方法,使其能夠在多輪對話中專注于上下文的相關部分,代表了在開發更適合多領域對話應用的模型方面的重大飛躍。這些在LLMs中的創新,包括Gemini所采用的混合專家方法,標志著向能夠處理多樣輸入并促進多模態方法的模型的轉變。在這種背景下,OpenAI被稱為Q*(Q-星)的項目的猜測已經浮出水面,據稱結合了LLMs的強大能力和像Q學習和A*(A-星算法)這樣的復雜算法,進一步促進了動態的研究環境。
**A. 人工智能研究熱度的變化 **
隨著大型語言模型(LLMs)領域的不斷發展,由Gemini和Q*等創新所體現,大量研究浮現出來,旨在描繪未來研究的道路,這些研究從識別新興趨勢到強調快速進展的領域各不相同。已建立方法和早期采納的二分法很明顯,LLM研究中的“熱門話題”正日益轉向多模態能力和由對話驅動的學習,正如Gemini所展示的那樣。預印本的傳播加速了知識共享,但也帶來了降低學術審查的風險。Retraction Watch指出的固有偏見問題,以及關于剽竊和偽造的擔憂,構成了重大障礙[12]。因此,學術界站在一個十字路口,需要統一努力,以根據該領域快速發展的背景來完善研究方向,這種變化似乎可以通過隨時間變化的不同研究關鍵詞的流行程度來部分追蹤。像GPT這樣的生成式模型的發布和ChatGPT的廣泛商業成功具有影響力。如圖1所示,某些關鍵詞的興衰似乎與重要的行業里程碑有關,例如2017年“變換器”模型的發布[13]、2018年GPT模型的發布[14],以及2022年12月商業化的ChatGPT-3.5。例如,與神經網絡應用的突破相一致的是對“深度學習”的搜索高峰,而隨著像GPT和LLaMA這樣的模型重新定義了語言理解和生成的可能性,“自然語言處理”的興趣激增。盡管有些波動,對AI研究中的“倫理/道德”持續關注反映了對AI道德維度的持續和根深蒂固的關切,強調道德考慮不僅僅是一種反應措施,而是AI討論中不可分割和持久的對話[15]。
從學術角度來看,假設這些趨勢是否意味著一種因果關系,即技術進步驅動研究重點,或者蓬勃發展的研究本身推動了技術發展,這是相當有趣的。本文還探討了AI進步的深遠社會和經濟影響。我們檢查了AI技術如何重塑各個行業,改變就業格局,并影響社會經濟結構。這一分析突出了AI在現代世界中所提出的機遇和挑戰,強調了其在推動創新和經濟增長方面的作用,同時也考慮了倫理影響和對社會的潛在破壞性。未來的研究可能會提供更明確的見解,但創新與學術好奇心之間的同步互動仍然是AI進步的標志。
與此同時,如圖2所示,在arXiv上發布的計算機科學>人工智能(cs.AI)類別下的預印本數量的指數增長,似乎標志著AI社區內研究傳播的范式轉變。盡管快速分發研究成果使知識交流迅速,但它也引發了對信息驗證的擔憂。預印本的激增可能導致未經驗證或有偏見的信息的傳播,因為這些研究沒有經過同行評審出版物典型的嚴格審查和可能的撤回[16]、[17]。這一趨勢強調了學術界需要謹慎考慮和批判,特別是考慮到這些未經審核的研究可能被引用和它們的發現被傳播的潛力。
**B. 研究目標 **
本次綜述的動力是Gemini的正式揭幕和圍繞Q項目的推測性討論,這促使對生成式人工智能(AI)研究的主流趨勢進行及時審視。本文具體貢獻于理解混合專家模型(MoE)、多模態和人工通用智能(AGI)如何影響生成式AI模型,為這三個關鍵領域提供詳細的分析和未來方向。本研究旨在批判性地評估現有研究主題中過時或無關緊要的可能性,同時深入探討在快速變化的LLM格局中新興的前景。這種探詢讓人想起了以加密為中心或基于文件熵計學的勒索軟件檢測方法的過時本質,這些方法已被勒索軟件集團向利用多種攻擊向量的數據盜竊策略的轉變所取代,使得現代關于加密勒索軟件的研究處于落后者的地位[18]、[19]。預期AI的進步不僅會在語言分析和知識合成方面提高能力,還將在混合專家模型(MoE)[20]、[21]、[22]、[23]、[24]、[25]、多模態[26]、[27]、[28]、[29]、[30]和人工通用智能(AGI)[31]、[32]、[10]、[11]等領域開創先河,并已經宣告了傳統的、以統計為驅動的自然語言處理技術在許多領域的過時[8]。 然而,AI與人類倫理和價值觀保持一致的永恒要求仍然是一個基本原則[33]、[34]、[35],而推測性的Q-Star計劃提供了一個前所未有的機會,來引發關于這些進步如何重塑LLM研究地形的討論。在這種環境中,NVIDIA的高級研究科學家兼AI代理負責人吉姆·范博士(Dr. Jim Fan)對Q的見解,尤其是關于學習和搜索算法的融合,為這種努力的潛在技術構建和能力提供了寶貴的視角。我們的研究方法涉及使用“大型語言模型”和“生成式AI”等關鍵詞進行結構化文獻搜索。我們在IEEE Xplore、Scopus、ACM Digital Library、ScienceDirect、Web of Science和ProQuest Central等幾個學術數據庫中使用過濾器,以識別2017年(“變換器”模型發布)到2023年(本文撰寫時間)期間發表的相關文章。本文旨在剖析Gemini和Q的技術影響,探討它們(以及類似技術的不可避免出現)如何改變研究軌跡并在AI領域開辟新視野。在此過程中,我們確定了三個新興的研究領域——MoE、多模態和AGI——它們將深刻地重塑生成式AI研究格局。本次調查采用綜述式方法,系統地繪制了一幅綜合并分析生成式AI當前和新興趨勢的研究路線圖。
本研究的主要貢獻如下:
本文的其余部分安排如下:第二部分探討了生成式AI的歷史發展。第三部分提出了當前生成式AI研究的分類。第四部分探討了混合專家模型(MoE)的架構、其創新特性及其對基于變換器的語言模型的影響。第五部分討論了Q*項目的推測能力。第六部分討論了AGI的預期能力。第七部分考察了最近進展對生成式AI研究分類法的影響。第八部分確定了生成式AI的新興研究優先事項。第十部分討論了AI中預印本快速增長的學術挑戰。本文在第十一部分結束,總結了這些發展對生成式AI的總體影響。 當前生成式AI研究分類法生成式人工智能(AI)領域正在迅速發展,這需要一個全面的分類法,涵蓋該領域內研究的廣度和深度。如表I所詳述,這個分類法將生成式AI的主要研究和創新領域進行了分類,并作為理解該領域當前狀態的基礎框架,指導我們穿越不斷發展的模型架構、先進訓練方法、多樣的應用領域、倫理含義和新興技術前沿的復雜性。
生成式AI模型架構經歷了顯著的發展,其中四個關鍵領域尤為突出:
Transformer模型:Transformer模型在AI領域,尤其是在自然語言處理(NLP)中,因其更高的效率和可擴展性而引起了革命性的變化[139]、[140]、[141]。它們采用先進的注意力機制來實現增強的上下文處理,使得對細微理解和交互成為可能[142]、[143]、[144]。這些模型也在計算機視覺領域取得了顯著進展,例如開發了EfficientViT [145]、[146]和YOLOv8 [147]、[148]、[149]這樣的視覺Transformer。這些創新象征了Transformer模型在如對象檢測等領域的擴展能力,不僅提高了性能,還增強了計算效率。
循環神經網絡(RNNs):RNNs在序列建模領域表現卓越,特別適用于處理涉及語言和時間數據的任務,因為它們的架構專門設計用于處理數據序列,如文本,使它們能有效捕捉輸入的上下文和順序[150]、[151]、[152]、[153]、[154]。這種處理序列信息的能力使它們在需要深入理解數據時間動態的應用中不可或缺,例如自然語言任務和時間序列分析[155]、[156]。RNNs在維持序列上連續性方面的能力是AI更廣泛領域的關鍵資產,特別是在上下文和歷史數據發揮關鍵作用的場景中[157]。
混合專家模型(MoE):MoE模型通過在多個專業化專家模塊上部署模型并行處理,顯著提高效率,使這些模型能夠利用基于Transformer的模塊進行動態令牌路由,并擴展到數萬億參數,從而降低內存占用和計算成本[94]、[98]。MoE模型因其能夠在不同的專家之間分配計算負載而脫穎而出,每個專家專注于數據的不同方面,這使得更有效地處理大規模參數,導致更高效和專業化地處理復雜任務[94]、[21]。
多模態模型:多模態模型整合了如文本、視覺和音頻等多種感官輸入,對于全面理解復雜數據集至關重要,尤其是在諸如醫學成像[113]、[112]、[115]等領域具有變革性作用。這些模型通過使用多視圖管道和交叉注意力模塊,實現準確和數據高效的分析[158]、[159]。這種多樣感官輸入的整合,使得數據解釋更為細膩和詳盡,增強了模型準確分析和理解各種信息類型的能力[160]。不同數據類型的組合,同時處理,使這些模型能夠提供全面視圖,特別適用于需要深入和多方面理解復雜情景的應用[113]、[161]、[162]、[160]。
生成式AI研究中的新興趨勢正在塑造技術和人類互動的未來,并表明了一個向更集成、交互和智能化的AI系統的動態轉變,推動AI領域可能性的邊界向前發展。這一領域的關鍵發展包括: * 多模態學習:AI中的多模態學習是一個快速發展的子領域,專注于結合語言理解、計算機視覺和音頻處理,以實現更豐富、多感官的上下文意識[114]、[268]。最近的發展,如Gemini模型,通過在各種多模態任務中展示最先進的性能,包括自然圖像、音頻和視頻理解以及數學推理,樹立了新的基準[112]。Gemini的固有多模態設計體現了不同信息類型之間的無縫整合和操作[112]。盡管取得了進步,多模態學習領域仍面臨著持續的挑戰,例如改進架構以更有效地處理多樣化的數據類型[269]、[270],開發能夠準確代表多方面信息的綜合數據集[269]、[271],以及建立評估這些復雜系統性能的基準[272]、[273]。 * 交互式和協作式AI:這個子領域旨在增強AI模型與人類在復雜任務中有效協作的能力[274]、[35]。這一趨勢聚焦于開發可以與人類共同工作的AI系統,從而在各種應用中提高用戶體驗和效率,包括生產力和醫療保健[275]、[276]、[277]。這個子領域的核心方面涉及在可解釋性[278]、理解人類意圖和行為(心理理論)[279]、[280],以及AI系統與人類之間的可擴展協調方面推進AI,這種協作方法對于創造更直觀和交互式的AI系統至關重要,能夠在多樣化的情境中協助和增強人類能力[281]、[35]。 * AGI開發:AGI代表了打造模仿人類認知的全面和多方面特性的AI系統的遠見目標,是一個專注于開發具有整體理解和復雜推理能力的AI的子領域,這些能力與人類認知能力的深度和廣度密切相關[282]、[283]、[32]。AGI不僅僅是復制人類智能,還涉及打造能夠自主執行多種任務、展示與人類相似的適應性和學習能力的系統[282]、[283]。AGI的追求是一個長期愿景,不斷推動AI研究和發展的邊界。 * AGI限制:AGI安全和限制承認與高度先進的AI系統相關的潛在風險,專注于確保這些先進系統不僅在技術上精湛,而且在倫理上與人類價值觀和社會規范保持一致[15]、[32]、[11]。隨著我們向發展超級智能系統的方向前進,建立嚴格的安全協議和控制機制變得至關重要[11]。關注的核心領域包括緩解表征偏見、解決分布變化,以及在AI模型中糾正虛假相關性[11]、[284]。目標是通過將AI發展與負責任和倫理標準保持一致,防止意外的社會后果。
**Q*的推測能力 **
在蓬勃發展的AI領域中,備受期待的Q項目被視為潛在突破的燈塔,預示著可能重新定義AI能力格局的進步(見圖5)。
A. 增強的通用智能
Q在通用智能領域的發展代表了從專業化到整體化AI的范式轉變,表明了模型認知能力類似于人類智能的擴展。這種高級形式的通用智能涉及整合多種神經網絡架構和機器學習技術,使AI能夠無縫地處理和綜合多方面的信息。通用適配器方法,模仿像T0這樣的模型,可能賦予Q快速吸收來自各個領域知識的能力。這種方法允許Q*學習適應性模塊插件,增強其處理新數據類型的能力,同時保留現有技能,從而形成一個將狹窄專業化結合成為全面、適應性和多功能推理系統的AI模型。
B. 高級自學與探索
在高級人工智能(AI)開發領域,Q* 預計將代表自學習和探索能力的顯著進化。有人猜測它將使用復雜的策略神經網絡(NNs),類似于AlphaGo中的那些,但對于處理語言和推理任務的復雜性進行了實質性的增強。預計這些網絡將采用高級的強化學習技術,如近端策略優化(PPO),這穩定了策略更新并提高了樣本效率,這是自主學習中的一個關鍵因素。將這些NNs與尖端搜索算法結合,可能包括思維樹或思維圖的新型迭代版本,被預測為使Q能夠自主導航和吸收復雜信息。這種方法可能會利用圖神經網絡來增強元學習能力,使Q能夠迅速適應新任務和環境,同時保留先前獲得的知識。
C. 卓越的人類水平理解
有人猜測,Q實現卓越的人類水平理解的愿望可能依賴于多個神經網絡的高級集成,其中包括價值神經網絡(VNN),與AlphaGo等系統中的評估組件相似。這個網絡將不僅僅限于評估語言和推理過程中的準確性和相關性,還會深入探討人類溝通的微妙之處。該模型的深度理解能力可以通過先進的自然語言處理算法和技術來增強,比如在DeBERTa等變換器架構中找到的那些。這些算法將使Q能夠解釋不僅僅是文本,還包括意圖、情感和潛在含義等微妙的社交情感方面。通過結合情感分析和自然語言推理,Q*可以瀏覽各種社交情感洞察,包括共情、諷刺和態度。
D. 高級常識推理
有人預測,Q在高級常識推理方面的發展將整合復雜的邏輯和決策算法,可能結合了符號AI和概率推理的元素。這種整合旨在賦予Q對日常邏輯的直觀理解,以及與人類常識類似的理解,從而彌合人工智能和自然智能之間的重要差距。Q推理能力的增強可能涉及到圖結構化的世界知識,包括物理和社交引擎,類似于CogSKR模型中的引擎。這種以物理現實為基礎的方法預計能夠捕捉并解釋當代人工智能系統經常缺乏的日常邏輯。通過利用大規模知識庫和語義網絡,Q可以有效地應對復雜的社交和實際場景,使其推理和決策更貼近人類的經驗和期望。
E. 廣泛的現實世界知識整合
有人猜測,Q整合廣泛的現實世界知識的方法可能涉及使用先進的形式驗證系統,這將為驗證其邏輯和事實推理提供堅實的基礎。當與復雜的神經網絡架構和動態學習算法相結合時,這種方法將使Q能夠深入參與現實世界的復雜性,超越傳統人工智能的限制。此外,Q*可能會使用數學定理證明技術進行驗證,確保其推理和輸出不僅準確,而且在倫理上有基礎。在這個過程中加入倫理分類器進一步增強了其能力,以提供可靠和負責任的對現實世界情景的理解和互動。
結論
這份綜述調查著手探索了生成式AI研究中的變革性趨勢,特別關注了像Q*這樣的推測性進展以及向人工通用智能(AGI)的進步步伐。我們的分析突出了一個關鍵的范式轉變,由混合專家模型(MoE)、多模態學習和對AGI的追求等創新所驅動。這些進步預示了一個未來,AI系統在推理、上下文理解和創造性問題解決方面的能力可能顯著提升。這項研究反映了AI具有促進或阻礙全球公平和正義的雙重潛力。AI利益的公平分配和其在決策過程中的作用提出了關于公平和包容性的重要問題。深思熟慮地將AI整合到社會結構中以增強正義和減少差異是至關重要的。盡管有這些進步,仍然存在一些未解決的問題和研究空白。這些包括確保先進AI系統與人類價值觀和社會規范的倫理一致性,這一挑戰因它們日益增長的自主性而變得更為復雜。在多樣化環境中AGI系統的安全性和健壯性也仍是一個重大研究空白。應對這些挑戰需要多學科方法,融合倫理、社會和哲學視角。
我們的調研強調了AI未來跨學科研究的關鍵領域,強調倫理、社會和技術視角的整合。這種方法將促進協作研究,彌合技術進步與社會需求之間的差距,確保AI發展與人類價值觀和全球福祉保持一致。在重塑生成式AI方面,MoE、多模態和AGI的作用被認為是重要的,因為它們的進步可以提高模型性能和多功能性,并為像倫理AI一致性和AGI等領域的未來研究鋪平道路。在我們繼續前進時,AI進步與人類創造力之間的平衡不僅是一個目標,而且是一個必要性,確保AI的作用是一個補充力量,增強我們創新和解決復雜挑戰的能力。我們的責任是引導這些進步,豐富人類體驗,使技術進步與倫理標準和社會福祉保持一致。