摘要—作為人工通用智能(AGI)中的一個重要方向,多模態大型語言模型(MLLMs)已經引起了業界和學術界的廣泛關注。基于預訓練的大型語言模型,這類模型進一步發展了多模態感知和推理能力,表現出令人印象深刻的能力,例如根據流程圖編寫代碼或基于圖像創作故事。在開發過程中,評估至關重要,因為它為模型改進提供了直觀的反饋和指導。與傳統的訓練-評估-測試范式(通常只針對單一任務,如圖像分類)不同,MLLMs的多功能性促使了各種新基準和評估方法的興起。本文旨在提供一份關于MLLM評估的全面調查,討論四個關鍵方面:1)按評估能力分類的基準類型總結,包括基礎能力、模型自我分析和擴展應用;2)基準構建的典型過程,包括數據收集、標注和注意事項;3)系統評估方式,由判定、度量標準和工具包組成;4)下一個基準的展望。本文旨在幫助研究人員更好地掌握如何根據不同需求有效評估MLLM,并啟發更好的評估方法,從而推動MLLM研究的進展。本文的項目頁面可訪問 //github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Benchmarks。
關鍵詞—多模態大型語言模型、視覺-語言模型、模型評估、基準。
1 引言大型語言模型(LLMs)[1] 正在席卷整個人工智能領域。通過擴大模型參數的規模和訓練語料庫,LLMs 展現出了諸如遵循指令 [2] 和從上下文中學習 [3] 等突現能力。與以往為特定任務訓練特定模型的范式不同,LLMs 能夠通過提示(prompting)解決廣泛的通用任務。此外,LLMs 只能支持語言,而我們的世界本質上是多模態的,包含多種形式的信息,例如視覺和音頻 [4]。這一局限性促使了一個新型模型家族的興起,即多模態大型語言模型(MLLMs)[5][6]。基于 LLMs,MLLMs 進一步具備了處理多模態信息的能力,這大大擴展了模型的任務覆蓋范圍。在 MLLM 開發過程中,模型評估發揮了至關重要的作用,因為它能夠定量地反映模型的優缺點。這一反饋有效地促進了模型的迭代,并推動了該領域的進步。升級后的模型反過來又刺激了新基準的出現,這些基準要求模型具備更先進的能力。如圖 1 所示,隨著 MLLMs 在近年來的飛速發展,眾多嶄新的專門設計的評估基準應運而生。這給尋求合適基準的研究人員以及致力于優化現有評估方法或引入新基準的學者帶來了不便。因此,本工作提供了一項關于 MLLM 評估的全面系統調查,旨在涵蓋四個關鍵問題: 1. 評估哪些能力? 我們組織了現有評估基準的層次化分類法。在頂層,這些評估基準可以分為基礎能力、模型行為和擴展應用的評估。 1. 如何構建基準? 具體而言,我們匯總了構建基準的典型方法,包括樣本收集和問答(QA)對的標注。我們還討論了在模型評估過程中需要特別注意的事項,例如數據污染、基準多樣性和樣本量等。 1. 如何衡量性能? 在評估方法方面,我們介紹了三種衡量 MLLM 性能的代表性方法:基于人工的評估、基于 LLM/MLLM 的評估以及基于腳本的評估。此外,我們還介紹了兩種主要的評估指標類型以及四種評估工具包。 1. 下一個基準的方向在哪里? 我們從明確定義的能力分類法、面向能力的評估、面向任務的評估以及融合更多模態的角度進行討論。 我們希望這項調查能夠幫助研究人員更輕松地找到合適的基準,并激發對能夠更好反映模型優缺點的基準以及更高效、合理的評估方法的探索。我們將定期在我們的項目頁面上更新新的評估論文,組織社區共同努力推動這一領域的進展。 2 背景在本節中,我們簡要介紹了多模態大型語言模型(MLLMs)的基本內容,包括其架構和訓練。欲了解更全面的說明,推薦閱讀相關工作 [5],其中詳細討論了 MLLMs。2.1 MLLM的架構典型的 MLLM 由三個模塊組成:模態編碼器 [7]、大型語言模型(LLM)和它們之間的連接器,如圖 2 所示。以視覺-語言模型為例,給定一個文本查詢和視覺樣本,視覺編碼器從視覺樣本中提取特征,而連接器將視覺特征與文本嵌入空間對齊。隨后,對齊后的視覺特征與用戶查詢的文本嵌入一起作為輸入。LLM 接受這一多模態輸入并生成自然語言響應。與 LLM 處理信息的方式類似,MLLM 的核心是統一的自回歸建模:p(wo∣wV,wT)~∏t=1LP(wt∣w<t,wV,wT)(1)p(w_o | w_V, w_T) \sim \prod_{t=1}^{L} P(w_t | w_<t, w_V, w_T) \tag{1}p(wo∣wV,wT)~t=1∏LP(wt∣w<t,wV,wT)(1)其中,wo={wo,t}t=1Lw_o = {w_{o,t}}_{t=1}^{L}wo={wo,t}t=1L 是長度為 L 的輸出詞令序列,wVw_VwV 表示處理后的視覺令牌,wTw_TwT 對應于用戶查詢的文本嵌入。2.2 MLLM的訓練從圖 3 可以看出,MLLM 的全面訓練過程包括三個階段:預訓練、指令調優和對齊調優。 * 預訓練:預訓練階段的主要目標是對齊不同模態 [8] 并將多模態世界知識注入到模型中。預訓練階段通常涉及大規模基于文本的配對數據,例如圖像標題數據 [9]。一般來說,標題是圖像的“翻譯”,用自然語言描述圖像內容。為了對齊視覺與文本,MLLM 學習以自回歸的方式預測與圖像對應的真實標題。 * 指令調優:指令調優的目的是教會 MLLM 遵循用戶指令并完成所需的任務。通過這種方式調優后,MLLM 能夠泛化到由新指令定義的新任務,從而提升零-shot 性能。指令數據可以來自現有多任務數據集的適配,如 VQA,或來自自我指令 [13][14],其中數據由像 GPT-4 這樣的高級 MLLM 合成。給定一張圖像和一條指令,模型被訓練預測對該指令的響應,通常采用對話形式。 * 對齊調優:對齊調優幫助 MLLM 與特定的人類偏好對齊,例如生成更少幻覺的響應 [15][16][17]。此階段使用的數據包含關于哪種響應更好的注釋。這種響應的偏好可以來自人類,也可以來自 AI。學習目標是鼓勵生成與偏好響應相似的回答,同時懲罰不受歡迎的響應。
3 基準類別在本節中,我們介紹了旨在滿足多樣化評估需求的代表性基準。我們將現有的基準進行了組織,以便快速瀏覽,如圖 4 所示。此外,圖 5 展示了不同評估任務的示例,表 1 給出了部分代表性基準的統計數據。
3.1 基礎能力
3.1.1 綜合評估
設計多模態大語言模型(MLLM)的主要目標之一是開發能夠全面回答與感知和推理相關的人類查詢的智能聊天機器人。為評估 MLLM 的綜合能力,涌現了大量的評估基準。VQA v2 [18] 是一個早期基準,包含 453K 手動標注的問答對用于模型評估。它包括開放式問題,如計數物體和區分顏色,但答案通常簡潔,如一個單詞。VizWiz [19] 大約在 VQA v2 發布時出現。它包含 8K 個問答對,來源于視覺障礙者的日常生活場景,有效捕捉了殘障用戶的真實需求。然而,這些傳統基準往往無法衡量當今 MLLM 的新興能力,如強大的推理能力。已有一些工作將現有的傳統基準匯總起來進行綜合評估。例如,LVLM-eHub [20] 匯編了大量公共數據集,涵蓋了 47 個標準的與文本相關的視覺基準。評估結果發現,盡管 MLLM 在常識任務中超越了當前最先進的技術(SOTA),但在圖像分類、光學字符識別(OCR)和 VQA 等任務上,仍明顯落后于領先的監督模型。同樣,LAMM [21] 使用公共數據集進行評估,超出了 9 個常見的圖像任務。研究表明,MLLM 在大規模計數問題上表現不佳,僅能進行粗略估計,并且在細粒度屬性區分上也存在困難。盡管 MLLM 具有物體定位能力,但準確預測邊界框仍然是一個挑戰,可以通過進一步微調有效緩解。考慮到現有傳統基準的局限性,研究人員開始設計專門針對 MLLM 特點的新評估數據集。例如,MME [24] 建立了一個綜合基準,涵蓋了 14 個感知和認知任務,其中后者包括常識推理、數值計算、文本翻譯和代碼推理。類似地,MMBench [22] 包括 20 個不同的能力維度,如物體定位和社會推理。Seed-Bench [23] 與 MME 和 MMBench 有相似之處,但包含了更多的多項選擇題。SEED-Bench2 [25] 將問答對從 19K 擴展到 24K,覆蓋了 27 個評估維度。MMT-Bench [26] 進一步擴大了數據集,包含了來自不同場景的 31K 個問答對。這些基準揭示了一些共同特征。例如,隨著 LLM 規模的增加,模型的表現顯著提升 [22],[26]。細粒度的感知任務,如空間定位和像素級感知,通常對 MLLM 造成顯著挑戰 [22],[24],[26],[35]。此外,MLLM 在理解圖表和視覺數學方面往往表現不佳,隨著數據集規模的增加,這一限制變得更加明顯 [25],[26]。圖像-文本交織問題仍然難以解決,相關的訓練階段策略只能部分緩解該問題 [22],[26]。最后,隨著 MLLM 的最新進展,開源模型的性能越來越接近甚至超越了閉源模型 [22],[24],[35],這展示了開源社區的快速進展。現實世界的使用場景已經成為研究人員的關注焦點,他們希望了解模型在實際應用中的表現。例如,RealWorldQA1 評估了源自現實場景的基礎空間理解能力。盡管這些場景對人類來說相對簡單,但通常對最先進的模型構成挑戰。同樣,BLINK [27] 確定了諸如相對深度估計、視覺對應、法醫學檢測和多視角推理等任務,人類能夠“眨眼”解決這些問題,但這些任務對當前的 MLLM 來說是重大挑戰。WV-Bench [29] 和 VisIT-Bench [30] 強調了在現實應用中評估人類偏好和遵循指令能力的重要性。MME-RealWorld [35] 相較于其前身,更加注重質量和難度,包含了最大規模的手動標注問答對和最大的圖像分辨率。這些基準揭示了 MLLM 在任務設計和現實世界應用中的一些共同特點。細粒度感知任務繼續挑戰現有模型 [27],[29]。相比之下,模型在藝術風格識別和相對深度感知任務中表現相對較好 [27]。此外,盡管像 GPT-4o 這樣的閉源模型通常優于其他模型 [27],[29],但人類在這些任務中的表現仍遠超這些通用模型。為了量化結果,許多研究將評估簡化為二元或多項選擇問題 [22],[24],[35]。然而,單純依賴最終答案的正確性忽視了推理過程的重要性,而推理過程對于理解模型的能力至關重要。因此,一些研究直接使用開放式生成結果,并利用基于 LLM 的評估器來評估性能,盡管這也面臨 LLM 評分不準確的問題。例如,MMVet [31] 引入了多樣的題目格式,要求模型整合各種核心視覺-語言能力來提供解決方案。類似地,TouchStone [32] 強調了現實世界對話能力,并認為僅評估多項選擇題無法充分反映多模態對話能力。InfiMM-Eval [33] 采用了全面的方法,評估模型在演繹推理、溯因推理和類比推理等任務中的表現,特別評估了中間推理步驟,將評估與數學問題解決等實際場景對齊。這些基準揭示了 MLLM 在處理復雜任務時的能力和挑戰。閉源模型在這些領域表現出色 [31],[33],但往往在理解復雜的定位、結構關系、圖表和視覺數學方面存在困難 [32]。高分辨率數據特別有助于模型識別小物體、密集文本和細粒度細節 [32]。此外,盡管 CoT 策略顯著提高了閉源模型的推理能力,但對開源模型的影響仍然有限。在開發過程中,基準不斷根據過去的經驗進行修訂和改進。例如,MMStar [28] 識別出許多現有基準允許模型僅使用文本輸入來解決問題,這可能會誤導對真正多模態性能的評估。為了解決這個問題,它手動收集了 1.5K 個與視覺信息密切相關的問答對,并引入了評估數據泄露和真正多模態能力的指標。CV-Bench [34] 認識到視覺中心基準的稀缺性,并收集了 2.6K 個樣本來評估 2D 和 3D 視覺理解。
3.1.2 光學字符識別(OCR)
目前的多模態基準越來越側重于評估模型在光學字符識別(OCR)任務中的表現,推動了文檔理解和交通等領域的技術進步。基準從單一場景發展到復雜的多場景。例如,TextVQA [36] 和 OCR-VQA [37] 聚焦于標準文本識別任務,而 InfoVQA [44] 和 WebSRC [38] 引入了更為復雜的結構推理任務,如理解網頁結構和從信息圖表中推斷信息。SEED-Bench-2-Plus [40] 和 OCRBench [39] 通過包括圖表、地圖和網頁等多種數據類型,進一步拓寬了任務的范圍,展示了模型在識別常規文本、非規范文本、遮擋文本和藝術文本方面與最先進的監督模型表現相當。此外,VCR [41] 處理了 OCR 的變種,其中文本嵌入在圖像中并部分遮擋,要求模型恢復圖像中文本的特定內容。然而,許多 MLLM 在細粒度的 OCR 能力、手寫文字、非語義文本和多語種文本識別方面仍面臨挑戰 [39],[40],[41],[175]。像 GPT-4V 這樣的 MLLM 在多個評估中表現出色 [39],[40],[176],但仍然落后于專門訓練的 OCR 模型 [175]。此外,不同數據類型對模型性能的影響差異顯著。例如,知識圖譜和地圖比簡單圖表更具挑戰性 [40]。這表明,針對特定數據類型優化模型或引入專業 OCR 組件可能會顯著提高性能 [177]。
3.1.3 圖表和文檔
圖表和文檔是實際應用中重要的數據類型,旨在以高效的方式傳達信息。與自然圖像不同,這些數據高度結構化,并且信息密集,要求模型理解布局及嵌入元素之間的關系。為了開發能夠理解并推理這些數據的模型,已經提出了針對不同類型圖表[42],[44],[47],[48],[49],[50],[51],[52]和文檔[43],[45],[46]的基準測試。ChartQA [42] 專注于圖表的視覺問答(VQA),如條形圖、折線圖和餅圖。問題的范圍從要求簡單數據檢索的到需要數據提取和數學推理的復雜組合性問題。DocVQA [43] 是針對行業文檔中提取的文檔圖像的視覺問答任務。問題通常側重于更簡單的信息提取任務。InfoVQA [44] 側重于理解信息圖像,這是一種旨在簡潔地傳達信息的數據類型。由于這種特性,信息圖的布局和結構比傳統圖表更為多樣。此基準中的問題通常需要基本的推理和算術能力。隨著大規模語言模型(MLLM)的發展,近期的基準轉向理解更復雜的圖表和文檔。例如,DocGenome [45] 專注于科學論文的分析,任務包括信息提取、布局檢測、視覺問答及代碼生成等。CharXiv [47] 關注來自科學論文的挑戰性圖表。MMLongBench-Doc [46] 專注于一般長文檔的理解,其中文檔平均跨度為47.5頁。盡管在像ChartQA、DocVQA和InfoVQA這樣的傳統基準測試中,專有模型和開源模型之間的性能差距正在縮小,但在像CharXiv和MMLongBench-Doc這樣更具挑戰性的基準測試中,差距仍然很大。此外,當前的MLLM仍然在以下方面存在困難:1)推理問題,尤其是那些要求超出簡單信息提取的復雜問題[47];2)長上下文文檔理解[46],其中理解長時間跨度的多模態上下文至關重要。
3.1.4 數學推理
視覺數學問題求解能力是評估MLLM的重要方面,催生了許多專門設計的基準測試。MathVista [53] 是一個早期的嘗試,收集了來自現有數據集和新創建數據集的樣本。圖像種類從數學插圖,如幾何圖形和條形圖,到不同場景和領域,如抽象場景和醫學圖像。隨后的研究開發了更具挑戰性的基準[54],[55],并設計了更精細化的評估設置[56],[57]。例如,We-Math [57] 根據知識概念將問題分解為子問題,并在基礎知識概念層面評估MLLM。為了評估MLLM對數學圖表的理解,MathVerse [56] 將每個問題轉化為6個不同版本,每個版本包含不同的視覺和文本內容比例。總體而言,盡管GPT-4V[53]等模型取得了一些有前景的結果,但一些關鍵問題仍未解決。首先,大多數當前的MLLM難以理解復雜的視覺圖表[53],并且過度依賴文本問題[56]。其次,大多數MLLM傾向于通過死記硬背解決復合問題,而無法正確回答子問題[57]。
3.1.5 跨學科
掌握跨學科知識是評估模型專業性的一個重要指標。為此,已經開發了多個基準測試。ScienceQA [58] 是一個包含講座和解釋注釋的科學問題基準,便于進行思維鏈評估。該基準覆蓋了1到12年級的知識,涉及多個領域。MMMU [59] 是一個更具挑戰性的基準,涵蓋廣泛的學科和大學級別問題,包括工程、藝術與設計、商業、科學、人文學科與社會科學以及醫學。問題的形式從單一的圖像-文本對發展為交錯的文本和圖像格式。同樣,CMMU [60](年級知識)和CMMMU [61](大學知識)是專門針對中文語境的領域特定基準。這些工作的綜合評估表明,即使是先進的模型(如GPT-4V和Gemini Ultra)在這些基準上的準確率也僅為60%以下,表明朝著AGI的目標仍有很大的改進空間。
3.1.6 多語種
MLLM正在逐步朝著多語種發展,以便惠及更大的社區。除了主要的英語外,研究人員還收集了其他語言的基準測試,以適應不同文化背景和習俗下的評估,包括中文[60],[61],[63],[69]、烏爾都語[66]、斯瓦希里語[67]、越南語[68]和多語言[64],[65]。例如,CMMMU [61] 緊隨MMMU [59],收集了中文的跨學科基準。像ViOCRVQA [68]、Urdu-VQA [66]和Swahili-STR [67]等工作評估了其他語言中的OCR和VQA能力。Video-MME [178] 專門針對多語種評估,包括世界上主流的語言。MTVQA [64] 和M3Exam [65] 開發了涵蓋9種不同語言的多語種基準。評估結果顯示,在不同語言下的表現差異較大。值得注意的是,無論是專有模型還是開源模型,在使用拉丁字母的印歐語系語言(如德語、法語和意大利語)時表現更好,這可能歸因于這些語言在視覺和語言上的相似性【64】。
3.1.7 遵循指令
遵循指令是指模型遵從用戶指令并執行指定任務的能力。作為一種基礎能力,指令遵循直接影響響應質量和用戶體驗。MIA-Bench [70] 旨在評估 MLLM 遵循復雜指令的能力。該基準包含一組 400 對圖像-提示對,每個指令都關注特定的點,例如長度限制、類型和語法。評估結果顯示,專有模型 GPT-4o 取得了最佳性能(得分 88.58),而最佳開源模型 LLaVA-NeXT-110b [179] 的得分僅為 79.84,表明在遵循復雜指令方面存在差距。此外,LLM 大小與 MIA-Bench 性能之間存在較強的相關性,驗證了指令遵循能力中的擴展定律。3.1.8 多輪問答當前的 MLLM 通常被開發為多輪聊天機器人,而大多數基準仍然停留在單輪問答階段。多輪問答基準旨在與現實世界對話場景對接,模擬具有長上下文歷史的人機互動設置。ConvBench [71] 開發了一個漸進式評估方案,每輪聚焦于特定的能力,例如感知、推理和創作。評估在單輪和整體對話級別上進行。評估結果表明,MLLM 在細粒度感知方面的不足導致了推理和創作的失敗。MMDU [72] 涉及多輪和多圖像對話,其中一個對話樣本最多可以包含 20 張圖像和 27 輪對話。分析指出,開源模型與封閉源模型之間的差距可以歸因于有限的對話指令調優數據。
3.1.9 多圖像理解
隨著 MLLM 的發展,研究人員已開始探索將視覺能力從單圖像升級到多圖像。為了迎合這一趨勢,一些多圖像基準已被編制。例如,NLVR2 [73] 是一個早期的基準,每個樣本包含一對相似圖像和一個自然語言標題。任務是判斷該標題是否與這對圖像相符。最近提出的基準更加專門化,旨在評估 MLLM。例如,SparklesEval [74] 挑戰模型在多圖像和多輪對話中的能力,用戶提示以交錯的文本和圖像形式呈現。每個實例包含兩輪對話和四張圖像。類似地,MMDU [72] 是一個多圖像和多輪基準,每個樣本最多包含 20 張圖像和 27 輪對話。還有一些其他基準更加關注多圖像推理。Mementos [75] 旨在評估 MLLM 理解順序圖像的能力,涵蓋日常生活、機器人學和漫畫等領域。MIRB [76] 旨在評估通過聚合和推理多張圖像信息來回答問題的能力,涉及感知、視覺世界知識、推理和多跳推理四個類別。ReMI [77] 設計了 13 個任務,具有不同的輸入格式和圖像之間的關系,例如相同或不同的概念。MuirBench [78] 設計了 12 個多圖像理解任務,例如場景理解和視覺檢索,涉及多視角和時間關系等多種圖像關系。為了確保評估的魯棒性,每個實例都與一個具有最小語義差異的無解變體配對。評估結果表明,盡管開源模型在單圖像基準中已接近 GPT-4V 等高級封閉源模型的性能,但在多圖像推理任務中仍存在較大差距 [76]。此外,當前的 MLLM 在解決多圖像問題時普遍面臨挑戰:即使是表現最佳的專有模型 GPT-4o/Gemini Pro 在準確率上也僅達到 68.0%/49.3%,而在單圖像訓練的開源模型對多圖像問題的泛化能力幾乎為零,準確率低于 33.3% [78]。
3.1.10 圖像與文本交錯理解圖像與文本交錯是自然的信息傳遞形式,廣泛存在于互聯網上的博客和新聞等媒體中。盡管大多數基準采用的是圖像-文本非交錯格式,但已有多個基準被開發用于評估模型理解交錯內容的能力。在 MMMU [59] 中,問題的格式為交錯的文本和圖像。SparklesEval [74] 采用了類似的格式,并采用了兩輪提示方式。VEGA [79] 專門設計用于評估圖像-文本交錯理解能力。提出的任務要求模型從冗余的圖像和文本中辨識出有用的部分并推導出正確的答案。評估結果表明,像 GPT-4V 和 Gemini 1.5 Pro 等先進的專有 MLLM 僅表現一般,表明在交錯信息處理方面仍有很大的改進空間。3.1.11 高分辨率處理高分辨率圖像是 MLLM 的一項重要能力,特別是在自動駕駛等實際應用中。V*Bench [80] 旨在評估處理高分辨率圖像的能力,側重于正確的視覺細節。該基準包含 191 張分辨率為 2,246×1,582 的高分辨率圖像。設計了兩個子任務:屬性識別任務旨在識別物體的顏色或材質等屬性;空間關系推理任務要求模型確定兩個物體之間的空間關系。MME-RealWorld [35] 包含 13,366 張圖像,分辨率平均為 2,000×1,500,涵蓋視頻監控、自動駕駛、遙感、圖表表格和野外 OCR 等實際任務。評估結果表明,即使是最先進的 MLLM,其準確率也未超過 60%,表明這些場景的難度。
3.1.12 視覺定位
視覺定位是一個經典的計算機視覺任務,旨在根據自然語言查詢定位最相關的對象/區域 [181][182]。查詢通常是簡短的表達式,例如“穿紅衣的女人”。在傳統基準如 RefCOCO [81]、RefCOCO+ [82] 和 RefCOCOg [82] 中,MLLM 已經達到了與 SOTA 專業模型 [183][184] 相當的性能。考慮到 RefCOCO 系列中相對較高的標注錯誤率,提出了新的 Ref-L4 [83] 基準。與前作相比,它具有更廣泛的類別覆蓋、更豐富的注釋和由大量詞匯構成的更長指代表達式。評估結果表明,SOTA 開源模型的平均準確率約為 66%,仍有很大的提升空間。此外,當前的 MLLM 對實例的規模非常敏感,通常在小目標上表現較差。
3.1.13 細粒度感知
與一般的粗粒度分類任務不同,細粒度感知側重于對物體的更精細識別,例如回答特定的狗品種,而不是簡單的“狗”,這一能力對于下游應用至關重要。FOCI [84] 是一個新基準,旨在評估 MLLM 在這一任務中的能力。它使用來自 ImageNet-21k 的 4 個領域子集作為基礎,并收集了 5 個附加的流行分類數據集作為補充。MMVP [85] 識別出 CLIP 基礎模型通常表現較差的 9 種模式,并設計了相應的問題,例如方向、顏色和外觀等。SOTA MLLM 的評估結果表明,無論是開源還是封閉源模型,都在視覺細節上存在困難,只有 Gemini 和 GPT-4V 的表現超過了隨機猜測。LLVisionQA [86] 評估了模型感知和辨識低級屬性的能力,例如模糊和亮度。結果表明,大多數開源 MLLM 在沒有顯式訓練低級視覺屬性的情況下,準確率超過了 50%,顯著優于隨機猜測(準確率為 37.94%)。然而,開源模型仍然落后于封閉源的 GPT-4V 或人類。值得注意的是,GPT-4V 的表現與初級人類相當(73.36% vs. 74.31%)。
3.1.14 視頻理解
傳統的視頻問答基準,如MSVD-QA [96]、TGIF-QA [97]和ActivityNet-QA [98],通常是領域和任務特定的。例如,MSVD-QA [97]主要涉及動作和物體識別,回答較為簡短。ActivityNet-QA [98]主要包括各種人類活動的視頻。隨著多模態大語言模型(MLLMs)在圖像領域的成功,越來越多的工作致力于利用MLLMs進行視頻理解。隨著MLLMs的發展,越來越具挑戰性和綜合性的視頻理解基準應運而生。Video-MME [87]是早期的探索之一,涵蓋了多個視頻領域(6個領域,30個子領域)和不同的視頻時長(從11秒到1小時)。使用的模態包括視頻幀、字幕和音頻。視頻是手動收集的,所有的問答對均經過人工標注以確保質量。MVBench [88]定義了一組時間任務,并利用ChatGPT自動重新標注現有視頻數據集及其原始標注。MMBench-Video [91]的特點是針對視頻提出開放性問題,并為時長從30秒到6分鐘不等的視頻提供詳細答案。MLVU [89]、LVBench [90]、Event-Bench [92]、VNBench [93]和Video-MME的長視頻部分主要關注長視頻理解,這挑戰了模型在理解長時間跨度的多模態上下文中的能力。具體而言,MLVU [89]涵蓋了多樣化的視頻內容、視頻時長和評估任務。LVBench [90]選擇了超過30分鐘的視頻,并定義了長視頻理解的6個核心能力。Event-Bench [92]關注事件理解能力,設定了三層次的層級結構,包括原子事件、復合事件和整體事件理解。VN-Bench [93]則設計了一個“視頻中的針”框架,是一種用于基準生成的合成方法。通過在視頻中插入無關的圖像或文本,它能夠評估檢索、排序和計數等任務。還有一些基準關注特定場景和微妙的能力。例如,EgoSchema [94]涵蓋了自我中心視頻的問答樣本。TempCompass [95]評估了細粒度的時間感知能力,如視頻播放速度、相機或物體的方向以及物體屬性的變化。總的來說,當前的MLLMs,無論是專有的還是開源的,在處理較長的視頻時表現不佳務中表現較差,通常依賴于靜態視覺線索 。因此,未來的研究迫切需要增強時間感知能力。
3.2 模型自我分析
為了更好地理解多模態大語言模型(MLLM)本身,研究人員開發了各種基準測試,用于研究模型的行為或特征,包括幻覺、模型偏見、安全性和因果分析。在本節中,我們介紹了模型分析的典型方面。
3.2.1 幻覺
“多模態幻覺”一詞用來描述這種現象:由MLLM生成的響應內容與視覺內容不一致【185】。幻覺是一個嚴重的問題,它損害了模型的可靠性并阻礙了其實際應用。該類別中的基準測試旨在更全面地識別幻覺。POPE【99】設計了一個簡單的判別任務:該基準通過簡單地提示某個特定物體是否出現在圖像中來衡量物體幻覺的程度。M-HalDetect【101】則評估生成性能,特別是對子句級別的描述進行建模。AMBER【107】包含了判別任務和生成任務,涵蓋了對存在性、屬性和關系幻覺的評估。隨著MLLM在視頻理解方面的進展,VideoHallucer【112】被提出,用于全面評估視頻理解中的幻覺,涵蓋了物體關系、時間關系和語義細節幻覺等子類別。同時,一些工作探索了評估樣本的自動高效構建,其中圖像是合成的而非自然的。例如,PhD【105】、MHaluBench【186】、VHTest【110】和OpenCHAIR【108】采用了文本到圖像生成模型(如Dall-E 3)來合成所需的圖像。研究人員還開發了更有針對性的基準測試,以探測模型傾向并分類幻覺的成因。GAVIE【100】觀察到對正實例的偏向,并為各種任務(如屬性檢測、OCR和視覺問答)引入了正負指令。HallusionBench【106】包含了視覺問題的控制組,以便分析模型的響應傾向和失敗模式。Bingo【104】識別出幻覺成因的兩類,即偏見和干擾,并設計了相應的視覺問題進行調查。類似地,VLind-Bench【115】旨在評估MLLM在多大程度上傾向于語言先驗并導致幻覺。這些更深入的研究為幻覺的形成機制提供了更深刻的理解。根據評估結果,幻覺的主要成因有兩個:1)當前的MLLM存在視覺能力不足的問題【104】【106】。例如,MLLM容易被簡單的圖像操控【106】或引導性問題【104】誤導。此外,當面對多張圖像時,即使是先進的GPT4V也難以辨別細微差異【104】或推理時間關系【106】,這表明其處理圖像序列的能力不足。2)模型偏見。MLLM在不同類型的視覺問題上表現差異,通常與區域、文化和語言有關【104】。這可能是由于模型中記憶的訓練數據不平衡。
3.2.2 偏見
模型偏見是阻礙MLLM可用性的關鍵問題。當前的基準測試已經探索了模型偏見的不同方面,并揭示了可能的原因。VLBiasBench【116】識別出與人類價值觀不一致的響應偏見。具體來說,該基準覆蓋了9類社會偏見,如年齡、性別和外貌等。對開源和閉源模型的評估表明,開源模型(如LLaVA【187】和Shikra【188】)通常表現出不同程度的偏見,而先進的閉源模型(如Gemini【189】)則表現出較弱的偏見。這表明開源和閉源模型在社會偏見控制方面存在巨大差距。Bingo【104】識別出模型表現中的區域偏見,即當提示具有不同區域/文化背景的視覺問題時,模型的表現差異很大。考慮了三類偏見,包括區域偏見、OCR偏見和事實偏見。MM-SpuBench【117】探討了虛假偏見,即模型傾向于利用虛假的關聯進行預測。作者將其歸因于模型的學習過程,其中視覺標記和文本描述之間的粗粒度對齊可能導致錯誤關聯。這些錯誤先驗嵌入在參數化的記憶中,可能干擾在反直覺情境下的預測。例如,兩個物體/屬性的高度共現可能導致錯誤預測,如將含有微波爐的場景識別為廚房。評估結果表明,閉源模型通常優于開源模型。此外,模態對齊在抑制虛假偏見中起著至關重要的作用,較好的對齊技術可以提高模型對虛假偏見的魯棒性。
3.2.3 安全性
模型安全性是模型實際部署中的核心問題。這類基準測試主要考慮魯棒性,包括分布外(OOD)魯棒性、對抗魯棒性以及越獄問題。分布外魯棒性:它主要考慮MLLM對未見過的領域的泛化能力,例如訓練語料庫中未出現的不同風格的圖像。例如,OODCV-VQA和Sketchy-VQA【118】分別包含了現實生活場景中罕見的圖像和簡單的草圖圖像。此外,還包括了從原始問題中改編的OOD文本指令。MultiTrust【119】進一步考慮了來自其他領域的圖像,如MRI和紅外圖像。評估結果顯示,MLLM在理解OOD視覺內容方面優于遵循OOD文本指令【118】。這可能表明其在泛化到新指令方面的能力不足。對抗魯棒性:對MLLM的對抗攻擊旨在誘使模型做出錯誤的響應。因此,對抗魯棒性是評估的關鍵方面,衡量模型對惡意攻擊的魯棒性。AttackVLM【120】開發了一個框架,用于合成對抗樣本并評估開源MLLM的對抗魯棒性。評估結果揭示了開源模型(如LLaVA【14】和MiniGPT-4【190】)的對抗脆弱性。AdvDiffVLM【121】旨在提高對抗樣本生成的效率和遷移性。實驗結果表明,與開源模型相比,閉源模型表現出更好的對抗魯棒性,表明仍有很大的改進空間。越獄:它側重于模型拒絕誘使非法響應的能力【119】【191】。VLLM-safetybenchmark【118】設計了兩種越獄策略,分別針對LLM和ViT,以評估模型的抗性。MultiTrust【119】結合了三項任務來測試模型對越獄的魯棒性,包括1)將詳細的越獄提示插入圖像,2)將正常的文本提示與插入圖像的越獄提示結合,3)將越獄提示與正相關或負相關的圖像配對。這些研究表明:1)與現代LLM需要通過精心設計的提示進行越獄不同,MLLM在簡單但有害的指令嵌入圖像時更加脆弱【119】;2)當前對MLLM的微調削弱了嵌入LLM的安全協議【118】【119】。此外,MOSSBench【122】評估了MLLM對某些視覺刺激的過度敏感性,無論是在良性語境下,還是在這些刺激下拒絕無害查詢。基準樣本包括三種類型的刺激,包括夸張的風險、否定的傷害和反直覺的解釋。對20個MLLM的評估表明,過度敏感性在當前的MLLM中普遍存在,尤其是在那些更安全的模型中,這可能表明模型響應的安全性與保守性之間的權衡。
3.2.4 因果關系
因果關系是指一個變量的變化導致另一個變量的變化【123】。理解這一關系的能力,即因果推理,是理解和分析我們世界的重要能力。最近,一些工作探索了評估MLLM因果推理能力的方法。CELLO【123】引入了一個統一的因果定義,涉及人類和/或物體,并構建了一個包含12個因果任務的基準。評估結果顯示,當前的MLLM(如BLIP-2【192】和Claude3 Sonnet【193】)展現了較弱的因果推理能力,有些甚至表現不如隨機猜測。3.3 擴展應用隨著大規模多模態語言模型(MLLMs)的快速發展,研究人員積極探索其在下游任務中的應用,并在醫學、情感分析等領域開發了相應的基準。與通用評估不同,這些基準更加關注對領域知識和技能的掌握。3.3.1 醫學影像醫學影像直接反映人體狀態,是臨床決策的重要組成部分。許多基準已被開發出來,用于評估MLLMs在分析這類影像中的表現。VQA-RAD [124] 是一個早期為放射學影像設計的視覺問答(VQA)任務基準,涵蓋了11種問題類型,包括平面、模式、器官系統等。問題和答案通常簡潔明了,答案通常只有一個或幾個詞。PathVQA [125] 是一個類似的基準,專注于病理影像。SLAKE [126] 是一個雙語(中文和英文)基準,擁有更多的注釋和更多模式信息,包括分割掩膜和邊界框。近期的基準趨向于更全面。例如,PMC-VQA [127] 涵蓋了更多的影像領域,包括放射學、病理學、顯微鏡學、信號處理等。RadBench [129] 包含了二維和三維掃描影像,并涉及五個不同的任務,包括模式識別、疾病診斷、VQA、報告生成和推理診斷。GMAI-MMBench [130] 包括了39種醫學影像模式、18個臨床相關任務、18個科室和4個感知粒度,采用VQA格式。OmniMedVQA [128] 涵蓋了超過20個解剖區域和12種不同的影像模式,如MRI、CT和X光,影像來源于真實的醫學場景。12個開源MLLMs的評估結果顯示,當前的MLLMs在OmniMedVQA上的表現較差,大多數模型僅略微優于隨機猜測。此外,盡管表現最佳的醫學領域MLLM MedVInT [127] 的表現也不如BLIP-2 [192]等通用模型(準確率分別為41.50%和50.69%),這可能歸因于缺乏醫學領域的大規模高質量影像-文本配對訓練。這些結果表明,開發專用的醫學MLLMs仍然任重道遠。3.3.2 情感分析情感分析旨在從各種模態的數據中提取人類情感,如視覺、文本和音頻。與通常以客觀為主的任務不同,情感分析涉及對高度主觀和情感化的多模態內容進行解讀,因此提出了新的挑戰。借助其強大的泛化和推理能力,MLLMs預計能夠在此任務中取得突破。EmoBench [131] 包含從一般情感和意圖理解(多類分類,基于預定義的集合)到社交媒體中的情感檢測("是/否"的二元分類)等任務,數據來源于現有的數據集。FABA-Bench [132] 專注于面部情感分析,包含情感識別和動作單元識別兩個任務。對這些基準的評估結果表明,經過情感相關數據微調的MLLMs相比零-shot MLLMs能實現更優的表現,包括像GPT-4V這樣的先進閉源模型。這表明,在情感分析的下游任務中,注入情感領域的知識至關重要。
3.3.3 遙感遙感是一個多學科領域,涉及通過衛星或空中傳感器從遠距離獲取和分析關于地球表面和大氣的信息。遙感在環境監測、城市規劃、農業和災難管理等多個應用中發揮著關鍵作用。為了推進遙感圖像的理解,已開發了多個基準。早期的工作如RSVQA [133] 基于傳統的VQA構建了評估集,涵蓋了分類、物體計數和檢測等任務。RSVQA基準中的問題和答案簡潔,基于預定義的流程構建,涉及元素(例如道路和水域)及其相關屬性(例如形狀和大小)或位置關系。該基準的兩個子集包含低分辨率(256px)和高分辨率(512px)的圖像。更近期的基準涵蓋了更廣泛的任務和問答對。例如,RSIEval [138] 手動注釋了圖像標題和視覺問題。除了常見的物體相關問題(如存在、數量或顏色),該基準還包括一些需要推理/外部知識的問題,如“這張圖是哪個季節拍攝的?”類似地,VRSBench [140] 是一個綜合性的基準,包含圖像標題生成、視覺定位和VQA任務。特別地,該基準的邊界框注釋旨在促進對更先進的定位能力的評估。還有一些基準如RSVG [136]、RSVGD [137] 和RRSIS-D [139],專注于遙感圖像中的視覺定位,嘗試根據自然語言查詢通過邊界框或分割掩膜定位物體。評估結果顯示,即使是GPT-4V也難以處理VQA和定位任務,這表明將領域知識注入MLLMs是必要的。此外,經過專門微調的MLLMs在某些遙感任務中的表現可以與專用模型相媲美或更優,表明MLLMs在解決遙感任務方面具有潛力。
3.3.4 智能體智能體能夠感知環境并采取行動以完成目標任務。最近,開發能夠處理和推理多模態信息(如視覺、音頻和文本)的多模態智能體引起了廣泛關注,其中MLLMs在其中發揮了重要作用。隨著這一進展,多個基準被建立,用于衡量MLLMs作為智能體的表現。AppAgent [141] 主要評估智能體在10個智能手機應用上執行50個任務的能力,如“將我的個人資料名稱更改為AppAgent”。使用的度量標準包括成功率、獎勵和平均步驟數。Mobile-Eval [142] 是一個類似的基準,旨在評估移動智能體。該基準為每個10個主流應用設計了3個指令。GPT4Tools [143] 關注工具使用能力,具有針對不同方面的度量標準,包括整體成功率和在應用特定工具(如思維、工具名稱和工具參數)時的成功率。評估結果表明,即使是先進的GPT-4也很難以零-shot的方式規劃和執行智能手機應用查詢,部分原因在于準確預測坐標的挑戰[141]、[142]或對特定應用的知識不足,這需要更多的探索來解決。3.3.5 代碼生成代碼生成是MLLMs的一個重要能力,在現實生活中有廣泛的應用,如幫助編寫代碼或為復雜問題提供自動解決方案。ChartMimic [144] 涉及兩個圖表到代碼生成任務,即直接模仿和定制化模仿。后者是指生成具有相似風格/美學和定制數據的新圖表。該基準涵蓋了各種類型的圖形,并提供了1000個人工策劃的三元組,即圖形、Python代碼和指令。WCGB [145] 關注網頁到代碼的生成,旨在評估將網頁截圖轉換為HTML代碼的能力。評估結果表明,LLM骨架在多模態代碼生成中的能力發揮了重要作用[145]。與閉源模型相比,開源模型在生成可執行代碼方面仍然滯后,大多數開源模型的可執行代碼生成率低于60% [144]。3.3.6 圖形用戶界面(GUI)當前的多模態基準正在擴展到GUI領域,以評估MLLMs在感知和推理GUI元素方面的表現。從早期的RefExp [146]基準開始,該基準專注于UI屏幕中的對象定位,研究逐漸發展到更復雜的任務。Widget Captioning [151] 通過要求模型為UI元素生成描述性語言,增加了挑戰,測試了其感知能力。Screen2Words [147] 進一步推動了研究的邊界,要求模型生成UI節點的內容和功能描述,從而測試其對頁面布局和功能的理解。隨著研究的進展,ScreenQA [148] 簡化了評估過程,僅使用圖像和文本輸入,專注于通過文本提示定位和識別UI元素的基本問答任務。Rico-semantics [149] 注釋了50萬個UI元素的屬性和關系,增強了評估維度,以評估模型對UI元素形狀和語義關聯的理解。
摘要—終身學習,也稱為持續學習或增量學習,是推進人工通用智能(AGI)的關鍵組成部分,通過使系統在動態環境中持續適應。盡管大規模語言模型(LLM)在自然語言處理領域展現了出色的能力,但現有的LLM智能體通常是為靜態系統設計的,缺乏根據新挑戰隨時間適應的能力。本調查是首個系統總結將終身學習納入基于LLM的智能體的潛在技術的文獻。我們將這些智能體的核心組件分為三個模塊:感知模塊,用于多模態輸入的集成;記憶模塊,用于存儲和檢索不斷發展的知識;以及行動模塊,用于與動態環境的實際互動。我們強調這三個支柱如何共同實現持續適應,緩解災難性遺忘,并提高長期性能。本調查為從事基于LLM智能體的終身學習能力開發的研究人員和從業人員提供了一條發展路線圖,提供了關于新興趨勢、評估指標和應用場景的見解。相關文獻和資源可通過以下鏈接獲取:
//github.com/qianlima-lab/awesome-lifelong-llm-agent.
關鍵詞—終身學習,持續學習,增量學習,大規模語言模型,智能體,人工通用智能(AGI)
1 引言
“智慧是適應變化的能力。” ——斯蒂芬·霍金
終身學習[1],[2],也稱為持續學習或增量學習[3],[4],已成為智能系統發展的關鍵焦點。如圖1所示,終身學習近年來吸引了越來越多的研究關注,它在使這些系統能夠持續適應并不斷改進方面起著至關重要的作用。正如Legg等人[5]所指出的,人的智能本質上是快速適應廣泛環境的能力,這突顯了人工智能系統展現同樣適應性的需求。終身學習指的是系統在避免遺忘已學知識的同時,獲取、整合和保持新知識的能力。對于那些在動態復雜環境中運行的系統,尤其重要,因為這些環境中常常出現新的任務和挑戰。與傳統的機器學習模型不同,后者通常在固定數據集上進行訓練并優化以執行特定任務,終身學習系統則被設計為能夠不斷演變。它們隨著遇到新情境而積累新知識并持續完善其能力。 盡管終身學習具有潛力,但目前人工智能的進展與終身學習的實際應用之間仍存在顯著的差距。雖然人類能夠自然地整合新知識并保留舊知識,但當前的人工智能系統在終身學習方面面臨兩大挑戰:災難性遺忘[6]和可塑性喪失[7],[8]。這些挑戰形成了穩定性與可塑性困境[9]。一方面,災難性遺忘指的是當系統學習新任務時,會忘記之前學到的信息,特別是在環境發生變化時尤為突出。另一方面,可塑性喪失則指系統無法適應新任務或新環境。這兩者代表了學習譜系的兩個對立端:靜態系統避免遺忘,但缺乏適應能力;而注重適應的系統則面臨遺忘過去知識的風險。克服這一困境是推動人工智能發展的關鍵,也是實現人工通用智能(AGI)[5]的基礎性挑戰。
近年來,大規模語言模型(LLM)[11],[12]的進展顯著改變了自然語言處理領域。像GPT-4[12]這樣的模型通過學習海量的文本數據,能夠處理并生成類人文本。它們在文本生成、機器翻譯和問答等任務中表現出色,得益于其理解復雜語言模式的能力。然而,傳統的LLM[11],[12]在訓練完成后是靜態的,這意味著它們無法在部署后適應新任務或環境。它們的知識是固定的,且無法在不重新訓練的情況下整合新信息,這限制了它們在動態現實場景中的應用。與此相比,LLM智能體代表了更高級的人工智能形式。不同于標準的LLM,這些智能體[13],[14]是能夠與環境互動的自治實體。LLM智能體能夠感知多模態數據(例如文本、圖像、傳感數據),將這些信息存儲在記憶中,并采取行動影響或響應其周圍環境[15]–[17]。它們被設計為不斷適應新情境,隨著與環境的互動和經驗的積累,智能體的決策能力得以不斷提高。圖2和圖3提供了相關示意圖。
將終身學習融入LLM智能體的動機源于開發能夠不僅適應新任務,還能在廣泛的動態環境中保留并應用先前知識的智能系統的需求,這與Legg等人[5]將智能定義為快速適應廣泛環境的觀點相契合。目前,現有的LLM智能體通常被開發為靜態系統,限制了它們在面對新挑戰時的演變能力。此外,大多數關于LLM的終身學習研究[1],[4]集中于處理不斷變化的數據分布,而非與環境進行互動。例如,通過持續微調LLM以適應特定領域的指令[1]。然而,這些方法仍將LLM視為靜態黑箱系統,并未解決LLM在真實世界環境中進行互動學習的實際需求。圖2比較了傳統的終身學習范式與本調查中討論的、LLM智能體與動態環境互動的新范式。 在現實世界的應用中,LLM智能體需要適應多樣的環境,如游戲、網頁瀏覽、購物、家庭任務和操作系統,而無需為每個新情境設計單獨的智能體。通過引入終身學習能力,這些智能體可以克服這一局限性。它們能夠持續學習并存儲來自多種模態(如視覺、文本、傳感數據)的知識,使其在環境變化時能夠進行實時適應和決策[18]–[21]。將終身學習融入LLM智能體,可以釋放它們在動態現實應用中的全部潛力[22],[23]。因此,這些智能體能夠不斷演變、獲得新知識,并保持關鍵信息,從而增強其適應性和多功能性。這個持續學習的過程對那些挑戰不斷出現的環境尤為重要,如自主機器人、互動助手和自適應決策支持系統[14]。圖4展示了一個終身學習的LLM智能體示意圖。
本調查提供了關于基于LLM的智能體終身學習系統的關鍵概念、技術和挑戰的全面概述。作為首個系統總結將終身學習納入LLM智能體的潛在技術的文獻,本調查將重點回答以下研究問題(RQ): RQ1:為終身學習設計的LLM智能體的核心概念、開發流程和基本架構是什么?(第3節) RQ2:LLM智能體如何持續感知和處理單模態和多模態數據,以適應新環境和任務?(第4、5節) RQ3:什么策略可以減輕災難性遺忘并保留已學知識?(第6、7、8、9節) RQ4:LLM智能體如何在動態環境中執行各種動作,如扎根、檢索和推理?(第10、11、12節) RQ5:評估終身學習在LLM智能體中表現的評估指標和基準是什么?(第13節) RQ6:終身學習LLM智能體的現實應用和使用案例是什么?它們如何從持續適應中受益?(第14節) RQ7:開發LLM智能體終身學習面臨的關鍵挑戰、局限性和未解問題是什么?(第15節) 通過回答這些研究問題,本調查作為理解LLM智能體中終身學習的設計、挑戰和應用的逐步指南。它回顧了最前沿的技術,并突出了新興趨勢和未來的研究方向。
據我們所知,這是首個系統回顧終身學習與LLM智能體交叉領域最新進展的調查。本調查的主要貢獻如下:
本調查的結構如下:第2節回顧了關于LLM智能體和終身學習的相關調查和文獻;第3節介紹了為終身學習設計的LLM智能體的基礎概念、開發流程和整體架構;第4和第5節從感知角度討論了終身學習LLM智能體的設計,分別聚焦于單模態和多模態方法;第6、7、8和9節從記憶角度探討了LLM智能體的設計,涉及工作記憶、情節記憶、語義記憶和參數記憶;第10、11和12節從行動角度探討了LLM智能體的設計,包括扎根動作、檢索動作和推理動作;第13節介紹了評估終身學習LLM智能體表現的評估指標和基準;第14節深入討論了終身學習LLM智能體的現實應用和使用案例;第15節提供了實踐洞察并概述了未來的研究方向;最后,第16節總結了本調查。
終身學習,也稱為持續學習或增量學習,基于這樣一個理念:智能系統應該像人類一樣,持續地獲取、完善和保留知識,貫穿整個生命周期。與傳統的機器學習方法不同,傳統方法假設數據集是固定的、靜態的,而終身學習框架則面臨數據和任務隨時間演變的現實,模型必須在不遺忘已掌握技能的前提下進行適應。圖5展示了終身學習發展的示意圖。
終身學習的基于LLM的智能體架構旨在持續適應、整合并優化其在一系列任務和環境中的行為。在本小節中,我們識別了三個關鍵模塊——感知、記憶和行動——它們共同支持終身學習。這個劃分遵循了先前工作中提出的框架[14],但有一個顯著的不同:我們沒有保留“腦”模塊,而是采用了[14]中提出的“記憶”模塊,具有更清晰的功能性和改進的模塊化結構。 每個模塊相互作用,確保智能體能夠處理新信息、保留有價值的知識并選擇適應當前情境的合適行動。這三個模塊的設計理念來源于智能體的需求:(i) 感知和解讀不斷變化的數據,(ii) 存儲和管理來自過去經驗的知識,(iii) 執行適應變化環境的任務。 這三個模塊構成了一個動態反饋回路:感知模塊將新信息傳遞給記憶模塊,在記憶模塊中進行存儲和處理。記憶模塊隨后引導行動模塊,影響環境并為未來的感知提供信息。通過這一持續循環,智能體不斷完善其知識,提升適應性,最終提高其在復雜動態環境中的表現。
接下來,我們將詳細描述每個模塊,分析其設計如何貢獻于智能體的終身學習能力。圖6展示了整體架構的示意圖,圖7總結了后續章節的組織結構。
摘要—基于大規模預訓練基礎模型(PFMs)的生成性人工智能(AI)系統,如視覺-語言模型、大型語言模型(LLMs)、擴散模型和視覺-語言-行動(VLA)模型,已經展示了在廣泛領域和情境中解決復雜且真正非平凡的AI問題的能力。特別是,多模態大型語言模型(MLLMs)通過從大量且多樣的數據源中學習,能夠提供豐富且細致的世界表示,從而具備廣泛的能力,包括推理、進行有意義的對話、與人類及其他代理共同協作解決復雜問題,并理解人類的社會和情感方面。盡管取得了這一令人印象深刻的成就,但基于大規模數據集訓練的最先進LLMs的認知能力仍然表面化且脆弱。因此,通用LLMs在其通才能力方面存在嚴重限制。要使LLMs實現人類級別的通用智能,需要解決一些基礎性問題——具身性、符號基礎、因果性和記憶機制。這些概念更符合人類認知,并為LLMs提供了固有的人類認知特性,從而支持實現具有物理可行性、語義意義、靈活性和更強泛化能力的知識和智能。在本研究中,我們討論了上述基礎性問題,并綜述了實現這些概念的最先進方法。具體而言,我們討論了如何利用具身性、符號基礎、因果性和記憶的原則,以有機的方式促進人工通用智能(AGI)的實現。
關鍵詞—大型語言模型、具身性、符號基礎、因果推理、記憶機制、人工通用智能。
智能與一個系統(無論是生物系統還是其他類型的系統)在特定環境(或多個環境)中實現一個或多個預期目標的能力相關。一個智能系統能夠推斷自身的狀態以及環境的狀態,并能夠將這些推斷轉化為適當的響應,從而實現預期目標。智能是高級生物體的獨特特征,在開發其人工對應物——人工智能的過程中,研究人員常常借鑒生物學的概念。生物智能的一個重要特征是其普遍性,即它能夠處理廣泛不同的問題,適應多種環境。尤其是人類的智能,其復雜性、豐富性和多樣性令人驚嘆,能夠輕松處理許多新穎的任務。人類智能相較于其他高級動物的普遍優越性,主要源于人類通過社會和文化構建(如藝術、規范、儀式、信仰體系和習俗)來組織和傳遞知識的能力 [1]。語言在這些過程中起著至關重要的作用。 盡管創造這種類型的通用智能的想法具有吸引力,但在機器中實現如此高度的復雜性和普適性是極其具有挑戰性的。直到最近,取得顯著成果的AI技術往往集中于特定領域或受限領域,解決單一問題(如面部識別、醫學圖像分割、文本翻譯、股市預測、行人跟蹤等)。近來,基于變分自編碼器(VAE) [2] 和生成對抗網絡(GAN) [3] 的生成式AI技術在革命化AI能力方面作出了巨大貢獻,使得單一模型能夠同時處理多種復雜任務 [4]。更近期的進展是,大規模預訓練基礎模型的出現,如大型語言模型(LLMs) [5]、擴散模型(DMs) [6]、視覺-語言模型(VLMs) [7] 和視覺-語言-行動(VLA)模型 [8],為復制人工智能中的通用性特征帶來了現實的前景。由于它們能夠處理廣泛的開放領域問題 [9],[10],[11],[12],尤其是多模態大型語言模型,大規模預訓練基礎模型重新激發了對發展人工通用智能的興趣 [10]。本文的主要目的是介紹支撐人工通用智能實現的認知基本原理,并綜述在大型語言模型中實現這些概念的最先進技術。
1.2.1 語言作為知識獲取、表示和組織的媒介 研究表明,使用自然語言進行交流是學習現實世界通用知識最有效的方式之一 [13],雖然人類的感官和運動能力通常不優于其他高級動物(包括靈長類動物)(見 [14],[15],[16],[17],[18],[19],[20]),但人類的認知能力遠遠超越其他動物。人類認知能力優于其他動物王國成員,尤其是與人類最親近的靈長類動物,這主要歸因于人類使用語言的能力 [21],[22],[23]。 語言在人體內的抽象概念表示、解釋和推理中發揮著核心作用 [24]。在人的社會中,語言最重要的功能之一是促進新知識的獲取與共享。通過語言——無論是文學、演講還是藝術——人類能夠輕松從他人處學習,不僅通過觀察或與世界的互動,還能獲取其他人積累的知識。此外,語言為表示和內化知識提供了概念框架 [22]。研究表明,一個群體所使用的特定語言結構和詞匯會影響他們對世界的推理和解釋。實際上,語言差異(例如詞匯差異)已被證明影響不同語言群體成員如何記住和描述他們的經歷 [25],[26],[27],[28]。在這方面,語言可以塑造或重塑認知 [29],從而影響主體如何理解和與世界互動 [30],[31]。1.2.2 語言作為認知信息處理工具
除了創建抽象表示來組織感知信息和知識的表示外,語言在促進認知計算操作中起著根本作用 [24]。Lupyan [31] 認為,基本語言元素(如詞語)為其他認知成分提供了構建意義的線索。因此,語言不僅僅是一個用于指代現實世界物體、現象和經驗的靜態符號集合,它還是一個操作這些符號的工具。Clark [24] 專門描述了語言在促進人類認知信息處理和推理中的六種不同方式。研究表明,語言不僅有助于晶化智能(即與表示相關的認知機制),如經驗/刺激的分類 [26] 和記憶 [25],[28],還促進流動智能(即分析性問題解決技能),如感知 [32],[33],[34] 和推理 [24],[31]。此外,接觸多種語言框架已被證明能夠拓寬個體的視野,并幫助他們以更細致的方式理解概念。由于其在生物學認知能力中的中心地位,語言被多次描述為“認知接口” [21]、“智能放大器” [35],并且人類認知本身也被描述為“語言增強的認知” [31]。
雖然文獻中對人工通用智能(AGI)有不同的解釋 [9],[36],[37],[38],[39],[40],但這一概念通常理解為具有廣泛智力能力的AI系統,能夠執行高級認知任務,如感知——包括情境理解和一定程度的自我意識 [41],[42],推理、規劃,以及在新情境下應用學習到的知識。AGI系統是能夠在多個領域成功完成復雜和多樣化的認知任務的強大模型,無需額外訓練。術語“人類水平的智能” [37],[43],[44] 經常被松散地用來指代展示通用智能的AI系統。AGI不應理解為超級全知和全能的機器。這種假設級別的能力被稱為人工超智能 [45],[46]。實際的AGI系統是具備有限但足夠強大且靈活的知識系統,能夠解決涉及傳感-運動控制、感知、情境理解、常識和分析推理能力的廣泛問題。對人工通用智能的這種理解,實際上反映了不僅在嵌入或學習所有相關知識和技能時的實際困難,也反映了這種方法的性能限制。此外,將人工通用智能概念化為有限范圍但適應性強、靈活且可擴展,與生物智能在高級生物體(如人類)中的性質和特性是一致的。盡管文獻中有各種定義,但幾乎對AGI的一些定義特征達成了一致。具體而言,典型AGI系統的最重要特征是(參見例如 [9],[36],[43],[47],[48]):它能夠學習并靈活應用有限且不確定的知識,解決不同情境下的廣泛問題;它的學習和行動是自主且目標驅動的;它能在記憶中保留并積累相關信息,并在未來任務中重新使用這些知識;它能夠理解情境并執行高級認知任務,如抽象和常識推理。 需要強調的是,AGI本質上與強AI(參見 [49],[50],[51])不同。AGI的重點是開發具有廣泛認知能力、能夠解決真正非平凡問題的智能系統,而強AI旨在創造極其強大的智能,不僅在功能層面模仿人類的認知能力,還具有如內在心理狀態和主觀經驗(包括意圖性、道德、情感和自我意識等) [52],[53],在意識和感知方面具有真實的人類認知特征。對此感興趣的讀者可以參考 [54],[55],[56],[57],[58],以獲得關于強AI概念的更詳細討論,包括意識 [54],[56],[57],意識 [55],[57],[59] 和AI系統的道德問題 [60],[61]。
在這項工作中,我們詳細討論了實現通用智能的核心原理。我們還討論了在人工智能和LLM系統中實現這些概念的各種方法。這里討論的概念不是實現AGI的算法解決方案,而是生物智能的一般原理和特性,這些原理和特性必須嵌入到基于大型語言模型的AI系統中 事實上,這些核心概念本質上是與算法無關的,即它們的實現并不局限于任何特定的技術或一組方法。然而,需要注意的是,特定的認知功能(如感知、推理、規劃、行動等)可以通過這些通用概念和原理得到增強。本文的其余部分安排如下: 在第2節,我們概述了大型語言模型(LLM)的關鍵要素,這些要素使其具有強大的能力,并能夠解決需要人類水平通用智能的復雜問題。 第3至第6節討論了實現通用智能所需的重要基礎性原則,包括具身性(第3節)、符號基礎(第4節)、因果性(第5節)和記憶機制(第6節)。 在第7節,我們探討了這些認知原則之間的相互關系和交互作用,并基于這些相互作用合成了一個整體的認知模型。 最后,在第8節中,我們對所討論的概念進行了總結,并在第9節給出了結論。
摘要
大規模語言模型(LLM)在多個領域具有變革性的潛力,包括推薦系統(RS)。已有一些研究專注于通過LLM賦能推薦系統。然而,之前的工作主要集中于將LLM作為推薦系統,這可能面臨LLM推理成本過高的問題。最近,LLM與推薦系統的結合——即LLM增強推薦系統(LLMERS)——因其在實際應用中解決延遲和內存限制的潛力,受到了廣泛關注。本文對最新的研究工作進行了全面的綜述,旨在利用LLM提升推薦系統的能力。我們發現,隨著LLM被引入在線系統,特別是通過避免在推理階段使用LLM,領域內出現了一個關鍵的轉變。我們的綜述將現有的LLMERS方法按推薦系統模型增強的組件分為三種主要類型:知識增強、交互增強和模型增強。我們深入分析了每個類別,討論了相關方法、挑戰以及近期研究的貢獻。此外,我們還指出了幾個有前景的研究方向,這些方向可能進一步推動LLMERS領域的發展。
大規模語言模型(LLM)在語言理解和推理方面展現了前所未有的能力 [3, 69, 87]。考慮到傳統推薦系統(RS)僅利用協同信號 [2, 65, 66],通過LLM為推薦系統提供語義信息顯得尤為有吸引力。因此,許多研究提出了彌合自然語言與推薦之間差距的方法,從而打造更強大的推薦系統。盡管將LLM應用于推薦系統取得了一定的成功,但對話系統與推薦系統之間的一個顯著區別在于推理延遲。推薦系統通常要求對大量請求提供低延遲響應,而LLM(例如LLaMA-7B)在響應時間上通常需要幾秒鐘。然而,許多早期的研究主要集中在直接使用LLM進行推薦 [13],這使得它們難以滿足實際應用的需求。最近,越來越多的研究者開始關注這一問題,并深入探索LLM增強推薦系統的實踐應用。因此,本文旨在總結和概述該領域的最新研究成果。為了明確本綜述的范圍,我們首先給出LLMERS的定義:傳統推薦系統通過LLM的輔助來增強訓練或補充數據,但在服務過程中無需使用LLM進行推理。盡管已有一些關于LLM在推薦系統中應用的綜述,但存在三點關鍵差異: i) 目前的大多數綜述集中在如何將LLM本身作為更好的推薦系統,包括生成推薦 [28, 31, 70] 和判別推薦 [4, 6, 20, 33, 56, 89]。相比之下,我們的綜述專門探討LLM增強推薦系統(LLMERS)。 ii) LLM在推薦系統中的應用是一個前沿方向,發展迅速。一些綜述 [4, 33, 70, 89] 并未涵蓋最新的論文。相比之下,本綜述包含了超過50篇2024年后發布的工作。 iii) 很少有綜述提及LLM增強推薦系統 [4, 33],但它們僅關注特征工程方面的增強。而本綜述則首次從綜合視角總結了LLMERS,包括特征和模型兩個方面。
由于LLM增強推薦系統是基于傳統推薦系統的,因此有必要先介紹其組件和面臨的挑戰,以便理解為什么以及在何處需要使用LLM。如圖1所示,傳統推薦系統通常由交互數據和推薦模型組成。
交互數據
傳統推薦系統通過捕捉用戶-物品記錄中的協同信號 [26] 來進行訓練,因此數據中的交互信息對訓練是必不可少的。此外,許多基于內容的模型 [43] 提取用戶和物品特征中的共現關系來進行推薦。因此,特征和交互數據是數據中的兩個必要組成部分。然而,數據面臨的兩個挑戰限制了傳統推薦系統的進一步發展:
推薦模型
隨著深度學習技術的廣泛應用,推薦模型遵循“嵌入-深度網絡”的模式。嵌入層將原始特征轉化為密集的表示 [88],而深度網絡則捕捉用戶的興趣 [84]。然而,它們也面臨一個獨特的挑戰:
LLMERS通過增強傳統推薦系統的基本組件,即交互數據和推薦模型,從而在服務過程中僅使用傳統的推薦系統模型。根據LLM在解決這些挑戰時的作用,我們將LLM增強推薦系統分為三大類,如圖1所示:
這類方法利用LLM的推理能力和世界知識為用戶或物品生成文本描述。這些描述作為額外的特征,補充推理和理解的知識,從而解決挑戰1。(第二部分)
為了解決數據稀疏性問題(即挑戰2),一些研究采用LLM生成新的用戶-物品交互數據。(第三部分)
LLM能夠從語義角度分析交互數據,因此一些研究嘗試利用LLM來輔助傳統的推薦模型,從而解決挑戰3。(第四部分) 為清晰起見,我們在圖2中根據分類法展示了所有相關的LLMERS論文。
摘要
語音合成(TTS),也稱為文本轉語音,是一項重要的研究領域,旨在從文本生成自然的語音。近年來,隨著工業需求的增加,TTS技術已從簡單的人類語音合成發展到可控語音生成。這包括對合成語音中各種屬性(如情感、韻律、音色和時長)的細粒度控制。此外,深度學習領域的進展,尤其是擴散模型和大語言模型,極大地提升了可控TTS的效果。本文全面綜述了可控TTS的研究進展,涵蓋了從基本控制技術到利用自然語言提示的方法,旨在為當前的研究狀態提供清晰的理解。我們探討了通用的可控TTS流程、面臨的挑戰、模型架構和控制策略,并提供了現有方法的全面分類。此外,我們還詳細總結了數據集和評估指標,并探討了可控TTS的應用和未來發展方向。據我們所知,本文是首次對新興的可控TTS方法進行全面綜述,既可以為學術研究人員提供有價值的資源,也可為行業從業者提供參考。
關鍵詞
文本轉語音、可控TTS、語音合成、TTS綜述、大語言模型、擴散模型
I. 引言
語音合成(TTS),也稱為文本轉語音,是一項長期發展的技術,旨在從文本生成類人語音[1][2],并廣泛應用于我們的日常生活中,如健康護理[3][4]、個人助手[5]、娛樂[6][7]和機器人[8][9]等領域。近年來,隨著大語言模型(LLM)驅動的聊天機器人(如ChatGPT[10]和Llama[11])的興起,TTS技術因其自然性和便捷性,成為了人機交互中備受關注的技術。與此同時,能夠對合成語音的屬性進行細粒度控制(如情感、韻律、音色和時長)已成為學術界和工業界的熱點研究方向,因其在多種應用中的廣泛潛力。 在過去的十年里,深度學習[12]取得了顯著進展,尤其是GPU等計算資源的指數級增長[13],促使TTS領域涌現出大量優秀的研究成果[14]–[17]。這些方法不僅能夠生成更高質量的語音[14],還能夠對生成的語音進行細粒度的控制[18]–[22]。此外,一些最新的研究開始嘗試在多模態輸入(如面部圖像[23][24]、卡通[7]和視頻[25])的支持下合成語音。隨著開源大語言模型(LLMs)[11][26]–[29]的快速發展,部分研究者提出了通過自然語言描述生成可控語音的新方法[30]–[32],開創了生成定制語音的新途徑。 此外,將語音合成與LLMs結合也成為近年來的熱門研究方向[33]–[35]。隨著TTS方法的不斷發展,研究者迫切需要對當前的研究趨勢,特別是可控TTS,進行全面的了解,以便在這一快速發展的領域中識別未來可能的研究方向。因此,迫切需要一篇關于TTS技術的最新綜述。盡管已有幾篇綜述涵蓋了基于參數的方法[36]–[41]和基于深度學習的TTS[42]–[48],但這些綜述大多忽視了TTS的可控性問題,且沒有覆蓋近年來的最新進展,如基于自然語言描述的TTS方法。 本文提供了一篇全面且深入的綜述,重點介紹現有及新興的TTS技術,特別是可控TTS方法。圖1展示了近年來可控TTS方法的發展,展示了其核心框架、特征表示和控制能力。本文的其余部分將簡要對比本綜述與先前的研究綜述,概述可控TTS技術的發展歷史,并從早期的里程碑到最新的先進技術,介紹可控TTS的研究進展。最后,我們介紹了本文的分類和組織結構。 A. 與現有綜述的比較
已有幾篇綜述論文回顧了TTS技術,涵蓋了從早期方法到最近的進展[36][37][40][49]。然而,本文是首次專門關注可控TTS。與以往的研究綜述相比,本文的主要區別如下: * 不同的范圍。Klatt等人[36]提供了關于共振峰、拼接和發音TTS方法的首個全面綜述,重點關注文本分析。進入2010年代初,Tabet等人[49]和King等人[40]探索了基于規則、拼接和HMM的方法。隨著深度學習的出現,許多基于神經網絡的TTS方法應運而生。Ning等人[43]和Tan等人[42]分別對基于神經網絡的聲學模型和聲碼器進行了詳細的綜述,Zhang等人[50]則介紹了基于擴散模型的TTS技術的首個綜述。然而,這些研究對TTS系統的可控性討論較少。為填補這一空白,本文首次從可控性的角度對TTS方法進行了全面綜述,深入分析了模型架構和合成語音的控制策略。 * 貼近當前需求。隨著硬件(如GPU)和人工智能技術(如變換器、LLMs、擴散模型)的快速發展,TTS技術對可控性需求的迫切性日益增強,尤其在電影制作、游戲、機器人和個人助手等行業中有廣泛應用。盡管這一需求日益增長,但現有的綜述未充分關注TTS技術中的控制方法。為填補這一空白,本文對當前的可控TTS方法及其面臨的挑戰進行了系統分析,并全面理解了該領域的研究現狀。 * 新見解與方向。本文通過全面分析可控TTS系統中的模型架構和控制方法,提出了新的見解。此外,我們深入探討了各種可控TTS任務中的挑戰,并探討了“我們距離實現完全可控的TTS技術有多遠?”這一問題,分析了當前TTS方法與工業需求之間的關系和差距。基于這些分析,我們確定了未來TTS技術研究的有前景的方向。
表I總結了代表性綜述和本文在主要關注點和發布時間上的比較。 B. 可控TTS的發展歷史
可控TTS旨在控制合成語音的各個方面,如音高、能量、速度/時長、韻律、音色、情感、性別或高層次風格。本小節簡要回顧了可控TTS從早期方法到近年來的最新進展的歷史。 * 早期方法。在深度神經網絡(DNNs)流行之前,可控TTS技術主要基于基于規則、拼接和統計的方法。這些方法能夠提供一定程度的定制和控制,盡管受限于底層模型和可用計算資源的局限性。
基于規則的TTS系統[51]–[54],如共振峰合成,是早期語音生成的主要方法之一。這些系統通過手工設計規則模擬語音生成過程,控制音高、時長和共振峰頻率等聲學參數,允許通過調整規則顯式地操控韻律和語音的音素細節。 1. 拼接式TTS[55]–[58],在1990年代末和2000年代初主導了TTS領域,通過將預錄音的語音片段(如音素或雙音素)拼接在一起合成語音[59]。這些方法通過拼接過程中調整音高、時長和音量來改變韻律,也可以通過選擇不同說話人的語音單元來實現有限的聲音定制。 1. 參數化方法,尤其是基于HMM的TTS[60]–[65],在2000年代末逐漸成為主流。這些系統通過建模語言特征和聲學參數之間的關系,為控制韻律、音高、語速和音色提供了更多靈活性。一些HMM系統還支持說話人適應[66][67]和語音轉換[68][69],在一定程度上實現了語音克隆。此外,一些方法還能夠有限地控制情感[60][70]–[72]。這些方法相比拼接式TTS占用更少的存儲空間,并且能提供更平滑的語音單元過渡。 * 基于神經網絡的合成。隨著深度學習的出現,基于神經網絡的TTS技術為該領域帶來了巨大的進步,使得語音合成更加靈活、自然和富有表現力。與傳統方法不同,基于神經網絡的TTS通過DNN建模輸入文本和語音之間的復雜關系,從而實現對各種語音特征的細粒度控制。早期的神經TTS系統如WaveNet[73]和Tacotron[74]為可控性奠定了基礎。
韻律控制:韻律特征如節奏和語調的控制對于生成富有表現力和語境適應的語音至關重要。基于神經網絡的TTS模型通過顯式條件化或學習的潛在表示來實現韻律控制[15][75]–[78]。 1. 說話人控制:通過說話人嵌入或適應技術,基于神經網絡的TTS在說話人控制方面也得到了顯著提升[79]–[82]。 1. 情感控制:情感可控的TTS[20][22][31][32][83]已經成為熱門研究話題,得益于DNN強大的建模能力,能夠合成具有特定情感色彩(如快樂、悲傷、憤怒或中性)的語音
在本節中,我們特別關注基于 LLM(大語言模型) 的語音合成方法,因為與其他基于神經網絡的TTS方法相比,LLM具有更強的上下文建模能力。LLM(如 GPT [97]、T5 [99] 和 PaLM [100])已經通過其生成連貫的、上下文感知的文本的能力,革新了各種 自然語言處理(NLP) 任務。近年來,LLM的應用已經擴展到 可控TTS技術 中 [17],[101]–[104]。例如,用戶可以通過描述語音的特征來合成目標語音,例如:“一個年輕女孩用快樂的語氣說‘我真的很喜歡,謝謝!’”,使得語音生成變得更加直觀和用戶友好。具體而言,LLM能夠在句子中檢測情感意圖(例如,“我很激動”→快樂,“這真不幸”→悲傷)。檢測到的情感會被編碼為TTS模型的輔助輸入,從而調節聲學特征,如韻律、音高和能量,使其與所表達的情感相匹配。通過利用LLM在理解和生成豐富上下文信息方面的能力,這些系統可以對語音的各種屬性(如韻律、情感、風格和說話人特征)實現更精細的控制 [31],[105],[106]。將LLM集成到TTS系統中,代表了一個重要的進步,使得語音合成變得更加動態和富有表現力。
本文首先對可控TTS技術進行了全面和系統的回顧,重點關注模型架構、控制方法和特征表示。為建立基礎理解,本綜述在第二節介紹了TTS管道。雖然本文的重點仍然是可控TTS,但第三節回顧了對該領域發展具有重要影響的經典的不可控TTS工作。第四節深入調查了可控TTS方法,分析了它們的模型架構和控制策略。第五節提供了數據集和評估指標的全面回顧。第六節對實現可控TTS系統所面臨的挑戰進行了深入分析,并討論了未來的研究方向。第七節探討了可控TTS技術的更廣泛影響,并確定了有前景的未來研究方向,最后在第八節作出結論。
摘要——從演示中學習(Learning from Demonstrations),即通過數據學習機器人行為模型的領域,隨著深度生成模型的出現,正在越來越受到關注。盡管這一問題在“模仿學習”、“行為克隆”或“逆強化學習”等名稱下已經被研究了多年,但傳統方法依賴的模型往往難以有效捕捉復雜的數據分布,或者無法很好地擴展至大量演示數據。近年來,機器人學習社區對于使用深度生成模型來捕捉大數據集的復雜性表現出了越來越濃厚的興趣。在本綜述中,我們旨在提供對去年機器人領域中使用深度生成模型的進展的統一且全面的回顧。我們介紹了社區探索的不同類型的模型,如基于能量的模型、擴散模型、動作值圖、生成對抗網絡等。我們還展示了深度生成模型在不同應用中的使用情況,從抓取生成到軌跡生成或成本學習等。生成模型的一個重要元素是分布外的泛化能力。在我們的綜述中,我們回顧了社區為改善所學模型的泛化能力而做出的不同決策。最后,我們強調了研究中的挑戰,并提出了未來在機器人領域學習深度生成模型的一些研究方向。關鍵詞——機器人,生成模型,決策制定,控制,模仿學習,行為克隆,從演示中學習
I. 引言**
從演示中學習(Learning from Demonstration, LfD)[1], [2],也稱為模仿學習(Imitation Learning)[3], [4],是通過觀察和模仿一組專家演示來學習期望的機器人行為模型的領域**。基于場景的觀察和所需任務的條件,模型(通常稱為策略)被訓練生成與專家演示中行為相似的動作。根據任務的不同,這些動作可能代表期望的末端執行器姿態 [5], [6]、機器人軌跡 [7], [8] 或期望的場景安排 [9], [10] 等。LfD 包括幾種解決這一問題的方法。行為克隆(Behavioral Cloning, BC)方法 [1] 將條件生成模型擬合到基于觀察的動作上。盡管在序列決策問題中存在一些缺點(例如,錯誤累積導致的協變量偏移 [11]),但在實踐中,由于其穩定且高效的訓練算法,它已經展示了一些最為令人印象深刻的結果 [6], [12], [7], [13]。另一種方法是逆強化學習(Inverse Reinforcement Learning, IRL)[14], [15], [16] 或其變體 [17], [18], [19],結合了演示數據與環境中的試錯(即強化學習(Reinforcement Learning, RL)),生成的策略比 BC 更具魯棒性,但受到訓練算法穩定性較差的限制。與直接模仿演示動作的 BC 不同,IRL 側重于推斷演示行為所優化的潛在獎勵函數,并應用 RL 來推斷策略。IRL 的一個關鍵優勢在于它能夠僅通過觀察進行學習 [20], [21],而無需明確的演示動作信息。在 LfD 中,演示的固有特性帶來了重大挑戰。通常,收集的數據是次優的、噪聲較大的、基于高維觀察條件的,并且包含多種行為模式 [22], [23], [24]。這種多樣性可以在對給定物體的多種抓取方式、專家提供演示的偏好或專家之間的分歧中體現出來。數據的這些固有屬性促使研究人員尋找能夠恰當地捕捉其分布的模型。傳統上,在深度學習成為主流之前,LfD 方法通常使用高斯過程(Gaussian Process, GP)[25], [26]、隱馬爾可夫模型(Hidden Markov Model, HMM)[27], [28] 或高斯混合模型(Gaussian Mixture Models, GMM)[29] 來表示生成模型。然而,這些模型無法擴展至大數據集,也無法在圖像等高維上下文中表示條件分布。基于神經網絡的模型允許在圖像 [30], [31] 或文本 [32], [33] 等高維變量上進行條件設定,但它們通常被訓練為單峰模型。這些模型與收集的演示數據的多模式特性相沖突。這些模型無法捕捉數據中的固有多樣性和多模式,導致研究人員不得不將自己局限于較小的 [34] 或高度策劃的數據集,以確保單峰性,從而簡化建模過程。
近年來,深度生成模型(Deep Generative Models, DGM)在圖像 [35] 和文本生成 [36] 中的成功展示了其捕捉高度多模態數據分布的能力。近年來,這些表現力強的模型在機器人領域的模仿學習應用中引起了廣泛關注(見圖2)。例如,擴散模型(Diffusion Models, DM)[37], [35] 已被有效用于學習高維軌跡分布 [38], [7], [8];基于語言和圖像的策略使用類似GPT的模型來表示動作空間中的類別分布 [39];變分自編碼器(Variational Autoencoders, VAE)[40] 被應用于生成任意物體的六自由度(6-DoF)抓取姿態 [5]。本文統一且全面地回顧了機器人領域中為捕捉數據固有的多模態性而從演示中學習 DGM 的各種方法。盡管其中一些模型借鑒了其他機器學習領域的成果,如 DM,但我們也重點介紹了在機器人動作分布表示中特別有影響力的方法,如動作價值圖(Action Value Maps)[41], [42], [43]。本綜述主要關注使用離線數據的方法,即不收集額外的在線或交互數據,以及離線監督,即除了專家動作外不使用額外的監督。盡管在從視覺到文本生成的各個領域中,從離線數據集中學習 DGM 已被廣泛研究,但機器人領域有其固有的挑戰,需要謹慎的設計選擇。為了激發機器人應用中的具體設計選擇,我們將在 I-A 節中介紹從演示中學習策略的基本挑戰。我們將綜述分為六個部分(見圖1): 在第二部分中,我們將形式化問題并提供整個綜述中使用的術語。 在第三部分中,我們介紹了機器人領域中最常用的 DGM,展示了它們的固有屬性,簡要列出了應用這些方法的各種工作,并介紹了每種模型的訓練和采樣算法。 在第四部分中,我們展示了深度生成模型應用的不同類型,重點介紹了模型生成的數據類型以及考慮的條件變量類型。 在第五部分中,我們提出了一系列設計和算法歸納偏差,以提高從學習模型的數據分布中的泛化能力。我們如何保證在上下文觀察中生成有用的動作,而這些動作在演示中沒有出現?我們提出的選項包括生成模型的模塊化組合、從觀察中提取有用特征以及利用觀察與動作之間的對稱性。 最后,在第六部分中,我們強調了該領域當前的研究挑戰,并提出了未來的研究方向。
A. 從離線演示中學習的挑戰從離線演示中學習機器人策略面臨著若干挑戰。盡管其中許多挑戰(例如演示中的多模態)與其他研究領域(如圖像生成或文本生成)共享,但在機器人領域中,我們還需要考慮一些特有的挑戰。以下是從離線數據中學習機器人策略的主要挑戰。演示的多樣性。主要挑戰之一是演示本身的固有變化。不同的演示者可能具有不同的技能水平、偏好和完成相同任務的策略,導致數據集中包含廣泛的方法。單峰分布缺乏表達能力,無法捕捉演示中的這種變化,從而導致性能不佳。DGM 是解決這一挑戰的有前景的方法。通過捕捉復雜的多模態分布,這些模型可以學習表示演示中展現的不同策略和行為。異質的動作和狀態空間。與數據空間定義明確的計算機視覺不同,在機器人領域中,沒有單一的狀態-動作空間。機器人動作可以包括從力矩命令到期望的目標位置或期望的軌跡。此外,機器人行為可以在機器人的配置空間和任務空間中建模。這種多樣性導致了異質的數據集和用于學習機器人策略的異質解決方案。部分可觀察的演示。當人類執行演示時,其動作不僅基于可觀察到的元素,還受到任務知識和觀察歷史影響的內部狀態驅動。此外,人類可以整合環境中的信息,這些信息可能無法被機器人的傳感器輕易獲得或觀察到,例如人類視覺捕捉到的外圍細節但被機器人的攝像頭遺漏。這種不匹配往往導致演示僅部分代表任務的上下文,從而導致機器人學習的策略中出現歧義。關于部分可觀測性的問題已經在文獻中得到了廣泛研究 [44]。一種常見的實際方法是將觀察歷史編碼為上下文,而不是單一的觀察,允許模型提取內部狀態,從而減少歧義 [45]。時間依賴性和長視距規劃。機器人任務通常涉及序列決策,其中動作在時間上是相互關聯的。這種序列性可能導致錯誤的累積,將機器人引向訓練演示中未遇到的情況。為解決此問題,已有多種方法提出。一些工作建議學習短視距技能,然后與高層規劃器連接。另一方向是,許多工作 [38], [13] 提出學習生成動作軌跡而不是單步動作的策略,從而減少序列累積錯誤。此外,其他選項包括在生成演示時注入噪聲 [46] 或交互式擴展數據集 [11]。訓練和評估目標之間的不匹配。從離線演示中學習通常被定義為密度估計問題。學習的模型經過訓練以生成類似于訓練數據集的樣本。然而,學習的模型用于解決特定任務,最大化的度量是任務成功率。這種訓練目標與評估目標之間的不匹配可能導致在機器人用于解決特定任務時表現不佳。解決這一問題的一個可能方向是將行為克隆階段與后續強化學習微調相結合 [47]。分布偏移和泛化。從離線演示中學習的一個基本挑戰是演示數據與實際場景之間的分布偏移,在這些場景中,學習的策略被部署。演示通常在受控環境或特定上下文中收集,但機器人必須在演示未覆蓋的潛在新環境中運行。這種不匹配可能導致泛化失敗和性能下降。解決這一挑戰需要能夠從給定演示中推斷并適應新環境的技術。我們將在第五部分中探討提高機器人應用中泛化能力的不同方法。
B. 相關綜述
LfD 領域有著悠久的歷史,已有多篇綜述對此進行了探討。在基于深度學習的方法成為主流之前,已有幾篇綜述 [50], [51], [52], [53] 探討了模仿學習的基本問題。這些綜述回答了諸如我們應該如何獲取數據?我們應該學習什么模型?或我們應該如何學習策略?等問題。近年來,一些最新的研究 [54], [3], [55] 更新了基于深度學習模型在 LfD 問題中的應用的綜述。特別是 [3] 從算法的角度審視了模仿學習,使得不同算法的比較可以從信息論的角度進行。機器人學習社區的當前階段,隨著大規模機器人演示數據集的增加(無論是在模擬中還是在現實中),模仿學習方法的重要性日益增加,以及廉價機器人硬件的日益普及,當前適時提供一個涵蓋過去幾年研究進展并專注于該領域當前面臨挑戰(多模態性、泛化、異質數據集等)的綜述。最近,幾篇綜述 [56], [57] 探討了學習機器人基礎模型的問題,主要集中在將互聯網規模的視覺和語言基礎模型整合到機器人問題中。盡管將視覺-語言基礎模型應用于機器人問題具有潛力,但我們的綜述關注于不同的問題。本綜述的興趣在于探索如何直接從具體現體機器人的數據中學習策略(部分原因是大規模數據集的日益豐富 [24], [58]),而不是將視覺-語言模型適應于機器人。
虛假信息在在線平臺上的傳播對社會構成了嚴重挑戰,亟需采取有效措施進行信息驗證。盡管人工事實核查依然非常重要,但虛假信息的不斷增加需要自動化的方法來應對。大型語言模型(LLMs)為幫助事實核查員提供了有前景的機會,利用LLMs廣泛的知識和強大的推理能力。在這篇綜述論文中,我們探討了生成型LLMs在事實核查領域的應用,展示了已采用的各種方法和用于提示或微調LLMs的技術。通過概述現有方法,這篇綜述旨在提高對LLMs在事實核查中應用的理解,并促進LLMs在這一過程中進一步的發展。
引言 當代數字時代帶來了各種挑戰,其中包括虛假信息的傳播。社交媒體的普及使這個問題更加嚴峻,成為一個嚴重的社會關注點。有效應對虛假信息的策略之一是事實核查(Vlachos 和 Riedel,2014),這主要由事實核查員手動完成。然而,事實核查員的數量有限,而虛假信息的傳播卻在增加(A?meur 等,2023)。因此,有必要通過使用數字工具和大型語言模型(LLMs)來開發自動化的事實核查流程,以協助事實核查員(Nakov 等,2021a)。
LLMs利用大規模數據集,結合數十億參數來模擬語言的細微差別和自然語言的模式。此外,生成型LLMs代表了一種專門用于文本生成的LLMs子集。它們在手動事實核查中的應用顯示出提高效率和準確性的良好前景。本研究首次綜合總結了將生成型LLMs整合到事實核查過程中的各種方法和技術。
現有的綜述已探討了事實核查員的需求和可自動化的任務(Nakov 等,2021a),任務定義、傳統方法或類似BERT的架構(Thorne 和 Vlachos,2018;Zeng 等,2021)。此外,還有幾位作者審查了現有的事實核查數據集(Guo 等,2022)。另一項綜述旨在利用LLMs對抗虛假信息,并探索LLMs帶來的機會和挑戰(Chen 和 Shu,2023b)。然而,這項研究并未詳細探討所使用的方法,這為更深入研究生成型LLMs在事實核查中的作用提供了機會。
我們的主要貢獻是提供生成型LLMs在自動化事實核查中應用的概述。我們概述了70篇相關方法和新穎提示技術的論文,供研究人員深入研究LLMs輔助的信息驗證。我們確定了四個主要任務和各種提出的解決策略。此外,我們討論了未來的挑戰和利用LLMs進行信息驗證的可能方向。
隨著大語言模型(LLM)在各個領域的應用不斷擴大,它們適應數據、任務和用戶偏好的持續變化的能力變得至關重要。使用靜態數據集的傳統訓練方法不足以應對現實世界信息的動態特性。終身學習或持續學習通過使LLM能夠在其運行生命周期內持續學習和適應,整合新知識,同時保留先前學習的信息并防止災難性遺忘來解決這一問題。我們的綜述探討了終身學習的現狀,根據新知識的整合方式將策略分為兩類:內在知識,LLM通過完全或部分訓練將新知識吸收到其參數中;外部知識,通過將新知識作為外部資源(如維基百科或API)引入而不更新模型參數。我們的綜述的主要貢獻包括:(1)引入了一種新穎的分類法,將終身學習的大量文獻劃分為12種情景;(2)識別了所有終身學習情景中的常見技術,并將現有文獻分類到不同的技術組中;(3)強調了在LLM之前時代較少探索的模型擴展和數據選擇等新興技術。資源可在//github.com/qianlima-lab/awesome-lifelong-learningmethods-for-llm找到。
隨著大語言模型(LLM)在各個領域的應用不斷擴大,這些模型適應數據、任務和用戶偏好持續變化的能力變得至關重要。傳統的訓練方法依賴靜態數據集來訓練LLM,越來越無法應對現實世界信息的動態特性。終身學習(也稱為持續學習、增量學習),或LLM在其運行生命周期內持續和自適應學習的能力,解決了這一挑戰,通過整合新知識,同時保留先前學習的信息,從而防止災難性遺忘。圖1提供了終身學習的示意圖。 本綜述深入探討了終身學習的復雜領域,根據新知識的整合方式將策略分為兩大類:內在知識和外部知識。每個類別包含不同的方法,旨在增強LLM在各種情境下的適應性和有效性。圖2展示了LLM終身學習方法的分類。 內在知識類通過完全或部分訓練將新知識吸收到LLM的參數中,包括持續預訓練和持續微調等策略。例如,在工業應用中,常采用持續垂直領域預訓練,公司經常使用金融等領域的特定數據重新訓練其LLM。盡管這提高了特定領域的性能,但也有可能削弱模型的廣泛知識基礎,說明了在專業適應性和通用知識保留之間保持平衡的挑戰。持續微調涵蓋了特定情境的方法,如文本分類、命名實體識別、關系抽取和機器翻譯等,以及任務無關的方法,如指令微調、對齊和知識編輯。此外,在持續對齊中使用了人類反饋的強化學習,以確保LLM遵守人類價值觀,如安全和禮貌,突顯了所謂的“對齊稅”,即過于專注于特定價值觀可能會導致模型的通用能力下降。
外部知識類通過將新知識作為外部資源(如維基百科或API)引入,而不更新模型參數,包括基于檢索和工具的終身學習,利用外部數據源和計算工具來擴展模型的能力。基于檢索的策略,如檢索增強生成,通過提供上下文相關、準確和最新的外部數據庫(如維基百科)信息來增強文本生成,確保模型輸出隨時間保持相關性。同時,工具學習類借鑒人類工具使用的類比,模型學習使用外部計算工具,從而無需直接修改其核心知識庫,拓寬了其問題解決能力。
通過對這些組及其各自類別的詳細檢查,本文旨在強調將終身學習能力整合到LLM中,從而增強其在實際應用中的適應性、可靠性和整體性能。通過解決與終身學習相關的挑戰并探索該領域的創新,本綜述旨在為開發更強大和多功能的LLM做出貢獻,使其能夠在不斷變化的數字環境中蓬勃發展。
本綜述與現有綜述的差異。近年來,終身學習已成為一個越來越受歡迎的研究主題。大量綜述探討了神經網絡的終身學習。大多數現有綜述主要集中在卷積神經網絡(CNN)的終身學習,探討了CNN的各種終身學習情景,包括圖像分類、分割、目標檢測、自動系統、機器人和智慧城市。此外,一些綜述探討了圖神經網絡的終身學習。然而,只有少量文獻關注語言模型的終身學習。Biesialska等是關于自然語言處理(NLP)中終身學習的早期綜述,但他們只關注詞和句子表示、語言建模、問答、文本分類和機器翻譯。Ke等關注終身學習情景,包括情感分類、命名實體識別和摘要。他們還討論了知識轉移和任務間類分離的技術。Zhang等提供了關于將LLM與不斷變化的世界知識對齊的技術的全面回顧,包括持續預訓練、知識編輯和檢索增強生成。Wu等從持續預訓練、持續指令微調和持續對齊三個方面重新審視了終身學習。Shi等從垂直方向(或垂直持續學習)和水平方向(或水平持續學習)兩個方向研究了LLM的終身學習。Jovanovic等回顧了幾種實時學習范式,包括持續學習、元學習、參數高效學習和專家混合學習。雖然最近的綜述收集了終身學習的最新文獻,但它們沒有涵蓋持續文本分類、持續命名實體識別、持續關系抽取和持續機器翻譯等情景,并且對持續對齊、持續知識編輯、基于工具的終身學習和基于檢索的終身學習的討論較少。據我們所知,我們是第一個提供對LLM終身學習方法從12種情景進行徹底和系統檢查的綜述。
本綜述的貢獻。我們的綜述的主要貢獻包括:
-** 常見技術**:我們在所有終身學習情景中識別了常見技術,并將現有文獻分類到每個情景內的各種技術組中。
本綜述的組織結構如下。第二節介紹問題的形成、評價指標、常見技術、基準和數據集。第三節、第四節和第五節檢查了持續預訓練、持續微調和基于外部知識的終身學習的現有技術。第六節討論了LLM終身學習的現有挑戰、當前趨勢和未來方向,并總結了本綜述。
大型語言模型(LLMs)已在自然語言處理(NLP)領域催生了重大進展,然而它們面臨著諸如幻覺錯誤和對特定領域知識需求等挑戰。為了緩解這些問題,最近的方法學已將從外部資源檢索到的信息與LLMs整合,顯著提升了它們在NLP任務中的表現。這篇綜述論文針對缺乏對檢索增強語言模型(RALMs)、包括檢索增強生成(RAG)和檢索增強理解(RAU)的全面概述,提供了它們的范式、演變、分類和應用的深入考察。文章討論了RALMs的基本組件,包括檢索器、語言模型和增強組件,以及它們的互動如何導致多樣化的模型結構和應用。RALMs在從翻譯和對話系統到知識密集型應用的廣泛任務中顯示出其實用性。綜述還包括了幾種評估RALMs的方法,強調在評估中穩健性、準確性和相關性的重要性。同時也指出了RALMs的限制,特別是在檢索質量和計算效率方面,提供了未來研究的方向。總之,這篇綜述旨在提供對RALMs的結構化洞見、其潛力以及NLP未來發展的途徑。論文還附帶了一個包含已調研工作和進一步研究資源的Github倉庫://github.com/2471023025/RALM_Survey。
自然語言處理(NLP)是計算機科學和人工智能領域內的一個重要研究方向,致力于研究使人與計算機之間能夠使用自然語言有效溝通的理論和方法學框架。作為一個多學科領域,NLP整合了語言學、計算機科學和數學,旨在實現人類語言與計算機數據之間的相互轉換。其最終目標是賦予計算機處理和“理解”自然語言的能力,從而便于執行自動翻譯、文本分類和情感分析等任務。NLP的復雜性體現在它包括的眾多步驟上,如詞匯分割、詞性標注、解析、詞干提取、命名實體識別等,這些都增加了在人工智能系統中復制人類語言理解的難度。
傳統的自然語言處理任務通常使用基于統計的算法(Hogenboom et al., 2010)(Serra et al., 2013)(Aussenac-Gilles and S?rgel, 2005)和深度學習算法,如卷積神經網絡(CNN)(Yin et al., 2017)、遞歸神經網絡(RNN)(Banerjee et al., 2019)、長短時記憶網絡(LSTM)(Yao and Guan, 2018)等。最近,隨著變壓器架構(Vaswani et al., 2017)作為自然語言處理的代表性技術的出現,其受歡迎程度顯著提高。變壓器架構作為一個突出的大語言模型(Lewis et al., 2019)(Raffel et al., 2020)在自然語言處理領域已經持續展示出優越的性能,吸引了越來越多研究者的關注,他們致力于研究其能力。
當前最流行的語言模型是GPT系列(Radford et al., 2019)(Brown et al., 2020)(Achiam et al., 2023)和Bert系列(Liu et al., 2019)(Devlin et al., 2018)(Sanh et al., 2019),這些模型已經在多種自然語言處理任務中表現出色。其中,自編碼語言模型特別擅長于自然語言理解任務,而自回歸語言模型更適合于自然語言生成任務。雖然增加參數(Touvron et al., 2023b)和模型調優(Han et al., 2023)可以提升LLMs的性能,但“幻覺”現象(Ji et al., 2023)仍然存在。此外,語言模型在有效處理知識密集型工作(Feng et al., 2023)和更新其知識的能力不足(Mousavi et al., 2024)方面的限制也一直很明顯。因此,許多研究者(Lewis et al., 2020)(Izacard and Grave, 2020b)(Khandelwal et al., 2019)采用了檢索技術來獲取外部知識,這可以幫助語言模型在多種任務中獲得更好的性能。
當前關于使用檢索增強來提升LLMs性能的綜述還很少。Zhao et al.(2023)提供了關于多模態RAG的全面概述。Zhao et al.(2024a)專注于人工智能生成內容(AIGC)領域的檢索增強生成技術的利用。這篇文章提供了最近RAG工作的全面概述,但它沒有覆蓋所有相關領域。此外,文章缺乏足夠的細節來提供整體發展的全面時間線。Gao et al.(2023)研究了對大模型的RAG的增強。這篇文章總結了一些最近的RAG工作,但它獨立地介紹了檢索器和生成器,這不利于后續工作的組件升級和互動。Li et al.(2022b)專注于文本生成。文章中的圖表較少,內容更抽象,不利于讀者的理解。
關于NLP中的檢索增強方法,僅有關于RAG的綜述只講述了部分故事。不僅與自然語言生成(NLG)相關的任務需要檢索增強技術,自然語言理解(NLU)任務也需要外部信息。迄今為止,全面綜述NLP全譜系中應用增強檢索技術的文章還很少。為了改善當前狀況,本文提出以下貢獻: (1) 本文不僅關注與RAG相關的工作,還重點強調了RALM,并與NLP的概念保持一致。與生成相關的工作與NLG對齊,而其余的工作與NLU對齊。 (2) RALM的兩個組成部分,檢索器和語言模型,都進行了詳細描述,這兩個組件的不同交互模式也首次被準確定義。 (3) 提供了RALM工作計劃的全面概述,總結了當前RALM的常見和新穎應用,并分析了相關限制。提出了這些限制的潛在解決方案,并推薦了未來研究方向。
圖1提供了RALM方法框架的總體概述。以下是本文的摘要:第2節定義RALM。第3節提供了RALM中檢索器的詳細分類和總結。第4節提供了RALM中語言模型的詳細分類和總結。第5節對RALM的特定增強進行了分類和總結。第6節是RALM檢索數據來源的分類和總結。第7節是RALM應用的總結。第8節是RALM評估和基準的總結。最后,第9節討論了現有RALM的限制和未來工作的方向。
RALMs的整合代表了NLP系統能力的重大進步。本綜述提供了對RALMs的廣泛回顧,突出了它們的架構、應用和所面臨的挑戰。通過檢索和整合外部知識,RALMs增強了語言模型,從而在包括翻譯、對話生成和知識圖譜補全等多種NLP任務中提升了性能。
盡管取得了成功,RALMs仍面臨幾個限制。值得注意的是,它們對對抗性輸入的魯棒性、檢索結果的質量、部署相關的計算成本以及應用領域多樣性的缺乏被認為是需要進一步關注的領域。為了解決這些問題,研究社區提出了幾種策略,例如改進評估方法、完善檢索技術和探索在性能與效率之間保持平衡的成本效益解決方案。 未來,RALMs的進步將依賴于增強其魯棒性、提高檢索質量和擴展其應用范圍。通過采用更復雜的技術并將RALMs與其他AI技術整合,這些模型可以被用來應對更廣泛的挑戰。在這一領域持續的研究和開發預計將帶來更具韌性、效率和多功能性的RALMs,從而推動NLP及其它領域所能達到的界限。隨著RALMs的不斷演進,它們有望賦予AI系統更深入的理解力和更接近人類的語言能力,從而在廣泛的領域中開辟新的可能性。
摘要
預訓練語言模型(Pretrained Language Models, PLM)通過在大規模文本語料庫上學習信息語境化表示,建立了一種新的范式。這種新的范式已經徹底改變了整個自然語言處理領域,并為各種NLP任務設置了新的最先進的性能。然而,盡管PLM可以從訓練語料庫中存儲一定的知識/事實,但它們的知識意識還遠遠不能令人滿意。為了解決這個問題,將知識集成到PLM中已經成為一個非常活躍的研究領域,并且已經開發了各種各樣的方法。在本文中,我們對這一新興和快速發展的領域-知識增強的預訓練語言模型(KE-PLMs)提供了一個全面的文獻綜述。我們引入三種分類法來對現有工作進行分類。此外,我們還調研了各種NLU和NLG應用,在這些應用上,KE-PLM表現出了優于普通PLM的性能。最后,討論了KE-PLMs面臨的挑戰和未來的研究方向。
引言
近年來,大規模預訓練語言模型(大規模預訓練語言模型,簡稱PLM)給自然語言處理領域帶來了革命性的變化。預先訓練的模型如BERT [16], RoBERTa [50], GPT2/3[68][7]和T5[69]獲得了巨大的成功,極大地提升了各種NLP應用的最先進性能[67]。前訓練在NLP中的廣泛成功也啟發了自我監督前訓練在其他領域的應用,如圖表示學習[30][31]和推薦系統[81][98]。對大量文本數據的訓練也使這些plm能夠記住訓練語料庫中包含的某些事實和知識。最近的研究表明,這些經過訓練的語言模型可以擁有相當數量的詞匯知識[48][92]和事實知識[63][71][95]。然而,進一步的研究發現,PLM在知識意識方面也存在以下局限性:
對于NLU來說,最近的研究發現PLM傾向于依賴于表面信號/統計線索[62][55][58],并且很容易被否定的信息(例如,“Birds can [MASK]”vs .“Birds cannot [MASK]”)和錯誤啟動的探針[35]所愚弄。此外,已有研究發現,PLM在推理任務中往往會失敗[84]。
對于NLG,盡管PLM能夠生成語法正確的句子,但生成的文本可能不符合邏輯或不合理。例如,在[46]中提到,給定一組概念{dog, frisbee, catch, throw}, GPT2生成“a dog throw a frisbee at a football player”和T5生成“dog catch a frisbee and throw it to a dog”,這兩者都不符合人類的常識。
這些觀察結果促使人們設計更有知識意識的預訓練模型。最近,越來越多的研究致力于明確地將知識納入PLMs[100][108][61][90][96][49][33]。他們利用百科知識、常識知識和語言知識等多種來源,采用不同的注入策略。這種知識集成機制成功地增強了現有PLM的知識意識,提高了包括但不限于實體輸入[100]、問題回答[101][45]、故事生成[22]和知識圖完成[102]在內的各種任務的性能。
本文旨在對這一新興領域的知識增強預訓練語言模型(KE-PLMs)進行全面綜述。現有的KE-PLMs工作已經開發了一套不同的技術,用于在不同的知識來源上進行知識集成。為了深入了解這些模型并促進未來的研究,我們構建了三種分類法來對現有的KE-PLMs進行分類。圖1說明了我們提出的關于知識增強預訓練語言模型(KE-PLMs)的分類法。在現有的KE-PLMs中,已經探索了不同類型的知識來源(如語言學、常識、百科全書、特定應用),以增強PLMs在不同方面的能力。第一種分類法幫助我們理解在構建KE-PLMs時考慮了哪些知識來源。在第二種分類法中,我們認識到一個知識源可以被不同程度地利用,并基于知識粒度對已有的工作進行分類: 基于文本塊、基于實體、基于關系三元和基于子圖。最后,我們介紹了第三種分類法,它根據方法的應用領域對它們進行分組。這種分類法展示了現有的KE-PLMs在知識集成的幫助下旨在改進的一系列應用。通過認識到哪些應用領域已經被KE-PLMs很好地解決了,我們相信這將為未來將KE-PLMs應用于未解決領域的研究機會提供支持。
//cea.ceaj.org/CN/abstract/abstract39198.shtml
近年來,深度學習技術被廣泛應用于各個領域,基于深度學習的預處理模型將自然語言處理帶入一個新時代。預訓練模型的目標是如何使預訓練好的模型處于良好的初始狀態,在下游任務中達到更好的性能表現。對預訓練技術及其發展歷史進行介紹,并按照模型特點劃分為基于概率統計的傳統模型和基于深度學習的新式模型進行綜述;簡要分析傳統預訓練模型的特點及局限性,重點介紹基于深度學習的預訓練模型,并針對它們在下游任務的表現進行對比評估;梳理出具有啟發意義的新式預訓練模型,簡述這些模型的改進機制以及在下游任務中取得的性能提升;總結目前預訓練的模型所面臨的問題,并對后續發展趨勢進行展望。