近年來,檢索增強生成(Retrieval-Augmented Generation, RAG)在解決大語言模型(LLMs)所面臨的挑戰方面取得了顯著成功,而無需對模型進行重新訓練。通過引用外部知識庫,RAG能夠改進LLM的輸出,有效緩解了“幻覺”、缺乏領域特定知識以及信息過時等問題。然而,不同實體之間復雜的關系結構為RAG系統帶來了挑戰。為此,GraphRAG利用實體之間的結構化信息,使得檢索更加精確和全面,捕捉到關系知識并促進了更準確、具備上下文感知的回答。鑒于GraphRAG的創新性和潛力,系統性地回顧當前技術顯得尤為重要。GraphRAG 是一種將圖神經網絡(GNN)與大語言模型(LLM)相結合的推理框架,專為處理復雜的多跳推理場景設計。它通過 GNN 在知識圖譜中建模節點及其關系,實現深層次的圖結構推理,同時利用 LLM 處理自然語言查詢,提升系統的語言理解和生成能力。GraphRAG 能在多層次節點間進行信息傳遞和推理,從而解決復雜的問題,特別適合知識圖譜問答系統、推薦系統等需要結合結構化數據與非結構化語言處理的場景。GraphRAG的工作流程,包括圖索引(Graph-Based Indexing)、圖引導檢索(Graph-Guided Retrieval)和圖增強生成(Graph-Enhanced Generation)。隨后,本文概述了每個階段的核心技術和應用領域。最后,探討了未來的研究方向,以激發更多的研究興趣并推動該領域的進一步進展。
隨著LLMs如 GPT-4 和 LLaMA 的出現,自然語言處理(NLP)領域取得了顯著進展。這些模型基于龐大的數據集進行訓練,展示了卓越的語言理解和文本生成能力。然而,盡管 LLM 在處理自然語言任務時表現優異,但它們在處理領域特定知識、實時更新的信息以及復雜關系推理任務時仍存在顯著的局限性。為解決這些問題,檢索增強生成(RAG)被引入,通過結合外部知識庫在生成過程中檢索相關信息,增強了 LLM 的知識覆蓋和準確性。然而,RAG 也面臨一些挑戰。特別是在需要理解實體間關系的任務中表現欠佳。為應對這些局限性,GraphRAG 作為一種創新的解決方案被提出。GraphRAG 結合了圖神經網絡(GNN)和 RAG 的優勢,通過從預構建的圖數據庫中檢索圖元素(如節點、路徑、子圖等)來增強檢索過程。這種方法能夠捕捉到文本之間的復雜關系,使得模型在處理多跳推理、復雜實體查詢時更加準確。
GraphRAG示例
在 GraphRAG 中使用的圖數據可以統一表示為文本屬性圖(Text-Attributed Graphs,簡稱 TAGs), 其中節點和邊具有文本屬性。形式上,文本屬性圖可以表示為, 其中 是節點的集合, 是邊的集合, 是鄰接矩陣。此外, 和 分別表示節點和邊的文本屬性。TAGs 的一種典型形式是知識圖譜(Knowledge Graphs, KGs), 其中節點表示實體,邊表示實體之間的關系,文本屬性則是實體和關系的名稱。
圖神經網絡(Graph Neural Networks,GNNs)是一種用于建模圖數據的深度學習框架。經典的 GNNs,如圖卷積網絡(GCN)、圖注意力網絡(GAT)和 GraphSAGE,采用消息傳遞的方式來獲取節點表示。
其中,N(??) 表示節點 ?? 的鄰居。MSG 表示消息函數,它基于節點、其鄰居和它們之間的邊計算消息。AGG 表示聚合函數,使用如平均、求和或最大值等排列不變的方法來組合接收到的消息。UPD 代表更新函數,用聚合后的消息更新每個節點的屬性。隨后,可以使用讀出函數(如平均池化、求和池化或最大池化)來獲得全局級別的表示:
在 GraphRAG 中,GNNs 可以用于檢索階段獲取圖數據的表示,并用于建模檢索到的圖結構。
GraphRAG是一個框架,它利用外部結構化知識圖來提高對LM的上下文理解,并生成更明智的響應。GraphRAG的目標是從數據庫中檢索最相關的知識,從而增強下游任務的答案。GraphRAG的整個過程分解為三個主要階段:基于圖的索引、圖引導的檢索和圖增強的生成。GraphRAG的整體工作流程下圖所示,下面將詳細介紹各個階段。
GraphRAG整體工作流程
基于圖形的索引:基于圖的索引構成了GraphRAG的初始階段,旨在識別或構建與下游任務對齊的圖數據庫G并在其上建立索引。圖數據庫可以源自公共知識圖,圖數據,或者基于專有數據源構建,例如文本或其他形式的數據。索引過程通常包括映射節點和邊屬性,在連接的節點之間建立指針,以及組織數據以支持快速遍歷和檢索操作。索引決定了后續檢索階段的粒度,對提高查詢效率起著至關重要的作用。
基于圖形的檢索:在基于圖的索引之后,圖引導的檢索階段集中于響應于用戶查詢或輸入從圖數據庫中提取相關信息。具體地,給定以自然語言表達的用戶查詢,檢索階段旨在提取最相關的元素(例如,??實體、三元組、路徑、子圖),其可以被公式化為:
其中,最優檢索圖元素是最優檢索圖元素,Sim(·,·)是測量用戶查詢與圖數據之間的語義相似性的函數。R(·)表示考慮到效率而縮小子圖的搜索范圍的函數。然而,檢索圖數據提出了兩個重大挑戰:(1)爆炸性候選子圖:隨著圖大小的增加,候選子圖的數量呈指數級增長(2)相似性度量不足:準確度量文本查詢和圖形數據之間的相似性需要開發能夠理解文本和結構信息的算法。圖引導檢索的一般架構如下圖所示。 圖引導檢索架構
基于圖增強生成:圖形增強生成階段涉及基于檢索到的圖形數據合成有意義的輸出或響應。這可以包括回答用戶查詢、生成報告等。在這個階段,生成器將查詢、檢索到的圖形元素和可選提示作為輸入來生成響應,該響應可以表示為:
其中F(·,·)是將圖形數據轉換為生成器可以處理的形式的函數。
GraphRAG 技術在多個領域得到了廣泛的應用,幫助解決復雜的數據和推理任務。
GraphRAG 技術雖然取得了顯著進展,但仍面臨許多挑戰。以下是未來研究的幾個重要方向:
[1] Muhammad Arslan and Christophe Cruz. 2024. Business-RAG: Information Extraction for Business Insights. ICSBT 2024 (2024), 88. [2] S?ren Auer, Christian Bizer, Georgi Kobilarov, Jens Lehmann, Richard Cyganiak, and Zachary G. Ives. 2007. DBpedia: A Nucleus for a Web of Open Data. In The Semantic Web, 6th International Semantic Web Conference, 2nd Asian SemanticWeb Conference, ISWC 2007 + ASWC 2007, Busan, Korea, November 11-15, 2007 (Lecture Notes in Computer Science, Vol. 4825). 722–735. [3] Jinheon Baek, Alham Fikri Aji, Jens Lehmann, and Sung Ju Hwang. 2023. Direct Fact Retrieval from Knowledge Graphs without Entity Linking. In Proceedings ofthe 61st Annual Meeting ofthe Association for Computational Linguistics (Volume 1: Long Papers), ACL 2023, Toronto, Canada, July 9-14, 2023. 10038–10055. [4] Jinheon Baek, Alham Fikri Aji, and Amir Saffari. 2023. Knowledge-Augmented Language Model Prompting for Zero-Shot Knowledge Graph Question Answering. arXiv:2306.04136 [cs.CL] //arxiv.org/abs/2306.04136 [5] Jonathan Berant, Andrew Chou, Roy Frostig, and Percy Liang. 2013. Semantic Parsing on Freebase from Question- Answer Pairs. In Proceedings ofthe 2013 Conference on Empirical Methods in Natural Language Processing, EMNLP 2013, 18-21 October 2013, Grand Hyatt Seattle, Seattle, Washington, USA, A meeting ofSIGDAT, a Special Interest Group ofthe ACL. 1533–1544. [6] Yonatan Bisk, Rowan Zellers, Ronan Le Bras, Jianfeng Gao, and Yejin Choi. 2020. PIQA: Reasoning about Physical Commonsense in Natural Language. In The Thirty-Fourth AAAIConference on Artificial Intelligence, AAAI2020, The Thirty-Second Innovative Applications ofArtificial Intelligence Conference, IAAI 2020, The Tenth AAAISymposium on Educational Advances in Artificial Intelligence, EAAI2020, NewYork, NY, USA, February 7-12, 2020. 7432–7439.
2022年,隨著ChatGPT的發布,大規模語言模型受到了廣泛關注。ChatGPT不僅在參數量和預訓練語料庫規模上遠超前代模型,還通過大量高質量的人工標注數據進行微調,實現了革命性的性能突破。此類進展促使得企業和研究機構認識到,構建更智能、更強大的模型依賴于豐富且高質量的數據集。因此,數據集的建設與優化成為了人工智能領域的關鍵方向。本文對訓練大規模語言模型所需的預訓練數據和微調數據的現狀進行了總結,涵蓋了數據規模、搜集方式、數據類型及其特點、處理流程等,并對當前可用的開源數據集進行了梳理和介紹。
1 引言
在人工智能領域,語言模型的發展一直是推動技術進步的核心動力之一。語言模型的目標是通過模擬文本數據的生成概率,來實現對自然語言的理解和生成。最初的模型,如n-gram,依賴于統計分析來預測詞語序列,但這些模型難以捕捉復雜的語本依賴性,因此在處理復雜任務時表現有限。隨著深度學習技術的發展,特別是AlexNet在視覺識別領域的突破,神經網絡被引入到自然語言處理中。循環神經網絡(RNN)及其衍生的LSTM和GRU顯著提高了模型對序列數據的建模能力,使其能夠更好地建模語言中的時序特征和文本關系。然而,這些方法仍然依賴于傳統的監督學習范式,訓練數據規模普遍較小,大部分數據集的規模以MB為量級。 真正的革命來自于以Transformer為基礎的預訓練語言模型的推出。Transformer架構通過自注意力機制(Self-Attention)有效地捕捉長距離依賴關系,并且由于其高并行化特性,極大地提高了語言模型的訓練效率。這使得以大規模無標記文本作為訓練語料成為可能。GPT和BERT等模型以Transformer為基礎,加速了語言模型的迭代性能,將語言模型的“深度”推向了一個新的高度。 預訓練語言模型之所以強大,是因為它們能夠在未經過人工標注的大規模集群中自動學習豐富的特征。這些模型在預訓練階段以無監督大數據集發現和生成規律,并將其廣泛的預測能力擴展到眾多任務的表征能力。然而,預訓練模型的強大性能離不開高質量大數據的支持,微調階段在特定任務完成精調工作。因此,隨著各個領域的數據集進一步微調,模型模型的更好地適應特定應用需求。 2022年,隨著ChatGPT的發布,大規模語言模型受到了廣泛關注。ChatGPT不僅擁有遠超之前模型的參數量,且使用大規模高質量的人類標注數據對模型進行微調。ChatGPT革命性的性能突破讓企業和研究機構認識到,構建更智能、更強大的模型依賴于豐富且高質量的數據集。自此,數據集的建設和優化成為了人工智能領域未來發展的方向。在這個背景下,許多公司和組織參與到訓練數據的構建和優化工作中,而許多大規模模型語言集(如Baichuan、Qwen、Chatglm等)已經相繼開源,但其訓練數據幾乎完全保密。 模型訓練所涉及的語料的廣度和質量是其核心競爭力。當然,也有非常多的公司和組織把投入大量資源構建的數據集進行開源,為社區的發展做出貢獻。比如Together AI的RedPajama數據集或Hugging Face的Common Crawl數據。這些數據集中不僅標了降噪和不相關內容,還進行了結構化和標準化處理,使其適用于訓練所需高質量數據。 與此同時,盡管許多商業組織的預訓練數據與訓練語料已被開源,其他在語音和世界的被公開總量并不理想。此外,數據的提升和可視化。隨著模型的不斷增大。 未來的數據建設成為一種非常核心的關鍵要求。當前對前沿問題和數據資源的需求是快速且不斷增長的挑戰之一,而隨著對隱私問題和標準化的處理未來更需要建設和高質量基礎來推動數據。
2 預訓練數據
預訓練任務通過讓模型基于已有文本預測未知的Token,以此來學習語言結構和語義規則。自編碼訓練任務(如BERT)和自回歸訓練任務(如GPT)分別代表了兩種主要的方法。在ChatGPT發布后,自回歸訓練任務逐漸成為訓練大規模語言模型的主流方法。在預訓練過程中,模型通過估計預測Token的原始概率,逐步掌握文本的語法和語義,從而積累大量語言知識,提升文本理解和生成能力。核心機制在于,模型能夠通過預測文本的一部分,逐漸建立對整個文本結構的理解。此外,模型不僅能記住具體的單詞和短語,還能學習更高層次的語言結構和語義關系。這種能力對于生成連貫且有意義的文本至關重要,使得模型在實際應用中能夠提供更恰當的回答,上一文一致的回答。 預訓練數據集對于訓練模型理解和生成能力至關重要,是大規模語言模型開發的基礎。預訓練數據集通常來自人工標記,含有豐富的語言元素和復雜的結構。這種標注數據為模型提供了真實、自然的語言使用場景,使得模型學習到語言的本質特征和標準規則。預訓練語料的背景特征就是規模龐大。大規模的數據集能夠提供豐富的語言現象和多樣的上下文場景,使模型在訓練過程中接觸到各種語言結構、詞匯用法和語法規則。這種規模保證了模型可以捕捉到更廣泛的語言模式和關系,從而在多種任務中表現出色。 除了規模龐大,其第二個重要特性就是來源廣泛。預訓練語料涵蓋了從日常通信到專業學術的各種文本類型。這包括新聞報道、科學論文、文學作品等。這種多樣化的文本來源確保了模型能夠在不同的語境中靈活應用,既能理解口語的表達,也能處理學術術語和復雜的學術論述。模型通過在這些不同類型的文本中學習,可以獲得更全面的語言知識和更強的適應能力。 通過預訓練,模型能夠積累大量的背景知識,這使得它在面對新的任務時,能夠迅速適應并表現出色。預訓練就像是讓模型“打下上萬本書,見多識廣”,積累了豐富的知識儲備,而微調過程則是讓模型在特定領域進行專門訓練,以便更好地完成特定任務。此外,預訓練數據的多樣性和復雜性也意味著在預訓練過程中對數據的處理需要結合高度清洗和精細的標注。盡管如此,其中一些噪音可能是模型成長的營養劑,而非阻礙。例如別字、模棱兩可的語言、復雜的語音環境中學習,模型能夠得到更加健壯和靈活,能夠更好地處理實際應用中遇到的各種問題。
3 微調數據
微調過程是訓練語言模型不可或缺的一環,其目的是在于將模型從面向語言知識的通用訓練轉向面向具體任務的針對訓練。在預訓練階段,模型通過預測被掩碼的Token任務學習了大量的語言知識,使其具備理解和生成文本的能力。然而,這些知識是通用的,無法被直接應用于具體任務的實現。微調階段旨在針對特定任務的語料庫上進行訓練,使模型能夠學習到具體任務的需求和規則,從而將所學的語言知識和生成能力在應用任務中按特定任務。與預訓練階段相比,微調數據集通常是經過人工標記和精心設計的,記錄了特定任務中的輸入輸出對應關系或其他更精細的上下文標記,從而更有針對性和強關聯性。對不同讀懂程度任務,微調數據包括任務參考文本、問題和問題的答案。通過這個訓練,模型能夠學習到解決特定任務的特征和模式,從而將訓練階段學到的通用知識應用到特定任務中。 微調數據集在分布式配置中包含:命令類問題、機器翻譯、文本分類、自動問答等。這些任務需要語言模型學習更具體的問題解答能力,自動語言掌握模型的各種領域,知識儲備和生成能力的需求。然而,隨著ChatGPT的發布,人們發現,機器人語言模型在預訓練階段學到了更多的語言知識,獲得了更強的語言能力,便能設計話和領域解決語用中所有高表達意圖任務的各種應用任務。這些數據集使得模型在解決復雜多種問題中優化。 傳統微調數據有可能有各種形式,如文本大小(機器翻譯或其他文本類)等。但在傳統微調數據集基礎上強調對更高的基準結構變化而構建大規模系統。對于優化微調數據庫。
結尾:
主要任務包括指令集跟隨,日常對話、數學推理、代碼生成、醫療問答等。構建微調數據集的主要問題分為兩個方面,問題的收集和答案獲取。其構建方式大致可以分為以下幾種:人工撰寫、真實用戶對話、基于已有數據集的擴充、利用語言模型直接生成以及基于傳統數據集的改寫。下面介紹這幾種基本的數據構建方式。 4 總結 本論文概述了大語言模型在預訓練和微調階段的數據構建要點。在預訓練數據方面,英文數據在 數量和質量上優于中文數據,成為訓練英文大語言模型的有力資源,而中文數據因網頁資源有限、學 術數據匱乏、社交媒體平臺閉源等因素受限。中文領域開源數據集的缺乏,也阻礙了中文大語言模型 的發展,盡管模型可以通過英文數據學習多語言能力,但中文特有的知識和文本風格仍難以完全涵 蓋。此外,數據隱私與開放性之間的平衡成為關注點,語料枯竭也帶來新的挑戰,促使研究者探索合 成數據等新來源。 在微調數據方面,構建方法多樣,包括人工撰寫、真實用戶數據擴充等。多樣性、質量和安全性 是微調數據的重要目標,實際應用中常融合多種數據來源以取得最佳效果,并在不同領域數據配比上 進行優化。總體而言,預訓練與微調數據的高質量構建對于提升大語言模型的性能至關重要。特別在 中文領域,各方需協力推動數據來源的拓展與技術改進,使中文大語言模型在各類應用中更具競爭 力。
摘要—持續學習(CL)旨在使機器學習模型能夠從新數據中不斷學習,同時在不遺忘已獲得知識的基礎上進行擴展。隨著機器學習模型從小規模到大規模預訓練架構的演變,以及從支持單一模態數據到支持多模態數據,多模態持續學習(MMCL)方法最近開始出現。MMCL的主要挑戰在于,它超越了簡單的單模態持續學習方法的疊加,因為這種直接的方法通常會產生不理想的效果。在本研究中,我們首次對MMCL進行了全面綜述。我們提供了MMCL的基本背景知識和設定,并提出了結構化的MMCL方法分類法。我們將現有的MMCL方法分為四類,即基于正則化、基于架構、基于重放和基于提示的方法,闡述它們的方法論并強調其關鍵創新。此外,為了激發該領域的進一步研究,我們總結了開放的MMCL數據集和基準,并討論了若干未來有前景的研究和發展方向。我們還創建了一個GitHub倉庫,用于索引相關的MMCL論文和開放資源,網址為://github.com/LucyDYu/Awesome-Multimodal-Continual-Learning。
關鍵詞—多模態持續學習,多模態數據,終身學習,增量學習
1 引言近年來,機器學習(ML)取得了顯著的進展,為解決各種實際問題作出了重要貢獻。在傳統設置中,大多數ML模型在所謂的“單一階段”范式下運行,即在靜態和單一數據集上進行訓練,并在獨立同分布(i.i.d.)假設下進行評估【1】。然而,這種“單一階段”范式無法賦予訓練模型適應新數據或執行新任務的能力,因此難以滿足開發能夠應對動態變化環境的智能體的需求。為解決這一問題,ML社區致力于發展持續學習(CL),也稱為終身學習或增量學習,它通過在新任務上逐步訓練模型并保留早期知識,無需對完整數據進行重新訓練【2-5】。 CL的主要挑戰是災難性遺忘:當任務按順序進行訓練時,針對新任務的訓練會嚴重影響之前已學習任務的性能【6, 7】,這是因為不受約束的微調會使參數遠離舊的最優狀態【8】。CL的目標是開發能夠持續獲取知識并保留已學習信息的學習系統。這一過程本質上模仿了生物大腦的認知靈活性,生物大腦在整個生命過程中不斷學習各種技能【9】。通過使模型能夠在不遺忘的情況下適應新任務,CL在資源和時間效率方面相較于傳統的模型全數據重新訓練方法具有顯著優勢。此外,由于存儲限制、隱私問題等原因,歷史訓練數據可能無法訪問,這使得全數據訓練變得不可行,進一步突顯了CL在記憶舊知識并從動態環境中獲取最新知識方面的效率和有效性。盡管CL取得了顯著進展,大多數研究仍集中在單一數據模態上,如視覺【10-13】、語言【14-16】、圖【17, 18】或音頻【19】。這種單模態的關注忽略了真實世界環境的多模態特性,這些環境本質上是復雜的,由多種數據模態組成而非單一模態。隨著多模態數據的快速增長,例如Meta和TikTok等平臺上圖像、文本和視頻數據的激增,開發能夠從多模態源中持續學習的AI系統變得至關重要,因此出現了多模態持續學習(MMCL)設置。這些MMCL系統需要有效地整合和處理多模態數據流【20, 21】,同時還要能夠保留先前獲取的知識。更重要的是,這種MMCL設置更接近于人類生物系統在應對現實世界復雜性時跨模態學習和整合信息的過程【22, 23】。MMCL的挑戰。盡管傳統單模態CL與MMCL之間存在聯系,MMCL的挑戰遠不止是簡單地將CL方法疊加在多模態數據上。事實證明,這種直接的嘗試通常會產生次優性能【31-33】。具體來說,如圖2所示,除CL中已有的災難性遺忘問題外,MMCL的多模態特性還引入了以下四個挑戰。這些挑戰不僅獨立存在,還可能加劇災難性遺忘問題:
多模態持續學習根據輸入模態的不同,多模態持續學習可以分為五種主要場景:
在多模態持續學習(MMCL)中,有多種方法學策略。本文將MMCL方法分為四大類:基于正則化、基于架構、基于重放以及基于提示的方法。圖5對這些方法進行了分類,并在后續的小節中詳細說明。表2總結了各類MMCL方法的具體特性,而圖6展示了代表性架構,主要以視覺和語言模態為主。對于其他模態的方法,在表3中進行了匯總。在正式介紹MMCL方法之前,我們將首先介紹一些經典的單模態持續學習(CL)方法,因為它們既是MMCL方法的前身,也在MMCL研究中被廣泛用作對比。
基于正則化的方法旨在通過對參數施加約束來減少災難性遺忘現象【8】。這類方法根據約束方式的不同,分為顯式正則化和隱式正則化兩種。下圖(圖6a)總結了顯式和隱式正則化方法的代表性架構。3.1.1 顯式正則化顯式正則化方法通過直接為參數賦予重要性權重來抑制模型的參數變化。它通過懲罰那些偏離先前最優狀態的參數,以減緩模型的遺忘。其關鍵思想是對模型的參數偏移施加顯式約束,以保護模型在先前任務中的知識。在這種方法中,常用的技術包括:
架構方法通過引入任務特定組件來減少不同任務之間的干擾,通常分為固定架構和動態架構兩種。
固定架構方法在整個任務序列中保持相同的模型結構,通過任務掩碼選擇性地激活或抑制特定參數,從而使各個任務使用不同的參數組合。這種方式通過分配任務特定的參數部分來減輕遺忘現象。單模態模型中,HAT(Hard Attention to the Task)通過學習接近于二值的注意力向量,在模型層次上選擇性激活或抑制參數。它通過掩碼來固定特定參數,以保留早期任務的知識。在多模態模型中,RATT(Recurrent Attention Task Transformer)使用固定架構進行圖像描述生成。它結合了卷積神經網絡(CNN)和長短時記憶網絡(LSTM),并通過注意力掩碼實現特定任務的激活,以便針對不同任務分配不同的模型層激活狀態。
動態架構方法則允許模型結構隨著任務的引入而動態擴展,通常通過添加新模塊來增加模型容量。與固定架構不同,動態架構可以在新任務到來時擴展新的任務特定模塊,因此性能不會受到初始容量的限制。在單模態模型中,進步網絡(Progressive Network)是一種早期的動態架構,它通過為每個新任務初始化一個新網絡來避免遺忘。這種方法使用橫向連接來支持特征共享和知識轉移。多模態模型中的動態架構方法則可以通過任務特定、模態特定等多種策略來決定如何擴展網絡結構。例如,MoE-Adapters4CL在多模態模型CLIP的基礎上為每個新任務添加模塊,減少了新任務對已有知識的干擾。此外,ODU和CMR-MFN都設計了模態融合模塊,以應對多模態數據中模態組合多變的特性。
重放方法使用一個記憶緩沖區來存儲歷史實例,以幫助在學習新任務時維護早期任務的知識。這些方法無需動態調整網絡架構,也不需約束參數自由度。基于獲取重放數據的不同方式,重放方法可以分為直接重放和偽重放兩種。
直接重放方法通過將舊任務中的少量樣本存儲在記憶緩沖區中,以在新任務訓練時進行重放。此類方法的關鍵在于如何選擇代表性樣本以充分利用有限的記憶空間。在多模態模型中,例如VQACL和SAMM采用隨機選擇策略直接重放多模態樣本。實驗表明,與單模態重放相比,多模態重放能顯著提升模型的穩定性和靈活性。此外,KDR通過在跨模態相似度矩陣上引入KD,以確保模型更新前后的交互一致性,從而進一步鞏固知識。
偽重放方法利用生成模型學習舊任務的數據分布,從而在當前階段生成偽造數據,避免了直接重放方法的存儲需求和隱私問題。例如,單模態模型中DGR(Deep Generative Replay)通過訓練生成對抗網絡(GAN)來生成數據樣本以進行重放。后續研究擴展了偽重放策略,包括在特征層面進行偽重放,以強化特征表示,減少遺忘現象。在多模態模型中,SGP通過保存場景圖和語言模型生成偽造數據以進行偽重放。此外,AID通過偽原型重放策略處理模態不平衡問題,從而提升分類器的區分能力。這些方法解決了多模態學習環境中數據類型多樣性和平衡性的問題。
基于提示的方法利用預訓練大模型,通過修改輸入而非調整模型結構來保留原始知識并學習新任務。此類方法減少了大規模微調的需求,并能夠更好地保留預訓練模型的零樣本能力。在多模態模型中,例如Fwd-Prompt和S-liPrompts分別采用共享提示和任務特定提示策略,增強了視覺-語言模型在跨模態信息融合中的表現。CPE-CLIP通過將視覺提示設計為語言提示的函數來連接多模態信息,使模型在新任務中具備更好的適應性。
本節對當前多模態持續學習(MMCL)領域的主要數據集和基準進行了綜述。MMCL中的大多數數據集都是從最初為非持續學習(CL)任務設計的知名數據集中改編而來,研究人員常常利用多個數據集或將單一數據集劃分為多個子集,以便在MMCL設置中模擬任務【39】。此外,也存在一些專門為MMCL構建的數據集,例如P9D【68】和UESTC-MMEA-CL【39】。表4匯總了涵蓋各種CL場景、模態和任務類型的MMCL基準。以下將具體介紹這些基準,若數據集和代碼為公開可訪問,將在相應位置標明。
這一部分總結了兩個專門為MMCL構建的數據集:
除了專門的數據集外,也有一些基準通過使用多個數據集來模擬MMCL任務。以下是一些此類基準的簡要介紹:
隨著多模態模型的快速發展,多模態持續學習(MMCL)已成為一個活躍且前景廣闊的研究課題。在本節中,我們提出了幾個值得進一步探索和研究的未來方向。
當前的MMCL研究中,多模態數據的數量和質量直接影響模型的性能。然而,由于不同模態的數據特性和收集難度,提升模態數量和質量仍面臨諸多挑戰:
MMCL中的模型往往依賴大規模預訓練模型,并在多個模態和任務上進行持續訓練,這對計算資源提出了更高要求。為提高資源利用效率,未來可以在以下幾個方面展開研究:
MMCL中的一個關鍵挑戰是如何在不忘舊任務的同時提升對新任務的零樣本適應能力及泛化性能:
在多模態環境下,模態數據的分布和數量可能存在不平衡,這會影響MMCL的表現。未來的研究可以關注以下方面:
隨著隱私和數據安全需求的增加,未來MMCL研究需要更好地應對這些問題:
結論
以上是未來研究方向的詳盡討論,為進一步發展多模態持續學習(MMCL)領域提供了切實可行的建議和探索路徑。通過提升模態數量與質量、提高計算資源效率、增強零樣本能力與泛化性能、應對模態失衡問題,以及加強隱私與數據安全的適應性,研究人員可以應對MMCL的挑戰,推動模型更好地適應現實環境的需求。這些方向的研究不僅能解決當前的技術難題,還將推動更為廣泛和深入的實際應用,從而實現更加智能化和多樣化的學習系統。
摘要—檢索增強生成(RAG)已迅速成為大規模語言模型(LLM)開發中的關鍵范式。盡管當前該領域的大部分研究主要集中在性能優化,尤其是在準確性和效率方面,但RAG系統的可信度仍是一個尚待深入探索的領域。從積極的角度來看,RAG系統有望通過從廣泛的外部數據庫中提供有用的、最新的知識,增強LLM的能力,從而緩解長期存在的幻覺問題。而從消極的角度來看,如果檢索到的信息不合適或使用不當,RAG系統有可能生成不良內容。為了解決這些問題,我們提出了一個統一框架,用于從六個關鍵維度評估RAG系統的可信度:真實性、魯棒性、公平性、透明性、問責性和隱私性。在此框架下,我們全面回顧了現有文獻中對每個維度的研究。此外,我們針對這六個維度創建了評估基準,并對多種專有和開源模型進行了全面評估。最后,基于我們的調查結果,我們確定了未來研究可能面臨的挑戰。通過這項工作,我們旨在為未來的研究奠定一個結構化的基礎,并提供提升RAG系統在實際應用中可信度的實用見解。
關鍵詞—可信度;大規模語言模型;檢索增強生成
1 引言
大規模語言模型(LLM)的出現代表了人工智能,特別是在自然語言處理(NLP)和理解領域的重大進展。隨著時間的推移,這些模型從簡單的基于規則的系統演變為復雜的深度學習架構,其進步得益于諸如Transformer架構[1]、在多樣化數據集上的廣泛預訓練以及先進的微調技術[2]等創新。這些進展極大地增強了LLM的能力,影響了自動內容生成[3]和高級語言翻譯[4]等應用,從而改變了機器對人類語言的解讀與生成方式。
盡管取得了這些進展,LLM仍面臨持續的“幻覺”挑戰,即模型生成看似合理但實際上不正確或無意義的信息[5, 6]。幻覺產生的原因包括訓練數據中的偏差[7]以及語言模型的概率性質[8]。在需要高度精確和可靠性的應用場景中,如醫療和法律領域[9],這一問題尤為關鍵。為減輕這一問題,檢索增強生成(RAG)系統應運而生[10]。RAG系統通過集成外部信息檢索機制,確保生成的內容基于事實數據,從而提高LLM輸出的準確性和可信度[11]。
隨著LLM越來越多地融入金融系統[12]和醫療保健[13]等應用,LLM的可信度已成為一個關鍵問題。根據各種框架,可信度通過多個關鍵維度進行評估,包括真實性、安全性、公平性、魯棒性、隱私性、機器倫理、透明性和問責性[14]。這些維度確保LLM提供準確、無偏見且安全的輸出,同時保護用戶隱私并符合倫理標準[15]。強化學習(RLHF)[16]、數據過濾[17]和對抗性訓練[18]等技術已被用于提高可信度,其中專有模型如GPT-4在某些高風險應用中通常優于開源替代品[19]。隨著LLM繼續影響關鍵社會功能,學術界與工業界之間的持續研究與透明、協作努力對于確保其可靠和倫理的部署至關重要[20]。
然而,目前關于RAG系統的研究主要集中于優化檢索器和生成器組件以及精煉它們的交互策略[3, 21]。對于這些系統的可信度關注較少[22]。可信度對于RAG系統的實際部署至關重要,尤其是在法律咨詢或醫療保健等高風險或敏感應用中,錯誤可能會產生嚴重后果[23]。因此,必須確定定義RAG系統可信度的關鍵要素,并開發評估這些維度的可信度方法[24]。在此背景下,出現了兩個主要挑戰:(1)定義一個全面的框架,涵蓋RAG系統可信度的所有相關方面;(2)設計實際且穩健的評估方法,有效衡量各維度的可信度[25]。 為應對這些挑戰,我們提出了一個統一框架,支持對RAG系統可信度的全面分析,框架包括三個關鍵部分:
RAG系統可信度六個關鍵維度的定義:如圖1所示,我們從六個維度定義了RAG系統的可信度:(1)真實性:通過與可靠來源進行驗證,確保生成信息的準確性和真實性。(2)魯棒性:確保系統對錯誤、對抗性攻擊和其他外部威脅的可靠性。(3)公平性:在檢索和生成階段盡量減少偏見,確保公平的結果。(4)透明性:使RAG系統的過程和決策對用戶清晰易懂,促進信任和問責。(5)問責性:實施機制,確保系統的行為和輸出負有責任且可追溯。(6)隱私性:在檢索和生成過程中保護個人數據和用戶隱私。
現有工作的調查:我們對與RAG系統可信度相關的現有文獻和研究進行了全面回顧。我們分析了為增強六個關鍵維度的可信度而提出或實施的各種方法、技術和技術路線。
各種LLM的基準評測和評估:為提供對RAG系統可信度的實際評估,我們構建了一個基準并建立了全面的評估框架。該框架評估了10種不同的LLM,包括專有和開源模型,涵蓋各種模型規模和訓練策略。該基準為不同模型在實際應用中的可信度表現提供了寶貴的見解。
本次綜述的貢獻主要有三方面:(1)我們引入了一個統一框架,定義了RAG系統可信度的六個關鍵維度。(2)我們對現有RAG可信度文獻進行了詳細回顧,識別了研究空白并突出了有前途的方法。(3)我們建立了一個實用的基準評測框架,并對10個LLM進行了全面評估,為未來RAG系統可信度提升提供了可操作的見解和指南。 可信的RAG系統
一個完整的RAG系統包括三個主要階段:將外部知識注入生成器,生成器生成答案,以及對生成的答案進行評估。每個階段都面臨與可信性相關的挑戰。在外部知識注入階段,存在注入噪聲或私人信息的風險。在答案生成階段,引入的外部知識可能導致偏見推理,并破壞通過人類反饋強化學習(RLHF)所實現的一致性。最后,在答案評估階段,生成的答案可能包含事實錯誤或缺乏足夠的外部知識依據。 如圖2所示,我們確定了RAG系統可信性的六個關鍵維度:魯棒性、公平性、真實性、隱私性、透明性和問責性。對于每個維度,我們將探討以下幾個方面:適用于LLM的一般定義、RAG背景下的具體定義以及詳盡的文獻回顧。為了更清楚地對相關研究進行分類和總結,我們首先在圖3中展示了這些研究的時間線,以確定該領域的趨勢。然后,在表1中,我們根據三個標準對每項研究進行了分類:可信性維度、方法類型和對象。以下章節將深入探討每個可信性維度的細節。
近年來,我們見證了大型語言模型(LLM)的快速發展。基于強大的LLM,多模態LLM(MLLM)將模態從文本擴展到更廣泛的領域,因其廣泛的應用場景而引起廣泛關注。由于LLM和MLLM依賴大量的模型參數和數據來實現突現能力,數據的重要性正受到越來越廣泛的關注和認可。追蹤和分析最近針對MLLM的數據導向工作,我們發現模型和數據的發展并不是兩條獨立的路徑,而是相互關聯的。一方面,更大量和更高質量的數據有助于MLLM的更好表現;另一方面,MLLM可以促進數據的發展。多模態數據和MLLM的共同發展需要明確以下幾點:1)在MLLM的哪個發展階段可以采用哪些以數據為中心的方法來增強哪些能力,2)通過利用哪些能力和扮演哪些角色,模型可以對多模態數據作出貢獻。為了促進MLLM社區的數據-模型共同發展,我們系統地回顧了現有與MLLM相關的工作,從數據-模型共同發展的視角進行分析。本調查相關的一個定期維護的項目可以在 //github.com/modelscope/data-juicer/blob/main/docs/awesome llm data.md 訪問。
近年來,大型語言模型(LLM)在廣泛的任務中展示了令人印象深刻的性能,并且相關技術取得了顯著的進展。由于人類的感官不僅限于文本模態,多模態LLM(MLLM)逐漸進入視野,例如能夠處理超越文本模態輸入或輸出的Gemini-1.5 [1] 和 Sora [2],以及能夠在輸入和輸出之間進行多模態交互的GPT-4o [3] 和 NExT-GPT [4]。在過去兩年中,MLLM受到廣泛關注。正如圖1所示,自2023年初以來,與MLLM相關的研究正在以越來越快的速度涌現。 MLLM的卓越性能源于LLM在參數數量擴大帶來的解決一系列任務的突現能力[5]。許多研究表明,擴大模型規模需要更加海量的數據來補充[6], [7], [8],例如擴展法則[9], [10]。具體而言,研究表明,多模態模型需要指數級更多的數據才能在下游任務中實現線性零樣本改進[11]。鑒于此,一系列工作將重點從僅僅關注模型架構和訓練技術轉移到數據中心方法,專注于高質量數據的策劃[12], [13], [14], [15], [16], [17],以提供進一步釋放大型模型潛力的數據基礎。從圖1可以看出,在現有關注MLLM的論文中,與數據中心方法密切相關的論文也表現出強勁的增長趨勢,并占據了重要的部分。 隨著與MLLM相關的大量技術工作不斷涌現,一些針對MLLM的綜述也逐漸出現[18], [19], [20], [21], [22], [23], [24], [25], [26], [27], [28], [29], [30], [31], [32], [33], [34]。這些綜述主要從模型中心的角度進行,而數據的重要性需要進一步強調。一項最近的綜述將數據中心的視角從單模態擴展到多模態,重點關注現有的數據中心方法,并根據所提出的數據管道階段進行組織[35]。實際上,數據和模型的發展是交織在一起的,而不是分開的。更大數量和更高質量的數據提高了模型性能,而從高質量數據中受益的良好訓練的模型可以進一步改進數據。這減少了人工成本,擴大了數據量,并通過使用需要標注的分割掩碼進行訓練的Segment Anything模型(SAM)[36]的訓練成功展示了這一點。隨著SAM在訓練中的熟練程度提高,它逐漸取代人在標注任務中的角色,從而形成一個改進模型和數據集的循環。這樣的漸進和良性循環促進了MLLM的發展,即受益于高質量數據集的MLLM可以幫助改進訓練數據,反過來進一步增強MLLM。 數據-模型共同發展范式很有前途,但尚未得到充分研究。根據我們的調查,目前還缺乏從數據-模型共同發展視角對MLLM的綜述。現有綜述尚未建立數據中心方法與MLLM能力之間的關系,也沒有清晰闡明MLLM的能力如何幫助構建數據集。實現MLLM數據-模型共同發展的關鍵在于闡明哪些數據方法可以增強每種特定的MLLM能力,以及了解模型可以扮演的角色,以改進多模態數據。因此,本綜述旨在通過綜合回顧回答以下研究問題,推進MLLM的數據-模型共同發展: * RQ1:在MLLM的生命周期中,哪些數據中心方法可以在哪個階段用于增強哪些MLLM能力? * RQ2:模型可以扮演哪些角色以促進不同的數據中心方法,并在每種情況下利用模型的哪些特定能力?
為了回答這兩個關鍵研究問題,我們首先提出一個基于MLLM數據-模型共同發展范式的新分類法。我們將先前的努力分為兩個主要類型:數據對模型的貢獻和模型對數據的互惠貢獻,建立其在MLLM能力中的深層連接。隨后,我們從數據-模型共同發展的視角對現有MLLM工作進行全面審查,揭示了推進數據-模型共同發展范式的巨大潛力,主要歸因于缺乏對數據和模型之間協同作用的專注。基于獲得的見解,我們描繪了若干進步的未來方向,以更好地利用數據和模型之間的互補,從基礎設施到各種自我增強程度的數據-模型共同發展。該綜述的主要貢獻有三點: * MLLM開發的新視角:我們提出了一種新分類法,強調多模態數據與MLLM之間的協同作用,旨在理解和挖掘數據和模型開發的互惠優勢。該分類法系統地基于開發MLLM所需的數據相關技術的層次結構進行組織,為研究人員和開發人員提供了推進MLLM的清晰視角。 * 從數據-模型共同發展視角對MLLM的最新綜述:我們系統地回顧了快速增長的MLLM工作,闡明1)哪些MLLM能力可以通過特定的數據中心方法增強,2)經過良好訓練的模型的能力如何反過來支持數據中心方法。據我們所知,這是第一篇從數據-模型共同發展視角對MLLM進行綜述的論文。 * MLLM未來的路線圖:我們提供了一個進步組織的路線圖,涵蓋若干先進和有前途的子方向,重點關注數據和MLLM之間的內部互動。通過這項工作,我們希望為學術研究人員和工業從業者在MLLM不斷發展的領域提供靈感和指導。
組織結構。本文余下部分的組織如下。第二節提供了背景,包括背景知識、分類法以及與現有相關綜述的定性比較。第三節介紹了擴展MLLM的數據中心方法。第四節總結了提高MLLM可用性的數據中心方法。第五節描述了模型直接幫助策劃MLLM數據集的能力。第六節整理了模型作為數據科學家輔助策劃MLLM數據集的應用。第七節列出了一些公開的MLLM數據集,并標明模型在數據策劃中的參與。第八節討論了MLLM未來發展的路線圖。
視覺與語言導航(VLN)近年來受到越來越多的關注,許多方法已經涌現出來以推動其發展。基礎模型的顯著成就已經塑造了VLN研究的挑戰和提出的方法。在本綜述中,我們提供了一種自上而下的審視方法,采用了一種原則性框架進行具身規劃和推理,并強調了利用基礎模型應對VLN挑戰的當前方法和未來機會。我們希望通過深入的討論提供有價值的資源和見解:一方面,用以標記進展里程碑,探索基礎模型在該領域的機會和潛在作用;另一方面,為基礎模型研究者整理VLN中的各種挑戰和解決方案。
開發能夠與人類及其周圍環境互動的具身代理是人工智能(AI)的長期目標之一(Nguyen et al., 2021; Duan et al., 2022)。這些AI系統在實際應用中具有巨大的潛力,可以作為多功能助手在日常生活中發揮作用,如家庭機器人(Szot et al., 2021)、自動駕駛汽車(Hu et al., 2023)和個人助理(Chu et al., 2023)。一個推進這一研究方向的正式問題設置是視覺與語言導航(VLN)(Anderson et al., 2018),這是一項多模態和協作任務,要求代理根據人類指令探索三維環境,并在各種模糊情況下進行在場通信。多年來,VLN在仿真環境(Chang et al., 2017; Savva et al., 2019; Xia et al., 2018)和實際環境(Mirowski et al., 2018; Banerjee et al., 2021)中都進行了探索,產生了許多基準測試(Anderson et al., 2018; Ku et al., 2020; Krantz et al., 2020),每個基準測試都提出了稍有不同的問題表述。
近年來,基礎模型(Bommasani et al., 2021)從早期的預訓練模型如BERT(Kenton and Toutanova, 2019)到當代的大型語言模型(LLMs)和視覺語言模型(VLMs)(Achiam et al., 2023; Radford et al., 2021)展現出了在多模態理解、推理和跨領域泛化方面的非凡能力。這些模型在海量數據上進行了預訓練,如文本、圖像、音頻和視頻,并可以進一步適應廣泛的具體應用,包括具身AI任務(Xu et al., 2024)。將這些基礎模型整合到VLN任務中標志著具身AI研究的一個關鍵進展,表現出顯著的性能提升(Chen et al., 2021b; Wang et al., 2023f; Zhou et al., 2024a)。基礎模型還為VLN領域帶來了新的機會,例如從多模態注意力學習和策略政策學習擴展到預訓練通用的視覺和語言表征,從而實現任務規劃、常識推理以及泛化到現實環境。
盡管基礎模型對VLN研究產生了最近的影響,以往關于VLN的綜述(Gu et al., 2022; Park and Kim, 2023; Wu et al., 2024)來自基礎模型時代之前,主要關注VLN基準測試和傳統方法,即缺少利用基礎模型解決VLN挑戰的現有方法和機會的全面概述。特別是隨著LLMs的出現,據我們所知,尚未有綜述討論它們在VLN任務中的應用。此外,與以前將VLN任務視為孤立的下游任務的努力不同,本綜述的目標有兩個:首先,標記進展里程碑,探索基礎模型在該領域的機會和潛在作用;其次,在系統框架內為基礎模型研究者組織VLN中的不同挑戰和解決方案。為建立這種聯系,我們采用LAW框架(Hu and Shu, 2023),其中基礎模型作為世界模型和代理模型的骨干。該框架提供了基礎模型中推理和規劃的一般景觀,并與VLN的核心挑戰緊密相關。
具體而言,在每一步導航中,AI代理感知視覺環境,接收來自人類的語言指令,并基于其對世界和人類的表征進行推理,以規劃行動并高效完成導航任務。如圖1所示,世界模型是代理理解周圍外部環境以及其行動如何改變世界狀態的抽象(Ha and Schmidhuber, 2018; Koh et al., 2021)。該模型是一個更廣泛的代理模型的一部分,該代理模型還包含一個人類模型,該模型解釋其人類伙伴的指令,從而告知代理的目標(Andreas, 2022; Ma et al., 2023)。為了回顧VLN領域不斷增長的工作并理解所取得的里程碑,我們采用自上而下的方法進行綜述,重點關注從三個角度出發的基本挑戰:
我們在圖2中展示了一個分層和細粒度的分類法,基于基礎模型討論每個模型的挑戰、解決方案和未來方向。為了組織本綜述,我們首先簡要概述該領域的背景和相關研究工作以及可用的基準測試(第2節)。我們圍繞提出的方法如何解決上述三個關鍵挑戰進行結構化審查:世界模型(第3節)、人類模型(第4節)和VLN代理(第5節)。最后,我們討論了當前的挑戰和未來的研究機會,特別是在基礎模型興起的背景下(第6節)。
一個典型的視覺與語言導航(VLN)代理在指定位置接收來自人類指令者的(一系列)語言指令。代理使用以自我為中心的視覺視角在環境中導航。通過遵循指令,代理的任務是在一系列離散視圖或較低級別的動作和控制(例如,前進0.25米)上生成軌跡,以到達目的地。如果代理到達距離目的地指定距離(例如3米)以內的位置,則任務被認為成功。此外,代理可以在導航過程中與指令者交換信息,可以請求幫助或進行自由形式的語言交流。此外,人們對VLN代理集成額外任務(如操作任務(Shridhar et al., 2020)和物體檢測(Qi et al., 2020b))的期望也在不斷增加。
如表1所示,現有的VLN基準測試可以根據幾個關鍵方面進行分類:(1)導航發生的世界,包括領域(室內或室外)和環境的具體情況。(2)涉及的人機交互類型,包括交互回合(單次或多次)、通信格式(自由對話、限制對話或多重指令)和語言粒度(動作導向或目標導向)。(3)VLN代理,包括其類型(如家庭機器人、自動駕駛車輛或自主飛行器)、動作空間(基于圖形、離散或連續)和額外任務(操作和物體檢測)。(4)數據集的收集,包括文本收集方法(人類生成或模板化)和路徑演示(人類執行或規劃生成)。有代表性的是,Anderson等人(2018)基于Matterport3D模擬器(Chang et al., 2017)創建了Room-to-Room(R2R)數據集,代理需要遵循精細的導航指令到達目標。Room-across-Room(RxR)(Ku et al., 2020)是一個多語言版本,包括英語、印地語和泰盧固語指令。它提供了更大的樣本量,并為虛擬姿態提供了時間對齊的指令,豐富了任務的語言和空間信息。Matterport3D允許VLN代理在離散環境中操作,并依賴預定義的連接圖進行導航,代理通過在相鄰節點之間的傳送在圖上移動,被稱為VLN-DE。為了使簡化的設置更現實,Krantz等人(2020)、Li等人(2022c)、Irshad等人(2021)通過將離散的R2R路徑轉移到連續空間(Savva等人,2019)提出了連續環境中的VLN(VLN-CE)。Robo-VLN(Irshad等人,2021)通過引入在機器人環境中更現實的連續動作空間的VLN,進一步縮小了模擬到現實的差距。最近的VLN基準測試經歷了幾次設計變更和期望,我們在第6節中討論這些變更。
三種主要指標用于評估導航路徑規劃性能(Anderson等人,2018):(1)導航誤差(NE),代理最終位置與目標位置之間最短路徑距離的平均值;(2)成功率(SR),最終位置足夠接近目標位置的百分比;(3)成功率加權路徑長度(SPL),通過軌跡長度標準化成功率。一些其他指標用于衡量指令遵循的忠實度和預測軌跡與真實軌跡之間的一致性,例如:(4)按長度加權的覆蓋得分(CLS)(Jain等人,2019);(5)歸一化動態時間規整(nDTW)(Ilharco等人,2019),對偏離真實軌跡的情況進行懲罰;以及(6)按成功率加權的歸一化動態時間規整(sDTW)(Ilharco等人,2019),對偏離真實軌跡的情況進行懲罰,并考慮成功率。
隨著大型語言模型(LLM)發展的日益普及,吸引了大量關注,各種應用領域的模型不斷涌現。然而,將大型語言模型與語義技術相結合以進行推理和推斷仍然是一項具有挑戰性的任務。本文分析了當前在基礎LLM方面的進展,如ChatGPT,如何與專用預訓練模型,如REBEL,進行比較,以實現實體和關系的聯合提取。為了評估這種方法,我們使用與可持續性相關的文本作為案例,進行了多個實驗。我們創建了從原始文本自動生成知識圖譜的流程,并發現使用先進的LLM模型可以提高從非結構化文本創建這些圖譜的過程的準確性。此外,我們還探討了使用基礎LLM模型進行自動本體創建的潛力,從而生成更相關且準確的知識圖譜。本節描述了本研究中使用的方法,包括數據收集過程以及用于分析收集到的數據的實體-關系提取算法。
**A. 數據收集過程 **為了對實體-關系提取的兩種方法進行實驗性比較,我們從網絡上收集了有關可持續性主題的新聞數據。為此,我們使用了News API [21]系統。News API是一個HTTP REST API,用于從網絡上搜索和檢索實時文章。它提供了通過指定以下選項在網絡上發布的文章中進行搜索的功能:關鍵詞或短語、發布日期、來源域名和語言。通過使用News API,我們收集了2023-02-15至2023-03-19關于可持續性主題的94篇新聞文章。收集到的文本包含各種字數,從50個到超過4200個不等。由于輸入到語言模型中的令牌數量受到限制,因此需要進行額外的預處理步驟來處理包含大量單詞的文本。
**B. 關系提取方法 **關系提取是自然語言處理(NLP)中的一項基本任務,旨在識別句子或文檔中實體之間的語義關系。這項任務具有挑戰性,因為它需要理解實體出現的上下文以及它們之間存在的關系類型。在本小節中,我們將介紹如何利用REBEL和ChatGPT進行關系提取任務。1) REBEL:我們首先嘗試使用REBEL從非結構化新聞文章中提取關系。為了讓REBEL能夠使用提供的文本,需要使用相應的分詞器功能對其進行分詞。分詞是將原始文本分割成稱為令牌的較小單位的過程。令牌可以是單詞、字符或子詞。模型對令牌的限制為512個令牌,這意味著在將較長的收集到的文章發送到模型進行三元組提取之前,需要對其進行預處理。為了解決這個限制,我們將原始文本進行分詞,并將令牌劃分為256個令牌的批次。這些批次分別由REBEL模型處理,然后合并結果以提取較長文本的關系。還向提取的關系添加元數據,引用生成關系的令牌批次。采用這種方法,由于令牌批次可能在句子的中間開始或結束,某些關系可能無法準確提取。然而,這種情況發生的次數微乎其微。因此,我們將其處理留給未來的工作。實體-關系提取過程完成后,提取的信息存儲在三元組結構中。為了進一步規范提取的實體,我們執行實體鏈接[22]。實體鏈接是指將原始文本中提到的實體與知識庫中相應實體進行識別和關聯的過程。實體鏈接過程不屬于REBEL模型的一部分,它是用于優化提取關系的額外后處理步驟。在本研究中,我們使用DBpedia作為知識庫,并認為如果兩個實體具有相同的DBpedia URL,則它們是相同的。這方法不適用于DBpedia上不存在的實體。
大型的、預訓練的基于Transformer的語言模型,如BERT,已經極大地改變了自然語言處理(NLP)領域。我們對最近的研究進行了調研,這些研究使用了大型語言模型來解決NLP任務,通過預訓練、微調、提示或文本生成方法。我們還提出了使用預訓練語言模型生成數據的方法,用于訓練增強或其他目的。最后,我們討論了局限性,并提出了未來研究的方向。
引言
近年來,大型預訓練的基于Transformer的語言模型(PLMs),如BERT (Devlin et al., 2019)和GPT (Radford et al., 2018)系列模型席卷了自然語言處理(NLP),在許多任務中實現了最先進的性能。
這些大型PLM推動了NLP的范式轉變。以分類任務p(y|x)(將文本輸入x分類為標簽y)為例:傳統統計NLP方法通常設計手工特征來表示x,然后應用機器學習模型(如SVM (Cortes and Vapnik, 1995)、邏輯回歸)來學習分類函數。深度學習模型通過深度神經網絡(LeCun et al., 2015)。注意,每個新的NLP任務都需要重新學習潛在特征表示,而且在許多情況下,訓練數據的大小限制了潛在特征表示的質量。考慮到語言的細微差別對所有NLP任務來說都是共同的,我們可以假設我們可以從一些通用任務中學習一個通用的潛在特征表示,然后在所有NLP任務中共享它。語言建模需要學習如何在給定前一個單詞的情況下預測下一個單詞,這是一項具有大量自然出現的文本的通用任務,可以預訓練這樣一個模型(因此得名預訓練語言模型)。事實上,最新的、正在進行的范式轉換從引入PLMs開始: 對于大量的NLP任務,研究人員現在來利用現有的PLMs通過對感興趣的任務進行微調,提示PLMs執行期望的任務,或者將任務重新構造為文本生成問題,并應用PLMs來解決相應的問題。這三種基于PLM的范式的進步不斷地建立了新的最先進的性能。
本文調研了最近利用PLM進行NLP的工作。我們將這些工作組織成以下三種范式:
先進行預訓練,然后進行微調(§2): 先對大量未標記語料庫進行通用預訓練,然后對感興趣的任務進行少量的任務特定微調。
基于提示的學習(§3):提示一個PLM,這樣解決NLP任務就會減少到類似于PLM的訓練前任務(如預測一個遺漏的單詞),或一個更簡單的代理任務(如文本包含)。提示通常可以更有效地利用PLM中編碼的知識,從而產生“少樣本”的方法。
NLP作為文本生成(§4): 將NLP任務重新定義為文本生成,以充分利用生成語言模型(如GPT-2 (Radford et al., 2019)和T5 (Raffel et al., 2020)中編碼的知識。
生成式PLMs也可以用于文本生成任務。我們向讀者推薦關于文本生成的優秀調研,如Li et al. (2021b) 和Yu et al. (2021b)。除非另有說明,本文主要關注非生成性任務(如分類、序列標注和結構預測),這些任務仍然涵蓋廣泛的NLP任務,包括文本的語法或語義解析、信息抽取(IE)、問答(QA)、文本蘊涵(TE)、情感分析、等等。除了這三種范式之外,還有另一種互補的方法:間接使用上述任何一種PLM范式來改善目標NLP任務的結果:
數據生成(§5): 運行PLM自動生成NLP任務的數據。生成的數據可以是銀色標記的數據,通常生成的PLM是針對任務進行微調的,或者是一些輔助數據,如反例、澄清、上下文或其他。在第一種情況下,銀色標記數據可以添加到現有的標記數據中。在第二種情況下,輔助數據以某種方式支持目標任務。
論文組織如下: 第2節提供了PLM的背景,并描述了第一種范式,即預訓練然后微調。第三節討論第二種范式,即基于提示的學習。第4節總結了第三種范式,即作為文本生成的NLP。在第5節中,我們將描述通過PLM為廣泛的NLP任務生成數據的方法。我們將在第6節討論局限性并提供未來研究的方向,并在第7節進行總結。
范式1: 先訓練,然后微調
傳統統計NLP的工作重點是在標記數據集上訓練特定任務的模型,而這種模式轉變為在一個共享的、“基本”的預訓練任務上訓練一個大型模型,然后在第二步中將其調整(“微調”)到各種任務。預訓練任務幾乎總是一種語言建模任務,它可以利用大量的未標記數據來學習有利于一系列NLP任務的表示(Rogers et al., 2020)。在本節中,我們首先提供關于預訓練的大型語言模型(PLMs)的入門知識,然后描述使用凍結或微調PLM進行NLP任務的方法。
范式2: 基于提示的學習
我們使用提示指的是在輸入或輸出中添加自然語言文本(通常是短語)的做法,以鼓勵預訓練的模型執行特定任務(Yuan et al., 2021)。使用提示符有幾個優點。提示,特別是上下文學習(例如Brown et al., 2020),可能不需要更新PLM的參數,與微調方法相比,或在2.4.4中描述的基礎上,減少了計算需求。提示還能促使新任務的制定與預訓練的目標更好地結合,從而更好地利用預訓練獲得的知識。更緊密的匹配還支持少樣本方法(Liu et al., 2021b),特別是對于具有小訓練數據集的任務;一個好的提示可以值幾百個標簽數據點(Le Scao and Rush, 2021)。最后,提示允許以一種不受監督的方式探索PLM,以評估PLM對特定任務所獲得的知識(如Petroni et al., 2019)。
下面我們討論三種基于提示的學習方法:從指令和演示中學習、基于模板的學習和從代理任務中學習。圖3顯示了這三種方法的說明。
范式3 NLP即文本生成
基于生成式Transformer的PLMs10(如GPT、BART和T5)的成功,最近激發了人們對利用生成式PLM解決各種非生成式NLP任務的興趣。這些任務包括但不限于傳統的判別任務,如分類和結構預測。例如,圖4說明了Raffel等人(2020)所描述的這種“文本到文本”方法。與傳統的NLP任務判別模型不同,這些任務被重新表述為文本生成問題,從而可以直接用生成式PLM解決。生成的輸出序列通常包括給定任務所需的標簽或其他輔助信息,從而能夠準確地重構預期的類標簽(即避免映射中的歧義),并促進生成/解碼過程(即為預測提供足夠的上下文)。
總結
在這篇文章中,我們介紹了三種使用預訓練語言模型進行自然語言處理的趨勢。我們對每一種方法都進行了深入的描述,并對其應用前景進行了總結。此外,我們還描述了使用預先訓練過的語言模型來自動生成用于提高NLP任務性能的數據。我們希望這一調研將為讀者提供關鍵的基本概念和對范式轉變的全面看法。
摘要
利用面向可視化的自然語言界面(V-NLI)作為直接操作可視化分析的補充輸入方式,可以提供吸引人的用戶體驗。它使用戶能夠專注于他們的任務,而不是擔心操作可視化工具的界面。在過去的二十年中,特別是最近幾年,利用先進的自然語言處理技術,許多V-NLI系統在學術研究和商業軟件中得到了開發。在本文中,我們對現有的V-NLIs進行了全面的回顧。為了對每篇論文進行分類,我們在經典的信息可視化管道的基礎上,擴展了V-NLI層,開發了分類維度。使用了以下七個階段: 查詢理解、數據轉換、可視化映射、視圖轉換、人工交互、上下文管理和表示。最后,我們還闡明了未來社區工作的幾個有前途的方向。
引言
交互式可視化在數據分析領域變得越來越流行。作為分析套件的一個常見組成部分,Windows、圖標、菜單和指針(WIMP)界面被廣泛應用于當前的實踐中,以促進交互式可視化分析。然而,這種交互模式在可視化工具中呈現出陡峭的學習曲線,因為它要求用戶將其分析意圖轉化為特定工具的操作[127],如圖1的上半部分所示。
多年來,自然語言處理(Natural Language Processing, NLP)技術的快速發展為探索基于自然語言的數據可視化交互范式[18][277]提供了巨大的機遇。在高級NLP工具包[1],[3],[21],[83],[156]的幫助下,面向可視化的自然語言界面(V-NLI)最近作為傳統WIMP交互的補充輸入方式出現了,它支持根據用戶的NL查詢生成可視化。V-NLI的出現,極大地提高了可視化工具的可用性:(a)便捷、新手友好。自然語言是公眾掌握的一種技能。通過利用自然語言與計算機交互,V-NLI向用戶關閉特定于工具的操作,如圖1所示,為新手提供了方便的分析流程。(b)直觀有效。人們一致認為,當用戶能夠專注于他們的數據而不是分析工具的界面操作時,可視化分析是最有效的[85]。在V-NLI的幫助下,用戶可以用自己的語言表達自己的分析任務。(c)人文關懷。如今,我們獲取的大量信息都是通過視覺手段獲得的。V-NLI是一種創新的非視覺訪問方式,促進了盲人和低視力(BLV)人群的參與。
V-NLI的時間線如圖2所示。早在2001年,Cox等人[41]提出了用于可視化的NLI的初始原型,該原型只能接受結構良好的查詢。大約十年后,清晰地[241]引入了一個兩步過程,從NL查詢創建可視化。它首先提取用戶的分析任務和數據屬性,然后根據這些信息自動確定適當的可視化。雖然早期的研究是一個有希望的開始,但由于自然語言還不是一種普遍的交互方式,VNLI系統被限制在簡單的原型。然而,自從蘋果將Siri[221]集成到iPhone之后,NLIs開始受到更多的關注。2013年前后,單詞嵌入技術的出現[162]推動了神經網絡用于自然語言處理的發展,從而重新燃起了V-NLI的商業興趣。IBM在2014年首次發布了基于nl的認知服務Watson Analytics[4]。微軟Power BI的Q&A[5]和Tableau的Ask數據[2]分別于2018年和2019年發布,提供了自動補全、未指定語句推理等多種功能。DataTone[64]首先引入了歧義小部件來管理查詢中的歧義,而Eviza[207]則探索了分析性對話。經過幾年的技術積累,近五年出現了V-NLI的爆發(每年發表論文數見圖2)。隨著硬件設備的發展,協同多模態可視化界面獲得了顯著的興趣。Orko[234]是第一個在平板設備上結合觸摸和語音輸入的系統,Data@Hand[278]專注于智能手機。InChorus[229]將筆作為第三種形式來實現一致的互動體驗。經過訓練的語言模型在2018年以來的各種NLP任務中獲得了最新的研究結果,這為V-NLI[51],[181]提供了極大的提高智能的機會。Quda[62]和NLV[231]貢獻了用于可視化數據分析的NL查詢數據集,nvBench產生了第一個V-NLI基準[150]。ADVISor[142]和ncNet[149]是基于深度學習的V-NLI解決方案。除了數據探索,FlowSense[280]還使用V-NLI增強了基于數據流的可視化系統。NL4DV[174]工具包可以很容易地集成到現有的可視化系統中,以提供V-NLI服務。
關于V-NLI的研究文獻正在迅速發展,涉及可視化(VIS)、人機交互(HCI)、自然語言處理(NLP)和數據挖掘與管理(DMM)等方面。因此,越來越需要更好地組織研究景觀,對當前工作進行分類,確定知識差距,并幫助對這一日益增長的領域不熟悉的人理解社區中的挑戰和微妙之處。為此目的,以前曾作出幾次努力總結這方面的進展。例如,Srinivasan和Stasko (EuroVis 2017[233]的短論文)對5個現有的V-NLI系統進行了簡單的調研,基于它們允許用戶執行的任務進行了比較和對比。他們(CGA 2020期刊論文[235])進一步強調了評估V-NLI的關鍵挑戰,并討論了三種流行的任務框架策略在應用時的好處和考慮。雖然這兩項綜述可以為后續研究提供有價值的指導,但隨著近年來V-NLI的爆發,仍有相當多的新工作需要報道,細節有待討論。就我們所知,本文是對V-NLI進行系統全面回顧的第一步。
//ruder.io/recent-advances-lm-fine-tuning/index.html
在過去的三年里, fine-tuning的方法已經取代了從預訓練embedding做特征提取的方法,而預訓練語言模型由于其訓練效率和出色的性能受到各種任務的青睞,如機器翻譯,自然語言推理等,在這些方法上的成功經驗也導致了后來像BERT,T5這樣更大模型的出現。最近,如GPT-3這樣的模型,數據規模實際上已經大到在不需要任何參數更新的情況下也可以取得非常優異的性能。然而,這種zero-shot場景畢竟存在著一定的限制。為了達到最佳性能或保持效率,在使用大型的預訓練語言模型時,fine-tuning依然會作為主流方法而繼續存在。
如下圖,在標準的遷移學習場景中,首先在大規模無監督數據上使用建模語言特征的loss(如MLM)對一個模型做預訓練,然后在下游任務的有標簽數據上使用標準的cross-entropy loss對預訓練模型做fine-tuning。
標準的pre-train —— fine-tuning 場景
雖然預訓練依賴于大量的計算資源,但是fine-tuning只需要使用少量計算資源。因此,在對語言模型的實際使用中,fine-tuning就顯得更為重要,例如,Hugging Face的模型庫截至目前就已經被下載使用了數百萬次之多。基于此,fine-tuning將是本文的講述重點,尤其將重點介紹可能會影響我們fine-tune模型方式的一些近期進展。本文將分類介紹幾種fine-tuning方法,如下圖所示: