大型語言模型(LLMs)在推理能力上取得了顯著進展,特別是在推理階段通過擴展規模(如OpenAI的o1模型)體現了這一點。然而,當前的視覺語言模型(Vision-Language Models, VLMs)在進行系統化和結構化推理方面往往表現不足,尤其是在處理復雜的視覺問答任務時。在本研究中,我們提出了一種新穎的視覺語言模型 LLaVA-o1,該模型旨在實現自主的多階段推理能力。與傳統的鏈式思維(Chain-of-Thought)提示不同,LLaVA-o1能夠獨立執行一系列有序的階段,包括摘要、視覺解釋、邏輯推理以及結論生成。這種結構化的方法使得LLaVA-o1在推理密集型任務的精確性上實現了顯著提升。 為實現這一目標,我們構建了 LLaVA-o1-100k 數據集,整合了來自多種視覺問答來源的樣本,并提供了結構化推理標注。此外,我們提出了一種推理階段級的束搜索(beam search)方法,用于在推理階段實現高效的規模擴展。令人矚目的是,僅使用10萬條訓練樣本和簡單但有效的推理擴展方法,LLaVA-o1不僅在多模態推理基準測試中超越了其基礎模型 8.9% 的表現,還超越了包括 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct 等更大規模甚至閉源的模型。
大型語言模型(LLMs),如 OpenAI 的 o1 [63],在系統化和深入推理方面展現了強大的能力,驗證了推理階段擴展對語言模型的有效性 [47]。然而,視覺能力對于使模型全面理解世界并擴展其認知能力同樣重要 [6]。因此,開發一種能夠集成語言與視覺,并支持高效、系統化和深度推理的多模態模型具有重要意義。 早期的開源視覺語言模型(VLMs)主要采用直接預測的方法 [21, 30, 32],即在接收到問題后直接生成簡短的答案。這種直接響應范式的主要局限在于缺乏結構化的推理過程,使其在需要邏輯推理的任務中表現欠佳 [62]。最近的研究表明,結合鏈式思維(Chain-of-Thought, CoT)推理可以促進模型逐步推理,從而顯著提升問答能力 [52]。然而,即使使用 CoT 推理,大多數 VLMs 在推理過程中仍然頻繁地產生錯誤或幻覺式輸出 [24, 31, 50]。 我們的研究發現,這些問題的主要原因在于現有 VLMs 推理過程的系統性和結構化不足。具體來說,系統性指的是模型不僅需要生成直接的推理鏈,還需要通過多階段推理完成任務。結構化則指模型能夠清晰地識別其當前所處的推理階段,并理解每個階段的主要任務。然而,現有的 VLMs 通常在響應時未能充分組織問題和現有信息,并且經常在推理過程中偏離邏輯路徑,直接得出結論后再嘗試為其辯解。由于語言模型以逐詞生成響應,一旦引入錯誤的結論,模型通常沿著錯誤的推理路徑繼續下去。 OpenAI 的 o1 [63] 通過讓模型獨立進行系統化和結構化的語言推理,有效解決了這些問題。在此基礎上,我們設計了 LLaVA-o1。盡管社區對 OpenAI o1 的機制進行了初步探索 [42, 54],該模型仍然是一個技術細節未知的“黑箱”。本研究展示了一種通過監督微調增強模型逐步推理能力的潛在方法。具體來說,LLaVA-o1 能夠生成四個明確階段:摘要、描述、推理和結論,每個階段在推理過程中都有其獨特的作用: * 摘要:簡要概述模型需要完成的任務。 * 描述:對圖像中與問題相關的部分進行描述(如果存在圖像)。 * 推理:對問題進行系統化和詳細的分析。 * 結論:基于前述推理生成最終的簡要答案。
為了加強對 CoT 過程的理解,LLaVA-o1 在每個階段添加了專用標簽(如 <SUMMARY>...</SUMMARY>
)來標記每個階段的起點和終點。這種標注使模型在推理過程中保持清晰,與傳統 CoT 推理允許模型自由思考不同,我們的方法促進了結構化思考,先組織問題和已知信息,再進行詳細的推理過程,最后得出結論。為實現這一目標,我們利用 GPT-4o [3] 逐階段生成響應,構建了 LLaVA-o1-100k 數據集,并通過監督微調對模型進行訓練。 LLaVA-o1 的結構化推理還支持高效的推理階段擴展。與傳統的擴展方法(如最佳 N 采樣 [4, 51] 和句子級束搜索 [16, 49])相比,LLaVA-o1 使用了一種新穎的階段級束搜索方法,能夠在每個推理階段生成多個候選結果,并選擇最佳結果繼續生成過程。 我們在多個多模態推理基準上進行了實驗,包括 MMStar [9]、MMBench [33]、MMVet [60]、MathVista [35]、AI2D [23] 和 HallusionBench [17],觀察到 LLaVA-o1 的兩個主要優勢: 1. 通過結構化推理使模型能夠獨立完成推理任務,在需要系統化分析的復雜推理任務中顯著優于傳統的 CoT 提示。 1. 我們的階段級束搜索方法具有可擴展性,能夠提高性能的穩定性和可靠性,使其在復雜任務和場景中更有效地實現準確的結果。
我們提出了 LLaVA-o1,一種專為系統化推理設計的視覺語言模型,在需要結構化思考和推理的任務中表現出色。 * 我們展示了 LLaVA-o1 使用階段級束搜索實現推理階段擴展的能力,這意味著在增加計算資源的情況下,我們的方法性能可進一步提升,適用于更復雜的任務和場景。 * 通過在多個基準上的廣泛實驗,我們的方法表現出優于更大規模和閉源模型的性能,突顯了 LLaVA-o1 在多模態推理中的有效性。
我們的 LLaVA-o1 模型通過漸進式、逐步推理流程提升視覺語言模型(Vision-Language Models, VLMs)的推理能力,同時支持高效的推理階段擴展 [47]。通過結構化的思維方式,LLaVA-o1 實現了系統化且高效的推理流程,其推理框架在推理階段擴展性上優于現有方法。此設計確保了在需要復雜推理的任務中,模型能夠兼顧魯棒性與準確性,從而區別于傳統方法。圖 1 展示了我們的推理過程框架。
在訓練階段,我們的目標是開發一個能夠進行延伸推理鏈的視覺語言模型,使其能夠進行系統化且深入的推理。2.1.1 推理階段
我們提出的 LLaVA-o1 模型將答案生成過程分解為四個結構化的推理階段: * 摘要階段(Summary Stage):在初始階段,LLaVA-o1 提供對問題的高層次總結解釋,概述它要解決的問題的主要方面。 * 描述階段(Caption Stage):如果問題涉及圖像,LLaVA-o1 會對與問題相關的視覺元素進行簡要描述,以幫助理解多模態輸入。 * 推理階段(Reasoning Stage):基于前述的摘要,LLaVA-o1 進行結構化的邏輯推理以得出初步答案。 * 結論階段(Conclusion Stage):在最終階段,LLaVA-o1 基于之前的推理合成答案。
在上述階段中,結論階段的輸出是直接提供給用戶的答案,而前三個階段是模型內部的“隱藏階段”,代表其推理過程。根據用戶需求,結論階段的輸出可以適配為簡潔或詳細的答案。 模型在無需外部提示工程的情況下自主激活每個階段。具體來說,我們為模型提供了四對專用標簽:
由于現有的視覺問答(VQA)數據集缺乏訓練 LLaVA-o1 所需的詳細推理過程,我們整合了多個常用的 VQA 數據集,編制了一個包含 99k 圖像問答對的新數據集(每對可能包括一個或多個輪次的問題)。如圖 3 所示,由于目前沒有能夠直接生成系統化、結構化推理的多模態模型,我們使用 GPT-4o [3] 生成詳細的推理過程,包括摘要、描述、推理和結論,并將這些數據整合到 LLaVA-o1-100k 數據集中(計劃公開發布)。 我們整合了以下兩類數據來源: * 通用 VQA 數據集:包括 ShareGPT4V [8](多輪問答數據)、ChartQA [38](圖表和圖形解釋)、A-OKVQA [45](超越可見內容的外部知識)、DocVQA [39](基于文檔的問題)、PISC [28](社會關系理解)以及 CLEVR [22](物體屬性、空間關系和計數任務)。 * 科學領域 VQA 數據集:包括 GeoQA+ [7](幾何推理)、AI2D [23] 和 ScienceQA [34](科學問題),以及專注于視覺上下文算術分析的 CLEVR-Math [13]。
模型訓練:我們使用 LLaVA-o1-100k 數據集對現有模型進行監督微調(SFT),以增強推理能力。本研究選用 Llama-3.2-11B-Vision-Instruct [40] 作為基礎模型,在單節點 8 張 H100 GPU 上進行全參數微調。
在推理階段,我們旨在進一步提升模型的推理能力。具體來說,我們利用 LLaVA-o1 的階段輸出特性,為推理階段擴展提供理想的粒度。方法如下: 1. 為第一階段生成 N 個響應樣本。 1. 隨機選擇兩個響應樣本,并讓模型判斷哪一個更優,保留更優響應。 1. 重復 N?1 次,保留最優響應。 1. 對下一階段生成 N 個響應,并重復步驟 2-4,直至完成所有階段。
LLaVA-o1 的結構化輸出設計使該方法成為可能,支持每個階段的高效驗證,從而驗證結構化輸出在改進推理階段擴展中的有效性。如圖 4 所示,展示了三種擴展方法的對比。 示例分析:在圖 5 的示例中,當未應用推理階段擴展時,盡管模型生成了正確的推理步驟,但未能在推理過程中得出明確答案,導致結論階段的錯誤結果。相比之下,使用推理階段擴展后,模型保留了通向最終答案的正確推理步驟,從而確保了答案的準確性。
如表 7 所示,我們在六個需要高級推理能力的基準上,將 LLaVA-o1 與其他最先進的開源和閉源視覺語言模型(VLMs)進行了比較。這些基準包括 MMStar-R、MMBench-R、MMVet-R、MathVista、AI2D 和 HallusionBench。其中,MMStar-R、MMBench-R 和 MMVet-R 是從 MMStar、MMBench V1.1 和 MMVet 定制派生的基準,移除了僅需要粗略感知、細粒度感知和 OCR 的任務。這些過濾后的基準保留了需要復雜推理的任務。而 MathVista、AI2D 和 HallusionBench 本身專注于高級推理任務,因此保留了其中的所有任務。
我們的結果顯示,LLaVA-o1 在多個基準上持續超越了許多同等規模甚至更大規模的開源模型,例如: * InternVL2-8B [10] * Ovis1.5-Gemma2-9B [36] * MiniCPM-V2.6-8B [58] * Llama-3.2-90B-Vision-Instruct [40] * VILA-1.5-40B [30]
更值得注意的是,LLaVA-o1 甚至優于某些閉源模型,如 GPT-4o-mini [41] 和 Gemini-1.5-pro [43]。這進一步凸顯了我們結構化推理方法的有效性。 這些對比結果驗證了我們方法的優勢,特別是在高度依賴推理能力的基準中,LLaVA-o1 表現出極具競爭力的能力,成為推理密集型 VLM 任務中的領先模型。
本文提出了一種新型的視覺語言模型 LLaVA-o1,其能夠在多個階段內進行結構化、自主推理。通過引入四個明確的推理階段(摘要、描述、推理 和 結論),LLaVA-o1 實現了系統化的推理流程。 我們的貢獻包括以下兩個主要方面: 1. 創建了包含詳細推理標注的 LLaVA-o1-100k 數據集,為系統化、結構化響應的訓練提供支持。 1. 提出了階段級束搜索方法,實現了高效的推理階段擴展。
總體而言,LLaVA-o1 為多模態推理任務中的 VLMs 樹立了新的標準,提供了強大的性能和擴展性,尤其是在推理階段擴展方面。本研究為未來關于 VLMs 結構化推理的研究鋪平了道路,包括潛在的擴展方向,如引入外部驗證器和通過強化學習進一步增強復雜的多模態推理能力。 專知便捷查看,訪問下面網址或點擊最底端“閱讀原文”
//www.zhuanzhi.ai/vip/851bba68378c3cf56ed1826a9d7eae57
點擊“閱讀原文”,查看下載本文
大型語言模型(LLMs)與視覺編碼器的集成最近在視覺理解任務中展示了令人矚目的表現,充分利用了它們理解和生成類人文本以進行視覺推理的固有能力。鑒于視覺數據的多樣性,多模態大型語言模型(MM-LLMs)在理解圖像、短視頻和長視頻時,在模型設計和訓練上表現出不同的變異性。本文重點討論長視頻理解相較于靜態圖像和短視頻理解所帶來的巨大差異和獨特挑戰。與靜態圖像不同,短視頻包含具有空間和事件內時序信息的連續幀,而長視頻則由多個事件組成,涵蓋事件間和長期時序信息。在本次綜述中,我們旨在追蹤并總結從圖像理解到長視頻理解的MM-LLMs進展。我們回顧了各種視覺理解任務的差異,強調了長視頻理解中的挑戰,包括更細粒度的時空細節、動態事件以及長期依賴關系。接著,我們詳細總結了在長視頻理解中MM-LLMs的模型設計和訓練方法的進展。最后,我們比較了現有MM-LLMs在不同長度視頻理解基準測試中的表現,并討論了MM-LLMs在長視頻理解中的未來潛在發展方向。
//www.zhuanzhi.ai/paper/72b285bc61f4bbb1c7ca164cf4d23606
大型語言模型(LLMs)通過擴大模型規模和訓練數據展示了在理解和生成類人文本方面的顯著多功能性和能力(Raffel等, 2020; Brown, 2020; Chowdhery等, 2023; Touvron等, 2023a)。為了將這些能力擴展到視覺理解任務中,已經提出了各種方法將LLMs與特定的視覺模態編碼器相結合,從而賦予LLMs視覺感知能力(Alayrac等, 2022; Li等, 2023a)。單張圖像或多幀被編碼為視覺標記,并與文本標記集成,以幫助多模態大型語言模型(MM-LLMs)實現視覺理解。對于長視頻理解,MM-LLMs(Dai等, 2023; Liu等, 2024c)設計用于處理大量視覺幀和多樣化事件,使其能夠應用于諸如自動分析體育視頻集錦、電影、監控錄像和具身AI中的自我視角視頻等多種現實世界應用。例如,機器人可以通過長時間的自我視角視頻學習如何制作咖啡,它需要分析長視頻中的關鍵事件,包括:1)每6盎司水加入一到兩湯匙咖啡粉;2)向咖啡機的水箱加水;3)將咖啡粉放入過濾籃中;4)啟動咖啡機并等待其煮咖啡。對包含復雜時空細節和依賴關系的長視頻進行建模仍然是一個挑戰性問題(Wang等, 2023a; Mangalam等, 2024; Xu等, 2024b; Wu等, 2024)。 長視頻理解與其他視覺理解任務之間存在顯著差異。相比于靜態圖像理解,它僅關注靜態圖像的空間內容,而短視頻理解還必須考慮事件內跨連續幀變化的時間信息(Li等, 2023b; Zhang等, 2023; Maaz等, 2023)。此外,長視頻(超過一分鐘的)(Wu 和 Krahenbuhl, 2021; Zhang等, 2024d; Song等, 2024a)通常由多個事件組成,場景和視覺內容各異,需要捕捉事件間和長期的變化以實現有效理解。在有限的視覺標記數量下,如何有效平衡空間和時間細節,對長視頻語言模型(LV-LLMs)提出了相當大的挑戰(Song等, 2024a; He等, 2024; Xu等, 2024b)。與僅包含幾十幀的短視頻不同,長視頻往往包含數千幀(Ren等, 2024; Zhang等, 2024d)。因此,LV-LLMs必須能夠記住并不斷學習跨幾分鐘甚至幾小時的視頻中的長期關聯。為了實現對長視頻的全面理解,MM-LLMs在模型設計和訓練方面的進展值得特別關注(Fu等, 2024a; Wu等, 2024)。 我們在圖2中總結了MM-LLMs在圖像、短視頻和長視頻理解中的比較。除了上文討論的長視頻理解與其他視覺理解任務的繼承和發展關系外,LV-LLMs也在多圖像和短視頻MM-LLMs的進展基礎上構建,具有相似的視覺編碼器、LLM主干和跨模態連接器結構。為有效解決長視頻理解任務中新出現的挑戰,LV-LLMs設計了更高效的長視頻級連接器,這些連接器不僅能橋接跨模態表示,還能將視覺標記壓縮到可管理的數量(Li等, 2023c; Zhang等, 2024d)。此外,時間感知模塊通常被引入,以增強LV-LLMs對時間信息的捕捉(Qian等, 2024)。對于預訓練和指令調優,視頻-文本對和視頻指令數據對于MM-LLMs處理具有共享空間感知和推理能力的圖像和視頻至關重要(Li等, 2023b)。長視頻訓練數據集在時間跨模態語義對齊和捕捉長期關聯方面尤為重要,這對LV-LLMs至關重要(Song等, 2024b)。我們的綜述將提供對模型設計和訓練方法進展的全面總結,追蹤MM-LLMs從圖像理解到長視頻理解的演變。 近期關于視覺理解任務的綜述通常采用單一視角,要么從全球視角審視MM-LLMs(Yin等, 2023; Zhang等, 2024a),要么從局部視角聚焦于圖像或視頻理解任務(Zhang等, 2024b; Nguyen等, 2024)。雖然這些工作對研究主題進行了廣泛審查,但它們沒有討論不同任務和方法之間的繼承與發展關系。此外,現有關于視頻理解任務的綜述(Tang等, 2023)更傾向于關注一般的視頻理解,而非更具挑戰性的長視頻理解任務。超過一分鐘的長視頻在教育、娛樂、交通等領域廣泛應用,需要強大的模型來實現全面的自動理解(Apostolidis等, 2021)。我們的工作是最早從發展視角總結和討論長視頻理解任務的研究之一。 本綜述的結構如下:首先,我們發現長視頻理解任務相比于圖像和短視頻理解任務更為復雜(第2.1節),并在第2.2節總結了長視頻理解的獨特挑戰。接下來,我們從模型架構(第3節)和訓練方法(第4節)的角度詳細總結了MM-LLMs的進展,重點關注LV-LLMs在全面長視頻理解中的實現。然后,我們比較了視頻LLMs在從秒到分鐘(第5.1節)以及從分鐘到小時(第5.2節)的視頻理解基準測試中的表現,為LV-LLMs的現有研究成果提供了見解。最后,我們在第6節中討論了長視頻理解領域未來的研究方向,以推進這一研究領域的發展。
由于長視頻理解與圖像或短視頻理解之間的固有差異,包括多幀和動態場景中存在的各種事件,長視頻理解任務在視覺理解方面提出了額外的挑戰。
視覺推理要求模型能夠理解和解釋視覺信息,并將多模態感知與常識性理解相結合(Johnson等, 2017; Chen等, 2024c)。視覺推理任務主要有三種類型:視覺問答(VQA)、視覺字幕生成(VC)或描述(VD),以及視覺對話(VDia)。VQA(Antol等, 2015; Zakari等, 2022)涉及根據輸入的視覺數據和伴隨的問題生成自然語言答案。VC和VD系統(Vinyals等, 2015; Sharma等, 2018; Li等, 2019)分別生成簡潔的自然語言句子以總結視覺數據的主要內容,或生成詳細且全面的視覺數據描述。VDia(Das等, 2017; Qi等, 2020)則涉及圍繞視覺內容進行的多輪對話,由一系列問題-答案對組成。 圖像理解。如圖3(a)所示,圖像理解任務涉及單張圖像的各種視覺推理任務,例如圖像字幕生成和以圖像為中心的問答(Sharma等, 2018; Mathew等, 2021; Changpinyo等, 2022; Li等, 2023a; Chen等, 2024a)。這些任務僅關注空間信息,包括對全局視覺內容的粗粒度理解(Ordonez等, 2011; Sohoni等, 2020)以及對局部視覺細節的精細理解(Wei等, 2021; Liu等, 2024b; Peng等, 2024)。 短視頻理解。與圖像理解任務僅涉及靜態視覺數據不同,短視頻理解還結合了多幀視覺數據中的時間信息(Xu等, 2016; Bain等, 2021; Li等, 2023b, 2024e)。除了空間推理(Ranasinghe等, 2024)外,事件內的時間推理和跨幀的時空推理對于短視頻理解至關重要(Huang等, 2018; Lin等, 2019; Diba等, 2023)。 長視頻理解。長視頻通常跨越數分鐘甚至數小時,通常包含多個事件,與短視頻相比,長視頻涵蓋更豐富的空間內容和時間變化(Mangalam等, 2024; Li等, 2024f; Song等, 2024a,b)。如圖3(c)總結的那樣,長視頻理解不僅涉及空間和事件內的時間推理,還涉及事件間的推理和跨不同視頻事件的長期推理(Wu等, 2019; Wu和Krahenbuhl, 2021; Wang等, 2023a; Zhou等, 2024; Fang等, 2024)。
與圖像和短視頻相比,長視頻帶來了全面視覺理解的新挑戰,具體如下: 豐富的細粒度時空細節。長視頻涵蓋廣泛的主題、場景和活動,包含不同的細節,如物體、事件和屬性(Fu等, 2024a; Wu等, 2024)。與靜態圖像和具有相似多幀的短視頻相比,這些細節更加豐富,使長視頻理解更具挑戰性。例如,可以在任何幀中引入細粒度的空間問答,而時間問答可以在長視頻推理任務的幀間或幀內引入(Song等, 2024a)。用于長視頻理解的多模態LLMs必須捕捉跨越數分鐘甚至數小時的視頻幀中的所有相關細粒度時空細節,并使用有限數量的視覺標記。 場景轉換和內容變化中的動態事件。長視頻通常包含各種動態事件,場景和內容變化顯著(Wu等, 2024)。這些事件可能根據出現的順序在語義上相關并按時間協調(Bao等, 2021),也可能由于情節反轉(Papalampidi等, 2019)而表現出顯著的語義差異。事件間推理涉及多個具有不同視覺信息的事件,對于準確的內容理解至關重要(Cheng等, 2024a; Qian等, 2024)。對于多模態LLMs來說,區分語義差異并在不同事件中保持語義一致性對長視頻理解尤為重要。 長期關聯和依賴關系。長視頻通常包含跨長時間段的動作和事件。捕捉長期依賴關系并理解視頻的不同部分在長時間段內如何相互關聯是一項挑戰(Wu等, 2019)。用于圖像或短視頻的LLMs通常無法將當前事件與遠離當前時間的過去或未來事件聯系起來(Wu和Krahenbuhl, 2021),也無法進行長期決策(Wang等, 2024b)。
在本節中,我們從模型架構的角度討論了多模態大型語言模型(MM-LLMs)從圖像目標模型到長視頻目標模型的進展。如圖4所示,用于圖像、短視頻和長視頻的MM-LLMs具有相似的結構,包括視覺編碼器、LLM主干和中介連接器。與圖像目標MM-LLMs中的圖像級連接器不同,視頻級連接器在跨幀視覺信息的整合中起著關鍵作用。在長視頻LLMs(LV-LLMs)中,設計連接器更加具有挑戰性,要求有效壓縮大量視覺信息并結合時間知識來管理長期關聯。
MM-LLMs,包括圖像目標和視頻目標模型,通常使用相似的視覺編碼器來提取視覺信息。LLM主干在早期的MM-LLM方法中也比較通用,而現有的LV-LLMs傾向于在實現中使用長上下文LLMs。 視覺編碼器。預訓練的視覺編碼器負責從原始視覺數據中捕捉視覺知識。如表1所示,圖像編碼器如CLIP-ViT-L/14(Radford等, 2021)、EVA-CLIP-ViT-G/14(Sun等, 2023)、OpenCLIP-ViT-bigG/14(Cherti等, 2023)和SigLIP-SO400M(Zhai等, 2023)廣泛用于圖像和視頻目標的LLMs。近期工作(Li等, 2024a)表明,視覺表示(包括圖像分辨率、視覺標記的大小和預訓練視覺資源)比視覺編碼器的大小更重要。 LLM主干。LLM是視覺理解系統中的核心模塊,繼承了推理和決策的屬性。相比于GPT-3/4(Brown, 2020;Achiam等, 2023)和Gemini-1.5(Reid等, 2024)等閉源LLMs,更多的開源LLMs更常用于實現視覺LLMs。這些開源LLMs包括Flan-T5(Chung等, 2024)、LLaMA(Touvron等, 2023b,c;Dubey等, 2024)、Vicuna(Chiang等, 2023)、QWen(Bai等, 2023a)、Mistral(Jiang等, 2023)、Openflamingo(Awadalla等, 2023)、Yi(Young等, 2024)和InternLM(Team, 2023;Cai等, 2024)。 LLM的強度通常與視覺LLMs的多模態能力相關聯(Li等, 2024b,a)。這意味著對于相同規模的LLM,語言能力更強的模型表現更好;而對于相同LLM的不同規模模型,規模更大的模型通常會帶來更好的多模態性能。此外,長上下文LLMs通過將上下文長度擴展到成千上萬的標記,支持更多數據的學習(Yang等, 2024)。最近的LV-LLMs有效地將LLM的長上下文理解能力轉移到視覺模態(Zhang等, 2024d)。
視覺編碼器和LLMs之間的連接器作為模態接口,將視覺特征映射到語言特征空間。鑒于視覺數據來源的多樣性,這些連接器可以分為圖像級、視頻級和長視頻級連接器。 圖像級連接器。圖像級連接器用于將圖像特征映射到語言空間,以處理原始視覺標記,它們廣泛用于圖像目標和視頻目標的MM-LLMs中。這些連接器可以分為三類:第一類直接使用單層線性層(Liu等, 2024c)或多層感知器(MLP)(Liu等, 2024a)將圖像特征映射到語言嵌入空間。然而,這種保留所有視覺標記的方法不適用于涉及多圖像的視覺理解任務。為了應對保留所有視覺標記的局限性,第二類采用了基于池化的方法,包括空間池化(Maaz等, 2023)、自適應池化(Xu等, 2024a)、語義相似標記合并(Jin等, 2024)和相鄰標記平均(Zhang等, 2024e;Li等, 2024c)。第三類利用了基于交叉注意力或Transformer的結構,例如Q-Former(Li等, 2023a)和Perceiver Resampler(Jaegle等, 2021),用于圖像特征壓縮。Q-Former是一種輕量級Transformer結構,使用一組可學習的查詢向量來提取和壓縮視覺特征。許多視覺LLMs(Dai等, 2023;Li等, 2023b;Ma等, 2023a;Liu等, 2024e)遵循BLIP-2,選擇基于Q-Former的連接器。其他視覺LLMs(Ma等, 2023b;Jiang等, 2024)選擇使用Perceiver Resampler來通過提取補丁特征降低計算負擔。 視頻級連接器。視頻級連接器用于提取連續的視覺數據并進一步壓縮視覺特征。相比于圖像目標MM-LLMs中的圖像級連接器,視頻級連接器在視頻目標MM-LLMs,包括LV-LLMs中尤為重要。一些方法直接將圖像標記串聯后輸入到LLMs,使其對幀圖像數量較為敏感(Dai等, 2023;Lin等, 2023)。用于標記壓縮的圖像級連接器的類似結構可以適用于視頻級接口,如基于池化和Transformer的結構。沿時間序列維度的池化是減少時間信息冗余的直接方式(Maaz等, 2023;Song等, 2024a)。基于Transformer的方法,如Video Q-Former(Zhang等, 2023;Ma等, 2023a;Ren等, 2024)和Video Perceiver(Wang等, 2023b),在提取視頻特征的同時降低了數據復雜性。此外,基于3D卷積的方法可以從空間和時間維度提取并壓縮視覺數據(Cheng等, 2024b;Liu等, 2024d)。 長視頻級連接器。專為長視頻LLMs設計的連接器考慮了兩個特殊因素:處理長視頻數據的高效視覺信息壓縮和時間感知設計以保留時間信息。 有效壓縮視覺信息不僅需要將輸入的視覺標記減少到可接受的數量,還需要保留長視頻中包含的完整時空細節。視頻包含兩種類型的數據冗余:幀內的空間數據冗余和幀間的時空數據冗余(Li等, 2022;Chen等, 2023a)。一方面,當幀內的像素在區域級別相同時,空間數據冗余就會產生,從而導致通過完整的視覺標記表示冗余視覺幀時效率低下。為了減少空間視頻數據冗余,LLaVA-Next系列方法(Zhang等, 2024e;Li等, 2024d;Liu等, 2024b;Li等, 2024c)合并了相鄰幀補丁標記,而Chat-UniVi(Jin等, 2024)合并了相似的幀補丁標記。另一方面,時空數據冗余包括幀間像素冗余和運動冗余(Pourreza等, 2023),其中這些冗余視頻幀之間的語義信息相似。為了減少時空視頻冗余,MovieChat(Song等, 2024a)和MALMM(He等, 2024)在將幀特征輸入到LLMs之前合并了相似幀特征。在減少冗余信息的同時,保留更多視頻時空細節對于準確的長視頻推理至關重要(Diba等, 2023)。為了平衡全局和局部視覺信息并支持更多幀輸入,SlowFast-LLaVA(Xu等, 2024b)采用了低幀率的慢路徑來提取特征,同時保留更多的視覺標記,以及高幀率的快路徑,通過更大的空間池化步長關注運動線索。 此外,時間相關的視覺數據可以有效管理長視頻固有的時空信息(Hou等, 2024)。時間感知設計可以增強視頻相關LLMs的時間捕捉能力,這對于長視頻理解特別有益。VTimeLLM(Huang等, 2024a)和InternLM-XComposer-2.5(IXC-2.5)(Zhang等, 2024c)都使用幀索引來增強時間關系。不同之處在于其方法:VTimeLLM通過訓練包含幀索引的解碼文本來學習時間信息,而IXC-2.5則將幀索引與幀圖像上下文一起編碼。TimeChat(Ren等, 2024)和Momentor(Qian等, 2024)將時間信息直接注入幀特征中,以捕捉細粒度的時間信息。具體而言,TimeChat設計了一個時間感知幀編碼器,用于在幀級別提取視覺特征,并添加相應的時間戳描述,而Momentor利用了一個時間感知模塊,用于連續時間編碼和解碼,將時間信息注入幀特征中。
本文總結了視覺LLMs從圖像到長視頻的進展。基于對圖像理解、短視頻理解和長視頻理解任務差異的分析,我們識別了長視頻學習的關鍵挑戰。這些挑戰包括在動態連續事件中捕捉更多的細粒度時空細節和在場景轉換與內容變化中壓縮視覺信息中的長期依賴關系。接著,我們介紹了從圖像LLMs到長視頻LLMs在模型架構和模型訓練方面的進展,旨在提升長視頻的理解與推理能力。隨后,我們回顧了多個不同長度的視頻基準測試,并比較了不同方法的視頻理解性能。該比較為長視頻理解的未來研究方向提供了見解。我們的論文是首個聚焦于長視頻LLMs的開發和改進,以提升長視頻理解的研究工作。我們希望本研究能推動LLMs在長視頻理解與推理領域的進步。
大型語言模型(LLMs)的出現代表了自然語言處理(NLP)領域的一個顯著突破,為文本理解和生成方面的顯著進展做出了貢獻。然而,在這些進展中,值得注意的是,LLMs在上下文長度外推方面常常面臨限制。理解并擴展LLMs的上下文長度對于提高它們在各種NLP應用中的性能至關重要。在這份調查報告中,我們深入探討了為什么它是重要的多方面因素以及卓越技術可能為NLP應用帶來的潛在變革。我們研究了與擴展上下文長度相關的固有挑戰,并對研究人員采用的現有策略進行了有組織的概述。此外,我們討論了評估上下文擴展技術的復雜性,并強調了研究人員在該領域面臨的未解之謎。此外,我們探討了研究社區是否就評估標準達成共識,并確定了需要進一步協商的領域。這份全面的調查旨在為研究人員提供有價值的資源,引導他們了解上下文長度擴展技術的細微之處,并促進對這一不斷發展領域未來進展的討論。
大型語言模型(LLMs)的成功案例隨處可見,隨著現代LLMs的出現,它們顯著推動了眾多自然語言處理(NLP)挑戰的發展,達到了前所未有的高度。科學努力的自然進展是朝著新的和具有挑戰性的領域前進。在雄心勃勃的倡議中,一個值得注意的努力是擴展LLMs的可理解性以包括非常長的上下文。OpenAI提出了128頁上下文可理解性的概念,而Anthropic最近提出了超過200頁的更長上下文。然而,這些商業發布和公告中存在顯著的科學嚴謹不足。在這個背景下,引發了幾個問題:(a) 有哪些應用需要理解如此擴展的上下文?(b) 當LLMs理解更長的上下文時,我們如何有效地衡量應用程序的改進性能?(c) 雖然注意力機制在NLP中得到了廣泛研究,但是否需要設計一種專門針對更長上下文的新型注意力形式?
采用旨在處理長上下文的高級技術有望重塑語言模型的格局。改進的長上下文管理方法可以提高模型性能,從而實現更準確和細致入微的語言理解。這些進步有望增強模型捕捉長距離依賴性的能力,從而提高其在各種語言任務中的整體有效性,如:(接下來列舉具體的任務)。
? 文檔摘要:改進長上下文處理有助于更加連貫和簡明地進行文檔摘要,捕捉擴展文本段落中的關鍵信息,并提高生成摘要的質量。全面理解整個文檔,同時識別關鍵詞和主題,需要熟練管理廣泛的上下文范圍。在這種情況下使用較短的窗口將限制生成能力,可能導致關鍵細節的忽視。此外,使用較長的上下文窗口有助于減少歧義,因為它妨礙了沒有對文檔的復雜性進行全面把握的情況下利用微妙信息。這反過來使LLM能夠以更高的洞察力和準確性進行摘要過程的導航。
? 問答系統:考慮長上下文的能力提高了模型對復雜的問答關系的理解,從而產生更準確和上下文相關的回答。此外,LLMs在處理問答任務方面表現出更高的熟練度,因為解決代詞的共指問題與上下文實體密切相關。此外,在面對多輪對話時,擴展上下文窗口在促進連續對話中話題一致性跟蹤方面發揮了關鍵作用。
? 語言翻譯:在更大文本段落中改進上下文保留增強了模型提供準確翻譯的能力,特別是在上下文微妙性起關鍵作用的情況下。多義詞匯在翻譯領域(Falkum和Vicente,2015)中構成了重要障礙,而擴展上下文窗口是在上下文中定位這種詞匯的明顯輔助。此外,在面對技術術語時,LLMs在擁有擴展的輸入范圍時表現出更高的效能,尤其是在容納特定領域上下文微妙性方面。
? 指代消解:高級處理長上下文有助于解決擴展文本跨度內對實體的引用,從而提高了指代消解的準確性。指代消解過程涉及建立代詞與其對應的先行詞之間的聯系。LLMs中上下文窗口的擴展有助于更全面地評估信息,因此通過包括遠程引用和上下文相關的詳細信息來協助精確的代詞解析。
? 對話型人工智能:通過長上下文模型促進對擴展對話的更好跟蹤和理解,可以在對話型人工智能系統中產生更具上下文適應性的回應。擴展上下文窗口在為LLMs定位幽默、諷刺或微妙表達在對話環境中的作用方面起到關鍵作用。這對于生成符合正在進行的對話中的語氣和風格微妙之處的回應至關重要。
盡管持續的研究工作,仍然缺乏一份全面的涵蓋了用于外推上下文長度的技術范圍的概述。此外,LLMs的不斷發展已經引入了用于外推上下文長度的創新方面,這給現有的擴展方法帶來了挑戰,并強調了需要全面、多樣化的外推方法的必要性。 本文標志著LLMs上下文長度擴展技術的第一次全面調查。如圖1所示,我們深入研究了在微調期間可以實現的上下文長度擴展的現有工作。隨后,我們探討了LLMs上下文長度外推的潛在未來挑戰。 當代技術 已經引入了多種方法來增強LLMs的上下文能力。為了進行系統分類和增強清晰度,我們提出了一個分類法,如圖1所示。該分類法劃分為兩個主要類別:插值和外推技術。插值包括從不同的來源或上下文中融合信息以提高預測精度。這種技術適用于混合來自不同文本段落或包含不同上下文長度的不同模型的信息。相反,外推涉及對觀察數據的范圍之外的值進行預測,旨在擴展模型的理解能力超出其規定的訓練上下文長度。然后,還有用于進一步分類的零樣本(Rashid等人,2021)和微調技術。分類法中的其他小節將在隨后的部分中討論。
位置技術
與絕對位置嵌入不同,相對位置嵌入是基于鍵(keys)和查詢(queries)之間的差異制定的(Shaw等人,2018)。相對位置嵌入的一種普遍變體在Transformer-XL中引入(Dai等人,2019b;Yang等人,2019)。計算鍵和查詢之間的注意力得分已經改變,以集成與相對位置對應的可訓練嵌入。與絕對位置嵌入相比,配備相對位置嵌入的Transformer展示了能夠推廣到超出訓練中遇到的長度的序列的能力,表現出了外推的熟練性(Press等人,2021b)。與位置編碼相關的一個重復約束是無法擴展到訓練期間觀察到的上下文窗口之外。已經進行了一些工作來克服這些限制。
外推在這次探索中,我們將其分類并深入探討了兩種主要策略:外推和插值。外推技術旨在擴展模型對超出其最初觀察到的長度的序列的理解,采用創新策略來捕捉在擴展范圍內的依賴關系。另一方面,插值技術集中于改進模型在觀察范圍內平滑擴展對上下文的理解能力,從而提高了在最初遇到的上下文長度內的序列性能。以下部分詳細介紹了每個類別內的技術,提供了有關應對LLMs上下文長度動態特性所采用的多種方法的見解。
插值在上下文長度外推的背景下,插值技術專注于對模型進行微調或優化,以有效處理在訓練期間遇到的上下文長度范圍內的序列。重點是改進模型平滑擴展其對觀察范圍內上下文的理解能力,從而提高其在最初遇到的上下文長度內序列的性能。這些技術有助于更加微妙和改進的上下文理解,確保模型在訓練期間接觸到的上下文長度內表現最佳。
總結而言,本文全面審查了擴展LLMs上下文長度的多種技術和方法。所提供的分類法將這些方法分為兩種廣泛的策略 - 外推和插值。外推技術旨在擴展模型處理超出其最初訓練上下文長度的序列的能力。這包括利用專門組件,如位置編碼、注意機制和記憶增強來實現即時泛化的零樣本方法。還探討了微調策略,以使模型適應在預訓練期間未遇到的更長上下文。插值技術專注于優化模型,以在觀察訓練長度內平滑擴展上下文理解。專門的注意機制和提示壓縮有助于高效處理長上下文。微調插值適應模型以在序列開始超過訓練長度時實現優雅過渡。本調查提供了有關技術的多樣性的見解,涵蓋提示工程、注意機制、位置編碼和記憶增強等領域。它突出了模型體系結構和訓練方法的創新,旨在解決上下文長度的限制。廣泛的經驗分析證實了這些多樣化技術在基準測試和下游任務上的有效性。通過提供結構化分類法和對現有文獻的綜述,本文有助于更清晰地理解LLMs上下文長度擴展領域的不斷演變。討論確定了有前景的研究方向,強調了繼續努力開發能夠處理廣泛上下文信息的模型的重要性。隨著對長篇文本生成和對大型語料庫進行推理的興趣不斷增加,改進的上下文處理將在未來幾年繼續是一個活躍的研究領域。
人工智能(AI)在各個領域取得了顯著進展,像ChatGPT這樣的大型語言模型因其類人的文本生成能力而獲得了極大的關注。盡管取得了這些成就,空間推理仍然是這些模型的一個重大挑戰。例如StepGame這樣的基準測試評估了AI的空間推理能力,而ChatGPT在此方面的表現并不令人滿意。 然而,基準測試中模板錯誤的存在影響了評估結果。因此,如果解決了這些模板錯誤,ChatGPT的表現有可能會更好,從而導致對其空間推理能力的更準確評估。在本研究中,我們對StepGame基準進行了精煉,為模型評估提供了更準確的數據集。我們分析了GPT在修正后基準上的空間推理表現,發現它在將自然語言文本映射到空間關系方面表現出熟練度,但在多跳推理方面存在限制。我們通過結合模板到關系的映射和基于邏輯的推理,為基準提供了一個無瑕疵的解決方案。這種結合展示了在StepGame上進行定性推理的熟練度,且沒有遇到任何錯誤。接著,我們解決了GPT模型在空間推理方面的限制。我們部署了連續思考和樹狀思考的提示策略,提供了對GPT“認知過程”的洞察,并實現了準確性的顯著提升。我們的調查不僅揭示了模型的不足,還提出了增強功能,為具有更強大空間推理能力的AI的進步做出了貢獻。
大型語言模型(LLMs)的出現標志著自然語言處理(NLP)領域的一次重大突破,帶來了在文本理解和生成方面的顯著進步。然而,與這些進步同時,LLMs表現出一種關鍵的傾向:產生幻覺,導致生成的內容與現實世界事實或用戶輸入不一致。這一現象對它們的實際部署提出了重大挑戰,并引發了對LLMs在現實世界場景中可靠性的關注,這吸引了越來越多的注意力來檢測和減輕這些幻覺。在這篇綜述中,我們旨在提供一個關于LLM幻覺最新進展的全面而深入的概覽。我們首先提出LLM幻覺的一個創新性分類,然后深入探討導致幻覺的因素。隨后,我們呈現了一份幻覺檢測方法和基準的綜合概覽。此外,相應地介紹了旨在減輕幻覺的代表性方法。最后,我們分析了凸顯當前限制的挑戰,并提出了開放性問題,旨在勾勒出LLMs中幻覺未來研究的路徑。
最近,大型語言模型(LLMs)(OpenAI, 2022; Google, 2023; Touvron et al., 2023; Penedo et al., 2023; Zhao et al., 2023b)的出現引領了自然語言處理(NLP)領域的范式轉變,實現了在語言理解(Hendrycks et al., 2021; Huang et al., 2023c)、生成(Zhang et al., 2023f; Zhu et al., 2023b)和推理(Wei et al., 2022; Kojima et al., 2022; Qiao et al., 2022; Yu et al., 2023a; Chu et al., 2023)方面前所未有的進步。然而,隨著LLMs的快速發展,出現了一個令人關注的趨勢,即它們傾向于產生幻覺(Bang et al., 2023; Guerreiro et al., 2023b),導致內容看似合理但事實上缺乏支持。當前對幻覺的定義與先前的研究(Ji et al., 2023a)一致,將其描述為生成的內容既無意義又不忠于提供的源內容。這些幻覺進一步被分類為內在幻覺和外在幻覺,取決于與源內容的矛盾性。盡管這種分類在各種自然語言生成(NLG)任務中是共享的,但任務特定的變體確實存在。由于LLMs在不同NLG任務中表現出非凡的多功能性和卓越性能(Bubeck et al., 2023; Bang et al., 2023),尤其是在開放域應用中,它們的多功能性相比于任務特定模型更加放大了幻覺的潛力。在LLMs中,幻覺的范圍包括了更廣泛和更全面的概念,主要集中在事實錯誤上。鑒于LLM時代的演進,有必要調整現有的幻覺分類,增強其適用性和適應性。
在這篇綜述中,我們重新定義了幻覺的分類,為LLM應用提供了一個更為量身定做的框架。我們將幻覺分為兩大類:事實性幻覺和忠實性幻覺。事實性幻覺強調生成內容與可驗證的現實世界事實之間的差異,通常表現為事實上的不一致或捏造。例如,如圖1(a)所示,當詢問第一個登月的人時,模型可能斷言是查爾斯·林德伯格在1951年。而事實上,第一個登月的人是尼爾·阿姆斯特朗,在1969年的阿波羅11號任務中。另一方面,忠實性幻覺指的是生成內容與用戶指令或輸入提供的上下文的偏離,以及生成內容內的自我一致性。如圖1(b)所示,當要求總結一篇新聞文章時,模型不準確地將以色列和哈馬斯之間的沖突實際發生日期從2023年10月改為2006年10月。關于事實性,我們進一步根據可驗證來源的存在將其劃分為兩個子類別:事實不一致和事實捏造。對于忠實性,我們強調從用戶的角度解決不一致性,將其分類為指令不一致、上下文不一致和邏輯不一致,從而更好地與LLMs的當前使用情況相對應。
至于幻覺的潛在原因,雖然在NLG任務的背景下進行了研究,但在尖端LLMs中呈現出獨特的挑戰,值得深入調查。我們的深入分析專門針對LLMs中幻覺的獨特起源,涵蓋了從數據、訓練到推理階段的一系列貢獻因素。在這個框架內,我們指出了潛在的數據相關原因,如有缺陷的來源和次優的利用,低劣的訓練策略可能在預訓練和對齊過程中誘發幻覺,以及源于解碼策略的隨機性和推理過程中不完美表現的問題。此外,我們全面概述了專門為檢測LLMs中的幻覺而設計的有效檢測方法,以及與LLM幻覺相關的詳盡基準概覽,作為適當的測試平臺,以評估LLMs生成的幻覺的程度和檢測方法的有效性。此外,我們詳細介紹了為減輕已識別的幻覺原因而量身定制的全面策略。
通過這篇全面的綜述,我們旨在為LLMs領域的發展做出貢獻,并提供有價值的見解,加深對LLMs中幻覺機會和挑戰的理解。這項探索不僅增強了我們對當前LLMs局限性的理解,還為未來的研究和更魯棒、可信賴的LLMs的發展提供了必要的指導。
與現有綜述相比。隨著對可靠生成AI的需求日益增長,LLM幻覺作為一個主要挑戰脫穎而出,導致了許多關于其最新進展的綜述(Ji et al., 2023a; Rawte et al., 2023; Liu et al., 2023h; Zhang et al., 2023g; Wang et al., 2023c)。雖然這些作品從不同角度探討了LLM幻覺,并提供了有價值的見解,但區分我們當前綜述的獨特方面和全面性是至關重要的。(Ji et al., 2023a)主要闡明了預訓練語言模型在NLG任務領域中的幻覺,將LLMs排除在他們的討論范圍之外。(Liu et al., 2023h)從更廣闊的視角討論了LLMs的可信度,而(Wang et al., 2023c)深入探討了LLM事實性。相比之下,我們的綜述聚焦于LLM可信度中的一系列挑戰,涵蓋事實性方面,并進一步擴展了話語范圍,包括與忠實性相關的幻覺。據我們所知,與我們的綜述最為一致的是(Zhang et al., 2023g),它概述了LLM幻覺現象的分類、評估基準和減輕策略。盡管如此,我們的綜述在分類和組織結構上都有所區別。我們提出了幻覺的分層和細粒度分類。在結構上,我們通過追溯到LLMs的能力來剖析LLM幻覺的原因。更為相關的是,我們的減輕策略與潛在原因密切相關,確保了一種連貫和有針對性的方法。
本綜述的組織結構。在本文中,我們提出了關于LLMs中幻覺的最新發展的全面綜述。我們首先定義LLMs并構建幻覺的分類框架(§2)。隨后,我們深入分析了導致LLMs中幻覺的因素(§3),接著是對用于可靠檢測LLMs中幻覺的各種方法和基準的審查(§4)。然后我們詳細介紹了旨在減輕LLMs中幻覺的一系列方法(§5)。最后,我們深入探討了框定當前局限性和未來前景的挑戰和開放性問題,提供見解并勾勒出未來研究的潛在路徑(§6)。
幻覺的原因
幻覺有多方面的起源,涵蓋了大型語言模型(LLMs)能力獲取過程的整個光譜。在這一部分,我們將深入探討LLMs中幻覺的根本原因,主要分為三個關鍵方面:數據(§3.1)、訓練(§3.2)和推理(§3.3)。
數據引起的幻覺
預訓練數據是LLMs的基石,使它們獲得一般能力和事實知識(周等,2023a)。然而,它可能無意中成為LLM幻覺的來源。這主要表現在兩個方面:源自有缺陷數據源的潛在風險(§3.1.1),以及對數據中捕獲的事實知識的劣質利用(§3.1.2)。
訓練引起的幻覺
大型語言模型(LLMs)的訓練過程主要包括兩個主要階段:1)預訓練階段,LLMs在此階段學習通用表示并捕獲世界知識;2)對齊階段,LLMs被調整以更好地與用戶指令和偏好對齊。雖然這個過程為LLMs裝備了顯著的能力,但這些階段的任何短板都可能無意中導致幻覺。
推理引起的幻覺
解碼在展示LLMs在預訓練和對齊之后的能力方面扮演著重要角色。然而,解碼策略中的某些不足可能導致LLM幻覺。在本節中,我們將深入探討根源于解碼過程的潛在原因,強調兩個關鍵因素:解碼策略的固有隨機性(§3.3.1)和不完美的解碼表示(§3.3.2)。
幻覺緩解
在本節中,我們提供了針對緩解大型語言模型(LLMs)中幻覺的現代方法的全面回顧。借鑒在“幻覺的原因”(§3)中討論的見解,我們系統地根據幻覺的潛在原因對這些方法進行分類。具體來說,我們關注解決與數據相關的幻覺(§5.1)、與訓練相關的幻覺(§5.2)和與推理相關的幻覺(§5.3)的方法,每種方法都針對其各自原因固有的特定挑戰提供了量身定制的解決方案。
緩解與數據相關的幻覺
與數據相關的幻覺通常作為偏見、錯誤信息和知識空缺的副產品出現,這些都根本上植根于訓練數據中。在這個背景下,我們探索了緩解此類幻覺的各種策略,旨在盡量減少錯誤信息和偏見的發生,同時也提供知識增強和提高大型語言模型(LLMs)有效利用知識的能力。
緩解與訓練相關的幻覺
與訓練相關的幻覺通常源自大型語言模型(LLMs)所采用的架構和訓練策略的內在局限性。在這一背景下,我們討論了從訓練階段(§5.2.1)到對齊階段(§5.2.2)的各種優化方法,旨在緩解訓練過程中的幻覺。
緩解與推理相關的幻覺
在大型語言模型(LLMs)中,解碼策略在決定生成內容的事實性和忠實性方面起著關鍵作用。然而,如第§3.3節分析所述,不完美的解碼常常導致輸出結果可能缺乏事實性或偏離原始上下文。在本小節中,我們探索兩種先進策略,旨在改進解碼策略,以增強LLMs輸出的事實性和忠實性。
結論
在這項全面的調查中,我們對大型語言模型中的幻覺進行了深入的研究,探討了它們背后的復雜原因、開創性的檢測方法以及相關基準,以及有效的緩解策略。盡管已經取得了重大進步,但大型語言模型中的幻覺問題仍然是一個引人關注的持續問題,需要持續的研究。此外,我們希望這項調查能成為致力于推進安全和可信賴人工智能的研究人員的指導燈塔。通過導航幻覺的復雜景觀,我們希望能賦予這些專業人士寶貴的洞見,推動人工智能技術向更高的可靠性和安全性發展。
近年來,大型語言模型(LLMs)因其出色的理解、分析和基于其廣泛知識和推理能力的文本生成能力,已經重塑了學術和工業領域。盡管如此,LLMs的一個主要缺點是由于其前所未有的參數量,其預訓練的計算成本相當高。當需要經常向預訓練的模型中引入新知識時,這一缺點會被放大。因此,開發有效且高效的技術來更新預訓練的LLMs至關重要。傳統方法通過直接微調將新知識編碼到預訓練的LLMs中。然而,重新訓練LLMs可能在計算上很密集,并且面臨退化與模型更新無關的寶貴預訓練知識。最近,基于知識的模型編輯(KME)受到了越來越多的關注,其目的是精確修改LLMs以納入特定的知識,而不負面影響其他無關的知識。在這次綜述中,我們旨在提供關于KME領域近期進展的全面且深入的概述。我們首先介紹KME的一般公式,以涵蓋不同的KME策略。之后,我們根據新知識如何被引入到預訓練的LLMs中提供了KME技術的創新分類,并研究現有的KME策略,同時分析每個類別的方法的關鍵見解、優點和局限性。此外,相應地介紹了KME的代表性指標、數據集和應用。最后,我們對KME的實用性和剩余挑戰進行了深入的分析,并建議在這一領域進一步發展的有前景的研究方向。
近期,大型語言模型(LLMs)已成為一個熱門話題,徹底改變了學術界和工業界[10, 78, 106, 122]。通過在大型語料庫上進行預訓練,獲得了大量的事實知識和推理能力,LLMs展示了對文本信息的前所未有的理解,能夠像人類專家一樣分析和生成文本。然而,LLMs的一個主要缺點是由于參數數量龐大,訓練過程的計算開銷極高。隨著世界的不斷進化,經常出現更新預訓練LLMs以糾正過時信息或納入新知識以保持其相關性的需求,這使得該問題進一步加劇[124]。例如,在圖1中,一個過時的LLM無法準確描述Lionel Messi的最新成就,這需要明確注入新知識以生成正確的答案。
更新預訓練的大型語言模型(LLMs)的一個可行而直接的策略是通過樸素的微調[15, 26, 103, 116],在此,預訓練LLMs的參數直接被優化,以從新數據中編碼新知識[5, 72, 80, 122]。例如,提出了各種基于指令調整的方法,以在新收集的語料庫上以有監督的學習方式微調預訓練的LLMs[73, 81, 112, 114]。盡管這樣的微調技術被廣泛使用,并且能夠將新知識注入到LLMs中,但它們因以下缺點而聞名:(1) 即使提出了一些參數高效策略來提高效率[66, 113, 120],微調LLMs可能仍需要大量的計算資源[70, 75, 123]。 (2) 細調模型可能會過擬合新數據,尤其是當用于細調的數據集規模較小時[19, 71, 74]。 (3) 更重要的是,微調LLMs會不受約束地改變預訓練的權重,這有可能喪失LLMs中的寶貴現有知識[24, 48, 69]。這些挑戰限制了使用微調技術更新LLMs新知識的實用性。
為了解決更新LLMs的微調的缺點,更多的注意力已被賦予基于知識的模型編輯(KME),也被稱為知識編輯。一般來說,KME旨在精確修改預訓練LLMs的行為,以更新特定的知識,而不負面影響與更新無關的其他預訓練知識[85, 111, 119]。在KME中,LLMs中特定知識的更新通常被制定為一個編輯,例如將“誰是美國總統?”的答案從“特朗普”更正為“拜登”。關于特定的編輯,KME策略通常通過引入輔助網絡(或一組參數)到預訓練模型[41, 63, 124],或更新(部分)參數以存儲新知識[16, 39, 40, 64]來修改模型輸出。通過這些策略,KME技術可以在內存中存儲新知識或在模型參數中定位它進行更新,從而精確地將知識注入模型。此外,某些方法還引入明確的損失以包含更新過程,從而使編輯后的模型在未修改的知識上保持一致的行為。借助這些優勢,KME技術可以提供一種高效且有效的方法,不斷地用新知識更新LLMs,而無需明確地重新訓練模型。
盡管KME與微調策略有某些相似之處,但它在更新LLMs方面具有獨特的優勢,值得深入研究。特別是,KME和模型微調都尋求通過注入新知識來更新預訓練的LLMs。然而,除了這一共同目標外,KME更加關注兩個關鍵屬性,這兩個屬性不能容易地由微調來解決。 (1) 局部性要求編輯過的模型不會無意中影響具有不同語義的其他不相關輸入的輸出。例如,當有關美國總統的編輯得到更新時,編輯過的模型不應改變其關于英國首相的知識。KME方法的實用性在很大程度上依賴于它們維持與不相關輸入的輸出的能力,這是KME和微調之間的主要區別[86]。 (2) 通用性代表編輯過的模型是否可以泛化到與編輯知識相關的更廣泛的輸入范圍。具體來說,它表示模型在具有語義相似性的輸入上表現出一致行為的能力。例如,當模型關于總統的部分被編輯時,對總統配偶的查詢的答案也應相應地改變。在實踐中,確保KME方法使編輯過的模型能夠很好地適應這些相關的輸入文本是很重要的。總之,由于這兩個獨特的目標,KME仍然是一個具有挑戰性的任務,需要特定的策略才能獲得令人滿意的有效性。
與現有綜述的區別:已經進行了幾次綜述來檢查(大型)語言模型的各個方面[11, 29, 51, 53, 104, 122]。盡管如此,仍然缺乏徹底的綜述,可以全面涵蓋現有的文獻和LLM編輯領域的持續進展。例如,最近的工作[73, 114]已經討論了在預訓練的LLMs中使用更多的數據樣本合并新知識的微調策略。然而,KME的獨特性,即局部性和普遍性,并沒有得到充分的討論,這將在這次綜述中得到徹底的分析。另外兩項綜述[30, 47]回顧了知識增強的語言模型。但是,他們的主要關注點是利用外部知識來增強預訓練的LLMs的性能,而沒有解決基于特定知識的編輯任務。據我們所知,與我們的綜述最相關的論文是[119],它提供了KME的簡要概述,并簡潔地討論了KME方法的優勢和它們的挑戰。盡管如此,這項綜述缺乏對KME的更多細節,例如分類、數據集和應用程序的徹底審查。另一項最近的工作[111]提出了一個統一了幾種代表性方法的KME框架。這項工作側重于KME技術的實現,而對不同策略的技術細節的重視較少。最近,一項工作[85]討論了KME方法在編輯模型的忠實性方面的局限性,而它相對較短,缺乏對所有現有方法的更全面的介紹。考慮到KME技術的快速進展,我們認為有必要回顧所有代表性KME方法的細節,總結共同點,同時討論每種方法的獨特性,并討論KME領域的開放挑戰和前瞻性方向,這將促進該領域的進一步發展。
本次綜述的貢獻:本次綜述提供了對預訓練LLMs的編輯技術、挑戰和機會的全面和深入的分析。我們首先提供了KME任務的概述,以及一個創新的公式化。特別是,我們將一般的KME任務公式化為一個受限制的優化問題,同時結合了準確性、局部性和普遍性的目標。然后,我們將現有的KME策略分類為三個主要類別,即外部記憶、全局優化和局部修改。重要的是,我們證明了每個類別中的方法都可以被公式化為一個專門的受限制的優化問題,其中的特性基于一般的公式化理論總結。此外,我們提供了關于每個類別中方法的有效性和可行性的有價值的見解,這可以幫助實踐者選擇最適合特定任務的KME方法。我們對KME方法的優點和缺點的分析也為KME研究社區的持續進展起到了催化劑作用。總之,我們的主要貢獻可以總結為以下三個方面:
?** 新的分類法**:我們引入了一個全面和結構化的分類框架,系統地總結了LLM編輯的現有工作。具體來說,基于如何將新知識引入預訓練的LLMs,我們的分類包括三個不同的類別:外部記憶、全局優化和局部修改,其中這些類別的共性和差異在這次調查中都得到了徹底的討論。
? 深入分析:我們將LLM編輯任務公式化為一個受約束的優化問題,其中每個類別的方法都可以被視為具有細化約束的特殊情況。此外,我們強調了每個類別的主要見解、優點和局限性。在這個背景下,我們深入研究了每個類別的代表性方法,并系統地分析了它們之間的聯系。 ? 未來方向:我們分析了現有KME技術在各種數據集和應用程序中的實用性。我們還全面討論了現有KME技術的挑戰,并提出了未來探索的有前景的研究方向。
本文的其余部分組織如下。第2部分介紹了LLM編輯的背景知識。第3部分提供了KME任務的一般公式,可以適應各種應用場景。第4部分為KME策略提供了一個全面的評價指標總結,這對于公正地比較各種方法至關重要。在深入探討具體方法之前,我們在第5.1節為現有方法提供了一個全面的分類,其中討論了它們的關系和差異。然后我們詳細介紹了三個類別中的方法,其中總結了每個類別的優點和局限性。第6部分介紹了廣泛使用的公共數據集。第7部分詳細介紹了可以從KME技術中受益的各種實際任務。第8部分討論了現有技術尚未解決的KME的潛在挑戰。這一部分還提供了一些可以激發未來研究的潛在方向。最后,我們在第9部分總結了這次綜述。
面對舊信息的快速折舊和新知識的出現,各種KME方法已經被提議來更新預先訓練的LLMs,以保持它們的最新性和相關性。KME確保新知識能夠高效地融入預訓練的LLMs,而不會負面影響與編輯無關的預訓練知識。 在這份調查中,我們將現有的KME方法分為以下三個主要類別:
? 基于外部記憶的方法利用外部存儲器來存儲新的知識,以進行編輯,而不修改預訓練的權重,其中預訓練的知識可以在LLM權重中完全保留。通過使用外部參數存儲新知識,基于記憶的策略能夠準確地表示新知識,并具有良好的可伸縮性,因為記憶容易擴展以融入新知識。
?** 全局優化方法通過優化在新知識的指導下尋求將新知識普遍地合并到預訓練的LLMs中**,其中引入了定制策略來限制其他預訓練知識的影響,與簡單的微調區分開來。然而,由于需要優化的參數數量眾多,這些方法在應用于LLMs時可能在編輯效率上有所不足。
? 基于局部修改的方法旨在找到LLMs中特定知識的相關參數,并相應地更新它以融入與編輯相關的新知識。局部修改的主要優勢是只可能更新模型參數的一小部分,從而與基于記憶的方法相比提供了相當的內存效率,并與全局優化相比提供了計算效率。
上述分類是基于新信息被引入LLM的位置(例如,外部參數或內部權重)和方式(例如,通過優化或直接合并)進行的。具體而言,每個類別的方法在Sec. 4中引入的四個關鍵評估指標方面都展現出不同的優勢和劣勢。例如,當計算資源有限而需要大量編輯時,外部記憶在場景中占優勢,因為記憶的大小可以控制以適應不同的要求。另一方面,當實踐者更關注編輯知識的普遍性時,全局優化是有利的,因為優化可以促進相關知識的學習[2]。該分類法在圖3中進行了直觀的說明,并在表2中總結了所有方法的具體特點。
在這次綜述中,我們對知識為基礎的模型編輯(KME)技術進行了全面而深入的調研,以準確且高效地更新預訓練LLMs中的新知識。我們首先將KME問題構建為一個受約束的優化目標,該目標同時確保編輯的準確性和保留,這適用于包括不同KME策略。接著,我們提供了KME的評估指標概述,這有助于了解編輯模型的理想屬性。隨后,我們提出了一個結構化的分類框架,以系統地分類現有的KME技術。在每個類別中,我們概述了核心挑戰,詳細說明了代表性方法,并討論了它們的優勢和劣勢。此外,我們總結了廣泛用于評估KME技術的數據集,強調某些技術需要特定的數據集結構進行訓練或評估。為了激勵研究人員設計更多的實際實現,我們還強調了KME技術的實際應用。最后,我們確定了未來研究的幾個潛在挑戰,并提供了有助于進一步推進該領域的有見地的方向。
在許多實際情況中(例如,學術網絡、社交平臺),不同類型的實體不僅與文本關聯,而且還通過各種關系相互連接,這可以被抽象為文本屬性異構圖(TAHGs)。當前的語言模型(LMs)預訓練任務主要集中在分開學習每個實體的文本信息,并忽視了捕捉TAHGs中實體之間的拓撲關系的重要方面。在這篇論文中,我們提出了一個新的針對LMs的預訓練框架,明確地考慮TAHGs中的拓撲和異構信息。首先,我們定義了一個上下文圖為特定順序內的目標節點的鄰域,并提議一個拓撲意識的預訓練任務,通過聯合優化LM和一個輔助的異構圖神經網絡來預測參與上下文圖的節點。其次,基于觀察到一些節點文本豐富,而其他節點文本很少的現象,我們設計了一種文本增強策略,通過其鄰居的文本來豐富沒有文本的節點,以處理不平衡問題。我們在三個來自不同領域的數據集上進行鏈接預測和節點分類任務。實驗結果證明了我們的方法相對于現有方法的優越性和每種設計的合理性。我們的代碼可在以下鏈接找到://github.com/Hope-Rita/THLM。
以GPT-4為代表的基礎模型已經在自然語言處理、計算機視覺等諸多領域引起了轟動,這也吸引著圖學習領域研究者們的關注。另一方面,圖機器學習經歷了從淺層方法到深度學習方法的范式轉變,而當前的深度圖學習方法也逐漸暴露出了表達能力、泛化性不足的問題,使模型無法適用于更多的圖數據和更廣泛的圖任務。圖學習是否也會迎來“圖基礎模型”的下一代學習范式呢?
近日,北郵GAMMA Lab師生與國內外多名專家學者聯合發布了名為“Towards Graph Foundation Models: A Survey and Beyond”的文章,探討了圖基礎模型的概念、實現圖基礎模型的潛在方案和未來研究方向。
標題:Towards Graph Foundation Models: A Survey and Beyond 作者:Jiawei Liu*, Cheng Yang*, Zhiyuan Lu, Junze Chen, Yibo Li, Mengmei Zhang, Ting Bai, Yuan Fang, Lichao Sun, Philip S. Yu, and Chuan Shi 鏈接://arxiv.org/pdf/2310.11829.pdf
作為多種人工智能應用的基本構建塊,基礎模型在自然語言處理和許多其他領域都取得了顯著的成功。與此同時,圖機器學習也經歷了一個變革性的轉變,淺層方法逐漸被深度學習方法所替代。基礎模型的出現和均一化能力引起了圖機器學習研究者的興趣,激發了關于開發下一代圖學習范式的討論,該范式預先在廣泛的圖數據上進行訓練,并可以適應各種下游圖任務。然而,目前還沒有對這類工作的明確定義和系統分析。在本文中,我們提出了圖基礎模型(GFMs)的概念,并首次對其關鍵特征和技術進行了全面闡述。在此之后,我們根據它們對圖神經網絡和大型語言模型的依賴將現有的工作分類為三類。除了提供對圖基礎模型當前景觀的全面概述外,本文還討論了這一不斷發展的領域的潛在研究方向。
簡介:隨著計算能力的迅猛增長和深度學習技術的突破,尤其是Transformer架構的出現,人工智能領域引入了“基礎模型”的概念。基礎模型是指任何在廣泛數據上訓練的模型,可以適應各種下游任務。基礎模型的架構和訓練策略的進步賦予了它們獨特的特性,如涌現(Emergence)和同質化(Homogenization),使它們成為眾多下游人工智能應用的主要構建模塊。涌現這一術語表明,隨著基礎模型的擴大,它可能會自發地展現新穎的能力。同時,同質化暗示了模型的多功能性,使其能夠在各種應用中部署。由于大型語言模型(LLMs)的發展,基礎模型的概念首先在自然語言處理(NLP)中成為現實。從那時起,基礎模型展示了驚人的多功能性,不僅可以處理文本,還可以處理圖像數據、視頻數據、音頻數據和多模態輸入。這種多功能性使它們能夠在各種任務中表現出色,包括計算機視覺、音頻信號處理和推薦系統等。
就像我們在自然語言處理領域所見證的演進一樣,圖機器學習正在經歷一種范式轉變。在早期階段,圖任務主要采用淺層方法,如隨機游走和矩陣分解。然而,這些方法在容量上存在一定的限制,主要適用于未標記圖上的轉導學習。最近朝向深度學習方法的轉變催生了圖神經網絡(GNNs)的出現。GNNs通過引入消息傳遞機制,使節點能夠迭代地從鄰居那里匯總信息,從而徹底改變了圖機器學習的格局。通過在完全監督、半監督或無監督設置中利用GNNs,研究人員開創了大量定制的圖模型。這些進展在節點分類、鏈接預測、圖分類和圖聚類等領域帶來了顯著的改進。然而,GNN模型仍然存在一些挑戰。這些模型受限于表達能力和泛化性方面的問題,尤其是考慮到不斷擴大的數據集和不斷增加的任務范圍。
基礎模型在各個領域的顯著成功越來越引起了圖機器學習研究人員的興趣。這自然引發了一個問題:圖基礎模型是否可以代表圖機器學習的下一個前沿?如果實現了這些模型,它們將具有更強的表達能力、可遷移性,并適用于更復雜的圖數據和任務。如圖1所示,圖基礎模型(GFM)被構想為一個在廣泛的圖數據上預訓練的模型,用于在不同的下游圖任務中進行微調。與傳統的基礎模型相類似,我們期待GFM具備兩個主要特征:涌現和同質化。具體而言,涌現指的是僅在大規模圖模型中顯現的新能力,而同質化表示模型可以適應不同類型的圖任務。現有的深度圖學習難以涵蓋這些屬性,因為它們固有的架構和學習范式專注于特定任務,這限制了對廣泛的未標記數據的利用,從而限制了它們的表達和泛化能力。
圖1:深度圖學習和圖基礎模型的對比
受到大型語言模型(LLMs)在NLP中作為基礎模型的成功啟發,研究人員已經探索了GFMs在涌現和同質化能力方面的可能性。這些探索主要圍繞GFMs的骨干架構的設計以及包括預訓練和適應性在內的不同訓練范式,因為它們是與實現前述能力密切相關的LLMs的關鍵策略。首先,基礎模型的出現能力通常僅存在于具有大量參數的骨干架構中,而圖神經網絡的參數數量明顯小于語言基礎模型骨干架構的參數數量。這意味著圖基礎模型的骨干可能需要重新設計,以實現更多的知識存儲以實現出現。由于圖數據通常包含豐富的文本信息,另一種替代方法是將LLMs用作圖基礎模型。然而,尚不確定LLMs是否能有效處理圖數據和相關任務,因此重要的是確定如何在LLMs中建模圖結構。此外,基礎模型的同質化要求以一種統一的方式處理各種任務。因此,在圖數據中,由于互連節點的復雜性、各種形式的屬性以及節點、邊和圖級別的任務的多樣性,設計有效的代理任務和下游任務適應方法變得具有挑戰性。因此,有必要設計新穎的預訓練代理任務和適配方式。
表1:語言基礎模型和圖基礎模型的關系雖然目前沒有關于設計和實現圖基礎模型的明確解決方案,但本文調查了一些相關研究,并將它們基于對圖神經網絡(GNNs)和大型語言模型(LLMs)的依賴分為三種不同的方法進行了分類。(1) 基于GNN的模型:它們旨在通過對骨干架構、預訓練和適配方面的創新來增強現有的圖學習范式。(2) 基于LLM的模型:它們探索將圖轉化為文本或標記的方式,以探索將LLM用作圖基礎模型的可行性。(3) 基于GNN+LLM的模型:它們結合了GNNs和LLMs,并尋求探索GNNs和LLMs之間各種協同作用的方式,以賦予它們增強的能力。
圖3:基于GNN的模型示意圖
圖5:基于LLM的模型示意圖
圖7:基于GNN+LLM的模型示意圖
據我們所知,這是第一篇關于圖基礎模型的綜述。現有的關于基礎模型的綜述通常探討語言和視覺等不同模態,而不是圖。此外,還有兩篇專門針對知識圖譜和大型語言模型的綜述,但由于知識圖譜在構建和應用上的獨特性,它們超出了本文的范圍。我們還注意到最近有一篇文章提到了大型圖模型的概念,但它強調了意見陳述并缺乏系統的分類。因此,本文的貢獻可以總結如下: ? 本文首次定義了圖基礎模型的概念,探討了它們能力的核心問題和特征。 ? 本文引入了一種新穎的分類法,并討論了每種方法的優勢和局限性。 ? 本文提供了一些圖基礎模型的未來發展方向。 本文的后續部分組織如下。在第2節中,我們介紹與圖基礎模型相關的背景信息。第3節定義了圖基礎模型,并突出了它們與語言基礎模型的相似性和差異。第4至6節深入研究了分別將基于GNN的模型、基于LLM的模型和基于GNN+LLM的模型視為圖基礎模型的相關工作。第7節討論了圖基礎模型的未來方向。在第8節,我們總結了本文的要點。 **圖基礎模型 **在本節中,我們首先將正式定義圖基礎模型的概念。然后,我們將討論圖數據和圖任務對圖基礎模型的影響。最后,我們將討論圖基礎模型和語言基礎模型之間的相似之處和不同之處。
在本節中,我們定義了圖基礎模型的概念及相關技術,并將圖基礎模型與語言基礎模型進行了比較。在接下來的部分,我們將介紹三類實現圖基礎模型的方法,以及每種方法的代表性作品,如圖2所示。基于GNN的模型使用GNN作為主干架構,而基于LLM的模型將圖轉化為LLM的輸入格式,并使用LLM作為主干架構。另一方面,基于GNN+LLM的模型同時使用GNN和LLM作為主干架構。主干架構的區別也影響了預訓練和適應的方法。因此,在接下來的部分,我們將分別介紹每種方法的主干架構、預訓練和適應策略。
**基于GNN的模型 **
得益于高效的模型架構和訓練范式,語言模型在自然語言處理任務中取得了顯著的性能。在語言模型中采用的主干、預訓練和適應技術已經激發了一系列在基于圖的任務領域的相應努力。在本節中,我們將深入探討基于GNN的模型,這些模型從NLP中使用的模型架構或訓練范式中汲取靈感,并將其應用于與圖相關的任務。重要的是,與接下來幾節中要介紹的基于LLM的模型和基于GNN+LLM的模型不同,基于GNN的模型在其流程中并不明確地建模文本數據。我們已經在表2中總結并分類了本節提到的工作。
基于LLM的模型
研究人員正在積極探索利用LLM作為圖學習的核心和唯一的主干的方法,以下的優點不容忽視。首先,基于Transformer的模型展現了在圖數據中無縫集成文本信息的卓越能力。此外,采用類似LLM的主干賦予模型統一多種圖學習任務的能力,因為這些任務可以用自然語言進行描述。此外,最近的進展,如NLGraph [66]、GPT4Graph [109],展示了LLM在初步圖推理中的威力。這些優勢為這類模型的發展標志了一個非常有前途的方向。為了探索將LLM納入圖學習的潛力,這些工作涉及圖基屬性和文本信息作為主干網絡的輸入。按照一些調查[16, 110],我們對主干的描述不僅僅局限于LLMs (如GPT-3)的狹窄定義;它還包括某些利用文本信息的基于Transformer的模型。我們已在表3中總結并分類了本節提到的工作。
**基于GNN+LLM的模型 **
GNN-based模型缺乏處理文本的能力,因此不能直接基于文本數據進行預測。此外,它們也不能根據用戶提供的自然語言指令進行預測。因此,探索具有大量參數的模型在與圖相關的任務中的性能是至關重要的。另一方面,用于圖學習的LLM-based模型有其固有的局限性。這些局限性包括LLMs無法處理精確的數學計算的能力,以及無法處理多跳邏輯推理等。這些缺點強調了在這個領域進行進一步研究和創新的必要性。為了克服這些局限性并充分利用LLMs的語言理解和GNNs的結構分析的優點,整合LLMs和GNNs可能會導致更全面和強大的模型。我們已在表4中總結并分類了本節提到的工作。
**結論 **
基礎模型和圖機器學習的發展催生了一個新的研究方向,目標是在廣泛的圖數據上進行訓練并將其應用于各種下游的圖任務。在這篇文章中,我們首次提出了圖基礎模型(GFMs)的概念,并介紹了相關的概念和代表性方法。我們根據它們對圖神經網絡(GNNs)和大型語言模型(LLMs)的依賴,將現有的GFMs相關工作分為三個主要類別:基于GNN的模型、基于LLM的模型和基于GNN+LLM的模型。對于每一類方法,我們分別介紹了它們的主干架構、預訓練和適應策略。在對圖基礎模型的當前情況提供了全面的概述之后,本文還指出了這個不斷發展領域的未來方向。
大型語言模型(LLMs)在自然語言處理(NLP)領域憑借其出色的語言理解和生成能力取得了顯著進步。然而,由于受限于領域特定知識和詞匯的接觸,它們在長尾或領域特定任務的表現可能不盡如人意。此外,大多數最先進的(SOTA)LLMs缺乏透明度,只能通過API訪問,這阻礙了使用自定義數據進一步微調。而且,數據隱私是一個重要問題。為了應對這些挑戰,我們提出了一種創新的參數知識引導(PKG)框架,該框架為LLMs配備了一個知識引導模塊,以在運行時訪問相關知識,而無需更改LLMs的參數。我們的PKG基于開源的“白盒”小型語言模型,允許將LLMs所需的任何知識進行離線存儲。我們證明了我們的PKG框架可以增強“黑盒”LLMs在一系列長尾和領域特定下游任務的表現,這些任務需要事實、表格、醫學和多模態知識。
//www.zhuanzhi.ai/paper/4bf640cc7e3ca1bf060a6aafc401de8e
1. 引言
諸如GPT3 [Brown et al., 2020]的大型語言模型(LLMs)在各種自然語言處理(NLP)任務中展示出令人印象深刻的熟練程度。這些模型通常在廣泛的互聯網數據上進行訓練,從而使它們能夠將大量的隱式世界知識融入到其參數中。因此,LLMs已成為既適用于NLP研究又適用于工業應用的多功能工具。例如,它們可用于機器翻譯 [Jiao et al., 2023],段落摘要 [Yang et al., 2023]和推薦系統 [Gao et al., 2023]。憑借其卓越的語言理解和生成能力,LLMs為各種工業應用提供了新的機會,如最近推出的New Bing [Microsoft, 2023]和ChatGPT插件 [OpenAI, 2023a]。 盡管在一般自然語言處理(NLP)任務上表現出色,但在長尾或領域特定任務上,LLMs可能會因受限于相關知識和詞匯而難以獲得最佳結果 [Chalkidis, 2023; Kasai et al., 2023; Nascimento et al., 2023]。雖然LLMs在預訓練過程中獲取了隱式知識,但這種知識可能對某些任務來說是有損失或不足的,導致準確度降低和效果不佳。此外,許多最先進(SOTA)的LLMs被認為是“黑箱”模型,只能通過API訪問。這種缺乏透明度使得微調這些模型對大多數研究人員和公司來說變得困難和昂貴。此外,能夠承擔微調費用的用戶必須向LLM所有者提供他們的私人數據,將其暴露于濫用、違規或其他安全威脅的風險中 [BBC, 2023]。這些限制阻礙了LLMs適應特定用例或領域的能力。
最近的研究主要集中在使用基于檢索的方法從外部知識庫中提取領域特定知識,以提高LLMs的性能 [Liu, 2022; Shi et al., 2023; Peng et al., 2023a]。雖然這種方法取得了有前景的結果,但它還存在一些局限性。首先,它嚴重依賴外部知識來源,這些來源可能并不總是容易獲得或可用。此外,這些方法可能無法處理需要從多個來源或模態整合信息的復雜查詢。
為了克服這些局限性,我們提出了一種名為參數知識引導(PKG)的新框架,它將檢索替換為生成,如圖1所示。PKG模塊是一個額外的背景知識生成模塊,使LLMs能夠在運行時訪問相關信息,而無需更新它們的參數。通過提供必要的知識,增強型LLMs可以在長尾或領域特定任務上取得更好的性能。
我們的PKG框架基于開源且免費使用的“白盒”小型語言模型,使其能夠被更廣泛的用戶所使用。為了與給定任務或領域所需的特定知識保持一致,我們引入了一種基于指令微調的兩步知識對齊方法 [Ouyang et al., 2022]。參數模塊可以存儲LLMs所需的任何知識,并且可以在離線情況下高效地進行更新。
我們的實驗表明,所提出的PKG框架能夠提高“黑箱”LLMs在需要領域特定背景知識的各種下游任務上的性能,包括事實知識(FM2 [Eisenschlos et al., 2021], +7.9%)、表格知識(NQ-Table [Herzig et al., 2021], +11.9%)、醫學知識(MedMC-QA [Pal et al., 2022], +3.0%)和多模態知識(ScienceQA [Lu et al., 2022], +8.1%)。我們將我們的貢獻總結如下:
我們提出了一種創新的參數知識引導(PKG)框架,通過集成一個額外的背景知識生成模塊來增強語言模型(LMs)的能力。
我們引入了一種兩步知識對齊方法,將PKG模塊與給定任務或領域所需的特定知識對齊。該方法基于指令微調,并使參數模塊能夠進行高效的離線更新。
我們對各種下游任務進行了廣泛的實驗,以評估我們提出的PKG框架的有效性。這些實驗的結果表明,我們的PKG框架可以提高LLMs在這些任務上的能力。
2 參數化知識引導
在本節中,我們介紹了一種名為參數知識引導(PKG)的創新框架,旨在提高“黑箱”LLMs在長尾或領域特定任務上的性能。PKG利用一個離線參數知識生成模塊,該模塊與LLM集成,以在運行時提供相關知識,指導其推理。為實現這一目標,我們首先利用一個小型開源語言模型來高效地與領域特定知識對齊,這些知識通常是長尾的或不存在于LLM的訓練數據中。然后,給定一個輸入問題或句子,PKG提供相應的背景文檔,擴展LLMs的輸入上下文,使它們能夠處理更廣泛的任務。
**2.1 導引器的知識對齊 **
針對特定任務或領域,我們通過指令微調 [Ouyang et al., 2022] 將導引器模塊與相關知識對齊。如圖2所示,我們將此過程分為兩個步驟。首先,我們收集有關目標任務/領域的原始數據,作為我們的知識來源。然后,我們將數據轉換為一組(指令,輸入,輸出)三元組。指令作為輸入的提示,并指導模塊與預期輸出對齊。接下來,采用這組三元組來調整我們的基本PKG模塊,優化其為給定任務或領域的LLMs提供相關且有效指導的能力。這個過程使PKG模塊能夠學習并生成領域特定知識,并在運行時提供給LLMs。指令提示的示例是:
指令作為提示,指導模型提供與特定領域或任務相關的背景知識。輸入是一個提示,提示模型在指定的領域或任務中生成一句話或回答問題。輸出是模型基于給定指令和輸入生成的相關知識。為生成輸出,我們以自回歸方式訓練基本的導引器模塊,其中模型在給定先前上下文的情況下生成輸出。一旦訓練完成,基本模型就會演變成參數化知識導引器,可以根據相應的指令生成特定領域/任務的背景知識。
2.2 用PKG增強LLMs
在許多情況下,使用“黑箱”LLMs的標準方法是將輸入句子/問題作為提示,并請求LLMs使用API返回響應/答案。然而,這種方法對于需要超出輸入本身所含知識的復雜任務可能并不有效。為了克服這個限制,一種常見的方法是為LLMs提供額外的上下文,使它們能夠訪問與任務相關的更多相關信息。在PKG的情況下,我們增強輸入與領域特定的背景知識,擴展輸入上下文。這個補充信息作為LLMs的指南,使它們能夠訪問更豐富的任務上下文,從而潛在地提高它們生成響應的準確性。一個增強的提示的例子是:
3 實驗
在本節中,評估了所提出的PKG框架在四種不同類型的知識上的有效性:事實性、表格性、醫學和多模態知識。將所提出方法的性能與幾個基線方法進行了比較,表1和表2所示的結果表明,PKG比"黑盒" LLM取得了顯著的改進。這些發現為所提出方法的通用性和有效性提供了令人信服的證據。
在大規模無標簽文本上預訓練語言模型,然后在下游任務微調的學習模式已經在自然語言處理(NLP)領域取得了廣泛的應用。盡管當前的預訓練語言模型在大部分NLP任務上取得了顯著的進展,然而,研究人員發現當預訓練任務的目標更接近于下游任務的目標時,模型在下游任務上能取得更大幅度的性能提升,例如針對文本摘要設計的Gap Sentence Prediciton預訓練任務[1]、面向機器閱讀理解設計的Span Selection預訓練任務[2]、以及為情感分析設計的Label-aware MLM預訓練任務[3],都取得了相較于原始預訓練語言模型更好的性能。近年來,在信息檢索(IR)中,預訓練語言模型在文檔排序任務上取得了一定的效果,然而,如何設計更符合信息檢索需求的預訓練目標,是一個值得探索的新領域。
在這項工作中,我們提出了一個新穎的針對信息檢索的預訓練任務,叫做“代表詞預測”任務(Representative Words Prediction)。這個任務是受到了IR中經典統計語言模型——查詢似然模型的啟發,在查詢似然模型的基本假設中,查詢被認為是由“理想”文檔“生成”出來的具有代表性的文本,因此通過貝葉斯定理推導,查詢的相關性強度可由其代表性或者說是其似然值表征。鑒于此,我們就構建了這樣一個新的代表詞預測任務(簡稱為ROP任務),具體來說,對于一個給定的文檔,我們根據文檔語言模型(狄利克雷平滑的多項式語言模型)采樣出該文檔的代表性詞集,然后預訓練語言模型使其能夠有效地區分出其中哪些詞項更具有代表性。為了同時建模查詢和文檔內容理解以及二者關系的預測,我們結合ROP與MLM一起在無標簽的文檔語料上進行預訓練,我們把通過這種預訓練方式得到的語言模型命名為PROP。
盡管生成式預訓練語言模型在一系列文本生成任務上取得了成功,但在生成過程中需要對基本常識進行推理的情況下,它們仍然會受到影響。現有的將常識知識整合到生成的預訓練語言模型中的方法,只是簡單地通過對單個知識三元組的后訓練來遷移關系知識,而忽略了知識圖譜中豐富的連接。我們認為,利用知識圖譜的結構和語義信息有助于常識感知文本的生成。在本文中,我們提出用多跳推理流(GRF)進行生成,使預訓練的模型能夠在從外部常識知識圖譜中提取的多關系路徑上進行動態多跳推理。我們的經驗表明,我們的模型在三個文本生成任務上優于現有的基線,這些任務需要推理而非常識知識。通過模型推導出的推理路徑,證明了動態多跳推理模塊的有效性,為生成過程提供了理論依據。