亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要—大型語言模型(LLMs)在廣泛的任務中展現出了卓越的能力,但在專業領域的應用仍面臨挑戰,主要原因在于需要深厚的領域專業知識。檢索增強生成(RAG)作為一種有前景的解決方案,通過無縫集成外部知識庫,使大型語言模型能夠在推理過程中實時訪問領域特定的專業知識,從而實現定制化。然而,傳統基于平面文本檢索的RAG系統面臨三個關鍵挑戰:(i)專業領域中復雜的查詢理解,(ii)跨分布式源的知識整合困難,和(iii)大規模下的系統效率瓶頸。本綜述提出了一種系統性的分析,重點討論了基于圖的檢索增強生成(GraphRAG),這是一種通過圖結構革命性地改變領域特定大型語言模型應用的新范式。GraphRAG通過三項關鍵創新解決了傳統RAG的局限性:(i)圖結構的知識表示,顯式捕捉實體關系和領域層次,(ii)高效的基于圖的檢索技術,支持多跳推理的上下文保持型知識檢索,和(iii)結構感知的知識整合算法,通過利用檢索到的知識進行準確且邏輯連貫的LLM生成。本文對GraphRAG的技術基礎進行了系統分析,并考察了在多個專業領域中的現有實現,識別了關鍵的技術挑戰和有前景的研究方向。所有與GraphRAG相關的資源,包括研究論文、開源數據和項目,已匯集在//github.com/DEEP-PolyU/Awesome-GraphRAG供社區使用。

關鍵詞—檢索增強生成,知識圖譜,大型語言模型,GraphRAG

I. 引言

大型語言模型(LLMs),如GPT系列 [1],憑借其在廣泛任務中的卓越能力,令世界為之一驚,在文本理解 [2]、問答 [3] 和內容生成 [4]–[6] 等領域取得了突破性進展。然而,盡管LLMs在許多任務上表現出色,它們在處理需要領域專業知識的知識密集型任務時仍面臨批評 [7]。具體而言,LLMs在專業領域中的應用仍然面臨三大挑戰: ? 知識局限性:LLMs的預訓練知識廣泛,但在專業領域中較為淺薄。它們的訓練數據主要來自通用領域內容,導致在專業領域的知識深度不足,并且可能與當前的領域特定標準和實踐存在不一致。 ? 推理復雜性:專業領域要求精確的多步驟推理,涉及領域特定的規則和約束。LLMs往往難以在擴展的推理鏈中保持邏輯一致性和專業準確性,尤其是在處理技術約束或領域特定協議時。 ? 上下文敏感性:專業領域通常涉及依賴于上下文的解釋,相同的術語或概念在特定情況下可能具有不同的含義或影響。LLMs往往無法捕捉這些細微的上下文差異,導致潛在的誤解或不當概括。 為了將LLMs適配到特定或私有領域,最初的策略是通過使用專業數據集對LLMs進行微調 [8]。這種方法通過增加有限的參數并固定預訓練中學習到的參數來提高性能 [9]。然而,領域特定數據集與預訓練語料庫之間的顯著分布差距使得LLMs在不妥協現有理解的情況下整合新知識變得困難 [10]。谷歌研究的一項最新研究進一步突出了使用監督微調更新知識的風險,特別是在新知識與已有信息沖突時;通過監督微調獲取新知識可能導致模型生成新的幻覺,甚至遭遇嚴重的災難性遺忘 [11]。 檢索增強生成(RAG) 提供了一個有前景的解決方案來定制LLMs以適應特定領域 [12]。RAG并不是通過重新訓練LLMs來整合更新,而是通過利用外部知識庫增強這些模型,無需修改其架構或參數。這種方法使LLMs不僅能利用其預訓練知識,還能實時檢索領域特定信息,從而生成更加準確和可靠的回答。傳統的RAG系統通過三個關鍵步驟進行操作:知識準備、檢索和整合。在知識準備階段,外部資源(如文檔、數據庫或網頁)被分割成可管理的文本塊,并轉換為向量表示以便高效索引。在檢索階段,當用戶提交查詢時,系統通過關鍵詞匹配或向量相似度度量來搜索相關的文本塊。整合階段將這些檢索到的文本塊與原始查詢結合,以生成用于LLM響應的知情提示。近年來,一些先進的RAG系統已經超越了簡單的文本塊檢索,提供了更為復雜的知識增強方法。這些方法包括:通過多級檢索保持文檔結構的層次化RAG [13][14],實施兩階段檢索以提高召回率和精確度的重排序系統 [15][16],自動分解復雜查詢的自查詢RAG [17],以及根據查詢類型動態調整檢索策略的自適應RAG [18][19]。這些先進的RAG系統通過提升上下文感知能力、檢索準確性,并更有效地處理復雜查詢,旨在克服傳統RAG方法的局限性。 RAG的出現為定制LLMs提供了一個有前景的方法,但盡管如此,RAG仍面臨若干關鍵限制,影響其在實際應用中的效果。這些限制可大致分為四個主要挑戰,顯著影響RAG增強的LLMs的性能和實用性。主要挑戰在于復雜查詢理解。專業領域通常涉及復雜的術語和行業特定的行話,需要精確的解釋 [20]。這些領域中的用戶查詢通常包含大量技術性術語和行業特有的表達,解決方案往往需要跨多個相關概念進行推理。傳統的RAG方法依賴于簡單的關鍵詞匹配和向量相似度技術,這些方法無法有效捕捉準確和全面的深層語義差異和多步驟推理過程 [21]。例如,當詢問概念A與概念D之間的關系時,這些系統通常只檢索直接相關的信息,而忽略了可能橋接這一關系的關鍵中介概念,如B和C。這種狹隘的檢索范圍限制了RAG對廣泛上下文理解和復雜推理的能力。 另一個關鍵挑戰是從分布式來源整合領域知識。領域知識通常來自不同的資源,如教科書、研究論文、行業報告、技術手冊和維護日志。這些文本文檔可能具有不同的質量、準確性和完整性。檢索到的知識通常是平坦的、廣泛的且復雜的,而領域概念通常分散在多個文檔中,且不同概念之間缺乏清晰的層次關系 [7][22][23]。盡管RAG系統通過將文檔分割成較小的塊以便高效索引來管理這種復雜性,但這種方法不經意間犧牲了重要的上下文信息,顯著妥協了檢索準確性和上下文理解能力。這一限制妨礙了在相關知識點之間建立穩固聯系,導致理解片面,進而降低了領域專業知識的利用效果。 第三個限制來自LLMs固有的限制。盡管RAG系統可以從龐大的知識庫中檢索相關信息,但LLM處理這些信息的能力受限于其固定的上下文窗口(通常為2K-32K個token) [1][24]。復雜文檔中的長程依賴關系無法完全捕捉,因為超出上下文窗口的內容必須被截斷或總結,這會打斷自然的語義單元和邏輯流程。在專業領域中,保持跨廣泛知識背景的一致性變得更加棘手,因為在上下文窗口截斷過程中,關鍵信息可能會丟失。這一固有限制直接影響了系統從大規模知識庫中處理和綜合信息的能力。 最后的挑戰與系統效率和可擴展性有關。整個RAG管道——從初步的語料預處理和索引到實時檢索和生成——面臨顯著的效率瓶頸 [25][26]。外部知識庫中包含大量與領域無關的信息,而領域特定的術語通常在這些文檔中分布稀疏。RAG系統計算成本高且耗時 [25],特別是在處理大規模知識源時,因為模型需要搜索大量未結構化的文本以尋找相關信息。此外,實時檢索和跨文檔推理可能引入相當大的延遲,影響用戶體驗。隨著知識庫規模的增長,RAG的可擴展性受到檢索質量和準確性的下降限制 [26],這進一步限制了其在廣泛且動態的專業環境中的實際部署。 為了應對這些限制,圖檢索增強生成(GraphRAG)作為一種新范式應運而生,旨在通過組織良好的背景知識和改進的上下文推理定制LLMs [25][27]–[29]。基于圖結構,現有的GraphRAG模型可分為三大類:? 基于知識的GraphRAG,將圖作為知識載體;? 基于索引的GraphRAG,使用圖作為索引工具,從語料庫中檢索相關的原始文本;? 混合型GraphRAG,結合了基于知識和基于索引框架的優勢,為復雜推理任務提供了更先進的解決方案。基于知識的GraphRAG和基于索引的GraphRAG代表了兩種不同的增強LLMs的圖結構方法。基于知識的GraphRAG側重于將非結構化文本文檔轉化為明確且結構化的知識圖譜,其中節點表示領域概念,邊表示它們之間的語義關系,從而更好地表示層次關系和復雜的知識依賴性。相比之下,基于索引的GraphRAG保持原始文本形式,同時主要利用圖結構作為索引機制來高效地組織和檢索相關文本塊。通過將圖結構融入文本索引,基于索引的GraphRAG方法在文本塊之間建立語義連接,便于高效的查找操作和檢索。雖然基于知識的GraphRAG強調通過圖轉換明確建模領域知識和語義關系,而基于索引的GraphRAG則優先優化信息檢索和通過圖形索引策略提升文本信息的可訪問性。這兩種方法在目的上有所不同:基于知識的GraphRAG旨在通過圖結構推理能力創建結構化的知識表示,幫助更好地理解復雜關系;而基于索引的GraphRAG則側重于通過圖結構索引策略優化相關文本信息的檢索和可達性。 在本文中,我們系統地分析了GraphRAG的技術基礎,并考察了在各個專業領域中的當前實現,識別了關鍵的技術挑戰和有前景的研究方向。所有與GraphRAG相關的資源,包括研究論文、開源數據和項目,已匯集在

本綜述對GraphRAG進行了全面分析,詳細介紹了其分類、機制、挑戰和未來的研究方向,并將內容組織為七個主要部分,逐步從基礎概念到實際應用展開。具體來說,我們在第二部分(Section 2 II)首先建立了基礎框架,追溯了GraphRAG從傳統RAG系統的演變,探討了RAG在處理結構化知識時的局限性,并介紹了GraphRAG在復雜推理任務中的核心概念和優勢。接下來的三部分系統地探討了GraphRAG系統的關鍵組件:包括知識承載圖和索引圖(第三部分Section 3 IV)兩種主要的結構化知識組織范式;從結構化知識庫中提取與查詢相關的事實信息的檢索技術(第四部分Section 4 V);以及有效地將檢索到的知識整合到LLM中的知識集成方法(第五部分Section 5 VI)。隨著向實際應用的推進,第六部分(Section 6 VIII)通過提供詳細的實施指南、回顧開源項目,并呈現由全面數據集和評估基準支持的領域特定案例研究,討論了GraphRAG的實施方面。最后,第七部分(Section 7 VII)通過識別未來的研究方向,并討論知識質量、檢索效率、系統泛化能力和安全性等潛在挑戰,結合實踐指導,總結了構建領域特定GraphRAG系統的建議。 本綜述在現有的綜述 [28]–[30] 基礎上進行了進一步擴展,采用了更加系統和全面的方法分析GraphRAG系統。盡管之前的綜述提供了Graph基索引、圖引導檢索和圖增強生成的基本工作流描述,我們引入了一個更為復雜且全面的分類法,將GraphRAG方法清晰地分為三類(基于知識的、基于索引的和混合型GraphRAG),從而提供了對該領域更加細致的理解。我們的綜述采用了更為系統的六部分結構,邏輯地從理論基礎到實踐應用展開,詳細探討了每個組成部分,包括知識組織范式、檢索技術和集成方法。

與之前的綜述不同,我們通過詳細回顧開源項目、領域特定案例研究以及提供全面的數據集和評估基準,提供了豐富的實踐指導。我們還對多個維度的挑戰和解決方案進行了更為深入的分析,包括知識質量、檢索效率、系統泛化能力和安全性問題。最后,盡管現有綜述廣泛討論了潛在應用,我們提供了更多基于實證證據和實施示例的可操作性見解,使我們的綜述成為在生產環境中部署GraphRAG系統的實踐者更具價值的資源。

付費5元查看完整內容

相關內容

將大型語言模型(LLM)適應于新的多樣化知識,對于其在實際應用中的長期有效性至關重要。本綜述概述了擴展LLM知識的最先進方法,重點介紹了整合多種知識類型的方法,包括事實信息、領域專業知識、語言能力和用戶偏好。我們探討了持續學習、模型編輯和基于檢索的顯式適應等技術,同時討論了知識一致性和可擴展性等挑戰。本綜述旨在為研究人員和實踐者提供指導,闡明了將LLM發展為可適應且強大的知識系統的機會。 //arxiv.org/abs/2502.12598

1 引言

隨著大型語言模型(LLM)在實際應用中的逐漸普及,它們適應不斷變化的知識的能力對于保持相關性和準確性變得至關重要。然而,LLM 通常只進行一次訓練,因此它們的知識更新僅限于某個截止日期,限制了它們與新信息保持同步的能力。本綜述全面概述了使 LLM 能夠整合各種類型新知識的方法,包括事實知識、領域特定知識、語言知識和用戶偏好知識。我們調查了適應策略,包括持續學習、模型編輯和基于檢索的方法,并旨在為研究人員和實踐者提供指導。 為了保持有效性,LLM 需要在多個維度上進行更新。事實知識包括一般真理和實時信息,而領域知識則涉及特定領域,如醫學或法律。語言知識增強了多語言能力,偏好知識使模型的行為與用戶的期望和價值觀保持一致。確保 LLM 能夠在這些維度上整合更新對于其持續的實用性至關重要。 現有的 LLM 適應方法在方法和應用上有所不同。持續學習使得模型的參數化知識能夠進行增量更新,減輕災難性遺忘(McCloskey 和 Cohen,1989),同時確保長期表現。模型編輯允許精確修改已學習的知識,提供受控的更新,而不需要完全重新訓練。與這些隱式知識擴展方法不同,基于檢索的方法在推理過程中顯式地動態訪問外部信息,從而減少對靜態參數化知識的依賴。不同知識類型的這些方法的適用性和一般性已在表 1 中總結。通過利用這些策略,LLM 可以保持準確性、上下文意識,并適應新信息。 在第二節中,我們將我們的工作置于背景中(第 2 節),并在第三節中定義本文涉及的知識類型。我們還概述了不同的知識擴展方法,如圖 1 所示。因此,本工作綜述了多種研究努力,并可作為研究人員和實踐者開發和應用可適應且強大的 LLM 的指南。我們強調了研究機會,并提供了優化適應技術以應對各種實際應用的見解。

付費5元查看完整內容

大型語言模型(LLMs)由于依賴靜態訓練數據,常常面臨幻覺和過時知識的問題。檢索增強生成(RAG)通過整合外部動態信息來緩解這些問題,從而增強事實性和更新性基礎。最近的多模態學習進展促成了多模態RAG的發展,結合了文本、圖像、音頻和視頻等多種模態,以增強生成的輸出。然而,跨模態對齊和推理為多模態RAG帶來了獨特的挑戰,這使其與傳統的單模態RAG有所不同。本綜述提供了對多模態RAG系統的結構化和全面分析,涵蓋了數據集、度量標準、基準測試、評估、方法論以及在檢索、融合、增強和生成中的創新。我們精確回顧了訓練策略、魯棒性增強和損失函數,同時也探討了多樣化的多模態RAG場景。此外,我們討論了支持該領域進展的開放挑戰和未來研究方向。本綜述為開發更強大、更可靠的AI系統奠定了基礎,這些系統能夠有效利用多模態動態外部知識庫。資源可在 //github.com/llm-lab-org/Multimodal-RAG-Survey 獲取。 1 引言與背景

近年來,語言模型取得了顯著的突破,主要得益于變換器(Vaswani et al., 2017)的出現、計算能力的增強以及大規模訓練數據的可用性(Naveed et al., 2024)。基礎性大型語言模型(LLMs)(Ouyang et al., 2022;Grattafiori et al., 2024;Touvron et al., 2023;Qwen et al., 2025;Anil et al., 2023)的出現徹底改變了自然語言處理(NLP),展現了在廣泛任務中的前所未有的能力,包括指令跟隨(Qin et al., 2024)、復雜推理(Wei et al., 2024)、上下文學習(Brown et al., 2020)以及多語言機器翻譯(Zhu et al., 2024a)。這些進展提升了各種NLP任務的表現,開辟了新的研究和應用途徑。盡管取得了顯著成就,LLMs仍面臨重大挑戰,包括幻覺、過時的內部知識以及缺乏可驗證的推理(Huang et al., 2024a;Xu et al., 2024b)。它們依賴于參數化內存,限制了訪問最新知識的能力,使其在知識密集型任務中的表現不如任務特定架構。此外,提供其決策的來源并更新世界知識仍然是關鍵的開放問題(Lewis et al., 2020)。 檢索增強生成(RAG)

檢索增強生成(RAG)(Lewis et al., 2020)作為一種有前景的解決方案應運而生,通過使LLMs能夠檢索和整合外部知識,從而提高事實準確性并減少幻覺(Shuster et al., 2021;Ding et al., 2024a)。通過動態訪問龐大的外部知識庫,RAG系統在增強知識密集型任務的同時,確保響應保持在可驗證的來源中(Gao et al., 2023)。在實踐中,RAG系統通過檢索器-生成器管道運作。檢索器利用嵌入模型(Chen et al., 2024b;Rau et al., 2024)從外部知識庫中識別相關段落,并可選地應用重新排序技術以提高檢索精度(Dong et al., 2024a)。這些檢索到的段落隨后傳遞給生成器,生成器結合外部上下文生成知情響應。RAG框架的最新進展(Asai et al., 2023;An et al., 2024;Lee et al., 2024;Liu et al., 2024c)引入了迭代推理過程,通過優化檢索和生成階段,使回答更加準確和可靠。然而,傳統的RAG架構主要設計用于文本信息,這限制了其處理多模態挑戰的能力,而多模態挑戰需要整合多種數據格式。 多模態學習

與這些發展并行,多模態學習的顯著進展通過使系統能夠整合和分析異構數據源,為信息的整體表示提供了新的視角,從而重塑了人工智能。CLIP(對比語言-圖像預訓練)(Radford et al., 2021)的引入標志著連接視覺和文本信息的關鍵時刻,通過對比學習促進了后續許多模型和應用的發展(Alayrac et al., 2024;Wang et al., 2023;Pramanick et al., 2023)。這些突破推動了各個領域的進展,包括情感分析(Das and Singh, 2023)和前沿的生物醫學研究(Hemker et al., 2024),證明了多模態方法的價值。通過使系統能夠處理和理解文本、圖像、音頻和視頻等多種數據類型,多模態學習已成為推動人工通用智能(AGI)(Song et al., 2025)發展的關鍵。 多模態RAG

將LLMs擴展到多模態LLMs(MLLMs)進一步增強了其能力,使其能夠跨多種模態進行處理、推理和生成輸出(Liu et al., 2023a;Team et al., 2024;Li et al., 2023b)。例如,GPT-4(OpenAI et al., 2024)通過接受文本和圖像兩種輸入,在多個基準測試中表現出人類級別的性能,標志著多模態感知和交互的一個重要里程碑。在此基礎上,多模態RAG系統通過結合圖像和音頻等多模態知識源,擴展了傳統RAG框架,為生成提供豐富的上下文(Hu et al., 2023;Chen et al., 2022a)。這種整合不僅增強了生成輸出的精度,同時利用多模態線索提高了MLLMs的推理能力。多模態RAG管道的基本流程如圖1所示。然而,這些多模態系統也帶來了獨特的挑戰,包括確定檢索哪些模態、有效融合多種數據類型以及處理跨模態相關性的復雜性(Zhao et al., 2023)。 任務公式化

我們給出了多模態RAG系統的通用任務數學公式。這些系統針對一個查詢q(通常是文本格式)生成一個多模態響應r。 設D = {d1, d2, ..., dn}為一個由n個多模態文檔組成的語料庫。每個文檔di ∈ D與一個模態Mdi關聯,并通過模態特定的編碼器EncMdi處理:

相關工作

由于多模態RAG領域是新興且迅速發展的,特別是在近年來,對于探索這些系統的當前創新和前沿的綜述需求迫切。盡管已有超過十篇關于RAG相關主題的綜述文章(如代理RAG(Singh et al., 2025)),但沒有一篇詳細全面地概述多模態RAG的進展。迄今為止唯一的相關綜述(Zhao et al., 2023)通過根據應用和模態對相關文獻進行分類。然而,我們的綜述提供了一個更詳細且創新驅動的視角,提供了詳細的分類法,并深入探討了新興趨勢和挑戰。此外,自該綜述發布以來,領域內已經取得了顯著進展,對該主題的研究興趣也顯著增長。在本綜述中,我們回顧了近年來發表的100多篇關于多模態RAG的論文,主要來自ACL文集和其他如ACM數字圖書館等資源庫。 貢獻

在本研究中,(i)我們提供了對多模態RAG領域的全面回顧,涵蓋了任務公式化、數據集、基準、任務和領域特定應用、評估以及檢索、融合、增強、生成、訓練策略和損失函數的關鍵創新。(ii)我們引入了一個精確的結構化分類法(圖2),根據其主要貢獻對最先進的模型進行了分類,突出方法學進展和新興前沿。(iii)為了支持進一步的研究,我們公開了包括數據集、基準和關鍵創新在內的資源。(iv)我們識別了當前的研究趨勢和知識空白,提供了見解和建議,以指導該不斷發展的領域的未來進展。

付費5元查看完整內容

摘要—譜聚類是一種強大的高維數據聚類技術,利用基于圖的表示來檢測復雜的非線性結構和非凸聚類。構建相似度圖對于確保準確有效的聚類至關重要,因此圖結構學習(GSL)在應對日益增長的可擴展解決方案需求中,成為提升譜聚類性能的核心。盡管在GSL方面取得了一定的進展,但目前缺乏專門針對其在譜聚類中的作用的全面調查。為填補這一空白,本調查提供了關于譜聚類方法的全面綜述,重點討論了GSL的關鍵作用。我們探討了多種圖構建技術,包括成對、錨點以及基于超圖的方法,涵蓋固定和自適應設置。此外,我們將譜聚類方法分類為單視角和多視角框架,研究它們在單步和兩步聚類過程中的應用。我們還討論了多視角信息融合技術及其對聚類數據的影響。通過解決當前的挑戰并提出未來的研究方向,本綜述為推動譜聚類方法的發展提供了有價值的見解,并強調了GSL在處理大規模高維數據聚類任務中的關鍵作用。關鍵詞—譜聚類,圖結構學習,譜嵌入,多視角聚類

I. 引言

聚類(Clustering)是無監督學習中的一種基礎技術,旨在將數據點劃分為不同的組或簇,使得簇內的點彼此相似,而與其他簇中的點差異較大【1】–【3】。與監督學習不同,聚類在沒有預定義標簽或類別的情況下運行,而是通過識別數據中的內在模式和結構來實現目標。這使得聚類在探索性數據分析中尤為重要,在此過程中,目標是揭示隱藏的模式,而不依賴于數據結構的先驗假設【4】。聚類被廣泛應用于各個領域,包括市場營銷【5】、社交網絡分析【6】、圖像分割【7】、生物信息學【8】、異常檢測【9】和文檔分類【10】。它簡化了復雜的數據,增強了理解,且常常作為其他機器學習任務(如分類)的預處理步驟。

聚類方法可以大致分為傳統方法和基于降維的聚類方法,如圖1所示。傳統方法包括基于劃分的方法【11】、層次聚類方法【12】、基于密度的方法【13】和概率算法【14】,每種方法都采用不同的策略來對數據進行分組。基于劃分的方法(如K-means)將數據劃分為固定數量的簇,每個簇由一個質心表示【11】。層次方法,如凝聚型和分裂型聚類,通過合并較小的簇(凝聚型)或拆分較大的簇(分裂型)來構建聚類層次【15】【16】。基于密度的方法,如DBSCAN,通過基于高密度區域對數據點進行分組,能夠識別形狀各異的簇【17】。概率方法,如高斯混合模型(GMM),使用概率模型來表示數據分布和聚類【14】。

盡管傳統方法對于低維且結構良好的數據集有效,但當應用于高維或復雜數據時,往往面臨局限性。在高維空間中,點與點之間的距離度量變得困難,通常會導致聚類性能不佳。此外,傳統方法常常無法捕捉非凸形狀和復雜的數據結構。為了應對這些局限性,基于降維的聚類方法應運而生,通過減少特征或維度的數量,使得在較低維度空間中進行聚類,同時保留必要的結構信息。基于降維的聚類方法包括非負矩陣分解(NMF)【18】、譜聚類【19】【20】、核聚類【21】和深度聚類【22】。NMF是一種有效的降維技術,用于將數據矩陣分解為兩個低維的非負矩陣【18】。然而,當處理更加復雜或非線性的數據結構時,可能面臨一定的挑戰。核聚類(包括核K-means和核主成分分析(PCA)等方法)通過應用核函數來處理數據中的非線性關系【21】。譜聚類利用圖論,將數據點表示為圖中的節點,節點之間的相似度則通過邊來表示,并采用如Ratio-cut【23】和Normalized-cut【24】等方法。深度聚類將深度學習與聚類結合,通過神經網絡學習低維表示【22】。盡管深度聚類對于大規模、高維數據非常強大,但它需要大量的計算資源,并且需要細致的超參數調優。在降維技術中,譜聚類因其能夠通過圖結構方法識別非凸簇并捕捉非線性結構,而在處理復雜數據時表現尤為突出。譜聚類通過將數據點表示為圖中的節點,并使用基于圖的嵌入方法,根據數據點之間的連通性和關系來劃分數據。這種靈活性使得譜聚類能夠應用于各種領域中的問題,特別是在結合有效的圖構建技術時。譜聚類尤其適用于高維數據,在這種情況下,譜嵌入通過降低維度同時保留必要的結構信息,從而緩解了“維度災難”問題,并使得非線性模式的聚類變得可靠。對于大規模數據集,基于錨點圖的譜聚類通過使用一部分代表性點(或稱為錨點)來高效近似數據點之間的關系,從而提供了一種可擴展的解決方案,既節省了計算資源,又保證了聚類質量。因此,譜聚類具有很強的靈活性和可擴展性,能夠適應高維和大規模數據的應用,是進行復雜聚類任務的強大工具【21】【25】。譜聚類成功的關鍵因素之一是相似度圖的構建,圖結構是整個過程的基礎。這個圖表示了數據點之間的關系,節點對應數據點,邊表示它們之間的成對相似度。圖的質量顯著影響譜嵌入和聚類結果,因為它直接決定了數據底層結構的捕捉精度【25】。在譜聚類中,常用的圖類型包括成對圖【26】、錨點圖【27】【28】和超圖【29】【30】。不同類型的圖在數據的性質不同的情況下提供了各自的優勢。這些圖可以是固定的,即結構在整個聚類過程中保持不變,也可以是自適應的,即在聚類過程中動態學習并更新圖的結構。盡管在譜聚類,尤其是在圖像分割【31】、文本分類【32】和工業設計【33】等領域取得了進展,但仍缺乏一篇全面的綜述,專門探討圖結構學習(GSL)在譜聚類中的作用。為填補這一空白,本調查提供了關于譜聚類的廣泛綜述,特別強調了圖結構在提升聚類準確性方面的關鍵作用。雖然先前的綜述【34】提供了關于譜聚類的概述,重點討論了圖切割、拉普拉斯矩陣和聚類過程,但我們的綜述深入探討了更為具體且至關重要的GSL方面。先前的綜述側重于譜聚類的數學基礎和應用,但沒有廣泛探討圖的構建方式及其對聚類性能的影響。相較之下,我們的綜述突出了圖構建技術的作用,包括成對、錨點和超圖方法,并探討了固定和自適應形式下的應用。此外,我們將譜聚類方法分類為單視角和多視角方法,分析它們在單步和兩步框架中的應用。這些框架的區別在于聚類是否作為獨立步驟,在譜嵌入之后進行,還是與譜嵌入一起聯合優化。我們還對多視角譜聚類中的信息融合技術進行了更深入的探討,這一領域在先前的綜述中沒有涉及,提供了關于如何通過整合來自多個來源的數據來增強聚類性能的新見解。這對于處理復雜、異構和高維數據尤為重要,是推動多視角譜聚類發展的重要貢獻。

本綜述的貢獻如下:

  • 我們首次提供了關于譜聚類的最全面且詳細的綜述,特別強調了GSL,突出了其在提升聚類準確性方面的重要性。
  • 我們對各種圖構建技術進行了全面回顧,包括成對、錨點和超圖,并探討了它們在固定和自適應形式下的應用。此外,我們將譜聚類方法分為單視角和多視角方法,分析了這些方法中不同圖構建技術的應用,以及它們在單步和兩步聚類框架中的應用。
  • 我們討論了多視角譜聚類中的信息融合技術,提供了關于如何通過整合來自多個來源的數據來提升聚類性能的新見解。這對于處理復雜、異構和高維數據具有特別重要的意義,是推動多視角譜聚類研究的重要貢獻。
  • 我們分析了譜聚類和圖學習領域的最新研究進展、出現的挑戰以及未來可能的研究方向。這包括確定有前景的研究領域,并推動更先進算法的發展,促進該領域的成長與演化。 本文的結構如下:第二節我們提供了譜聚類的詳細背景。第三節介紹了譜聚類的主要階段,包括圖結構學習、譜嵌入和分割階段。第四節提供了基于單視角和多視角方法、圖結構類型以及單步和兩步框架的譜聚類方法的綜合分類,并探討了每一類別中的不同譜聚類方法。第五節討論了未來的研究方向,最后,第六節給出了結論。

付費5元查看完整內容

GraphRAG研究進展

一、簡介

近年來,檢索增強生成(Retrieval-Augmented Generation, RAG)在解決大語言模型(LLMs)所面臨的挑戰方面取得了顯著成功,而無需對模型進行重新訓練。通過引用外部知識庫,RAG能夠改進LLM的輸出,有效緩解了“幻覺”、缺乏領域特定知識以及信息過時等問題。然而,不同實體之間復雜的關系結構為RAG系統帶來了挑戰。為此,GraphRAG利用實體之間的結構化信息,使得檢索更加精確和全面,捕捉到關系知識并促進了更準確、具備上下文感知的回答。鑒于GraphRAG的創新性和潛力,系統性地回顧當前技術顯得尤為重要。GraphRAG 是一種將圖神經網絡(GNN)與大語言模型(LLM)相結合的推理框架,專為處理復雜的多跳推理場景設計。它通過 GNN 在知識圖譜中建模節點及其關系,實現深層次的圖結構推理,同時利用 LLM 處理自然語言查詢,提升系統的語言理解和生成能力。GraphRAG 能在多層次節點間進行信息傳遞和推理,從而解決復雜的問題,特別適合知識圖譜問答系統、推薦系統等需要結合結構化數據與非結構化語言處理的場景。GraphRAG的工作流程,包括圖索引(Graph-Based Indexing)、圖引導檢索(Graph-Guided Retrieval)和圖增強生成(Graph-Enhanced Generation)。隨后,本文概述了每個階段的核心技術和應用領域。最后,探討了未來的研究方向,以激發更多的研究興趣并推動該領域的進一步進展。

二、背景

隨著LLMs如 GPT-4 和 LLaMA 的出現,自然語言處理(NLP)領域取得了顯著進展。這些模型基于龐大的數據集進行訓練,展示了卓越的語言理解和文本生成能力。然而,盡管 LLM 在處理自然語言任務時表現優異,但它們在處理領域特定知識、實時更新的信息以及復雜關系推理任務時仍存在顯著的局限性。為解決這些問題,檢索增強生成(RAG)被引入,通過結合外部知識庫在生成過程中檢索相關信息,增強了 LLM 的知識覆蓋和準確性。然而,RAG 也面臨一些挑戰。特別是在需要理解實體間關系的任務中表現欠佳。為應對這些局限性,GraphRAG 作為一種創新的解決方案被提出。GraphRAG 結合了圖神經網絡(GNN)和 RAG 的優勢,通過從預構建的圖數據庫中檢索圖元素(如節點、路徑、子圖等)來增強檢索過程。這種方法能夠捕捉到文本之間的復雜關系,使得模型在處理多跳推理、復雜實體查詢時更加準確。

GraphRAG示例

三、相關技術

3.1 文本屬性圖

在 GraphRAG 中使用的圖數據可以統一表示為文本屬性圖(Text-Attributed Graphs,簡稱 TAGs), 其中節點和邊具有文本屬性。形式上,文本屬性圖可以表示為, 其中 是節點的集合, 是邊的集合, 是鄰接矩陣。此外, 和 分別表示節點和邊的文本屬性。TAGs 的一種典型形式是知識圖譜(Knowledge Graphs, KGs), 其中節點表示實體,邊表示實體之間的關系,文本屬性則是實體和關系的名稱。

3.2 圖神經網絡

圖神經網絡(Graph Neural Networks,GNNs)是一種用于建模圖數據的深度學習框架。經典的 GNNs,如圖卷積網絡(GCN)、圖注意力網絡(GAT)和 GraphSAGE,采用消息傳遞的方式來獲取節點表示。

其中,N(??) 表示節點 ?? 的鄰居。MSG 表示消息函數,它基于節點、其鄰居和它們之間的邊計算消息。AGG 表示聚合函數,使用如平均、求和或最大值等排列不變的方法來組合接收到的消息。UPD 代表更新函數,用聚合后的消息更新每個節點的屬性。隨后,可以使用讀出函數(如平均池化、求和池化或最大池化)來獲得全局級別的表示:

在 GraphRAG 中,GNNs 可以用于檢索階段獲取圖數據的表示,并用于建模檢索到的圖結構。

四、GraphRAG概述

GraphRAG是一個框架,它利用外部結構化知識圖來提高對LM的上下文理解,并生成更明智的響應。GraphRAG的目標是從數據庫中檢索最相關的知識,從而增強下游任務的答案。GraphRAG的整個過程分解為三個主要階段:基于圖的索引、圖引導的檢索和圖增強的生成。GraphRAG的整體工作流程下圖所示,下面將詳細介紹各個階段。

GraphRAG整體工作流程

4.1 G-Indexing

基于圖形的索引:基于圖的索引構成了GraphRAG的初始階段,旨在識別或構建與下游任務對齊的圖數據庫G并在其上建立索引。圖數據庫可以源自公共知識圖,圖數據,或者基于專有數據源構建,例如文本或其他形式的數據。索引過程通常包括映射節點和邊屬性,在連接的節點之間建立指針,以及組織數據以支持快速遍歷和檢索操作。索引決定了后續檢索階段的粒度,對提高查詢效率起著至關重要的作用。

4.2 G-Retrieval

基于圖形的檢索:在基于圖的索引之后,圖引導的檢索階段集中于響應于用戶查詢或輸入從圖數據庫中提取相關信息。具體地,給定以自然語言表達的用戶查詢,檢索階段旨在提取最相關的元素(例如,??實體、三元組、路徑、子圖),其可以被公式化為:

其中,最優檢索圖元素是最優檢索圖元素,Sim(·,·)是測量用戶查詢與圖數據之間的語義相似性的函數。R(·)表示考慮到效率而縮小子圖的搜索范圍的函數。然而,檢索圖數據提出了兩個重大挑戰:(1)爆炸性候選子圖:隨著圖大小的增加,候選子圖的數量呈指數級增長(2)相似性度量不足:準確度量文本查詢和圖形數據之間的相似性需要開發能夠理解文本和結構信息的算法。圖引導檢索的一般架構如下圖所示。 圖引導檢索架構

4.3 G-Generation

基于圖增強生成:圖形增強生成階段涉及基于檢索到的圖形數據合成有意義的輸出或響應。這可以包括回答用戶查詢、生成報告等。在這個階段,生成器將查詢、檢索到的圖形元素和可選提示作為輸入來生成響應,該響應可以表示為:

其中F(·,·)是將圖形數據轉換為生成器可以處理的形式的函數。

五、GraphRAG應用領域

GraphRAG 技術在多個領域得到了廣泛的應用,幫助解決復雜的數據和推理任務。

  1. 電子商務:GraphRAG 在電子商務中被用于通過個性化推薦和智能客戶服務來提升用戶購物體驗和增加銷售量。通過分析用戶與產品的歷史交互形成的圖數據,GraphRAG 能夠提取用戶行為模式和偏好信息,進而改善推薦系統和客戶服務問答系統的表現。
  2. 生物醫學:GraphRAG 技術在生物醫學問答系統中得到了廣泛應用,幫助改進醫療決策。研究人員構建了與特定疾病和藥物相關的知識圖譜,并使用開源知識圖進行檢索,優化檢索和生成過程以提升問答系統的質量。
  3. 學術領域:在學術研究中,GraphRAG 被用于結構化學術論文、作者、機構之間的關系,幫助學者進行學術探索,如預測潛在的合作伙伴或識別研究領域的發展趨勢。
  4. 文學領域:GraphRAG 還被用于構建文學知識圖譜,將圖書、作者、出版商和系列等節點相互關聯,從而為智能圖書館等應用提供支持。
  5. 法律領域:在法律領域,GraphRAG 被用于處理案例之間的引用關系,幫助律師和法律研究人員分析案件和提供法律咨詢,通過圖結構化判決意見、案件群組等信息進行推理和分析。
  6. 其他領域:GraphRAG 還在情報報告生成和專利短語相似度檢測等其他場景中得到了應用,通過構建事件圖或專利圖來輔助生成報告或判斷短語相似度。通過這些應用,GraphRAG 展示了其在多個領域中捕捉復雜關系、增強推理能力的潛力。

六、未來展望

GraphRAG 技術雖然取得了顯著進展,但仍面臨許多挑戰。以下是未來研究的幾個重要方向:

  1. 動態和自適應圖:目前大多數 GraphRAG 方法基于靜態數據庫,但隨著時間推移,新實體和關系不斷涌現。如何快速更新這些信息并進行實時集成是一個關鍵問題。開發有效的動態更新方法將提升 GraphRAG 系統的準確性和相關性。
  2. 多模態信息集成:現有知識圖譜主要包含文本信息,缺乏圖像、音頻和視頻等多模態數據的整合。然而,多模態數據的引入能夠顯著提高知識庫的質量和深度。如何高效管理和維護這些龐大且復雜的數據是未來的一大挑戰。
  3. 可擴展的高效檢索機制:工業場景中的知識圖譜可能包含數百萬甚至數十億個實體,但目前的方法多用于小規模知識圖。針對大規模知識圖譜的高效檢索算法和基礎設施建設是一個重要的研究方向。
  4. 與圖基礎模型的結合:最近,圖基礎模型在解決多種圖任務方面取得了顯著成功,將這些模型整合到 GraphRAG 框架中可以提高系統處理圖結構信息的效率,從而增強整體性能。
  5. 無損壓縮檢索上下文:GraphRAG 需要將檢索到的圖結構信息轉化為 LLM 能理解的序列,但長上下文會導致計算開銷增加。無損壓縮技術可以減少冗余信息,壓縮長句以加速推理,然而設計有效的無損壓縮方法依然是一個挑戰。這些研究方向為 GraphRAG 技術的發展提供了廣闊的前景。

七、參考文獻

[1] Muhammad Arslan and Christophe Cruz. 2024. Business-RAG: Information Extraction for Business Insights. ICSBT 2024 (2024), 88. [2] S?ren Auer, Christian Bizer, Georgi Kobilarov, Jens Lehmann, Richard Cyganiak, and Zachary G. Ives. 2007. DBpedia: A Nucleus for a Web of Open Data. In The Semantic Web, 6th International Semantic Web Conference, 2nd Asian SemanticWeb Conference, ISWC 2007 + ASWC 2007, Busan, Korea, November 11-15, 2007 (Lecture Notes in Computer Science, Vol. 4825). 722–735. [3] Jinheon Baek, Alham Fikri Aji, Jens Lehmann, and Sung Ju Hwang. 2023. Direct Fact Retrieval from Knowledge Graphs without Entity Linking. In Proceedings ofthe 61st Annual Meeting ofthe Association for Computational Linguistics (Volume 1: Long Papers), ACL 2023, Toronto, Canada, July 9-14, 2023. 10038–10055. [4] Jinheon Baek, Alham Fikri Aji, and Amir Saffari. 2023. Knowledge-Augmented Language Model Prompting for Zero-Shot Knowledge Graph Question Answering. arXiv:2306.04136 [cs.CL] //arxiv.org/abs/2306.04136 [5] Jonathan Berant, Andrew Chou, Roy Frostig, and Percy Liang. 2013. Semantic Parsing on Freebase from Question- Answer Pairs. In Proceedings ofthe 2013 Conference on Empirical Methods in Natural Language Processing, EMNLP 2013, 18-21 October 2013, Grand Hyatt Seattle, Seattle, Washington, USA, A meeting ofSIGDAT, a Special Interest Group ofthe ACL. 1533–1544. [6] Yonatan Bisk, Rowan Zellers, Ronan Le Bras, Jianfeng Gao, and Yejin Choi. 2020. PIQA: Reasoning about Physical Commonsense in Natural Language. In The Thirty-Fourth AAAIConference on Artificial Intelligence, AAAI2020, The Thirty-Second Innovative Applications ofArtificial Intelligence Conference, IAAI 2020, The Tenth AAAISymposium on Educational Advances in Artificial Intelligence, EAAI2020, NewYork, NY, USA, February 7-12, 2020. 7432–7439.

付費5元查看完整內容

摘要——根據規模預測,大型模型在許多領域取得了突破性進展,特別是在自然語言生成任務中,它們的表現已接近甚至超越人類水平。然而,前所未有的參數規模帶來了顯著的計算和存儲成本。這些大型模型需要大量的計算資源和GPU內存來運行。在將大型模型適應于特定下游任務時,其龐大的參數規模在計算能力和GPU內存有限的硬件平臺上微調時面臨重大挑戰。為了解決這個問題,參數高效微調(PEFT)通過有效調整大型預訓練模型的參數以適應各種下游任務,提供了一種實用的解決方案。具體而言,PEFT調整預訓練大型模型的參數,以適應特定任務或領域,最小化額外參數的引入和所需的計算資源。本文主要介紹PEFT的基礎知識、各種PEFT算法的核心思想和原理、PEFT的應用以及未來研究方向。通過閱讀本綜述,我們相信感興趣的讀者能夠迅速掌握PEFT方法論,從而加速其發展和創新。 關鍵詞——微調、參數高效、大型語言模型、深度學習、人工智能。

最近幾年,大型預訓練模型(通常稱為“大模型”)作為人工智能領域的一項重要進展,逐漸受到廣泛關注。由于其在各種應用場景中的卓越表現和多樣性,這些模型引發了大量討論。這些模型具有強大的計算能力和豐富的數據資源,使其能夠在處理復雜任務時表現出色。在自然語言處理(NLP)領域,大型語言模型(LLMs)備受關注。這些模型在文本生成、機器翻譯、個性化聊天機器人、文本摘要、情感分析和問答系統等任務中展現出卓越的創造力。 然而,大模型的發展面臨著重大挑戰和爭議。這些模型需要大量的計算資源和數據支持,這可能對環境造成威脅并影響隱私保護。盡管在特定任務中表現出色,但這些模型仍然存在局限性和錯誤率,需要不斷優化和改進。在直接使用大模型處理特定任務時,其性能往往低于預期。因此,微調大模型已成為提高模型性能的關鍵方法。 PEFT(參數高效微調)是一種轉移學習方法,專門用于調整大型預訓練模型的參數,以適應新的任務和場景。這種方法涉及動態調整模型,以增強其在執行特定任務時的有效性,考慮到目標任務的獨特特征和要求。微調過程通常包括改進模型架構、優化參數和調整學習策略等多個方面,以在新任務中實現更好的性能。隨著深度學習領域的不斷發展,優化和微調大模型的技術也取得了顯著進展。值得注意的PEFT方法包括LoRA、適配器調優、前綴調優、提示調優、P-tuning、BitFit等。 然而,盡管在多個領域中,大模型微調技術取得了顯著成就,但仍然存在許多需要解決的挑戰和困難。例如,過擬合的緩解、微調效率的優化,以及在預訓練與微調任務之間找到學習平衡等問題都需要更多的研究。 近年來,關于PEFT的文章層出不窮,其中一些研究提供了對最流行方法的有益概述。以下是對這些研究的比較分析。丁寧等人引入了一種理論抽象,用于Delta Tuning,從優化和最優控制的角度進行分析。這一抽象提供了一種統一的方法,描述當前的參數高效微調方法,為未來的研究提供了獨特的視角。然而,盡管該研究主要集中在NLP應用上,但這些方法在不同領域的通用性和有效性仍需進一步探討。Lialin等人提供了全面的分析和分類,涵蓋了廣泛的方法,并比較了約30種方法在存儲效率、內存效率、計算效率、準確性和推理開銷等五個維度上的表現。然而,雖然文章主要關注于對數十億參數規模語言模型進行有效微調的詳細方法,但對真實應用場景的探討相對有限。徐玲玲等人對當前PEFT方法進行了全面的評估和分析,評估了它們在一系列NLP任務中的性能、參數效率和內存利用率。然而,該論文并未充分闡述這些方法在實際操作環境中的應用,也未深入探討它們的適應性及可能遇到的領域特定挑戰。辛怡等人提供了視覺PEFT的全面概述和未來方向,系統地回顧了最新的進展。盡管文章涵蓋了多種視覺任務,但實驗主要集中在幾個常見任務上,并未完全涵蓋更廣泛的潛在應用場景。韓澤宇等人詳細分類了PEFT方法,探討了PEFT技術在各種模型架構和下游任務中的應用,以及參數高效微調方法的系統設計挑戰。該研究為研究人員和工程師提供了PEFT方法的全面概述,但在實際應用覆蓋方面仍有改進空間。 我們的貢獻如下:

  • 我們提供了與現有綜述論文相比,更全面和詳細的關于大模型和一般微調方法論的基礎知識概述。這部分內容不僅涵蓋了大模型的基本原理、結構和技術,還提供了它們在自然語言處理、多模態活動和其他領域的實際應用的深入概述。
  • 我們的調查涵蓋了最新的研究方法論,突出展示了大模型領域的最新進展。這確保了我們的綜述內容全面且詳盡。我們的綜述范圍廣泛,涵蓋了自然語言處理、多模態任務和計算機視覺等多個場景,使讀者能夠全面理解大模型技術的現狀和未來前景。
  • 在回顧和分析當前方法后,我們提出了一些創新和面向未來的研究方向。這些領域考慮到了先進模型技術的增長潛力,并結合了實際應用中行業需求和障礙,提出了可行和創新的研究途徑。

本調查旨在全面回顧大模型微調技術的最新進展。通過對現有研究的深入審查,我們的目標是識別并填補當前知識體系中的空白,從而開發出一個全面和系統的知識框架,為研究人員提供清晰的視角,并指導他們未來的研究。總之,我們的工作為相關領域提供了有價值的資源和視角,供學術和實踐用途。調查的剩余部分結構如下: 在第二部分中,我們提供大型語言模型基本組成部分的簡要總結,包括其過去的發展、新興能力以及支配其規模的擴展規律。隨后,我們簡要概述了全面語言模型的主要分類,并介紹了多模態綜合模型的基本原理和框架。此外,我們還探討了在大型語言模型微調領域采用的主要方法,包括指令微調、對齊和基于人類反饋的強化學習(RLHF)。最后,我們簡要總結了在大模型微調領域最常用的基準和評估數據集。 在第三部分中,我們提供了對PEFT方法的全面分析和總結,展示了當前PEFT方法的分類框架,涵蓋了2019年6月至2024年7月發布的100多篇研究文章。我們在傳統的加法、重新參數化和減法PEFT分類基礎上,納入了混合、量化和多任務分類PEFT方法的總結。 在第四部分中,我們對多模態、視覺和擴散模型領域的PEFT方法進行全面分析和描述。我們的目標是提供深刻的理解和針對不同應用場景的PEFT選擇和改進建議。 在第五部分中,我們總結了我們的廣泛調查,并提出了多個有前景的未來發展方向,包括算法改進和任務場景,旨在為這一蓬勃發展的領域的進一步研究和發展提供有價值的見解。

付費5元查看完整內容

摘要——基于用戶指定要求的條件圖像生成是創建復雜視覺內容的關鍵組件。近年來,基于擴散的生成模型已成為條件圖像生成的一個非常有效的方法,導致了相關文獻的爆炸式增長。然而,擴散模型的復雜性、圖像生成任務的廣泛性以及條件機制的多樣性,為研究人員跟上快速發展的步伐并理解該主題的核心概念帶來了巨大挑戰。在本綜述中,我們根據條件如何融入擴散模型的兩個基本組件(即去噪網絡和采樣過程)對現有工作進行分類。我們特別強調了在訓練、重用和專門化階段構建理想去噪網絡時,各種條件方法的基本原理、優點和潛在挑戰。我們還總結了在核心采樣過程中使用的六種主流條件機制。所有討論都圍繞流行的應用展開。最后,我們指出了一些關鍵但仍未解決的未來問題,并提出了一些可能的解決方案。我們審閱的相關工作列在 //github.com/zju-pi/Awesome-Conditional-Diffusion-Models。

關鍵詞——生成模型,擴散模型,條件圖像生成,條件集成。

I. 引言

圖像生成是生成式人工智能的一個重要任務。當結合用戶提供的條件來生成符合不同用戶需求的圖像時,它的實用性會更大。早期的研究在各種條件圖像生成任務中取得了重大突破,如文本到圖像生成 [37, 41, 156, 159, 239]、圖像修復 [87, 88, 125, 210] 和圖像編輯 [1, 10, 107]。然而,早期基于深度學習的生成模型(如生成對抗網絡 (GANs) [49, 131]、變分自編碼器 (VAEs) [81, 185] 和自回歸模型 (ARMs) [199, 200])在條件圖像生成中的表現并不令人滿意,這是由于它們的內在局限性:GANs 容易出現模式崩潰和訓練不穩定的問題 [49];VAEs 通常生成模糊的圖像 [81];而 ARMs 則存在順序誤差積累和耗時巨大的問題 [200]。

近年來,擴散模型 (DMs) 作為最先進的圖像生成模型嶄露頭角,憑借其強大的生成能力和多功能性,得到了廣泛認可 [20, 57, 71, 184, 191]。在擴散模型中,圖像是通過引導去噪網絡預測的迭代去噪步驟從高斯噪聲中生成的。這種獨特的多步采樣過程使得擴散模型能夠實現出色的生成性能,表現為穩定的訓練、豐富的輸出和卓越的樣本質量。此外,與一步生成模型相比,擴散模型在促進條件集成方面具有獨特優勢。這些優點使得擴散模型成為條件圖像生成的首選工具,近年來基于擴散的條件圖像生成 (DCIS) 研究得到了迅速發展 [25, 45, 56, 75, 118, 160, 167, 168, 209, 242, 247]。圖1展示了使用多種輸入模態的七個流行的 DCIS 任務。

隨著相關研究的快速擴展,模型架構、訓練方法和采樣技術的眾多變化,以及潛在的條件生成任務的廣泛性,研究人員很難全面掌握 DCIS 的全貌。這種復雜性對該領域的新手來說尤為具有挑戰性。當前需要的是一項系統性的綜述,提供對這一快速發展的研究領域的全面且結構化的概述。

已有一些關于特定條件圖像生成任務的綜述,如圖像修復 [238]、文本到圖像生成 [103] 和圖像編輯 [64],或根據目標條件生成任務對計算機視覺領域的相關工作進行分類的研究 [32, 149]。雖然這些面向任務的綜述為其各自目標任務的方法提供了寶貴的見解,但它們并未涵蓋不同條件生成任務在模型框架中的共同特征,特別是在模型架構和條件機制方面。最近的兩篇綜述 [14, 182] 提供了基于擴散模型的廣泛任務的概述,但它們的范圍有限,主要集中于構建在文本到圖像 (T2I) 框架上的 DCIS 工作,忽略了早期將條件集成到無條件去噪網絡中的工作,或涉及從頭開始訓練特定任務的條件去噪網絡的工作。這些早期工作為當前使用 T2I 框架的 DCIS 進展奠定了基礎,并且在低級任務如圖像修復中仍然廣泛應用。此外,[182] 主要關注基于擴散模型的圖像編輯框架,缺乏對該領域其他任務統一框架的系統分析,而 [14] 并未深入探討模型架構的設計選擇和采樣過程中詳細的條件機制。因此,它們的分類方法缺乏系統性,并遺漏了 DCIS 領域中的一些關鍵相關工作。

相較之下,本綜述旨在提供一個全面且結構化的框架,涵蓋當前廣泛的 DCIS 研究工作,基于 DCIS 框架中條件集成的主流技術提供分類方法。我們對構建具有條件集成的 DCIS 框架所涉及的組件和設計選擇進行了清晰而系統的分解。具體來說,我們通過審查和總結現有的 DCIS 方法,探討條件如何集成到擴散建模的兩個基本組件中:去噪網絡和采樣過程。在去噪網絡方面,我們將構建條件去噪網絡的過程分為三個階段。在采樣過程中,我們將六種主流的采樣中條件機制進行分類,詳細說明控制信號如何集成到采樣過程的各個組件中。我們的目標是為讀者提供跨不同任務的現有 DCIS 工作的高層次和易于理解的概述,使他們能夠設計適用于其所需任務的條件生成框架,包括尚未探索的新任務。

本綜述的其余部分組織如下:首先在第二部分介紹擴散模型的背景和條件圖像生成任務。接下來,我們在第三部分總結去噪網絡中的條件集成方法,并在第四部分總結采樣過程中的方法。最后,我們在第五部分探討未來的潛在方向。圖2展示了本文提出的 DCIS 分類體系。

付費5元查看完整內容

近年來,我們見證了大型語言模型(LLM)的快速發展。基于強大的LLM,多模態LLM(MLLM)將模態從文本擴展到更廣泛的領域,因其廣泛的應用場景而引起廣泛關注。由于LLM和MLLM依賴大量的模型參數和數據來實現突現能力,數據的重要性正受到越來越廣泛的關注和認可。追蹤和分析最近針對MLLM的數據導向工作,我們發現模型和數據的發展并不是兩條獨立的路徑,而是相互關聯的。一方面,更大量和更高質量的數據有助于MLLM的更好表現;另一方面,MLLM可以促進數據的發展。多模態數據和MLLM的共同發展需要明確以下幾點:1)在MLLM的哪個發展階段可以采用哪些以數據為中心的方法來增強哪些能力,2)通過利用哪些能力和扮演哪些角色,模型可以對多模態數據作出貢獻。為了促進MLLM社區的數據-模型共同發展,我們系統地回顧了現有與MLLM相關的工作,從數據-模型共同發展的視角進行分析。本調查相關的一個定期維護的項目可以在 //github.com/modelscope/data-juicer/blob/main/docs/awesome llm data.md 訪問。

近年來,大型語言模型(LLM)在廣泛的任務中展示了令人印象深刻的性能,并且相關技術取得了顯著的進展。由于人類的感官不僅限于文本模態,多模態LLM(MLLM)逐漸進入視野,例如能夠處理超越文本模態輸入或輸出的Gemini-1.5 [1] 和 Sora [2],以及能夠在輸入和輸出之間進行多模態交互的GPT-4o [3] 和 NExT-GPT [4]。在過去兩年中,MLLM受到廣泛關注。正如圖1所示,自2023年初以來,與MLLM相關的研究正在以越來越快的速度涌現。 MLLM的卓越性能源于LLM在參數數量擴大帶來的解決一系列任務的突現能力[5]。許多研究表明,擴大模型規模需要更加海量的數據來補充[6], [7], [8],例如擴展法則[9], [10]。具體而言,研究表明,多模態模型需要指數級更多的數據才能在下游任務中實現線性零樣本改進[11]。鑒于此,一系列工作將重點從僅僅關注模型架構和訓練技術轉移到數據中心方法,專注于高質量數據的策劃[12], [13], [14], [15], [16], [17],以提供進一步釋放大型模型潛力的數據基礎。從圖1可以看出,在現有關注MLLM的論文中,與數據中心方法密切相關的論文也表現出強勁的增長趨勢,并占據了重要的部分。 隨著與MLLM相關的大量技術工作不斷涌現,一些針對MLLM的綜述也逐漸出現[18], [19], [20], [21], [22], [23], [24], [25], [26], [27], [28], [29], [30], [31], [32], [33], [34]。這些綜述主要從模型中心的角度進行,而數據的重要性需要進一步強調。一項最近的綜述將數據中心的視角從單模態擴展到多模態,重點關注現有的數據中心方法,并根據所提出的數據管道階段進行組織[35]。實際上,數據和模型的發展是交織在一起的,而不是分開的。更大數量和更高質量的數據提高了模型性能,而從高質量數據中受益的良好訓練的模型可以進一步改進數據。這減少了人工成本,擴大了數據量,并通過使用需要標注的分割掩碼進行訓練的Segment Anything模型(SAM)[36]的訓練成功展示了這一點。隨著SAM在訓練中的熟練程度提高,它逐漸取代人在標注任務中的角色,從而形成一個改進模型和數據集的循環。這樣的漸進和良性循環促進了MLLM的發展,即受益于高質量數據集的MLLM可以幫助改進訓練數據,反過來進一步增強MLLM。 數據-模型共同發展范式很有前途,但尚未得到充分研究。根據我們的調查,目前還缺乏從數據-模型共同發展視角對MLLM的綜述。現有綜述尚未建立數據中心方法與MLLM能力之間的關系,也沒有清晰闡明MLLM的能力如何幫助構建數據集。實現MLLM數據-模型共同發展的關鍵在于闡明哪些數據方法可以增強每種特定的MLLM能力,以及了解模型可以扮演的角色,以改進多模態數據。因此,本綜述旨在通過綜合回顧回答以下研究問題,推進MLLM的數據-模型共同發展: * RQ1:在MLLM的生命周期中,哪些數據中心方法可以在哪個階段用于增強哪些MLLM能力? * RQ2:模型可以扮演哪些角色以促進不同的數據中心方法,并在每種情況下利用模型的哪些特定能力?

為了回答這兩個關鍵研究問題,我們首先提出一個基于MLLM數據-模型共同發展范式的新分類法。我們將先前的努力分為兩個主要類型:數據對模型的貢獻和模型對數據的互惠貢獻,建立其在MLLM能力中的深層連接。隨后,我們從數據-模型共同發展的視角對現有MLLM工作進行全面審查,揭示了推進數據-模型共同發展范式的巨大潛力,主要歸因于缺乏對數據和模型之間協同作用的專注。基于獲得的見解,我們描繪了若干進步的未來方向,以更好地利用數據和模型之間的互補,從基礎設施到各種自我增強程度的數據-模型共同發展。該綜述的主要貢獻有三點: * MLLM開發的新視角:我們提出了一種新分類法,強調多模態數據與MLLM之間的協同作用,旨在理解和挖掘數據和模型開發的互惠優勢。該分類法系統地基于開發MLLM所需的數據相關技術的層次結構進行組織,為研究人員和開發人員提供了推進MLLM的清晰視角。 * 從數據-模型共同發展視角對MLLM的最新綜述:我們系統地回顧了快速增長的MLLM工作,闡明1)哪些MLLM能力可以通過特定的數據中心方法增強,2)經過良好訓練的模型的能力如何反過來支持數據中心方法。據我們所知,這是第一篇從數據-模型共同發展視角對MLLM進行綜述的論文。 * MLLM未來的路線圖:我們提供了一個進步組織的路線圖,涵蓋若干先進和有前途的子方向,重點關注數據和MLLM之間的內部互動。通過這項工作,我們希望為學術研究人員和工業從業者在MLLM不斷發展的領域提供靈感和指導。

組織結構。本文余下部分的組織如下。第二節提供了背景,包括背景知識、分類法以及與現有相關綜述的定性比較。第三節介紹了擴展MLLM的數據中心方法。第四節總結了提高MLLM可用性的數據中心方法。第五節描述了模型直接幫助策劃MLLM數據集的能力。第六節整理了模型作為數據科學家輔助策劃MLLM數據集的應用。第七節列出了一些公開的MLLM數據集,并標明模型在數據策劃中的參與。第八節討論了MLLM未來發展的路線圖。

付費5元查看完整內容

多語言大型語言模型利用強大的大型語言模型處理和響應多種語言的查詢,這在多語言自然語言處理任務中取得了顯著的成功。盡管取得了這些突破,但在這一領域仍缺乏一個全面的綜述來總結現有方法和最近的發展。為此,在本文中,我們提出了一個徹底的審查,并提供了一個統一的視角來總結多語言大型語言模型(MLLMs)文獻中的最新進展和新興趨勢。本文的貢獻可以總結如下:(1)第一份綜述:據我們所知,我們采取了第一步,在多語言對齊的基礎上對MLLMs研究領域進行了徹底的審查;(2)新分類法:我們提出了一個新的統一視角來總結MLLMs的當前進展;(3)新前沿:我們突出了幾個新興的前沿并討論了相應的挑戰;(4)豐富資源:我們收集了大量的開源資源,包括相關論文、數據語料庫和排行榜。我們希望我們的工作能為社區提供快速訪問并推動MLLMs的突破性研究。

近年來,大型語言模型(LLMs)在各種自然語言處理任務上取得了優異的表現(Brown et al., 2020; Touvron et al., 2023a; Bang et al., 2023; Zhao et al., 2023b; Pan et al., 2023; Nguyen et al., 2023a; Trivedi et al., 2023),并展示出了令人驚訝的突發能力,包括上下文學習(Min et al., 2022; Dong et al., 2022)、思維鏈推理(Wei et al., 2022; Huang et al., 2023a; Qin et al., 2023a)以及規劃(Driess et al., 2023; Hu et al., 2023b)。然而,大多數LLMs主要關注英語任務(Held et al., 2023; Zhang et al., 2023i),使其在多語言環境,尤其是低資源環境下表現不足。

實際上,全球有超過7000種語言。隨著全球化的加速,大型語言模型的成功應考慮服務于不同國家和語言。為此,多語言大型語言模型(MLLMs)具有全面處理多種語言的優勢,越來越受到關注。具體來說,現有的MLLMs可以根據不同階段大致分為兩組。第一系列工作(Xue et al., 2020; Workshop et al., 2022; Zhang et al., 2023g; Muennighoff et al., 2022)利用多語言數據調整參數以提升整體多語言性能。第二系列工作(Shi et al., 2022a; Qin et al., 2023b; Huang et al., 2023a)還采用先進的提示策略,在參數凍結推理階段挖掘MLLMs的更深層次多語言潛力。

盡管在MLLMs上取得了顯著成功,但仍缺乏對最近努力的全面回顧和分析,這阻礙了MLLMs的發展。為了彌補這一差距,我們首次嘗試對MLLMs進行全面而詳盡的分析。具體來說,我們首先介紹廣泛使用的數據資源(§3)。此外,由于跨語言對齊的關鍵挑戰,我們根據對齊策略引入了新的分類法(§4),旨在提供文獻中的統一視角,包括參數調整對齊和參數凍結對齊(如圖1所示)。具體來說,參數調整對齊需要在預訓練、監督微調、人類反饋學習和下游微調過程中調整模型參數以增強英語和目標語言之間的對齊。參數凍結對齊指的是通過跨語言提示實現的對齊,無需調整參數。最后,我們指出了一些潛在的前沿領域以及MLLMs面臨的相應挑戰,希望激發后續研究(§5)。

本工作的貢獻可以總結如下:(1)首次綜述:據我們所知,我們是第一個根據多語言對齊在MLLMs文獻中提出全面綜述的;(2)新分類法:我們引入了將MLLMs分類為參數凍結和參數調整兩種對齊類型的新分類法,為理解MLLMs文獻提供了統一視角;(3)新前沿:我們討論了一些新興的前沿,并突出了它們的挑戰和機遇,希望為未來研究的發展鋪路;(4)詳盡資源:我們首次嘗試組織MLLMs資源,包括開源軟件、多樣的語料庫和相關出版物的精選列表,可在//multilingual-llm.net訪問。 我們希望這項工作能成為研究者的寶貴資源,并激發未來研究的更多突破。

如圖4所示,我們引入了一種新的分類法,包括參數調整對齊(§4.1)和參數凍結對齊(§4.2),旨在為研究人員提供一個統一的視角,以理解MLLMs文獻。具體來說,參數調整對齊(PTA)包括一系列逐步進階的訓練和對齊策略,包括預訓練對齊、監督微調(SFT)對齊、人類反饋學習(RLHF)對齊,以及最終的下游微調對齊。這些階段的共同目標是系統地優化模型參數,以對齊多語言性能。相反,參數凍結對齊(PFA)側重于基于PTA的四種提示策略:直接提示、代碼切換提示、翻譯對齊提示和檢索增強對齊。這種方法保持原始模型參數,以實現預期結果。

付費5元查看完整內容

多模態查詢的知識檢索在支持知識密集型多模態應用中扮演著關鍵角色。然而,現有方法在有效性和訓練效率方面面臨挑戰,特別是在訓練和集成多個檢索器以處理多模態查詢時。在本文中,我們提出了一個創新的端到端生成式框架,用于多模態知識檢索。我們的框架利用了大型語言模型(LLMs)即使在有限數據訓練的情況下,也可以有效地作為虛擬知識庫的事實。我們通過兩步過程檢索知識:1)生成與查詢相關的知識線索;2)使用知識線索搜索數據庫以獲取相關文檔。特別是,我們首先引入了一個對象感知的前綴調優技術來指導多粒度的視覺學習。然后,我們將多粒度的視覺特征對齊到LLM的文本特征空間中,利用LLM捕獲跨模態交互。隨后,我們構建了具有統一格式的指導數據進行模型訓練。最后,我們提出了知識引導的生成策略,以在解碼步驟中施加先前約束,從而促進獨特知識線索的生成。通過在三個基準測試上進行的實驗,我們展示了與強大基線相比,在所有評估指標上的顯著提升,范圍從3.0%到14.6%。

付費5元查看完整內容

開放領域生成系統在會話人工智能領域(例如生成式搜索引擎)引起了廣泛關注。本文對這些系統,特別是大型語言模型所采用的歸因機制進行了全面回顧。盡管歸因或引用可以提高事實性和可驗證性,但模糊的知識庫、固有偏見以及過度歸因的缺點等問題可能會妨礙這些系統的有效性。本綜述的目標是為研究人員提供有價值的見解,幫助改進歸因方法,以增強開放領域生成系統生成的響應的可靠性和真實性。我們認為這個領域仍處于初級階段,因此我們維護了一個倉庫,以跟蹤正在進行的研究,網址為

//github.com/HITsz-TMG/awesome-llm-attributions。

自從由大型語言模型(LLMs)驅動的開放領域生成系統出現以來(Anil等人,2023;OpenAI,2022,2023),解決潛在不準確或虛構內容的連貫生成一直是一個持續存在的挑戰(Rawte等人,2023;葉等人,2023;張等人,2023b)。社區通常將這種問題稱為“幻覺”問題,其中生成的內容呈現出扭曲或虛構的事實,缺乏可信的信息來源(Peskoff和Stewart,2023)。這在信息搜索和知識問答場景中尤為明顯,用戶依賴大型語言模型獲取專業知識(Malaviya等人,2023)。

幻覺問題的實質可能源于事先訓練的模型是從廣泛、未經過濾的現實世界文本中獲取的(Penedo等人,2023)。這些人類生成的文本固有地包含不一致性和虛假信息。事先訓練的目標僅僅是預測下一個單詞,而不是明確建模生成內容的真實性。即使在利用人類反饋的強化學習之后(Ouyang等人,2022),模型仍然可能出現外部幻覺(Bai等人,2022)。為了解決外部幻覺的問題,研究人員已經開始采用外部參考文獻等措施來增強聊天機器人的真實性和可靠性(Thoppilan等人,2022;Menick等人,2022;Nakano等人,2021)。顯式歸因和強化學習之間的區別不僅在于需要人工驗證和遵從,還在于認識到生成的內容可能隨著時間變化而變得過時或無效。歸因可以利用實時信息來確保相關性和準確性。然而,歸因的基本挑戰圍繞著兩個基本要求(Liu等人,2023):

考慮到這些要求,我們可以將模型處理歸因的主要方式分為三種類型

  1. 直接模型驅動的歸因:大型模型本身為其回答提供歸因。然而,這種類型經常面臨挑戰,因為回答可能不僅是虛構的,而且歸因本身也可能是虛構的(Agrawal等人,2023)。雖然ChatGPT在大約50.6%的時間里提供正確或部分正確的答案,但建議的參考文獻僅在14%的時間內存在(Zuccon等人,2023)。
  2. 檢索后回答:這種方法根植于明確檢索信息然后讓模型基于這些檢索到的數據進行回答的思想。但檢索并不本質上等同于歸因(Gao等人,2023b)。當模型的內部知識和外部檢索的信息之間的邊界變得模糊時,可能會出現潛在的知識沖突問題(Xie等人,2023)。檢索也可以被用作一種專門的工具,允許模型獨立觸發它,類似于ChatGPT 1中的“使用必應進行瀏覽”。
  3. 生成后歸因:系統首先提供答案,然后使用問題和答案進行歸因搜索。如果需要,答案然后會進行修改并得到適當的歸因。現代搜索引擎,如Bing Chat 2,已經包含了這種歸因方式。然而,研究顯示,從四個生成式搜索引擎生成的內容中,只有51.5%完全得到了引用文獻的支持(Liu等人,2023)。這種歸因方式在高風險專業領域,如醫學和法律中尤其缺乏,研究發現有大量不完整的歸因(分別為35%和31%);而且,許多歸因來自不可靠的來源,51%的歸因被專家評估為不可靠(Malaviya等人,2023)。

超越對文本幻覺的一般討論(Zhang等人,2023b;葉等人,2023;Rawte等人,2023),我們的研究深入探討了大型語言模型的歸因問題。我們探討了它的起源、支撐技術以及評估標準。此外,我們也涉及了諸如偏見和過度引用的挑戰。我們相信,通過關注這些歸因問題,我們可以使模型更加可信賴和容易理解。我們這項研究的目標是以一種更加清晰的方式來闡述歸因問題,鼓勵對這一主題進行更深入的思考。

歸因是指一個實體(如文本模型)生成并提供證據的能力,這些證據通常以引用或參考文獻的形式出現,用以支撐它所產生的聲明或陳述。這些證據來源于可識別的源頭,確保這些聲明可以從一個基礎語料庫中邏輯推斷出來,使得它們對于普通受眾而言是可以理解和驗證的。歸因本身與搜索任務相關(Brin 和 Page, 1998;Page 等人, 1999;Tay 等人, 2022),在這種任務中只有幾個網頁會被返回。然而,歸因的主要目的包括使用戶能夠驗證模型所做的聲明,促進生成與引用源高度一致的文本以提高準確性和減少錯誤信息或幻覺,以及建立一個結構化的框架來評估支持證據的完整性和相關性,與所提出的聲明相比較。歸因的準確性核心在于所產生的陳述是否完全由引用源支持。Rashkin 等人(2021)還提出了歸因于已識別來源(AIS)的評估框架,以評估特定陳述是否由所提供的證據支持。Bohnet 等人(2022)提出了歸因問答,模型在這里接受一個問題,并產生一對配對的回答,即答案字符串及其從特定語料庫,如段落中得到的支持證據。

直接生成的歸因 來自參數化知識的直接生成歸因可以幫助減少幻覺現象并提高生成文本的真實性。通過要求模型進行自我檢測和自我歸因,一些研究發現生成的文本更加基于事實,并且在下游任務中的表現也有所提升。最近,研究人員發現,大型語言模型在回答特定領域的知識性問題時,不能清楚地提供知識來源或證據(Peskoff 和 Stewart, 2023; Zuccon 等人, 2023)。在大多數情況下,模型只能提供一個與問題中的關鍵詞松散相關或與當前主題無關的知識來源。即使模型正確回答了問題,它提供的證據仍然可能存在錯誤。Weller 等人(2023)嘗試通過提出根據提示方法,將模型生成的文本基于其預訓練數據,發現這種方法可以影響模型的根據性,從而影響信息尋求任務的表現。Anonymous(2023)引入了一個中間規劃模塊,要求模型生成一系列問題作為當前問題的藍圖。模型首先提出一個藍圖,然后結合基于藍圖問題生成的文本作為最終答案。藍圖模型允許在每個回答問題的步驟中采用不同形式的歸因,可以期望更具解釋性。

**檢索后回答 **

多篇研究論文已經調查了歸因的檢索后回答方法(Chen 等人,2017年;Lee 等人,2019年;Khattab 和 Zaharia,2020年)。SmartBook 框架(Reddy 等人,2023年)提出了一種方法,該方法利用大量新聞數據自動生成結構化的情況報告。SmartBook 確定了情況分析的關鍵問題,并從新聞文章中檢索相關信息。報告按時間線組織,每個時間線包括重大事件、戰略問題和由事實證據支持的概括性總結。為了解決用戶查詢和存儲知識之間的不一致問題,MixAlign(張等人,2023a)提出了一個框架,該框架結合了自動問題知識對齊和用戶澄清,增強了檢索增強生成模型的性能,并減輕了語言模型的幻覺。此外,SearChain(徐等人,2023年)引入了一個新穎的框架,它將大型語言模型(LLMs)與信息檢索(IR)結合起來,提高了復雜知識密集型任務的準確性、可信度和可追溯性。SearChain 采用檢索然后回答的方法,通過生成全球推理鏈(CoQ)并利用 IR 來驗證答案和提供缺失的知識。

生成后歸因

為了在不損害最新一代模型所提供的強大優勢的情況下促進準確的歸因,一些研究致力于生成后的歸因,這些研究使用搜索引擎或文檔檢索系統,基于輸入問題和生成的答案來搜索證據。這種方法允許研究人員評估或提高答案的事實性,而無需直接訪問模型的參數。生成后歸因的工作流程如圖3所示。RARR(高等,2023a)自主識別任何文本生成模型輸出的歸因,并執行后期編輯以糾正不支持的內容,同時努力在最大程度上保留原始輸出。在霍等人(2023)的工作中,材料是基于粗粒度的句子或細粒度的事實陳述從語料庫中檢索的。然后利用這些檢索到的材料提示LLM,以驗證生成的回應與檢索到的材料之間的一致性,并進行必要的編輯以減少幻覺。陳等人(2023b)介紹了一個全自動化的管道,旨在驗證復雜的政治聲明,這是通過從網上檢索原始證據、生成聚焦聲明的摘要并利用它們進行聲明驗證來實現的。

付費5元查看完整內容
北京阿比特科技有限公司