亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

視覺-語言模型(Vision-Language Models, VLMs)融合了視覺與文本信息,使圖像描述(Image Captioning)和視覺問答(Visual Question Answering)等廣泛應用成為可能,因此在現代人工智能系統中具有重要意義。然而,這類模型對計算資源的高度依賴,為實時應用帶來了巨大挑戰。因此,近年來對于高效視覺-語言模型的研究逐漸成為熱點。 在本綜述中,我們回顧了用于在邊緣設備和資源受限環境中優化VLMs的關鍵技術,并探討了緊湊型VLM架構與相關框架。同時,我們還深入分析了高效VLM在性能與內存之間的權衡問題。 此外,我們在 GitHub 上建立了一個開源倉庫(//github.com/MPSC-UMBC/Efficient-Vision-Lang),收錄所有被調研的論文,并將持續更新。我們的目標是推動該領域的深入研究。 關鍵詞:高效視覺-語言模型,多模態模型,邊緣設備

1 | 引言

視覺-語言模型(Vision-Language Models,VLMs)的出現回應了當前對能夠有效處理和整合視覺與文本數據系統的迫切需求。如今,醫療(如醫學圖像與診斷報告)、自動駕駛系統(如傳感器數據與導航指令),以及社交媒體(如配有文字說明的圖片)等領域日益豐富的多模態數據凸顯出單模態模型的局限性——它們難以將視覺內容與語言語境有機關聯。VLMs 通過在統一的表示空間中對齊圖像與文本信息,有效應對了這一挑戰,從而實現了圖像描述、跨模態檢索、視覺問答(VQA)、視覺常識推理(VCR)等高級任務。 深度學習架構的持續進步以及大規模多模態數據集的可獲取性,進一步推動了 VLMs 的發展。為了更高效地對齊并融合多模態數據,VLMs 利用了多種訓練目標,其中對比學習、掩碼建模和生成建模起到了關鍵作用。 在基于對比學習的VLM中,模型目標是對匹配的數據對賦予較低的能量值(energy),而對不匹配的數據對施加較高能量懲罰。所學習的能量函數 E?(x)E_\phi(x)E?(x) 通過玻爾茲曼公式將數據樣本映射為概率分布:

這一公式確保了能量值越低的樣本,其對應的概率越高。優化目標是使模型分布 P?(x)P_\phi(x)P?(x) 盡可能接近目標分布 PT(x)P_T(x)PT(x)。這種優化常使用最大似然估計,通過正負樣本計算梯度,其中負樣本通常通過馬爾可夫鏈蒙特卡洛(MCMC)等方法生成。CLIP(Radford 等, 2021)與 SigLIP(Zhai 等, 2023)等模型展示了對比學習在將視覺與文本嵌入對齊方面的有效性,使模型在多模態任務中表現穩健。 掩碼建模則采用另一種思路:通過對輸入進行部分遮蔽并訓練模型預測被遮蔽的部分。例如,掩碼語言建模(MLM)依托 Transformer 架構,隨機丟棄輸入 token 并進行預測;而掩碼圖像建模(MIM)在視覺數據中應用相同原理。FLAVA(Singh 等, 2022)與 BEiT(Bao 等, 2021)等框架成功利用掩碼建模策略,在大規模多模態數據集上進行預訓練。 相比之下,生成式模型通過同時學習對比損失與生成損失,進一步擴展了 VLMs 的能力。這類模型廣泛用于圖像描述任務。例如,CM3Leon(Yu 等, 2023b)采用獨立的圖像與文本 tokenizer,將不同模態的輸入轉換為 token 序列,隨后由 Transformer 解碼器處理。而 Chameleon(Team, 2024)則進一步統一設計,采用相同的 Transformer 模型處理圖像與文本 token,以提高效率與一致性。除了圖像描述,生成式模型還可應用于多種下游任務,例如利用貝葉斯公式進行圖像分類:

為節省計算資源并降低訓練成本,VLMs 通常集成預訓練的模型骨干(backbone),例如 Frozen(Tsimpoukelli 等, 2021)、MiniGPT(Zhu 等, 2023)或 Qwen 系列(Qwen 等, 2024)。這些預訓練組件可加快收斂速度并具備較好的任務泛化能力。VLM 的預訓練架構也存在差異,從圖像與文本分別編碼的雙塔模型(Two-Tower)到使用統一網絡生成聯合嵌入的一體化模型(One-Tower),都在提升效率的同時增強了對邊緣設備的適配性。 將 VLMs 部署于資源受限設備(如邊緣計算終端)可有效滿足實時處理與隱私保護的需求,使推理過程可在本地完成。同時,邊緣部署也可在網絡連接有限或不穩定的環境中實現穩定性能,使 VLMs 在自動導航與智能物聯網系統中表現出高度適應性(見圖1)。 然而,隨著最先進 VLMs 為追求更高性能而不斷擴展,其模型體積與推理延遲顯著上升。例如,CLIP-B/16(Liu, 2024)模型的圖像編碼器參數量達 8620 萬,文本編碼器達 6340 萬,使其難以部署于 Jetson Nano(4 GB RAM,無獨立 GPU)或 Jetson Xavier(8 GB RAM,1 個 GPU)等邊緣設備。在 Jetson Nano 上,有限的內存會導致頻繁的內存交換,嚴重影響延遲與吞吐量;而即使是 Jetson Xavier,其 GPU 也可能無法實時滿足模型的計算需求。這些限制凸顯了開發內存占用低、延遲低且性能競爭力強的高效 VLMs 的迫切性。 本綜述的主要貢獻如下: 1. 系統總結了在資源受限設備上提升 VLM 效率的多種技術,包括部署前優化、精調策略與運行時優化方法; 1. 匯總了當前最具代表性的輕量化 VLM 模型及其配套框架; 1. 基于上述技術,深入分析了 VLM 性能與內存占用之間的權衡關系。

本綜述按照圖2中的分類體系展開。與現有綜述(如 Ghosh 等, 2024)主要聚焦 VLM 架構,Du 等 (2022) 針對視覺語言預訓練模型(VL-PTMs),以及 Zhang 等 (2024a) 探討知識蒸餾與遷移學習等技術不同,我們則聚焦于面向邊緣與資源受限設備的高效 VLMs 設計,并提供深入分析。表1對比了本綜述與其他綜述的差異。 為了保證綜述的全面性,我們從 Google Scholar、DBLP 與 ResearchGate 等平臺廣泛檢索頂級會議與研討會論文,檢索關鍵詞包括 “VLM quantization”、“VLM pruning”、“VLM finetuning techniques”、“VLM knowledge distillation”、“VLM runtime optimizations”,以確保對該快速發展的研究領域進行有針對性的深入探討。 本文接下來的結構如下:第2節介紹部署前優化技術;第3與第4節分別探討精調策略與運行時優化方法;第5節涉及分布式 VLMs;第6節總結當前高效 VLM 模型及其配套框架與庫;第7節分析準確率與效率的權衡問題;第8節探討典型應用場景;第9節討論當前挑戰與未來研究方向;最后在第10節進行總結。 我們還創建了一個 GitHub 倉庫,收錄本綜述中提及的所有論文,并將持續維護更新以涵蓋新興研究:

付費5元查看完整內容

相關內容

大型語言模型(LLMs)與視覺語言模型(VLMs)等大模型正在重塑人工智能的發展格局,推動了自然語言處理、計算機視覺以及多模態學習等領域的應用。然而,全面微調這類模型的成本仍然高昂,通常需要大量的計算資源、內存以及任務特定的數據。參數高效微調(PEFT)作為一種新興的解決方案,通過僅更新模型的一小部分參數,使得大模型能夠高效地適應下游任務。 本綜述全面梳理了PEFT技術的發展脈絡,重點探討其動機、設計原則與實際效果。我們首先分析了傳統微調所面臨的資源與可及性挑戰,指出過擬合、災難性遺忘和參數低效等關鍵問題。接著,我們引入了一套結構化的PEFT方法分類體系,將現有技術劃分為加性(additive)、選擇性(selective)、重參數化(reparameterized)、混合式(hybrid)與統一式(unified)等五大框架,并系統性地比較了它們的機制與權衡。 除了分類,我們還深入探討了PEFT技術在語言、視覺以及生成建模等不同領域中的應用表現,展示了其在降低資源消耗的同時依然保持優異性能的潛力。我們進一步討論了PEFT在可擴展性、可解釋性與魯棒性方面仍面臨的重要挑戰,并提出未來的研究方向,包括聯邦學習、領域自適應以及理論基礎構建。 我們的目標是為讀者提供對PEFT技術的統一理解,揭示其在推動大模型高效、實用與可持續發展中的關鍵作用。

1 引言

大型語言模型(LLMs)[601, 280] 與預訓練語言模型(PLMs)[432, 436, 577, 719] 正在徹底改變人工智能的發展方向 [648, 122],推動自然語言處理(NLP)[96, 478]、計算機視覺(CV)[30, 707] 和多模態學習 [56, 187, 508] 等領域實現突破性進展。這些模型通常擁有數十億參數,訓練數據規模龐大,在文本生成 [455, 129]、語言翻譯 [267, 10]、對話系統 [355, 555]、聊天機器人 [326, 571] 和內容摘要 [3, 55] 等應用中展現出前所未有的能力。它們重新定義了人工智能的邊界 [497],并在學術界、工業界及實際應用中產生了深遠影響 [205, 569]。 盡管具備巨大潛力,現代LLMs和PLMs的體量與復雜性仍對研究和產業界構成嚴峻挑戰 [539, 802]。以LLama-3為例 [424, 333],這是當前最先進、計算要求最高的LLM之一 [152, 766]。其架構包含約3000億個參數,采用復雜的多頭注意力機制 [256, 170, 27, 514, 810],在多項任務上達到了SOTA水平 [507, 486]。然而,如此強大的模型,其微調過程極其復雜 [12, 127],需要動用龐大的計算基礎設施,例如PB級存儲系統、超高帶寬內存接口,以及大量高性能GPU陣列 [380, 655]。有效地微調LLama-3 [152, 445],往往需配置數百乃至數千顆數據中心級GPU,常見如NVIDIA A100或H100 [242, 806]。盡管這些GPU配備數十GB的高帶寬內存(HBM),仍不足以單獨容納LLama-3的全部參數、中間激活值和優化器狀態。因此,必須通過多個GPU協同部署模型及其訓練流程。為了確保訓練效率,必須精心編排分布式訓練范式 [454],包括張量并行 [665, 336, 656]、流水線并行 [260, 629, 481, 760] 和模型分片 [353, 374] 等策略,以保持吞吐率并實現負載均衡。這種基礎設施的復雜性及其運維成本,極大限制了此類模型的微調可及性和可部署性 [151]。 傳統微調方式 [368, 614] 需針對每個新任務更新模型的所有參數,在模型規模不斷擴大的背景下,這種做法日益難以為繼。解決這一問題對于發揮LLMs和PLMs的最大潛能至關重要 [613]。若能優化其部署與微調過程 [616, 534],不僅可降低計算開銷,還能提升模型在多種任務中的適應性,確保其在不同場景中持續發揮作用 [582, 709]。縮小這一差距對于實現技術民主化具有重要意義,有助于資源有限的組織也能充分利用如LLama-3 [547, 382] 這類強大模型,并應用于新興領域 [488, 232]。 本研究的核心問題是:LLMs 和 PLMs 的資源需求及微調挑戰有哪些?又該如何應對以優化其部署與適配?這一問題旨在揭示現有方法的關鍵瓶頸,并探索提升效率與可用性的策略。 本研究的目標是系統分析LLMs、VLMs 與 LMMs [435, 538, 575] 所面臨的計算與微調挑戰,并識別優化其部署與微調的可行策略 [6, 99]。通過系統性的分析,本文旨在為研究人員與工程實踐者提供可操作的指導,幫助他們突破現有模型的使用限制。 我們假設:要實現LLMs的最佳性能,需投入大量的計算資源與調優專業知識。然而,參數高效微調(PEFT)[520, 634, 311]等策略——只更新模型中一小部分參數——能夠在大幅減少計算資源需求的同時,維持甚至提升模型性能 [734]。通過探索和驗證這些方法,本研究希望推動對LLMs與PLMs更深入的理解與普及,為其在AI研究與應用中的高效使用奠定基礎 [570, 207]。 PEFT方法 [384] 作為一種替代方案,通過顯著減少可訓練參數 [69, 628, 291],提升了微調過程的可訪問性、可擴展性與可持續性。例如,adapter模塊、prefix-tuning [444, 517, 76, 427]、LoRA(低秩適配)[17, 130, 335]、BitFit 以及 prompt tuning 等方法,在多項基準測試中展現出與完整微調相當甚至更優的性能,而資源消耗僅為其一小部分。PEFT尤其適用于實際應用中需處理多個任務、資源受限或需部署于邊緣設備的場景。 盡管PEFT的應用愈發廣泛,但當前仍缺乏系統性的理解框架,涉及其設計空間、方法權衡及跨模態適用性等方面。為填補這一空白,本綜述系統回顧了語言與視覺模型中的PEFT方法 [735]。我們首先分析標準微調在計算與內存層面上的限制,并討論其固有弊端。接著提出一套統一的分類體系,將PEFT方法劃分為五大類:加性、選擇性、重參數化、混合式與統一式方法,提供一個結構化視角用于理解與比較各類策略。 此外,我們評估了PEFT在NLP [286, 148]、計算機視覺、多模態任務與生成建模等多個領域中的應用,展示其在提升效率、促進泛化與實現更負責任AI方面的潛力。最后,本文還識別了該領域面臨的關鍵挑戰與開放問題,包括可解釋性、理論基礎構建與特定領域的適配 [68, 701],并提出未來可能的研究方向。 通過本綜述,我們希望為研究者與從業者提供一份清晰、全面的PEFT方法指南,幫助他們構建更高效、可適應的AI系統。


2 主要貢獻

本綜述的主要貢獻總結如下: * 全面的資源分析:深入探討對大規模預訓練模型(PLMs與LLMs)進行完整微調時的計算、內存與存儲需求,重點分析研究者在基礎設施受限條件下的實際挑戰。 * 微調局限性的批判性分析:討論傳統微調策略在低資源任務中過擬合、持續學習中的災難性遺忘、參數更新冗余及可擴展性瓶頸等問題。 * 統一的PEFT方法分類體系:提出一套將PEFT方法分為五大類(加性、選擇性、重參數化、混合式、統一式)的結構化分類體系,用以明確比較不同設計策略及發現共性。 * 代表性方法的對比分析:對LoRA、adapter、BitFit、prompt tuning 和 prefix-tuning 等主流方法進行橫向評估,分析其參數效率、性能權衡與實現復雜度。 * 跨領域應用調研:梳理PEFT在NLP、計算機視覺、多模態學習、語音和生成建模等領域的應用,突出其在魯棒性、可遷移性和實際可用性方面的優勢。 * 專用場景下的適配研究:探索PEFT在持續學習、聯邦學習、隱私保護微調、領域適應與低資源語言支持等新興領域的應用前景。 * 實證研究與趨勢總結:總結近期實證研究與性能基準,揭示PEFT研究中的趨勢與各方法適用條件。 * 開放問題與未來方向:指出當前PEFT方法面臨的難點,如可擴展性、可解釋性欠缺、理論支持不足與標準化缺失,并呼吁構建具語義感知與架構敏感性的設計。 * 可操作性總結與實用指南:為實踐者提供實用指南,幫助他們依據資源預算、任務類型與模型結構,選擇合適的PEFT方法。

本文結構安排如下: 第1節闡述研究背景與動機,聚焦大規模基礎模型(如大語言模型LLM、視覺大模型VLM、多模態大模型LMM)的崛起趨勢,以及參數高效微調(PEFT)方法在降低全參數微調高昂計算與資源成本方面的必要性。 第2節概述本綜述的核心貢獻,包括:建立PEFT方法系統分類體系、評估其效能折衷關系、深入探討跨領域應用場景與局限性。 第3節闡釋PEFT理論基礎,涵蓋注意力機制、自注意力、多頭配置、Transformer架構等核心概念,結合復雜度與擴展性分析揭示全參數微調的低效本質。 第4節詳述PEFT策略設計的關鍵架構與實踐考量,包括設計目標、量化決策空間、任務自適應路由機制,以及面向多模態場景的內存-時間-能效優化策略。 第5節闡述核心PEFT方法體系,包含串/并行適配器的增量微調、面向任務特化的混合適配器、軟提示調優,以及LoRA等重參數化方法,并探討擴展規律、選擇性微調和基于MoE的混合框架等前沿方向。 第6節通過GLUE等基準數據集實證評估PEFT方法,在NLP任務和大模型推理場景中揭示參數量與性能的權衡規律。 第7節探索PEFT技術在自然語言處理、計算機視覺、多模態學習及機器人等領域的應用實踐,突出其跨域適應性與領域特異性優勢。 第8節量化分析不同PEFT策略的計算、內存與擴展復雜度,從理論與實踐雙維度對比其效率特征。 第9節系統總結PEFT方法的優勢與局限,重點討論參數效率、適應能力、泛化性能及實際部署中的約束條件。 第10節指出現有PEFT方法的四大核心缺陷:啟發式依賴、理論欠缺、可解釋性不足與標準化缺失,強調發展語義感知與架構敏感的創新型設計之迫切性。 第11節展望六大前沿研究方向:參數影響力理論建模、分層調優策略、持續學習融合、可解釋性框架、基準測試體系及隱私保護型PEFT。 第12節總結PEFT技術在推動大模型高效擴展應用中的關鍵作用,及其對構建資源友好型人工智能生態的戰略意義。

付費5元查看完整內容

大型語言模型(LLMs)在復雜任務中展現了卓越的能力。近年來,大型推理模型(LRMs)的進展,例如OpenAI的o1和DeepSeek的R1,通過利用監督微調(SFT)和強化學習(RL)技術來增強鏈式思維(CoT)推理,進一步提升了在數學和編程等系統-2推理領域的性能。然而,盡管更長的CoT推理序列能夠提高性能,但它們也因冗長和冗余的輸出而引入了顯著的計算開銷,這種現象被稱為“過度思考現象”。高效推理旨在優化推理長度,同時保留推理能力,從而帶來降低計算成本和提高實際應用響應速度等實際益處。盡管其潛力巨大,高效推理仍處于研究的早期階段。在本文中,我們首次提供了結構化綜述,系統性地研究和探索了當前在LLMs中實現高效推理的進展。總體而言,基于LLMs的內在機制,我們將現有研究分為幾個關鍵方向:(1)基于模型的高效推理,即考慮將完整推理模型優化為更簡潔的推理模型,或直接訓練高效推理模型;(2)基于推理輸出的高效推理,旨在推理過程中動態減少推理步驟和長度;(3)基于輸入提示的高效推理,通過輸入提示的屬性(如難度或長度控制)來提高推理效率。此外,我們還介紹了使用高效數據訓練推理模型的方法,探索了小型語言模型的推理能力,并討論了評估方法和基準測試。我們維護了一個公共資源庫,以持續跟蹤和更新這一前景廣闊領域的最新研究進展。

1 引言

大型語言模型(LLMs)已成為異常強大的人工智能工具,在自然語言理解和復雜推理任務中展現了卓越的能力。近年來,專注于推理的大型語言模型(也稱為大型推理模型,LRMs)[91]的出現,例如OpenAI的o1 [61]和DeepSeek的R1 [31],顯著提升了其在系統-2推理領域(如數學[16, 35]和編程[7, 17])的性能。這些模型從基于下一詞預測訓練[23]的基礎預訓練模型(如LLaMA [30, 80]、Qwen [95])演化而來,通過鏈式思維(CoT)提示[86]生成顯式的、逐步的推理序列,從而在推理密集型任務中大幅提高了有效性。LLMs的推理能力通常通過監督微調(SFT)和強化學習(RL)來開發,這些方法促進了迭代和系統化的問題解決能力。具體而言,OpenAI的o1 [61]訓練流程可能結合了SFT和RL,并采用了蒙特卡洛樹搜索(MCTS)[71]和經過處理的獎勵模型(PRM)[47]。DeepSeek-R1則首先使用SFT對長鏈式思維推理數據進行微調,這些數據由經過RL訓練的DeepSeek-R1-Zero生成,隨后通過基于規則的獎勵函數進一步優化。然而,盡管長鏈式思維推理顯著增強了推理能力和準確性,但類似CoT機制(如自洽性[84]、思維樹[96]、激勵性RL[31])的引入也導致了冗長的輸出響應,從而帶來了巨大的計算開銷和思考時間。例如,當向OpenAI-o1、DeepSeek-R1和QwQ-32B-Preview提問“2加3等于多少?”[10]時,這些模型的推理序列有時可能長達數千個詞元,其中許多是冗余的,并未對得出正確答案起到實質性作用。這種冗長性直接增加了推理成本和延遲,限制了推理模型在計算敏感的實際應用中的使用,包括實時自動駕駛系統、交互式助手、機器人控制和在線搜索引擎。高效推理,尤其是減少推理長度,具有顯著的優勢,例如降低成本并增強實際部署中的推理能力。近年來,許多研究[32, 33, 54, 56, 98]嘗試開發更簡潔的推理路徑,使高效推理成為一個備受關注且快速發展的研究領域。在本文中,我們首次提供了結構化綜述,系統性地探索了LLMs高效推理的當前進展。如圖2所示,我們將現有研究分為以下關鍵方向:(1)基于模型的高效推理,即將完整推理模型優化為更簡潔的推理模型,或直接通過微調實現高效推理;(2)基于推理輸出的高效推理,即在推理過程中動態減少推理步驟和輸出長度;(3)基于輸入提示的高效推理,通過利用提示屬性(如提示引導的長度或提示難度)提高推理效率。與LLMs中的模型壓縮技術(如量化[27, 48]或kv緩存壓縮[52,103])不同,這些技術側重于壓縮模型規模并實現輕量級推理,而LLMs中的高效推理則強調通過優化推理長度和減少思考步驟來實現智能且簡潔的推理。總體而言,我們將高效推理方法總結為以下幾類:基于長度獎勵設計的強化學習(第3.1節);基于可變長度CoT數據的監督微調(第3.2節);將推理步驟壓縮為更少的潛在表示(第4.1節);推理過程中的動態推理范式(第4.2節);基于提示引導的高效推理(第5.1節);通過路由提示優化推理效率(第5.2節);此外,本文還探討了其他有趣的主題,包括:使用高效數據訓練推理模型(第6.1節);小型語言模型的推理能力與模型壓縮(第6.2節);高效推理模型的評估與基準測試(第7節);我們將持續更新公共資源庫,以跟蹤高效推理領域的最新研究進展。

付費5元查看完整內容

多模態視覺語言模型(VLMs)作為一種變革性技術,出現在計算機視覺與自然語言處理的交叉領域,使得機器能夠通過視覺和文本兩種模態感知和推理世界。例如,像CLIP [213]、Claude [10] 和 GPT-4V [276] 等模型,在視覺和文本數據上展示了強大的推理和理解能力,并在零-shot 分類任務中超過了傳統的單模態視覺模型 [108]。盡管在研究中的快速進展和在應用中的日益普及,關于VLM的現有研究的綜合綜述仍然顯著缺乏,特別是對于那些希望在特定領域利用VLM的研究者。為此,我們在以下幾個方面提供了VLM的系統性概述:[1] 過去五年(2019-2024)中開發的主要VLM模型的信息;[2] 這些VLM的主要架構和訓練方法;[3] 對VLM的流行基準和評估指標的總結和分類;[4] VLM的應用,包括具身智能體、機器人技術和視頻生成;[5] 當前VLM面臨的挑戰和問題,如幻覺、 fairness(公平性)和安全性。詳細的文獻和模型庫鏈接收集可見于 //github.com/zli12321/Awesome-VLM-Papers-And-Models.git。 預訓練的大型語言模型(LLMs),如LLaMA [237] 和 GPT-4 [199],在廣泛的自然語言處理(NLP)任務中取得了顯著成功 [173, 184]。然而,隨著這些模型的不斷擴展 [191],它們面臨著兩個挑戰:(1)高質量文本數據的有限供應 [241, 142];(2)單一模態架構在捕捉和處理需要理解不同模態之間復雜關系的現實世界信息時的固有限制 [73, 95]。這些局限性促使了對視覺語言模型(VLMs)的探索和開發,VLM結合了視覺(例如圖像、視頻)和文本輸入,提供了更全面的理解,能夠理解視覺空間關系、物體、場景和抽象概念 [22, 85]。VLM突破了此前單模態方法的表示邊界,支持了更豐富、更加具有上下文信息的世界觀 [59, 244, 168],例如視覺問答(VQA)[4]、自動駕駛 [235]。與此同時,VLM遇到了與單模態模型不同的新挑戰,例如視覺幻覺,當VLM生成響應時,沒有進行有意義的視覺理解,而是主要依賴存儲在LLM組件中的參數知識 [76, 152]。目前已經有若干關于單模態模型的綜述 [190, 30],但多模態模型的綜述仍然缺乏。在本文中,我們對VLM的研究成果進行了批判性審視,系統地回顧了當前主要的VLM架構、評估與基準、應用以及VLM面臨的挑戰。

付費5元查看完整內容

隨著大語言模型(LLMs)的最新進展,代理式人工智能(Agentic AI)在現實應用中取得了顯著進展,朝著基于多個大語言模型的智能體邁進,實現感知、學習、推理和協同行動。這些基于大語言模型的多智能體系統(MASs)使得一組智能體能夠協作解決復雜任務,并以大規模方式實現集體行動,從孤立的模型轉向以協作為核心的方法。

本文提供了關于多智能體系統協作方面的廣泛綜述,并提出了一個可擴展的框架來指導未來的研究。我們的框架根據關鍵維度對協作機制進行表征:參與者(涉及的智能體)、類型(例如,合作、競爭或合作競爭)、結構(例如,點對點、集中式或分布式)、策略(例如,基于角色或基于模型)以及協調協議。通過對現有方法的回顧,我們的研究成果為揭示和推動基于大語言模型的多智能體系統向更加智能和協作的解決方案發展,特別是在復雜的現實應用中,提供了基礎。

此外,本文還探討了多智能體系統在不同領域的各種應用,包括5G/6G網絡、工業5.0、問答系統、以及社會文化環境,展示了它們的廣泛應用和更深遠的影響。最后,我們總結了關鍵經驗教訓,分析了多智能體系統面臨的開放挑戰,并指出了朝著人工集體智能發展的潛在研究方向。

CCS概念:

? 一般和參考 → 綜述與概覽; ? 計算方法 → 多智能體系統;自然語言生成;神經網絡。 附加關鍵詞: 人工智能,大語言模型,多智能體協作

1 引言

1.1 動機

大語言模型(LLMs)的最新進展已徹底改變了人工智能(AI),使其能夠執行復雜的任務,如創造性寫作、推理和決策,堪比人類水平 [156]。盡管這些模型在單獨使用時展現了顯著的能力,但它們仍然存在一些內在的局限性,如幻覺問題 [57]、自回歸特性(例如,無法進行深思熟慮的推理 [49])和擴展法則 [55, 69]。為了應對這些挑戰,代理式人工智能(Agentic AI)利用LLM作為大腦或協調者,將它們與外部工具和任務(如規劃)結合,使基于LLM的智能體能夠采取行動、解決復雜問題,并與外部環境進行交互。 此外,研究者們越來越多地探索橫向擴展——利用多個基于LLM的智能體協作實現集體智能。這種方法與多智能體系統(MASs)和協作AI的研究方向一致,后者專注于使一組智能體能夠協調、共享知識并共同解決問題。這些領域的融合催生了基于LLM的多智能體系統,利用多個LLM的集體智能來應對復雜的多步挑戰 [118]。MAS的靈感不僅來自技術進展,還源于人類集體智能(例如,心智社會 [87],心智理論 [45])。人類社會擅長通過團隊合作和專業化實現共享目標,從日常任務到科學發現都可以體現這一點。同樣,MAS旨在模擬這些原則,使AI智能體能夠通過結合各自的優勢和視角有效協作。

基于LLM的MAS可以通過不同的協作渠道進行協作,這些渠道具有不同的特征,如圖1所示。MAS在各個領域取得了顯著成功,通過讓智能體之間進行協作和協調,增強了單個LLM的能力。這些系統將任務分配給智能體,允許智能體共享知識、執行子任務,并將其努力與共享目標對齊。MAS的潛在優勢是變革性的。它們擅長知識記憶,使得分布式智能體能夠保持并共享多樣的知識庫,而不會使單一系統過載 [51, 154]。它們通過將任務分配給不同的智能體來增強長期規劃,支持在延續的交互中持續解決問題 [58]。此外,MAS通過匯聚來自多個模型的專業知識和提示/角色,能夠實現更有效的泛化,比單一模型更有效地解決各種問題。最后,MAS通過通過專業智能體同時管理子任務,提高了交互效率,加速了解決復雜的多步任務。MAS力求實現集體智能,其中多個智能體的綜合能力超過了它們單個貢獻的總和 [24]。

有效的MASs的一個主要關注點是協作機制 [33, 74, 75, 97, 132],它們促使從傳統的孤立模型向強調互動的方法過渡,使得智能體能夠連接、協商、做決策、規劃并共同執行任務,從而推動集體環境中AI能力的發展。深入理解MAS中的協作機制是解鎖其全部潛力的關鍵。

1.2 現狀與貢獻

由于基于LLM的多智能體協作系統的重要性和迫切需求,已有一些綜述文章討論了這一主題。然而,這些工作往往未能充分探討基于LLM的MAS的協作方面和機制,而這些方面對實現智能體朝著共享目標高效協作至關重要,具體總結見表1。例如,[47, 107, 136] 主要關注單智能體系統,僅在表面層次上提及多智能體協作。 [136] 通過提出一個框架為LLM智能體奠定了基礎,框架由三部分組成:大腦、感知和行動。該工作強調了使用LLM作為智能體的大腦,利用輸入模態整合、提示、檢索和工具使用等技術。然而,他們對多智能體協作的討論僅限于智能體行為和個性,未深入探討使智能體協同工作的機制。[47] 綜述了基于LLM的MAS成功應用的領域和場景,概述了這些系統的通信結構(分層、去中心化、集中式和共享消息池),但沒有涉及協作的其他特征,如類型、策略或協調架構。

其他一些工作,如 [82],關注協作策略,將其分類為合并、集成和合作。盡管他們的綜述討論了這些策略如何應用于LLM,并將合作擴展到傳統的融合技術之外,但忽略了競爭與合作競爭等其他重要的協作機制,以及超越流行的協作類型的維度。與此不同,[120] 提出了一個增強LLM能力的通用框架,展示了Auto-GPT等工具如何與該框架對接。然而,協作機制仍然停留在概念層面,缺乏詳細的實現和表征。[50] 的研究重點是配置LLM以利用多樣的能力和角色,如集成記憶和信息檢索組件。他們對多智能體協作的探索主要集中在規劃和協調架構上,強調基于智能體角色和專業化的全局與局部任務規劃。同時,[46] 的工作將焦點縮小到基于LLM的MAS在基于智能體的建模與仿真中的應用,討論了環境感知、人類對齊、行動生成和評估等挑戰。盡管這些工作對于仿真特定應用有啟發性,但缺乏對深入協作機制的廣泛視角。同樣,[68] 綜述了這些系統在數字孿生應用中的應用,[52, 70] 聚焦于軟件工程領域。

從上述總結和說明中可以看出,在充分探索基于LLM的MAS的協作方面和機制上存在明顯的不足,這對于使智能體朝著共享目標有效協作至關重要。本工作旨在提供基于LLM的多智能體協作系統中智能體間協作基礎的全面視角。以協作為主要焦點,我們的研究將基于LLM的智能體間協作表征為:參與者(涉及的智能體)、類型(如合作、競爭或合作競爭)、結構(如點對點、集中式或分布式)、策略(如基于角色、基于規則或基于模型)和協調層。我們強調促進有效協作的機制和“訣竅”,識別MAS設計中的關鍵特征和趨勢。通過綜述現有方法并識別開放挑戰,我們將這些發現綜合成一個連貫的框架。該框架為未來研究提供基礎,推動LLM在MAS中的集成,為更具適應性、智能性和合作性的AI系統鋪平道路,使其能夠應對復雜的現實應用。 我們的主要貢獻如下:

  • 基于LLM的MAS中的協作方面和機制:我們關注基于LLM的多智能體協作的操作機制,強調實現有效協作所需的“訣竅”,包括協作類型、策略、通信結構和協調架構。
  • 基于LLM的MAS通用框架:我們提出了一個綜合框架,整合了MAS的多種特征,幫助研究人員理解、設計和開發多智能體協作系統。
  • 現實世界應用的綜述:我們審視了基于LLM的MAS在不同領域的實際應用,突出了其實際應用、成功案例和局限性。經驗教訓與開放問題的討論:我們識別了MASs發展的關鍵挑戰,如集體推理和決策,并概述了解決這些挑戰的潛在研究方向。1.3 論文結構

本文組織結構如下。第2節提供了理解本研究所需的背景信息,包括LLM、MAS和協作AI的概述。第3節介紹了基于LLM的多智能體協作系統的基礎概念,通過數學符號強調協作的關鍵作用。接著,第4節對基于LLM的多智能體協作系統進行了廣泛的綜述,按協作的關鍵特征進行分類,包括類型、策略、結構和協調與 orchestration。第5節回顧了基于LLM的多智能體協作系統在工業和學術領域中的關鍵應用。第6節討論了這一新興研究領域中的開放問題和潛在的未來研究方向。最后,第7節對本文進行了總結。

2. 背景知識

2.1 多智能體系統(MAS)

多智能體系統(MAS)是由多個相互作用的智能體組成的計算機化系統。這些智能體具有自主性,能夠感知環境、與其他智能體交互,并通過協作解決復雜的任務。MAS 的關鍵組成部分包括:

  • 智能體:系統中的核心參與者,具有角色、能力、行為模式和知識模型。智能體的能力包括學習、規劃、推理和決策制定,這些能力賦予了智能體和整個系統智能。
  • 環境:智能體所處的外部世界,智能體可以感知并作用于環境。環境可以是模擬的或物理空間,如工廠、道路、電網等。
  • 交互:智能體之間通過標準的智能體通信語言進行通信。智能體的交互包括合作、協調、協商等,具體取決于系統的需求。
  • 組織:智能體可以按照層次結構進行控制,或基于涌現行為進行組織。

MAS 的顯著特征包括靈活性、可靠性、自組織和實時操作,使其成為解決復雜任務的有效解決方案。通過將復雜任務分解為多個子任務,每個子任務由不同的智能體處理,MAS 能夠以較低的成本和較高的可靠性完成任務。

2.2 大語言模型(LLMs)

大語言模型(LLMs)是基于 Transformer 架構的深度學習模型,如 OpenAI 的 GPT、Meta 的 LLaMA 和 Google 的 Gemini 系列。這些模型通過在大規模文本語料庫上進行訓練,具備了強大的語言理解和生成能力。LLMs 的規模使其能夠解決未經過明確訓練的任務,如類比推理和零樣本學習。 盡管 LLMs 在單智能體任務中表現出色,但在多智能體環境中,協調、通信和決策制定的復雜性增加,LLMs 的局限性變得更加明顯。例如,級聯幻覺(cascading hallucinations)問題在多智能體交互中尤為突出,即一個錯誤的輸出可能導致連鎖的錯誤反應。然而,通過引入結構化工作流和共識機制,研究人員正在探索如何克服這些挑戰,使 LLMs 在多智能體環境中發揮更大的作用。

2.3 協作式人工智能(Collaborative AI)

協作式人工智能(Collaborative AI)是指設計用于與其他 AI 智能體或人類協作的 AI 系統。協作式 AI 的研究方向包括多智能體系統、人機交互、博弈論和自然語言處理。通過集成這些技術,協作式 AI 有潛力推動具有深遠經濟和社會影響的新型應用。 協作是使 AI 智能體能夠相互交互和合作的關鍵。協作機制不僅限于簡單的合作,還包括競爭和競合等高級機制。協作式 AI 推動了從傳統的孤立模型向強調協作的方法的轉變,新的方法使智能體能夠交互、協商、決策、規劃和共同行動,從而推動 AI 在集體環境中的能力。

3. 多智能體協作概念

3.1 智能體與協作系統的定義

在 LLM 多智能體協作系統中,智能體可以數學表示為 a={m,o,e,x,y},其中:

  • 模型 mm:AI 模型,包括其架構(arch)、智能體的特定內存(mem)和可選的適配器(adp)。適配器是自適應智能模塊,允許智能體通過機制(如推測解碼和參數高效適配器)從其他智能體獲取額外知識。
  • 目標 oo:智能體的目標或任務,指導其在系統中的行為。
  • 環境 ee:智能體所處的環境或上下文,通常由上下文窗口中的令牌數量限制。
  • 輸入 xx:智能體的輸入感知,如文本或傳感器數據。
  • 輸出 yy:智能體的相應動作或輸出,定義為 y=m(o,e,x)。

3.2 問題定義

在 LLM 驅動的 MAS 中,智能體之間的協作至關重要。每個協作都有一個通信通道 cc,協作包括:

  1. 任務分配:根據智能體的獨特專業知識和資源,將任務分配給多個智能體。
  2. 協作機制:定義智能體之間的協作機制,使它們能夠共同工作。
  3. 決策制定:智能體之間的決策制定,以達到最終目標。

協作通道通過特定的屬性進行表征,包括參與者(涉及的智能體)、類型(如合作、競爭或競合)、結構(如點對點、集中式或分布式)和策略(如基于角色、基于規則或基于模型)。任何屬性的差異都會導致不同的協作通道。

4. 方法論

4.1 協作類型

**4.1.1 合作

合作是 LLM 多智能體系統中最常見的協作類型。當智能體將其個體目標 oi與共享的集體目標 Ocollab對齊時,它們會共同努力實現互利的結果。合作在需要協作問題解決、集體決策和互補技能的任務中尤為重要。

**4.1.2 競爭

競爭發生在智能體的個體目標 oi與其他智能體的目標沖突或資源有限的情況下。競爭可以推動智能體發展更高級的推理能力和創造性問題解決能力,增強系統的適應性。

**4.1.3 競合

競合是合作與競爭的結合,智能體在某些任務上合作,而在其他任務上競爭。競合機制在需要權衡和妥協的場景中尤為有效。

4.2 協作策略

**4.2.1 基于規則的協議

基于規則的協議通過預定義的規則嚴格控制智能體之間的交互,確保智能體按照系統范圍內的約束協調行動。這種策略在任務程序明確且變化有限的情況下非常有效,但在面對意外情況時缺乏適應性。

**4.2.2 基于角色的協議

基于角色的協議通過為每個智能體分配特定的角色或分工,使智能體能夠專注于其專業領域內的子任務。這種策略提高了系統的效率和結構,但在角色定義不明確時可能導致沖突或功能缺陷。

**4.2.3 基于模型的協議

基于模型的協議在輸入感知存在不確定性的環境中提供了決策制定的靈活性。智能體根據對環境的感知、共同目標和固有的不確定性做出概率性決策。這種策略在動態環境中表現出色,但設計和部署復雜,計算成本較高。

4.3 通信結構

**4.3.1 集中式結構

集中式結構中,所有智能體都連接到一個中央智能體,中央智能體負責管理和協調智能體之間的交互。集中式結構在資源分配和任務協調方面具有優勢,但中央節點的故障可能導致整個系統崩潰。

**4.3.2 分布式結構

分布式結構中,控制權和決策權分布在多個智能體之間,每個智能體基于本地信息和有限的通信進行操作。分布式結構在系統容錯性和可擴展性方面具有優勢,但資源分配效率較低,通信開銷較大。

**4.3.3 分層結構

分層結構中,智能體按層次組織,每個層次的智能體具有不同的功能和權限。分層結構在任務分配和資源管理方面具有優勢,但邊緣設備的故障可能導致系統失效。

4.4 協調與編排

**4.4.1 靜態架構

靜態架構依賴于領域知識和預定義的規則來建立協作通道。這種架構在任務執行一致性和利用領域知識方面具有優勢,但在面對動態環境時缺乏靈活性。

**4.4.2 動態架構

動態架構能夠適應變化的環境和任務需求,通過管理智能體或自適應機制實時分配角色和定義協作通道。動態架構在處理復雜和動態任務時表現出色,但資源使用較高,動態調整可能失敗。

5. 實際應用

5.1 5G/6G 網絡與工業 5.0

LLMs 在 5G/6G 網絡和工業 5.0 中的應用顯著提升了邊緣網絡的性能。例如,LLM-SC 框架利用 LLMs 建模文本的語義信息,設計基于 LLMs 的語義通信系統,實現了語義級和技術級性能的平衡。

5.2 問答與自然語言生成(QA/NLG)

LLMs 在問答和自然語言生成任務中的應用顯著提升了系統的能力。例如,OpenAI 的 Swarm 框架通過引入“交接”機制,使多個智能體能夠無縫協作,提升系統的效率和適應性。

5.3 社會與文化領域

LLMs 和 MASs 在社會和文化領域的應用展示了這些系統在模擬人類行為、社會動態和文化互動方面的潛力。例如,CulturePark 框架通過模擬跨文化互動,促進了跨文化理解和減少偏見。

6. 開放問題與討論

6.1 集體智能的實現

實現集體智能需要解決多個開放挑戰,包括統一治理、共享決策制定、智能體作為數字物種的設計、可擴展性和資源管理,以及發現和探索意外的泛化能力。

6.2 綜合評估與基準測試

評估 MASs 的性能和行為比評估單個 LLMs 更為復雜。需要建立統一的、廣泛的基準測試框架,以確保評估結果的可重復性和一致性。

6.3 倫理風險與安全性

LLMs 在多智能體系統中的部署可能放大幻覺和對抗性攻擊的風險。確保智能體在倫理邊界內操作,并防止有害行為的發生,是確保系統安全性和可靠性的關鍵。

7. 結論

通過對 LLM 多智能體協作機制的全面綜述,我們提出了一個結構化和可擴展的框架,以指導未來的研究。我們的框架基于參與者、類型、結構、策略和協調機制五個關鍵維度,提供了分析和設計 LLM 多智能體協作交互的系統方法。我們相信,這項工作將為未來的研究提供靈感,并推動 MASs 向更智能和協作的解決方案邁進。

付費5元查看完整內容

自回歸模型(Autoregressive Models)在自然語言處理(NLP)領域中展現了卓越的性能,具有令人印象深刻的可擴展性、適應性和泛化能力。受其在NLP領域顯著成功的啟發,自回歸模型近年來在計算機視覺領域得到了廣泛研究。這些模型通過將視覺數據表示為視覺標記并執行下一個標記預測,為圖像生成、視覺理解以及最近將視覺生成與理解統一為單一自回歸模型的多模態生成等多種視覺任務提供了支持。 本文對視覺自回歸模型進行了系統綜述,包括對現有方法的發展分類,并突出了它們的主要貢獻、優勢與局限性,涵蓋了圖像生成、視頻生成、圖像編輯、動作生成、醫學圖像分析、三維生成、機器人操作、統一多模態生成等多種視覺任務。此外,我們調查并分析了自回歸模型的最新進展,包括在各種評估數據集上的方法基準測試和深入討論。最后,我們總結了關鍵挑戰和未來研究的潛在方向,為視覺自回歸模型的進一步發展提供了路線圖。

1 引言

自回歸(AR)模型近年來在人工智能領域取得了顯著進展,尤其是在像GPT系列 [1][2][3][4][5] 及其他大語言模型(LLMs) [6][7][8] 中表現突出,這些模型在解決各種自然語言處理任務上表現出色。它們采用簡單而強大的“下一個詞預測”策略,通過預測序列中的下一個單詞生成連貫且上下文相關的文本。AR模型的成功主要歸因于兩個關鍵特性:(1)可擴展性,擴展法則 [9][10] 使研究人員能夠基于小模型預測大模型的性能,從而優化資源分配并指導模型開發;(2)泛化能力,AR模型無需任務特定的訓練即可適應新任務和未見任務 [1][3]。這些特點使AR模型在語言任務中表現出前所未有的效果,并展現出朝著通用人工智能(AGI)系統發展的潛力。

受AR模型在自然語言處理領域成功的啟發,近年來的研究將AR模型擴展到了視覺生成任務。典型示例包括VQVAE [11]、VQGAN [12]、DALL-E [13] 和Parti [14] 等模型,這些模型通過圖像標記器將連續圖像轉換為離散標記,從而使AR模型能夠像處理語言一樣,通過“下一個標記預測”方法生成圖像。視覺標記化通過將文本和圖像都視為離散標記序列,統一了它們的表示方式,使其適配序列到序列(sequence-to-sequence)建模技術。因此,這些模型能夠利用類似于GPT系列 [1][2][3] 的架構,從大規模文本-圖像對中高效學習。

除了視覺生成,AR模型還推動了視覺理解的發展,尤其是在多模態理解領域 [15][16][17][18][19],它們可以感知并整合多種模態信息。在多模態任務中,AR模型通過訓練解讀視覺輸入并生成連貫的文本序列,成為在視覺和文本信息結合方面極具潛力的工具。例如,多模態大語言模型(MLLM)如LLaVA [15],利用LLMs同時解讀視覺和文本輸入,從而實現對圖像的問答、生成描述性字幕以及在詳細視覺上下文中進行對話。通過這一設計,基于AR的MLLM在推動AI應用中的多樣化視覺理解能力方面表現出色。

鑒于AR模型在視覺生成和理解方面的成就,近期的研究嘗試將這兩種能力整合到一個統一的AR模型中,使其能夠同時處理視覺生成和理解任務。例如,Transfusion [20] 通過結合語言建模中常用的“下一個標記預測”目標與圖像生成中的擴散過程,實現了這一整合。通過對文本和圖像數據進行聯合訓練,Transfusion [20] 在單一Transformer架構中處理離散文本標記和連續圖像數據,從而能夠執行廣泛的多模態任務,并彌合視覺理解與生成之間的差距。此外,AR模型在視頻等其他領域也表現出強大的理解與生成能力 [21],如視頻字幕生成、視頻生成及場景解讀等任務。

盡管AR模型在視覺研究中取得了顯著進展并吸引了越來越多的關注,但目前缺乏系統的綜述來全面概述現有方法、挑戰以及未來可能的研究方向。本文旨在填補這一空白,全面綜述AR模型在各種視覺任務中的應用,并按任務類型進行分類,包括圖像生成、圖像理解及其他領域。我們從多個角度展開綜述,包括AR模型的背景、相關數據集、方法論、基準測試,以及當前的研究挑戰與未解難題。我們的目標是為學術界和工業界提供清晰的現狀概覽,展示已經取得的成果、面臨的挑戰以及未來研究的潛力方向。

主要貢獻

本文的主要貢獻總結如下:

  1. 系統全面地回顧了AR模型在視覺領域的應用,建立了現有方法的分類體系,突出了它們的主要貢獻、優勢和局限性。
  2. 深入分析了AR模型的最新進展,包括跨各種評估數據集的方法性能基準測試和討論。
  3. 闡明了AR模型領域的若干挑戰和未來研究的潛力方向,旨在幫助學術界解決開放性問題并推動該領域的發展。

付費5元查看完整內容

圖像分割是計算機視覺領域中一個長期存在的挑戰,多年來不斷受到研究,經典算法如N-Cut、FCN和MaskFormer就是其中的代表。隨著基礎模型(Foundation Models, FMs)的興起,現代分割方法進入了一個新紀元:要么通過適配基礎模型(例如CLIP、Stable Diffusion、DINO)用于圖像分割,要么開發專門的分割基礎模型(如SAM)。這些方法不僅提供了卓越的分割性能,還展示了以往深度學習背景下從未見過的新分割能力。然而,當前的圖像分割研究缺乏對這些進展所帶來的獨特特征、挑戰和解決方案的詳細分析。本綜述旨在填補這一空白,通過對以基礎模型驅動的圖像分割的前沿研究進行深入回顧,我們探討了兩大基本研究方向——通用圖像分割(即語義分割、實例分割、全景分割)和可提示的圖像分割(即交互式分割、參考分割、少樣本分割)——并詳細描述了它們各自的任務設置、背景概念和主要挑戰。此外,我們還深入分析了從CLIP、Stable Diffusion和DINO等基礎模型中涌現的分割知識。本綜述涵蓋了300多種分割方法的詳盡概述,以全面反映當前的研究努力。最后,我們討論了未解問題和未來研究的潛在方向。我們希望這篇全新、全面且系統的綜述能推動先進圖像分割系統的發展。

圖像分割一直是計算機視覺領域中的一個重要且具有挑戰性的研究方向,其目標是將像素劃分為不同的組別。這項任務是實現更高階目標的初始步驟,包括物理場景理解、視覺常識推理、社交能力感知,并且在自動駕駛、醫學圖像分析、自動監控和圖像編輯等領域有著廣泛的應用。多年來,圖像分割吸引了大量的關注,催生了大量的算法,從傳統的非深度學習方法如閾值化[1]、直方圖模式搜索[3]、區域生長與合并[5]、空間聚類[7]、能量擴散[8]、超像素[9]、條件隨機場與馬爾可夫隨機場[10],到更先進的深度學習方法,例如基于FCN的[11]–[20],尤其是DeepLab家族[17]–[20],基于RNN的[21],基于Transformer的[22]–[28],以及R-CNN家族[29]–[31]。這些方法在語義分割、實例分割和全景分割等關鍵領域表現出顯著的性能和魯棒性。然而,圖像分割的探索并未止步于這些進展。

基礎模型(Foundation Models, FMs)[32]在近年來作為變革性技術出現,重新塑造了我們對人工智能(AI)核心領域的理解,包括自然語言處理[33]、計算機視覺[34]及其他多個跨學科領域[35]–[37]。著名的例子包括大型語言模型(LLMs)如GPT-3 [38]和GPT-4 [39],多模態大型語言模型(MLLMs)如Flamingo [40]和Gemini [41],以及擴散模型(DMs)如Sora [42]和Stable Diffusion (SD) [43]。這些模型因其龐大的規模和復雜性而獨樹一幟,展現了處理多種復雜任務的突現能力[44]、[45],并具有顯著的效率和效果。同時,它們也解鎖了新的可能性,如生成推理鏈[46]、在對話場景中提供類人回應[38]、生成逼真的視頻[42]和合成新穎的程序[47]。GPT-4和Sora的出現激發了AI社區對實現人工通用智能(AGI)[48]的巨大興趣。

在基礎模型主導的時代,圖像分割經歷了顯著的演變,展現出前所未有的特征。為了突出我們研究的動機,我們強調了一些表明這一轉變的特征:

? 基礎模型技術促成了分割通用模型的出現。與傳統框架(如FCN、Mask R-CNN)不同,當代分割模型已具備可提示性,即根據手工設計的提示生成掩碼(類似于LLMs中的答案),指定圖像中要分割的內容。這種類似LLM的可提示接口大大增強了分割器的任務普適性,使其能夠快速適應各種現有和新興的分割任務,采用零樣本(如SAM [49]、SEEM [50])或少樣本(如SegGPT [51])方式。值得注意的是,這些可提示模型與早期的通用模型[22]–[25]顯著不同,后者僅限于一組固定的預定任務,如聯合語義分割、實例分割和全景分割,且具有封閉詞匯。

? 訓練無關的分割最近成為一個新興的研究領域[52]–[57]。其目標是從預訓練的基礎模型中提取分割知識,標志著從傳統學習范式(如監督學習、半監督學習、弱監督學習和自監督學習)的轉變。最近的研究表明,即使CLIP、Stable Diffusion或DINO/DINOv2等模型最初并非為分割而設計,分割掩碼也可以輕松從這些模型的注意力圖或內部表示中提取出來。

? 將大型語言模型(LLMs)整合到分割系統中,以利用其推理能力和世界知識,已成為一個顯著趨勢[58]–[61]。這些由LLM驅動的分割器能夠閱讀、聆聽,甚至進行推理,將現實世界中抽象的語言查詢落實到特定的像素區域。雖然之前的研究已經在參考分割[62]等任務中探索了類似的能力,但這些方法僅限于處理諸如“領跑者”這樣的基本查詢。相比之下,由LLM驅動的分割器可以熟練處理諸如“誰會贏得比賽?”這樣的更復雜查詢。這一能力代表了向開發更智能視覺系統邁出的重要一步。

? 生成模型,特別是文本到圖像的擴散模型,越來越受到最近圖像分割研究的關注。有研究表明,擴散模型在文本到圖像生成過程中隱式地學習了有意義的對象分組和語義[63],并作為強大的無監督表示學習器發揮作用。這激勵了一系列研究直接將預訓練擴散模型的潛在代碼解碼為分割掩碼,以標簽高效或完全無監督的方式進行[63]、[64]。此外,一些努力將擴散模型固有的去噪擴散過程擴展到分割中,通過從圖像條件化的掩碼生成角度接近圖像分割[65]–[67]。

鑒于這些特征,我們發現現有的大多數領域綜述[68]–[70]已顯得過時——最新的一篇綜述[70]發表于2021年,并僅關注于語義分割和實例分割。這導致了對最近基礎模型驅動的分割方法缺乏全面的把握。

我們的貢獻。為填補這一空白,我們提供了一個詳盡且及時的綜述,探討基礎模型如何改變圖像分割領域。這篇綜述是首次對基于著名基礎模型的最近圖像分割方法進行的全面探索,如CLIP [71]、Stable Diffusion [43]、DINO [56]/DINOv2 [57]、SAM [49]和LLMs/MLLMs [72]。它涵蓋了該領域的廣泛內容,并深入探討了各個方法的細微差別,從而為讀者提供對這一主題的深入和最新的理解。除此之外,我們還闡明了未解的問題和未來的研究方向,以照亮這一關鍵領域的發展道路。

相關綜述及其區別。在過去十年中,許多綜述從不同角度研究了圖像分割。例如,2015年的[73]綜述了基于區域和邊界的分割方法。隨著深度學習時代的到來,一系列研究[70]、[74]–[78]總結了在語義分割、實例分割和全景分割等通用分割任務中的進展。最近的一項研究[79]關注于開放詞匯分割這一特定任務。其他研究則深入探討了圖像分割的重要方面,如評估協議[80]或損失函數[81]。此外,還存在一些針對特定領域的分割技術的綜述,如視頻[82]、醫學影像[83]、[84]。

隨著基礎模型的加速演進,一系列綜述已經闡明了LLMs [33]、MLLMs [72]、DMs [85]等的基本原理和開創性工作。然而,這些研究中顯然缺少對基礎模型在推動圖像分割進展方面作用的討論。與我們的研究最相關的綜述是[86],它對與SAM [49]相關的最新發展進行了廣泛的回顧。SAM在分割領域做出了開創性貢獻,使[86]成為一份寶貴的資源。然而,在基礎模型的更廣泛背景下,SAM只是眾多模型中的一個;因此,[86]的范圍在涵蓋分割領域的整體進展方面仍然有限。

與之前的綜述不同,我們的工作專注于基礎模型對圖像分割的貢獻,填補了當前研究領域中的空白。我們記錄了最新的技術,突出了主要趨勢,并展望了未來的研究方向,這將有助于研究人員跟蹤圖像分割領域的進展并加速這一領域的發展。

綜述組織。本文的剩余部分結構如下。第2節介紹了圖像分割和基礎模型的基本背景。第3節強調了從現有基礎模型中涌現的分割知識。第4節和第5節回顧了過去三年中基于基礎模型的最重要的圖像分割方法。第6節提出了未解決的問題和未來方向。第7節對本文進行了總結。

基于基礎模型的地理信息系統(GIS)

本節提供了關于基于基礎模型(Foundation Model, FM)的地理信息系統(GIS)中的語義分割(§4.1)、實例分割(§4.2)和全景分割(§4.3)的最新進展的全面回顧。我們的討論從技術角度出發,闡明了基本概念,并突出基礎模型在GIS中的作用。

2.1 語義分割

**2.1.1 基于CLIP的解決方案

如何將CLIP中預訓練的知識轉移到分割任務中?這個問題促使了大量研究基于CLIP進行圖像分割。然而,由于CLIP中的圖像級別訓練任務與圖像分割中的像素級別預測任務之間存在固有的粒度差異,導致該任務極具挑戰性。常見的解決方案有: * 無訓練語義分割。如§3.1中討論的那樣,通過對自注意力模塊進行微小修改,可以從CLIP中派生出分割掩碼。在此基礎上,許多方法[52], [53], [137]–[139]通過利用CLIP文本編碼器作為分類器來確定每個掩碼的類別,從而實現語義分割。整個過程無需額外的訓練或微調。 * CLIP微調。遵循流行的預訓練-微調范式,許多方法使用分割數據對CLIP進行微調。它們可以分為全微調和參數高效微調方法。全微調方法需要調整CLIP的整個視覺或文本編碼器。DenseCLIP [88]是這類方法的先驅,通過解決像素-文本匹配任務來優化CLIP的視覺編碼器。PPL [152]通過一種概率框架擴展了DenseCLIP,以基于視覺線索學習更準確的文本描述。盡管這些方法表現出良好的效果,但往往會破壞CLIP中的視覺-語言關聯,導致開放詞匯能力的嚴重損失。為了緩解這一問題,CATSeg [153]引入了基于成本聚合的框架,即使在完全微調后也能保持CLIP的零樣本能力。OTSeg [154]通過利用多個文本提示的集成并引入多提示sinkhorn注意力來改善多模態對齊。然而,這些方法通常需要大量密集注釋的訓練圖像。相反,ZegCLIP [155]、LDVC [156]和ZegOT [157]使用參數高效的提示調優技術來轉移CLIP。為了防止過擬合到已見類別,它們都學習圖像特定的文本嵌入,以實現更準確的像素-文本對齊。SemiVL [158]采用部分調優策略,僅調優自注意力層的參數。SAN [159]通過輕量級適配器將CLIP圖像編碼器適配到分割中,并通過預測應用于CLIP深層的注意力偏差來解耦掩碼提案和分類階段。 * CLIP作為零樣本分類器。除了模型微調,許多研究直接將預訓練的CLIP用作分類器,能夠保持CLIP的零樣本遷移能力。這些方法可以分為兩大類:掩碼分類和像素分類。掩碼分類方法[160]–[168]通常遵循兩階段范式,首先提取類別無關的掩碼提案,然后使用預訓練的CLIP對提案進行分類。早期的研究[160], [161]需要一個獨立的、與CLIP無關的模型來生成提案,而最近的方法[162]–[166]傾向于在統一框架內整合掩碼生成和分類。這些方法在訓練過程中保持CLIP凍結狀態,但原生CLIP對不同的掩碼提案不敏感,限制了分類性能。OVSeg [167]和MAFT [168]通過在訓練過程中微調CLIP,使其更具掩碼感知能力來解決這個問題。 * 從文本監督中涌現語義分割。受CLIP啟發,一系列研究嘗試從純文本監督中學習可遷移的語義分割模型。GroupViT [174]和SegCLIP [175]通過分組模塊增強了原始的ViT,使圖像像素逐漸分組為段落。為了應對其粒度不一致問題,SGP [176]進一步挖掘了不可學習的原型知識[146]作為顯式監督,以改善分組結果。與這些需要定制圖像編碼器的工作不同,[177]避免了修改CLIP的架構,而是通過稀疏對比圖像-文本特征的最大響應來優化對齊。TagAlign [178]也專注于優化部分,并引入細粒度屬性作為監督信號,以實現密集的圖像-文本對齊。 * 知識蒸餾(KD)。知識蒸餾是一種簡單但高效的方法,用于轉移基礎模型的能力,在自然語言處理和計算機視覺領域取得了許多成功。在語義分割領域,ZeroSeg [180]和CLIP-ZSS [181]將CLIP的視覺編碼器中的語義知識蒸餾到分割模型中。此外,許多方法基于自蒸餾,通過將局部密集特征與對應圖像塊的視覺特征對齊來進行自我學習[182],或基于局部信息學習全局語義[183]。此外,CLIP-DINOiser [184]將DINO視為教師,引導CLIP學習對分割友好的DINO風格特征。

**2.1.2 基于DM的解決方案

除了判別模型CLIP外,擴展生成模型(如擴散模型)從生成任務到語義分割領域的應用也越來越受到關注。從技術角度來看,當前的研究可以分為以下幾類: * 無訓練語義分割。基于§3.2中的技術,[55], [141], [142]為每個候選類別生成一個掩碼mCLS,并通過識別置信度最高的類別為每個像素分配一個類別。FreeSeg-Diff [89]遵循兩階段范式,即將注意力圖聚類為類別無關的掩碼,然后由CLIP對每個掩碼進行分類。這些方法受到文本提示標記的限制,要求每個語義類別與提示詞相關聯,這并不總是有效。為了解決這個問題,OVAM [143]引入了額外的屬性提示,使得能夠生成與開放詞匯描述的語義分割掩碼,而不論用于圖像生成的文本提示中的詞匯。此外,OVDiff [145]從原型學習的角度[146]、[147]出發,利用T2I-DMs構建一組類別原型,作為分割的最近鄰分類器。DiffSeg [185]引入了迭代合并過程,將SD中的自注意力圖合并為有效的分割掩碼。與上述方法不同,FreeDA [54]利用SD構建了一個大型視覺原型池,并為每個像素檢索到最相似的原型以進行分割預測。 * 擴散特征用于語義分割。除了注意力圖之外,利用DMs的潛在表示進行語義分割也越來越受歡迎。類似[63], [186]的研究從無文本的DMs中提取內部嵌入用于分割,但它們僅限于封閉詞匯設置。相比之下,大多數方法[115], [187], [188]則利用T2I-DMs(主要是SD)來挖掘語義表示。LD-ZNet [115]顯示:1)與RGB圖像等其他形式相比,LDMs的潛在空間是語義分割的更好輸入表示,2)去噪UNet的中間層(即{6,7,8,9,10})比編碼器的早期或后期模塊包含更多語義信息(與[189]中的觀察一致)。此外,對于T2I-DMs,文本提示在特征提取中起著關鍵作用,因為它作為語義合成的指導。VPD [187]采用了一種直接的方法,使用數據集中的類別名稱形成SD的文本上下文,其中類嵌入從CLIP的文本編碼器中提取(提示“a photo of [CLS]”)。TADP [188]和Vermouth [190]發現,自動生成的標題作為圖像對齊的文本提示,有助于提取更有語義意義的視覺特征。相比之下,MetaPrompt [191]通過一組可學習的嵌入(稱為元提示)將SD集成,用于在循環特征優化過程中激活任務相關特征。此外,適當的提示使潛在特征在未見領域表現出卓越的泛化性能。 * 語義分割作為去噪擴散。遠離這些主流領域,一些研究[65], [192]–[194]將語義分割重新定義為去噪擴散過程。它們學習一種迭代去噪過程,從隨機噪聲zt ~ N (0, 1)中預測真實地圖z0,并以從圖像編碼器派生的對應視覺特征為條件。基于這一見解,SegRefiner [195]考慮了一種離散擴散公式,用于優化從現有分割模型派生的粗略掩碼。此外,Peekaboo [90]是一種有趣的方法,將分割視為一個前景α掩碼優化問題,通過在推理過程中優化α掩碼,以使其在圖像和文本提示方面收斂到最佳分割。 * T2I-DMs作為語義分割數據合成器。收集和注釋具有像素級標簽的圖像耗時且費力,因此對語義分割來說始終是一個挑戰。隨著AIGC的最新進展,許多研究[98], [99], [141], [196]探索了T2I-DMs構建大規模分割數據集(包括合成圖像和相關的掩碼注釋)的潛力,這可以作為訓練任何現有語義分割模型的更具成本效益的數據源。這一思想也被應用于醫學圖像分割等專業領域[197]。與直接生成合成掩碼不同,一些研究[198]–[200]利用T2I-DMs在少量標注圖像的基礎上進行數據增強。

**4.1.3 基于DINO的解決方案

通過直接分組進行無監督分割。鑒于DINO中分割特性的涌現,許多方法通過例如k-means [151]或基于空間局部親和力的圖分割[148], [201], [202]直接將DINO特征分組為不同區域。盡管這些方法無需訓練,但它們在發現顯著對象方面有限,且無法生成多個語義區域的掩碼——這是語義分割的關鍵。 * 通過自訓練進行無監督語義分割。后續工作探討了自訓練方法以應對上述限制。它們傾向于在從DINO特征自動發現的偽標簽上訓練分割模型。偽標簽通常是以自下而上的方式獲得的,但策略因方法而異。DeepSpectral [91]對密集DINO特征執行譜聚類,將每個圖像過度聚類為段落,然后聚類這些段落的DINO表示以確定偽分割標簽。這些段落代表對象部分,可以與過度聚類和社區檢測相結合,以提高偽掩碼的質量[203]。COMUS [150]結合無監督顯著性掩碼和DINO特征聚類,生成初始偽掩碼,這些偽掩碼被用于訓練語義分割網絡,以在具有多個對象的圖像上自引導系統。值得注意的是,STEGO [92]發現DINO的特征與真實語義標簽的相關模式大體一致,因此提出了一種新穎的對比損失,將無監督的DINO特征提煉為緊湊的語義簇。此外,DepthG [204]將深度圖形式的空間信息納入STEGO訓練過程中;HP [205]提出了更有效的隱藏正樣本,以增強對比學習;EAGLE [206]從DINO特征中提取對象級語義和結構線索,以引導模型學習對象感知表示。

**2.1.4 基于SAM的解決方案

SAM用于弱監督語義分割。雖然SAM不具備語義感知能力,但它具有廣泛的和顯著的分割能力,這在弱監督情況下廣泛用于提高分割質量。[207]使用SAM進行分割掩碼的后處理,而[208]利用SAM進行零樣本推理。S2C [93]在特征和logit級別都結合了SAM。它基于SAM的段落執行原型對比學習,并從CAMs中提取顯著點以提示SAM。

**2.1.5 基于FMs的語義分割的組合

基礎模型具備獨特的能力,這些能力源自其預訓練目標。例如,CLIP在語義理解方面表現出色,而SAM和DINO則擅長空間理解。因此,許多方法將這些基礎模型結合成一個有凝聚力的系統,吸收它們的專長。它們中的一些是在零指導下構建的[89], [209], [210]。這些方法利用DINO或SD來識別類別無關的段落,將它們映射到CLIP的潛在空間,并通過圖像標題模型如BLIP將每個段落的嵌入轉換為一個單詞(即類別名稱)。另一個例子是SAM-CLIP [94],通過多任務蒸餾將SAM和CLIP結合成一個模型。最近,RIM [95]在三個VFMs的協作下構建了一個無需訓練的框架。具體來說,它首先基于SD和SAM構建類別特定的參考特征,然后通過關系感知排序將這些特征與從SAM和DINO派生的區域特征進行匹配。

2.2 實例分割

**2.2.1 基于CLIP的解決方案

CLIP作為零樣本實例分類器。CLIP在實現開放詞匯實例分割中發揮了重要作用。[96], [104], [211]利用凍結的CLIP文本編碼器作為實例掩碼提案的分類器。OPSNet [97]利用CLIP的視覺和文本嵌入來豐富實例特征,這些特征隨后由CLIP文本編碼器進行分類。[212]引入了一個生成模型,以合成來自CLIP文本嵌入的未見特征,從而彌合語義-視覺空間并解決未見訓練數據不足的挑戰。[213]提出了一個動態分類器,將CLIP文本嵌入投影到圖像特定的視覺原型上,有效減輕了對已見類別的偏見以及多模態領域的差距。

**2.2.2 基于DM的解決方案

T2I-DMs作為實例分割數據合成器。DMs在實例分割中通過促進生成具有準確標簽的大規模訓練數據集發揮了關鍵作用。MosaicFusion [98]引入了一個無需訓練的流程,能夠同時通過T2I-DMs生成合成圖像,并通過對交叉注意力圖的聚合生成相應的掩碼。[214]采用了剪切和粘貼的方式進行數據增強,前景對象和背景圖像均由DMs生成。DatasetDM [99]提出了一種半監督方法,該方法首先學習一個感知解碼器,以基于少量標注數據對圖像進行注釋,然后生成用于各種密集預測任務的圖像和注釋。

**2.2.3 基于DINO的解決方案

無監督實例分割。一些方法[100], [101], [149], [215]試圖放大DINO的內在定位能力,以在沒有任何人工標簽的情況下訓練實例級分割模型。它們通常采用兩階段的發現和學習過程:通過遞歸應用歸一化切割[100]等方法從DINO特征中發現多個對象掩碼,然后利用這些掩碼作為偽標簽訓練實例分割模型。

**2.2.4 基于FMs的實例分割的組合

X-Paste [102]重新審視了傳統的數據增強策略,即Copy-Paste,旨在大規模獲取具有高質量掩碼的對象實例,用于無限類別。它充分利用基礎模型準備圖像,即使用SD生成圖像,并使用CLIP過濾Web檢索的圖像。圖像中的實例通過現成的分割器提取,并與背景圖像組合以創建訓練樣本。DiverGen [216]通過更專注于增強類別多樣性來改進X-Paste。它利用SAM更準確地提取實例掩碼。與這些研究不同,Zip [217]結合CLIP和SAM實現了無需訓練的實例分割。它觀察到對CLIP中間層特征的聚類敏銳地關注對象邊界。因此,它首先對CLIP特征進行聚類以提取段落,然后根據邊界和語義線索過濾它們,最后提示SAM生成實例掩碼。 此外,通過將實例的邊界框作為提示輸入,可以輕松地將SAM直接轉換為實例分割模型[103], [218],這些邊界框可以通過對象檢測器獲取,如Faster R-CNN [30], Grounding DINO [219]。

2.3 全景分割

**2.3.1 基于CLIP的解決方案

CLIP作為零樣本掩碼分類器。最近的許多全景分割方法[96], [97], [104], [105], [211], [212], [220], [221]都遵循MaskFormer [22] / Mask2Former [23]引入的基于查詢的掩碼分類框架。它們首先生成類別無關的掩碼提案,然后利用CLIP對提案進行分類,從而賦予MaskFormer和Mask2Former開放詞匯分割能力。MaskCLIP [104]引入了一組掩碼類別標記,以更高效地提取掩碼表示。MasQCLIP [96]通過對掩碼類別標記應用附加的投影來增強MaskCLIP,以獲得最佳的注意力權重。OPSNet [97]基于CLIP視覺編碼器學習更具普適性的掩碼表示,隨后用于增強查詢嵌入。UnpairSeg [105]提出了一個弱監督框架,允許模型從更便宜的圖像-文本對中受益。它學習了一個特征適配器,用于對齊分別從CLIP的視覺和語言編碼器中提取的掩碼表示。盡管取得了進展,這些方法仍然需要為每個任務訓練單獨的模型,以實現最佳性能。Freeseg [221]和DaTaSeg [222]設計了全能型模型,使用相同的架構和推理參數在開放詞匯語義、實例和全景分割問題中表現出色。OMG-Seg [223]引入了一個統一的查詢表示,能夠處理不同數據集上的十個分割任務。

**2.3.2 基于DM的解決方案

擴散特征用于全景分割。ODISE [106]探索了T2I DMs中的內部表示,以實現開放詞匯全景分割。它遵循了Mask2Former的架構設計,但利用從預訓練的擴散UNet中提取的視覺特征來預測二進制掩碼提案和相關的掩碼表示。這些提案最終通過CLIP作為零樣本分類器進行識別。

全景分割作為去噪擴散。Pix2Seq-D [107]將全景分割定義為基于像素的離散數據生成問題,使用Bit Diffusion生成模型[224]。DFormer [67]引入了一種基于擴散的掩碼分類方案,該方案學習從噪聲掩碼輸入生成掩碼特征和注意力掩碼。此外,LDMSeg [225]通過首先將分割標簽壓縮為緊湊的潛在代碼,然后按照擴散調度去噪這些潛在代碼,基于SD解決了生成式分割問題。

**2.3.3 基于DINO的解決方案

無監督全景分割。基于STEGO [92]在語義分割和CutLER [100]在實例分割中的成功,U2Seg [108]自動識別圖像中的“事物”和“背景”,以創建偽標簽,這些偽標簽隨后用于訓練全景分割模型,如Panoptic Cascade Mask R-CNN [226]。此外,[227]遵循[228]的自下而上架構,分別預測語義和邊界圖,后者再融合以生成全景分割掩碼。

**2.3.4 基于SAM的解決方案

向語義感知SAM邁進。雖然SAM展示了強大的零樣本性能,但它生成的分割缺乏語義意義。這推動了許多研究努力,例如Semantic-SAM [109], SEEM [50],以增強SAM的語義感知能力。除了用于交互式分割的視覺提示外,這些模型還學習了通用對象查詢,以在語義和實例級別實現通用分割。此外,這些模型通常在多個具有語義注釋的數據集(如COCO [229], ADE20K [230], PASCAL VOC [231])的組合上進行訓練。

基于基礎模型的交互式分割

**3.1 交互式分割

3.1.1 基于SAM的解決方案 作為一個通用的交互式分割系統,SAM自然而然地成為研究人員構建先進交互式分割框架的首選。

多粒度交互式分割。現有的大多數交互式分割方法基于用戶輸入確定單一的分割掩碼,而忽略了空間模糊性。相比之下,SAM引入了多粒度交互式分割流程,即針對每次用戶交互,所需的分割區域可能是包含不同部分的對象概念。為了提高分割質量,HQ-SAM [218]提出了一個輕量級的高質量輸出令牌,以替代原始SAM的輸出令牌。經過在44,000個高度精確的掩碼上訓練,HQ-SAM顯著提升了SAM的掩碼預測質量。由于SAM是類別無關的,一系列工作[232], [233]通過將查詢分割區域與CLIP的相應文本表示對齊來調整SAM,而[109]設計了一個支持使用標注的SAM數據進行多粒度分割的SAM類框架。盡管這些多粒度交互式分割方法減輕了空間模糊性,但它們產生了過多的輸出冗余和有限的可擴展性。為了解決這一問題,GraCo [110]探討了粒度可控的交互式分割,允許對預測粒度進行精確控制以解決模糊性。

SAM在醫學圖像交互式分割中的應用。交互式分割在醫學領域至關重要,如精確分割病變區域或減少醫學數據標注中的人工操作。與自然圖像分割不同,醫學圖像分割由于結構復雜性、對比度低或跨序列變異性等內在問題而面臨更大的挑戰。最近,一些研究[235]–[237]探索了SAM在醫學成像中的零樣本交互式分割能力。它們涵蓋了不同醫學成像模式下的多種解剖和病理目標,包括CT [238]、MRI [239]、病理圖像[240]、內窺鏡圖像[94]。盡管這些研究表明,在某些模式下,SAM在識別定義明確的目標方面表現出與最先進方法相當的效果,但在目標邊界模糊、對比度低、尺寸小、形狀不規則的更具挑戰性的情況下,SAM表現不佳或完全失敗。這表明在沒有進行微調或重新訓練的情況下,直接將SAM應用于以前未見過的具有挑戰性的醫學圖像分割可能會導致次優的性能。為了增強SAM在醫學圖像上的表現,一些方法提出在醫學圖像上微調SAM。MedSAM [111]整理了一個包含超過一百萬對醫學圖像-掩碼對的11種模式的大規模數據集,用于直接微調SAM。相比之下,其他方法探討了參數高效的微調策略。SAMed [241]將LoRA模塊應用于預訓練的SAM圖像編碼器。SAMFE [242]發現將LoRA應用于掩碼解碼器在少量樣本情況下表現優越。SAM-Med2D [236]通過集成可學習的適配層增強了圖像編碼器。MedSA [243]通過引入空間-深度轉置適應了SAM到體積醫學圖像,利用分叉的注意力機制在一個分支中捕捉空間相關性,在另一個分支中捕捉深度相關性。3DSAM-Adapter [244]通過精心設計的SAM架構修改,引入了從2D到3D的整體適應方法。

**5.2 指代分割

5.2.1 基于CLIP的解決方案 指代分割旨在通過自然語言表達來分割所指對象。CLIP中的多模態知識被廣泛應用于解決這一多模態任務。

無訓練指代分割。ZS-RS [112]代表了一種無訓練的指代圖像分割方法,該方法利用了CLIP中的跨模態知識。它首先使用現成的掩碼生成器生成實例級掩碼,然后從CLIP中提取掩碼和文本的局部-全局特征,最后基于跨模態特征相似性識別所需的掩碼。TAS [245]采用了與ZS-RS類似的流程,但計算了更細粒度的區域-文本匹配分數以選擇正確的掩碼。

多模態知識轉移。許多研究致力于將CLIP中的多模態知識從圖像級別轉移到像素級別。一種常見的思路[113], [246]–[253]是引入一個任務解碼器來融合CLIP的圖像和文本特征,并通過文本到像素的對比學習[246]進行訓練。除了任務解碼器之外,ETRIS [247]和RISCLIP [113]整合了一個Bridger模塊,以在每個編碼器階段促進視覺-語言交互。EAVL [249]基于輸入圖像和語言學習了一組卷積核,并在任務解碼器的輸出上進行卷積以預測分割掩碼。UniRES [250]探索了多粒度指代分割,將對象級和部分級的定位任務統一起來。TP-SIS [252]將CLIP中的多模態知識轉移到手術器械的指代分割中。

弱監督指代分割。為了適應現實世界的情況,一些研究探索了弱監督指代分割以減少像素標注的成本。TSEG [254]使用CLIP計算patch-文本相似性,并在訓練期間通過多標簽patch分配機制引導分類目標。TRIS [255]提出了一個兩階段的流程,首先從圖像-文本注意力圖中提取粗略的像素級圖,然后用這些圖訓練一個掩碼解碼器。 5.2.2 基于DM的解決方案 無訓練指代分割。一些研究[90], [114]發現,SD在生成過程中可以隱式地作為一個指代分割器。Peekaboo [90]將分割公式化為一個前景α掩碼優化問題,要求一個細粒度的分割圖能產生高保真的圖像生成過程。通過這種方式,最小化掩碼涉及的噪聲與目標噪聲之間的差異將提供更好的文本對齊像素表示。Ref-diff [114]首先從生成模型中生成一組對象提案,然后根據提案-文本相似性確定所需的掩碼。

用于指代分割的擴散特征。在有條件的文本指導下,模態交織的注意力圖(參見§3.2)可以直觀地作為初始的視覺密集表示,用于生成最終的分割掩碼。VPD [187]引入了一個任務特定的解碼器來處理從交叉注意力圖和U-Net中的多級特征圖融合而來的編碼特征。同時,LD-ZNet [115]將注意力特征注入到一個掩碼解碼器中,以生成更好文本對齊的像素級掩碼。除了基于注意力的利用之外,[256], [257]直接將擴散U-Net的每個中間層的輸出以及文本嵌入輸入到掩碼解碼器中,以生成最終預測。 3.2.3 基于LLMs/MLLMs的解決方案 大型語言模型(LLMs/MLLMs)的成功展示了驚人的推理能力,能夠回答復雜的問題,從而為實現新的像素推理和理解能力帶來了新可能性。特別是,LISA [59]研究了一種新的分割任務,稱為推理分割。與傳統的指代分割不同,這種設置下的分割器旨在基于涉及復雜推理的隱含查詢文本分割對象。值得注意的是,查詢文本不限于直接參考(如“領跑者”),而是涉及更復雜推理或世界知識的描述(如“誰會贏得比賽?”)。LISA采用LLaVA [258]基于輸入圖像、文本查詢和[seg]標記生成文本響應。然后,將自定義的[seg]標記的嵌入通過SAM解碼器解碼為分割掩碼。隨后,LISA++ [259]提升了LISA的能力,使其能夠區分同一類別中的個體,并在多輪對話中實現更自然的交互。基于這些工作,許多研究致力于提高推理能力和分割準確性。LLM-Seg [260]提出使用SAM生成一組掩碼提案,從中選擇最適合的答案作為最終的分割預測。NextChat [261]增加了一個[trigger]標記,描繪對象框的坐標,作為MLLM的補充輸入,以幫助生成更好的掩碼。類似地,GSVA [262]引入了一個拒絕標記[rej],以緩解指令中引用的對象不存在于圖像中的情況,避免產生假陽性預測。除了功能標記的整合外,[263], [264]提出使用多樣化的文本描述,如對象屬性和部分,以增強對象-文本連接,從而獲得準確的推理結果。關于推理成本,PixelLLM [60]引入了一個輕量級解碼器,以減少推理過程中的計算成本。Osprey [265]通過將細粒度掩碼區域納入語言指令,擴展了MLLM的能力,提供了出色的像素級視覺理解能力。3.2.4 基于FMs的指代分割的組合 為了增強文本表示以實現像素級理解,一些方法使用LLMs作為文本編碼器,以獲得改進的文本嵌入用于模態融合。特別是,BERT [266]由于其簡單性和實用性,幾乎是工作[254], [267]–[277]中的首選。大多數方法設計了一個融合模塊,用于連接視覺編碼器和BERT之間的特征。此外,一些工作[261], [278], [279]將LLM視為多模態統一處理器,使用Vicuna [280]將圖像和文本映射到統一的特征空間,然后生成分割輸出。借助GPT系列模型[39]的強大對話能力,一些研究[281]–[283]采用ChatGPT重寫具有豐富語義的描述,并在指代分割模型訓練中鼓勵更細粒度的圖像-文本交互。 除了使用LLMs進行文本增強,SAM [49]也被廣泛選擇為指代分割提供豐富的分割先驗。[284]提出了一個提示驅動框架,通過提示機制將CLIP和SAM在端到端的方式下連接起來。[285]專注于基于簡單而有效的雙編碼器設計構建指代分割器,即分別采用SAM和LLM來編碼圖像和文本模式,然后融合多模態特征進行分割預測。這樣一個沒有繁瑣裝飾的SAM和LLM的組合可以很容易地擴展到MLLM的應用中。因此,[116], [117]提出結合CLIP與SAM以改善多模態融合。具體來說,F-LMM [116]提出使用CLIP編碼視覺特征,然后通過SAM解碼為預測的分割圖。PPT [117]首先利用CLIP的注意力圖計算峰值區域,作為顯式的點提示,直接用于分割查詢目標。

**3.3 少樣本分割

3.3.1 基于CLIP的解決方案 用于少樣本分割的CLIP特征。采用CLIP從支持圖像中提取有效的視覺關聯性來幫助查詢圖像的分割推理,已形成解決FSS的主流流程,這可以根據CLIP導向視覺特征的使用方式分為兩類。第一類[118], [286]–[290]依賴于建模支持-查詢圖像的特征關系,以顯式地分割查詢圖像。WinCLIP [118]聚合參考和查詢圖像的多尺度CLIP視覺特征,以獲得用于像素級預測的增強支持-查詢關聯性得分圖。[286]–[289]進一步利用查詢和支持的自注意力圖優化得分圖。[290]通過設計適當的文本提示引入支持圖像的前景-背景關聯性。另一類工作[119], [251], [291]則聚焦于通過支持圖像生成的原型調節的查詢圖像分割,這些工作通常涉及一些度量函數,如余弦相似性,用于查詢-原型距離計算。RD-FSS [119]提出利用CLIP文本編碼器的類別描述作為文本原型,然后與視覺特征相關聯,以交叉注意力的方式進行密集預測。此外,PartSeg [291]聚合視覺和文本原型以幫助生成改進的查詢圖像像素級表示。這里的視覺原型是通過參考分割掩碼相應地匯聚CLIP視覺特征獲得的。為了進一步增強原型表示,[251]使用CLIP從掩碼支持圖像生成視覺原型,其中只保留了感興趣的對象。

3.3.2 基于DM的解決方案 用于少樣本分割的擴散特征。DMs的內部表示對于少樣本分割很有用。具體而言,[292]直接利用特定時間步驟的潛在擴散特征作為支持圖像的表示,并通過掩碼解碼器與原始圖像一起解碼。相反,DifFSS [120]提出使用DMs合成更多支持風格的圖像-掩碼對。基于不變的掩碼,生成的支持圖像應包含相同掩碼覆蓋的對象,但具有不同的背景,從而豐富支持模式以實現更好的查詢分割。

作為去噪擴散的少樣本分割。一些研究[121], [293]通過解決去噪擴散過程來處理少樣本分割。它們通過微調SD來顯式生成查詢圖像的分割掩碼,主要區別在于微調過程中應用的條件。MaskDiff [293]使用查詢圖像和支持掩碼圖像作為條件,而SegICL [121]僅使用支持/查詢掩碼作為條件。 3.3.3 基于DINO的解決方案

用于少樣本分割的DINO特征。有一些工作[122], [294]–[296]利用DINO/DINOv2中的潛在表示來增強查詢和支持特征。[294]直接使用DINOv2對查詢和支持圖像進行編碼,顯示DINOv2優于其他基礎模型,如SAM和CLIP。在此基礎上,SPINO [122]采用DINOv2進行少樣本全景分割。[295], [296]進一步通過DINO中的標記嵌入的交叉和自注意力挖掘出查詢-支持關聯性,從而實現更具支持意識的分割。 3.3.4 基于SAM的解決方案

為SAM生成提示。在提供的支持圖像集的基礎上,一系列工作[123], [297]–[300]專注于為SAM生成合適的提示,以分割查詢圖像中的目標。值得注意的是,它們中的大多數[297]–[299]建議基于支持-查詢圖像級別的對應性/相似性生成一組候選點作為提示,其中支持掩碼用于選擇面向對象的提示,從而突顯查詢對象的語義。VRP-SAM [123]基于查詢-支持對應關系學習了一組視覺參考提示,這些提示被輸入到凍結的SAM中進行分割。APSeg [300]通過探索多個支持嵌入擴展了VRP-SAM,以生成更有意義的SAM提示。 3.3.5 基于LLM/MLLM的解決方案。

有幾項研究[124], [301]嘗試采用LLM/MLLM通過指令設計來解決FSS問題。LLaFS [124]將融合的支持-查詢模式映射到語言空間,并讓LLM描述所需分割掩碼的坐標。[301]使用GPT-4作為任務規劃器,將FSS分解為基于支持集的一系列子任務,隨后調用SAM和GPT4Vision等視覺工具預測分割掩碼。3.3.6 上下文分割 LLMs的快速進展導致了從少量示例中學習上下文的新能力的涌現[38], [45]。受這一令人驚嘆的模式啟發,一些研究人員旨在發掘計算機視覺中的類似設置,即上下文分割(ICS)。ICS的目標是基于支持集對查詢圖像進行分割,可以看作是FSS的一個子任務。然而,ICS不需要參數更新,可以直接在預訓練模型上執行,而無需任務特定的微調。ICL涌現的LLMs大多是通過掩碼語言建模或下一個標記預測策略訓練的生成模型。因此,大多數工作通過直觀模仿,通過探索視覺模型上的類似自監督模式來解決ICS問題。VPImpainting [302]是一項開創性工作,它將視覺上下文學習解決為圖像修補。其架構如圖3所示。它將視覺提示定義為一個網格狀的單個圖像,包含一個輸入-輸出示例和一個查詢,然后訓練一個修補模型(通過MAE [303])預測圖像的其余部分,使其與給定示例一致。在此基礎上,[304]–[306]提出從大數據集中檢索最合適的示例作為支持。此外,Painter [307]和SegGPT [51]是基于上下文學習構建的視覺通用模型。它們通過仔細重新定義核心視覺任務的輸出為相同格式的圖像,將各種視覺任務統一到上下文學習框架中。其他一些工作[308], [309]則專注于通過將圖像格式化為一組序列作為視覺句子,來建立大型視覺模型,然后通過下一個標記預測進行類似LLM的訓練。值得注意的是,這種視覺自回歸模型的培養需要來自各種視覺任務的數百億個視覺樣本,例如圖像分割、深度估計。PromptDiffusion [310]通過微調SD探索擴散模型的上下文學習,以在支持圖像-掩碼對和查詢圖像的條件下生成查詢掩碼。Matcher [311]利用DINOv2通過雙向匹配定位查詢圖像中的目標,并將粗略位置信息作為SAM的提示進行分割。Tyche [312]通過顯式建模訓練和測試不確定性,將ICS擴展到一個概率分割框架,并在醫學圖像分割中展示了令人期待的性能。

結論

在本綜述中,我們首次對基礎模型時代的圖像分割的最新進展進行了全面回顧。我們介紹了關鍵概念,并探討了現有基礎模型中內在的分割知識,如CLIP、擴散模型和DINO/DINOv2。此外,我們總結了300多種圖像分割模型,以應對通用和可提示的圖像分割任務。最后,我們強調了當前研究中的空白,指出了需要填補的領域,并闡明了未來研究的有前途的方向。我們希望這篇綜述能夠成為催化劑,激發未來的好奇心,并促進對基礎模型在圖像分割中潛力的持續探索熱情。

付費5元查看完整內容

大型語言模型(LLM)的出現顯著地重塑了人工智能革命的發展軌跡。然而,這些LLM存在一個明顯的限制,因為它們主要擅長處理文本信息。為了解決這一約束,研究人員努力將視覺能力與LLM整合,從而催生了視覺-語言模型(VLM)的出現。這些先進的模型在處理更復雜的任務,如圖像描述和視覺問答等方面發揮著重要作用。在我們的綜述論文中,我們深入探討了VLM領域的關鍵進展。我們的分類將VLM分為三個不同的類別:致力于視覺-語言理解的模型、處理多模態輸入以生成單模態(文本)輸出的模型,以及同時接受和產出多模態輸入和輸出的模型。這一分類基于它們在處理和生成各種數據模態方面的相應能力和功能。我們對每個模型進行了細致的解析,提供了其基礎架構、訓練數據來源以及可能的優點和限制的廣泛分析,以便為讀者提供對其核心組件的全面理解。我們還分析了VLM在各種基準數據集中的表現。通過這樣做,我們旨在提供對VLM多樣化景觀的細致理解。此外,我們強調了在這一動態領域未來研究的潛在途徑,期待進一步的突破和進展。

大型語言模型(LLM)的出現標志著人工智能領域變革性時代的開始,重塑了整個行業的格局。橫跨學術界和工業界的研究實驗室正積極參與到一個競爭激烈的賽跑中,以推動LLM的能力發展。然而,這些模型面臨一個顯著的限制——它們僅限于處理單一模態的數據,特別是文本。這一約束突顯了在持續完善LLM以便跨多種模態無縫運作的過程中一個關鍵的挑戰,這是AI領域進一步創新的重要途徑。

天生的智能擅長處理多種模態的信息,包括書面和口頭語言、圖像的視覺解釋以及視頻的理解。這種無縫整合不同感官輸入的能力使人類能夠導航復雜的現實世界。為了模仿人類的認知功能,人工智能同樣必須擁抱多模態數據處理。這一需求不僅僅是技術性的,更是為了讓AI系統在現實世界場景中具備上下文意識和適應性而必需的。

為了應對這些限制,研究人員開創了一種稱為視覺-語言模型(VLM)的尖端神經模型類別。這些模型復雜地結合了視覺和文本信息,展現出在理解和生成涉及圖像和文本的內容方面的卓越能力。VLM在執行圖像描述、響應視覺查詢和基于文本描述生成圖像等任務方面表現出多才多藝的能力。它們無縫整合視覺和語言模態的能力使它們站在技術進步的前沿,使它們能夠以無與倫比的技巧導航圖像與文本之間的復雜相互作用。

近期,主要研究實驗室持續推出創新的VLM,包括DeepMind的Flamingo、Salesforce的BLIP和OpenAI的CLIP。例如GPT-4(V)和Gemini展示了聊天機器人在VLM領域的進化。值得注意的是,并非所有多模態模型都是VLM;例如,像Midjourney和DALL-E [Ramesh et al., 2021]這樣的文本到圖像模型缺乏語言生成組件,凸顯出多模態AI領域的多樣化景觀。VLM的一般架構包括一個圖像和文本編碼器,用于生成嵌入,這些嵌入然后在圖像-文本融合層中融合,融合后的向量通過LLM生成最終的視覺感知生成文本。VLM的工作原理在圖2中顯示。

在這篇綜述論文中,我們根據它們的輸入處理和輸出生成能力,將VLM分為三大類:視覺-語言理解模型、多模態輸入文本生成模型和最先進的多模態輸入-多模態輸出模型。隨后的各節深入解釋了每一類別,闡明了這些多樣化VLM框架的細微功能和能力。

近期的相關綜述,如[Wang et al., 2023b]主要探討了用于開發多模態模型的各種預訓練技術和數據集,[Yin et al., 2023]探討了訓練各種多模態語言模型的關鍵技術。[Wu et al., 2023a]提供了使用多模態語言模型的實際應用和指導。最新的一篇由[Zhang et al., 2024]深入介紹了大約26種最新的VLM。與之前的綜述相比,沒有一個系統地根據它們的輸入處理和輸出生成能力對視覺-語言模型(VLM)進行分類。我們的綜述通過提供對VLM的徹底分類,揭示了它們功能的復雜性。我們廣泛分析了不同VLM在基準數據集上的表現,特別包括最新的MME基準,提供全面的見解。我們的綜述代表了迄今為止最全面、最新的VLM匯編,涵蓋了大約70個模型。它為用戶提供了在這一開創性研究領域不斷演變的視覺-語言模型的最新和最全面的見解,是最終的指南。

圖1:視覺語言模型的分類,突出顯示模型能夠處理的輸入和輸出格式。

2 視覺-語言模型(VLM)

在本節中,我們對VLM進行了全面的考察,將它們分類為三個主要類別: * 視覺-語言理解(VLU):這一類別包括專門為解釋和理解視覺信息與語言結合的模型。 * 多模態輸入的文本生成:在這一分類中,我們探索了在利用多模態輸入的同時,擅長生成文本內容的模型,從而融合了多種形式的信息。 * 多模態輸出與多模態輸入:這一類別深入研究了通過處理多模態輸入來生成多模態輸出的模型。這涉及到多種模態的合成,如視覺和文本元素,以產生全面而連貫的結果。我們在圖1.1中展示了這一寬泛的分類。

比較分析 我們對幾種視覺和語言模型(VLM)進行了廣泛的分析,這些模型跨越了十個廣泛認可的基準數據集,涵蓋了視覺問題回答(VQA)和圖像描述等任務。這一分析的結果呈現在表1中。此外,我們還使用多模態模型評估(MME)基準評估了這些VLM的感知和認知能力,其發現總結在表2中。更進一步,對各種VLM在視頻問題回答數據集上的比較考察詳細記錄在表3中。 3. 未來方向

預訓練與模塊結構之間的權衡:當前有很多研究正在進行中,通過引入模塊化代替黑盒預訓練,以增強VLM的理解、控制和可信度。納入其他模態:正在進行的工作包括引入更精細的模態,如受[Cheng et al., 2022]啟發的注視/手勢,這對教育行業非常重要。VLM的細粒度評估:正在進行更細致的VLM評估,關注偏見、公平等參數。在這方面的一些研究包括DALL-Eval [Cho et al., 2023a]和VP-Eval [Cho et al., 2023b]。VLM中的因果關系和反事實能力:已經完成了很多工作,以理解LLM的因果和反事實能力,這激發了研究人員在VLM領域探索相同的問題。Cm3 [Aghajanyan et al., 2022]是該領域的最早工作之一,該主題目前非常活躍。持續學習/遺忘:VLM領域存在一個趨勢,即有效地持續學習,無需從頭開始訓練。VQACL [Zhang et al., 2023a]和Decouple before Interact [Qian et al., 2023]是該領域的最初工作之一。受到LLM中觀察到的知識遺忘概念[Si et al., 2023]的啟發,研究人員也在VLM領域探索類似的方法。訓練效率:研究人員集中精力開發高效的多模態模型,如BLIP-2顯示出前景,它在零樣本VQA-v2中的表現超過Flamingo-80B 8.7%,同時使用的可訓練參數顯著減少(少54倍)。VLM的多語種基礎:繼OpenHathi [sarvam.ai, 2023]和BharatGPT [corovor.ai, 2023]等多語種LLM的最近激增之后,開發多語種視覺-語言模型(VLM)的勢頭正在增強。更多領域特定的VLM:各種領域特定的VLM,如MedFlamingo [Moor et al., 2023]和SkinGPT [Zhou et al., 2023]項目示例,已在其專業領域鋪平了道路。進一步的努力正在進行中,以特別為教育和農業等行業量身定制VLM。

4 結論

本文提供了一個關于VLM領域最新發展的綜述。我們根據VLM的用例和輸出生成能力對其進行分類,提供了對每個模型架構、優點和局限的簡潔見解。此外,我們突出介紹了該領域的未來方向,這些方向是根據近期趨勢來提供進一步探索的路線圖。我們相信這篇論文將作為一個寶貴的資源,為在多模態學習領域積極涉獵的計算機視覺和自然語言處理領域的研究人員提供指導。

付費5元查看完整內容

大型語言模型(LLMs)在廣泛的任務中取得了顯著的成功。由于LLMs令人印象深刻的規劃和推理能力,它們被用作自動執行許多任務的自主智能體。最近,基于將一個LLM作為單一規劃或決策智能體的發展,基于LLM的多智能體系統在復雜問題解決和世界模擬方面取得了相當的進展。為了向社區提供這一動態領域的概覽,我們呈現這篇綜述,以提供關于基于LLM的多智能體系統的基本方面及挑戰的深入討論。我們的目標是讓讀者對以下問題獲得實質性的見解:基于LLM的多智能體模擬哪些領域和環境?這些智能體如何被描述,它們如何通信?什么機制有助于智能體能力的增長?對于那些有興趣深入研究這一領域的人,我們還總結了常用的數據集或基準,以便他們方便地訪問。為了讓研究人員了解最新的研究,我們維護一個開源的GitHub倉庫,致力于概述基于LLM的多智能體系統的研究。

1 引言

最近,大型語言模型(LLMs)展現出了達到與人類相當的推理和規劃能力的顯著潛力。這種能力完全符合人類對能夠感知周圍環境、做出決策并作出響應的自主智能體的期待[Xi等,2023;Wooldridge和Jennings,1995;Russell和Norvig,2009;Guo等,2023;Liang等,2023]。因此,基于LLM的智能體已被研究和快速發展,以理解和生成類似人類的指令,促進在廣泛的上下文中進行復雜的互動和決策[Yao等,2023;Shinn等,2023;Li等,2023d]。及時的綜述文章系統地總結了基于LLM的智能體的進展,如在文獻[Xi等,2023;Wang等,2023b]中所見。

基于單個LLM智能體的啟發性能力,已提出基于LLM的多智能體,以利用多個智能體的集體智能和專業化輪廓及技能。與使用單一LLM驅動的智能體的系統相比,多智能體系統通過1) 將LLMs專業化為具有不同能力的各種不同智能體,以及2) 使這些多樣化的智能體之間進行互動,有效地模擬復雜的現實世界環境,提供了先進的能力。在這一背景下,多個自主智能體協作參與規劃、討論和決策,反映了人類團隊工作在解決問題任務中的合作本質。這種方法利用了LLMs的溝通能力,借助它們生成文本進行交流和對文本輸入的響應能力。此外,它利用了LLMs在各個領域的廣泛知識和專門化特定任務的潛力。最近的研究已經展示了使用基于LLM的多智能體解決各種任務的有希望的結果,如軟件開發[Hong等,2023; Qian等,2023]、多機器人系統[Mandi等,2023; Zhang等,2023c]、社會模擬[Park等,2023; Park等,2022]、政策模擬[Xiao等,2023; Hua等,2023]以及游戲模擬[Xu等,2023c; Wang等,2023c]。由于這個領域的跨學科研究性質,它吸引了來自社會科學、心理學和政策研究等不同背景的研究者,研究論文的數量正在迅速增加,如圖1所示(受[Gao等,2023b]設計的啟發),從而擴大了基于LLM的多智能體研究的影響。盡管如此,早期的工作是獨立進行的,導致缺乏系統回顧以總結它們,建立這個領域的全面藍圖,并檢查未來的研究挑戰。這強調了我們工作的重要性,并作為呈現這篇綜述論文的動機,致力于基于LLM的多智能體系統的研究。

我們期望我們的綜述能對LLMs的研究和開發以及利用LLMs進行的更廣泛的跨學科研究做出重大貢獻。讀者將獲得關于基于LLM的多智能體(LLM-MA)系統的全面概覽,把握基于LLMs建立多智能體系統所涉及的基本概念,并捕捉到這一動態領域中最新的研究趨勢和應用。我們認識到這個領域正處于初級階段,并且隨著新方法和應用的迅速發展。為了提供一種持續的資源來補充我們的綜述論文,我們維護了一個開源的GitHub倉庫。我們希望我們的綜述能激發進一步的探索和創新,以及在廣泛的研究領域中的應用。

為了幫助來自不同背景的個人理解LLM-MA技術,并補充現有的綜述通過解決未解決的問題,我們以以下方式組織了我們的綜述論文。在第2節中闡述背景知識后,我們提出了一個關鍵問題:LLM-MA系統如何與協作任務解決環境對齊?為了回答這個問題,我們在第3節提出了一個全面的框架,用于定位、區分和連接LLM-MA系統的各個方面。我們通過討論: 1)智能體-環境界面,詳細說明智能體如何與任務環境互動; 2)智能體輪廓,解釋一個智能體如何被LLM描述以以特定方式行為; 3)智能體通信,考察智能體如何交換信息和協作;以及 4)智能體能力獲取,探索智能體如何發展其解決問題的能力。

關于LLM-MA研究的另一個視角是它們的應用。在第4節,我們將當前應用分為兩個主要流:用于問題解決的多智能體和用于世界模擬的多智能體。為了指導個人識別合適的工具和資源,我們在第5節提出了用于研究LLM-MA的開源實現框架,以及可用的數據集和基準。基于前面的總結,我們在第6節開放了對未來研究挑戰和機會的討論。結論在第7節中總結。

解析LLM-MA系統:界面、輪廓、通信和能力

在本節中,我們深入探討LLM-MA系統的復雜性,其中多個自主智能體參與類似于人類群體動力學的協作活動,應對問題解決場景。我們要解決的一個關鍵問題是,這些LLM-MA系統如何與它們的操作環境以及它們旨在實現的集體目標對齊。為了闡明這一點,我們在圖2中展示了這些系統的通用架構。我們的分析解剖了這些系統的操作框架,重點關注四個關鍵方面:智能體-環境界面、智能體輪廓、智能體通信和智能體能力獲取。

應用

LLM-MA系統已在廣泛的應用中被使用。我們在表1中總結了兩類應用:問題解決世界模擬。我們將在下面詳細闡述這些應用。請注意,這是一個快速發展的研究領域,幾乎每天都有新應用出現。我們維護一個開源倉庫來報告最新的工作。

使用LLM-MA進行問題解決的主要動機是利用具有專門專業知識的智能體的集體能力。這些智能體,每個都作為個體行動,協作以有效地解決復雜問題,例如軟件開發、具體化智能體、科學實驗和科學辯論。 LLM-MA的另一個主流應用場景是世界模擬。這一領域的研究正在迅速增長,涵蓋了包括社會科學、游戲、心理學、經濟學、政策制定等在內的多種領域。在世界模擬中使用LLM-MA的關鍵原因在于它們出色的角色扮演能力,這對于現實地描繪模擬世界中的各種角色和觀點至關重要。世界模擬項目的環境通常被設計來反映被模擬的特定場景,智能體以各種輪廓設計以匹配這一背景。與專注于智能體合作的問題解決系統不同,世界模擬系統涉及多種智能體管理和通信方法,反映了現實世界交互的復雜性和多樣性。

結論

基于LLM的多智能體展現了激勵人心的集體智能,并迅速在研究者中獲得了越來越多的興趣。在這篇綜述中,我們首先系統回顧了LLM-MA系統的發展,通過從不同方面定位、區分和連接它們,涉及智能體-環境界面、LLMs對智能體的描述、管理智能體通信的策略以及能力獲取的范式。我們還總結了LLM-MA在問題解決和世界模擬中的應用。通過突出常用的數據集和基準,并討論挑戰和未來機會,我們希望這篇綜述能成為各個研究領域的研究者們的有用資源,激發未來的研究去探索基于LLM的多智能體的潛力。

付費5元查看完整內容

知識圖譜(KG)是一種用圖模型來描述知識和建模事物之間關聯關系的技術. 知識圖譜嵌入(KGE)作為一 種被廣泛采用的知識表示方法,其主要思想是將知識圖譜中的實體和關系嵌入到連續的向量空間中,用來簡化操作, 同時保留 KG 的固有結構.它可以使得多種下游任務受益,例如 KG 補全和關系提取等. 本文首先對現有的知識圖譜嵌入技術進行全面回顧,不僅包括使用 KG 中觀察到的事實進行嵌入的技術,還包括添加時間維度的動態 KG 嵌入方法, 以及融合多源信息的 KG 嵌入技術.對相關模型從實體嵌入、關系嵌入、評分函數等方面進行分析、對比與總結. 然后簡要介紹 KG 嵌入技術在下游任務中的典型應用,包括問答系統、推薦系統和關系提取等.最后闡述知識圖譜 嵌入面臨的挑戰,對未來的研究方向進行展望.

引言

知識圖譜(Knowledge Graph,KG)作為人工智能的一個分支,引起了學術界和工業界的廣泛關注,其構建與應用也得到了迅速發展.例如 Freebase[1] ,DBpedia[2] ,YAGO[3] ,NELL[4] ,Wikidata[5]等知識圖譜已經被成功創建并 應用于許多現實世界應用,從語義分析[6,7]、命名實體消歧[8,9] ,到信息提取[10,11]和問答系統[12,13]等.知識圖譜是以 現實世界的實體為節點,實體之間的關系為邊的有向圖.在這個圖中,每個有向邊連同其頭實體與尾實體構成了 一個三元組,即(頭實體,關系,尾實體),表示頭實體與尾實體通過關系進行連接.盡管知識圖譜在表示結構化數據 方面非常有效,但這種三元組的基本符號性質使 KG 難以操作[14] .

為了解決這個問題,近年來提出了一個新的研究方向,稱為知識圖譜嵌入(Knowledge Graph Embedding, KGE)或知識表示學習(Knowledge Representation Learning, KRL),旨在將 KG 的組成部分(包括實體和關系)嵌入 到連續的向量空間中,以在簡化操作的同時保留 KG 的固有結構.與傳統的表示方法相比,KGE 為 KG 中的實體 和關系提供了更加密集的表示,降低了其應用中的計算復雜度.此外,KGE 可以通過度量實體和關系低維嵌入的 相似性來顯式地捕獲實體和關系之間的相似性.

盡管研究者已提出多種模型來學習 KG 中的實體和關系表示,但是目前大多數可用的技術仍然僅根據知識 圖譜中觀察到的事實來執行嵌入任務.具體地說,給定一個 KG,首先在低維向量空間中表示實體和關系,并為每 個三元組定義一個評分函數以衡量其在該空間中的合理性.然后通過最大化觀察到的三元組的總合理性來學 習實體和關系的嵌入.這些學習的嵌入還可以進一步用于實現各種任務,例如 KG 補全[15,16] ,關系提取[10,17] ,實體 分類[18,19] ,實體解析[18,20]等.由于在整個過程中僅要求學習的嵌入在每個單獨的事實中兼容,因此對下游任務可 能沒有足夠的預測性[21,22] .近年來,越來越多的研究者開始進一步考慮利用其他類型的信息,例如實體類型 [23,24] ,文本描述[25-28] ,關系路徑[29-31] ,甚至邏輯規則[32,33]來學習更多的預測嵌入.

本文內容結構組織如下:第 1 節介紹相關工作調查與基本符號定義;第 2 節對僅使用 KG 中觀察到的事實進 行嵌入的技術進行全面回顧,具體介紹基于距離的模型,語義匹配模型以及最新的 KGE 技術;第 3 節主要討論了 融合時間信息的動態知識圖譜嵌入技術,詳細介紹 t-TransE、Know-Evolve、HyTE、TDG2E 等代表性的動態 KGE 方法;第 4 節歸納了除 KG 中觀察到的事實以外的結合附加信息的 KGE 技術,例如實體類別、文本描述、 關系路徑等.第 5 節介紹 KGE 技術在下游任務中的典型應用.第 6 節對 KGE 技術面臨的挑戰與未來研究方向 進行討論.最后,第 7 節對全文工作進行總結.

1 符號定義

知識圖譜嵌入旨在將 KG 中的實體和關系嵌入到一個低維連續的語義空間中.為了便于說明,本小節定義 幾種基本符號.首先,定義知識圖譜為 G=(E,R,S).

2. 使用事實進行知識圖譜嵌入

本節對僅使用事實進行知識圖譜嵌入的方法采用評分函數進行劃分.評分函數用于衡量事實的合理性,在 基于能量的學習框架中也被稱為能量函數.典型類型的評分函數分為兩種:基于距離的評分函數(如圖 1(a))與基 于相似性的評分函數(如圖 1(b)).

2.1 基于距離的模型

基于距離的模型使用基于距離的評分函數,即通過計算實體之間的距離來衡量事實的合理性,在這種情況 下,翻譯原理 h+r=t, 被廣泛使用.也就是說,基于距離的模型通常由關系執行翻譯后,根據兩個實體之間的距離 來度量一個事實的合理性.本小節將基于距離的模型進一步細分為基本距離模型,翻譯模型和復雜關系建模.

基于距離的模型總結

2.2 語義匹配模型

語義匹配模型利用基于相似性的評分函數,即通過語義匹配來衡量事實的合理性.語義匹配通常采用乘法 公式圖片來變換表示空間中的頭實體,使其與尾實體相近.本節根據實體和關系編碼的不同模型結構來 介紹代表性的語義匹配模型.

語義匹配模型總結

2.3 最新的知識圖譜嵌入模型

大多數翻譯模型和雙線性模型是 2016 年之前提出的方法,而最近幾年研究 KGE 的方法眾多.本小節簡要 介紹其中的主流方法,具體劃分為卷積神經網絡模型,旋轉模型,雙曲幾何模型和其他模型.

最新的知識圖譜嵌入模型總結

第 2 節主要介紹了 3 大類知識圖譜嵌入方法,即:基于距離的模型,語義匹配模型與最新的 KGE 模型,并結 合已有的研究成果對其進行了分析.根據上述分析結果,表 5 從類別,方法,提出年份及優缺點四方面對這幾類知 識圖譜嵌入方法的部分代表模型進行對比.

3 動態知識圖譜嵌入

當前 KGE 的研究主要集中于靜態知識圖譜,其中事實不會隨時間發生變化,例如:TransE,TransH,TransR, RESCAL 等等.但是,在實際應用中,知識圖譜通常是動態的,例如 Twitter 中的社交知識圖,DBLP 中的引文知識 圖等,其中事實隨時間演變,僅在特定時間段內有效.以往的靜態 KGE 方法完全忽略了時間信息,這使得靜態 KGE 方法無法在這些實際場景中工作.因此,有必要設計一種用于動態知識圖譜嵌入的方法.

4 融合多源信息的知識圖譜嵌入

多源信息提供了知識圖譜中三元組事實以外的信息,能夠幫助構建更加精準的知識表示,僅使用事實進行 知識圖譜嵌入的方法忽略了蘊含在多源信息中的豐富知識,例如:實體類別信息、文本描述信息、關系路徑等. 充分利用這些多源信息對于降低實體與關系之間的模糊程度,進而提高推理預測的準確度至關重要.

5 知識圖譜嵌入的應用

近年來,知識驅動的應用在信息檢索和問答等領域取得了巨大成功,這些應用有望幫助準確深入地了解用 戶需求,并給出適當響應.知識圖譜嵌入方法的核心思想是將每個實體、關系表示為一個低維向量,而學習到的 實體、關系嵌入可以受益于多種下游任務.在本節中,我們將介紹 KGE 的典型應用.

5.1 基于知識圖譜嵌入的問答

隨著大規模知識圖譜的興起,基于知識圖譜的問答(QA)成為重要的研究方向,引起了人們的廣泛關注.現實 世界的領域中通常包含數百萬到數十億個事實,其龐大的數據量和復雜的數據結構使得用戶很難訪問其中有 價值的知識.為了緩解這個問題,提出了基于知識圖譜的問答(QA-KG). QA-KG 旨在利用知識圖譜中的事實來回答自然語言問題.可以幫助普通用戶在不知道 KG 數據結構的情 況下,高效地訪問 KG 中對自己有價值的知識.然而,由于涉及到語義分析[114]和實體鏈接[115,116]等多個具有挑戰 性的子問題,QA-KG 的問題還遠未得到解決.近年來,隨著 KGE 在不同的實際應用中表現出的有效性,人們開始 探索其在解決 QA-KG 問題中的一些潛在作用. Bordes 等人[117]基于訓練問題和問題釋義學習單詞,關系和實體的低維表示,以便將新問題和候選事實投影 到同一空間中進行比較.Yang 等人[118,119]利用問題和潛在事實的邏輯性質,將問題和候選答案投影到統一的低 維度空間中.還有一些基于深度學習的模型[120-124]通過將問題中的單詞輸入神經網絡來實現這種投影.

值得注意的是,最近,Huang 等人[125]提出了一個簡單有效的基于知識圖譜嵌入的問答框架(KEQA),旨在解 決簡單問題,即 QA-KG 中最常見的問題類型.KEQA 不是直接推斷問題的頭實體和謂詞,而是在 KGE 空間中聯 合恢復自然語言問題的頭實體,關系和尾實體表示來回答問題.最后,基于知識圖譜子集(FB2M、FB5M[125] )和問 答數據集 SimpleQuestions[117]進行實驗,通過與七個??最新提出的 QA-KG 算法進行對比,KEQA憑借在簡單問題 上獲得 20.3%的準確性改進獲得了優于所有基線的性能. 此外,為了驗證在使用不同的 KGE 算法時 KEQA 的 通用性,分別使用 TransE [15]、TransH [16]、TransR [43]執行知識圖譜嵌入,實驗結果表明 KGE算法顯著提高了 KEQA 的性能,與 KEQA_noEmbed??相比,KEQA 基于 TransE 時實現了 3.1%的改進,并且 KEQA 在使用不同的 KGE 算 法時性能相近,證明了 KEQA 的通用性,此外,即使不使用 KGE,KEQA 仍然可以獲得與最先進的 QA-KG 方法相 當的性能,驗證了 KEQA 的健壯性。

5.2 推薦系統

在過去的幾年中,利用知識圖譜的推薦系統已被證明與最先進的協作過濾系統具有競爭力,能有效地解決 新項目和數據稀疏性等問題[126-130] .最近,KGE 的流行促進了利用 KGE 捕獲實體語義進行推薦這一研究熱點, 使用 KGE 已被證明對推薦系統有效. Zhang 等人提出使用 TransR[43]的協作知識圖嵌入(collaborative knowledge base embedding,CKE)[131] ,以學 習結合視覺和文本嵌入的項目結構表示.深度知識感知網絡(deep knowledge-aware network,DKN) [132]利用 TransD[44]學習實體嵌入,并通過將它們與詞嵌入相結合來設計 CNN 框架,用于新聞推薦.但是,由于需要提前學 習實體嵌入,DKN 不能以端到端的方式進行訓練.為了實現端到端的訓練,MKR(multi-task feature learning approach for knowledge graph)[133]通過共享潛在特征和建模高階項-實體交互,將多任務知識圖譜表示和推薦關 聯起來.Ai 等人[134]通過 TransE[15]方法學習用戶和項目嵌入,并基于投影空間中的用戶-項目相似度評分進行推 薦.文獻[135]為優惠推薦任務提出了一個神經分解(neural factorization,NF)模型,以 KG 的形式對可用數據進行 建模,并使用 TransE 學習實體和關系的嵌入. 最近,Sha 等人提出了一種新穎的注意力知識圖譜嵌入(attentive knowledge graph embedding,AKGE)框架 [136] ,以更好地利用 KG 進行有效推薦.該框架以交互特定的方式充分利用了 KG 的語義和拓撲,為推薦結果提供 了可解釋性.此外,Ni 等人描述了一種用于 Wikipedia 的基于嵌入的實體推薦框架[137] ,該框架將 Wikipedia 組織 成一系列彼此重疊的圖,從它們的拓撲結構和內容中學習互補的實體表示,并將其與輕量級的學習方法相結合, 以推薦 Wikipedia 上的相關實體.通過使用 Wikipedia 作為框架的輸入,兩個實體推薦數據集??作為基礎事實,進 行離線和在線評估,證明了所產生的嵌入和推薦在質量和用戶參與度方面表現良好.

5.3 關系提取 關系提取(relation extraction,RE)是信息提取中的一項重要任務,旨在根據兩個給定實體的上下文來提取它 們之間的關系.由于 RE 具有提取文本信息的能力,并使許多自然語言處理應用受益(例如:信息檢索,對話生成, 問答等),因此受到很多研究者的青睞. 常規的監督模型已經在關系提取任務中得到深入研究,但是,它們的性能在很大程度上依賴于訓練數據的 規模和質量.為了構建大規模數據,Mintz 等人[138]提出了一種新穎的遠程監督(distant supervision,DS)機制,通過 將現有知識圖譜與文本對齊來自動標記訓練實例.DS 使 RE 模型能夠在大規模的訓練語料庫上工作,因此遠程 監督的 RE 模型[139-141]已經成為從純文本中提取新事實的主流方法.但是,這些方法僅在知識獲取中使用純文本 中的信息,而忽略了 KG 結構所包含的豐富信息.

受 KG 豐富的知識啟發,很多研究工作在 KG 的指導下擴展了 DS 模型.Weston 等人[142]提出將 TransE 與現 有的遠程監督的 RE 模型相結合以提取新的事實,并且獲得了較大改進.此外,Han 等人[143]提出了一種針對 KRL和 RE 的聯合表示學習框架,文獻[37]證實了現有的 KRL 模型可以有效增強遠程監督的 RE 模型.最近,Han 等人 [144]提出了一個通用的聯合表示學習框架,用于知識圖譜補全(knowledge graph completion,KGC)和從文本中提 取關系(relation extraction,RE)兩個任務,該框架適用于非嚴格對齊的數據.此外,Lei 等人[145]提出了一種具有雙 向知識提煉的神經關系提取框架,以協同使用不同的信息源,減輕了遠程監督關系提取中的噪聲標簽問題.但 是,這些工作忽略了關系之間的豐富關聯.Zhang 等人[146]提出 KG 中的關系符合三層層次關系結構(hierarchical relation structure,HRS),并擴展了現有的 KGE 模型:TransE,TransH 和 DistMult,以利用 HRS 的信息學習知識表 示.Zhang 等人在 FB15k[15]、FB15k237[147]、FB13 [78]、WN18[15]和 WN11[78]數據集上進行了鏈接預測和三元組 分類任務的實驗評估,結果表明,相比于原始模型以及其他基線模型 TransE、TransH、DistMult,擴展模型 (TransE-HRS、TransH-HRS、DistMult-HRS)始終獲得最佳性能,驗證了模型的有效性,同時也證明了考慮關系結 構對于 KG 補全非常有效.

6 挑戰與展望

目前,KGE 作為處理大型知識圖譜的一種方便有效的工具,被廣泛探索并應用于多種知識驅動型任務,極大 地提高了任務的性能,同時也存在許多可能的有待探索的領域.在本小節中,我們將討論 KGE 面臨的挑戰及其 未來研究方向.

6.1 面臨的挑戰 6.1.1 探索 KG 的內部和外部信息 KG 中的實體和關系具有復雜的特性和豐富的信息,而這些信息尚未得到充分考慮.本小節將討論為增強 KGE 方法的性能而需要進一步探索的內部和外部信息.

知識類型:不同的 KGE 方法在處理 1-1,1-N,N-1 和 N-N 關系時具有不同的性能,這表明針對不同類型的知 識或關系需要設計不同的 KGE 框架.然而,現有的 KGE 方法簡單地將所有關系分為 1-1,1-N,N-1 和 N-N 關系, 不能有效地描述知識的特征.根據知識的認知和計算特性,現有知識可分為以下幾種類型:(1)表示實體之間從屬 關系(如 has part).(2)表示實體屬性信息(如 nationality).(3)表示實體之間的相互關系(如 friend of).這些不同類型 的關系應該采用不同的方式建模.

多語言嵌入:文獻[40]觀察到不同語言的向量空間之間對應概念的幾何排列具有很強的相似性,并提出兩個 向量空間之間的跨語言映射在技術上是可行的.多語言 KG 對于知識共享具有重要意義,并且在跨語言信息檢 索,機器翻譯,問答等領域發揮著重要作用.然而,現有的關于多語言 KG 嵌入的研究很少,因此多語言 KGE 的研 究是一項有待解決的有意義但又具有挑戰性的工作.

多源信息學習:隨著網絡技術的快速發展,如今的互聯網不僅包含頁面和超鏈接,音頻、圖片和視頻等多源 信息也越來越多地出現在網絡上.因此,如何高效地利用從文本到視頻的多源信息已成為 KGE 中的一個關鍵且 具有挑戰性的問題.現有的利用多源信息的方法尚處于初步階段,諸如社交網絡之類的其他形式的多源信息仍 然獨立于知識圖譜表示的構建,因此還有待進一步研究.

One-shot/Zero-shot 學習:近年來,One-shot/Zero-shot 學習在單詞表示,情感分類,機器翻譯等各個領域中蓬 勃發展.One-shot/Zero-shot 學習的目的是從一個只有少量實例的類或一個從未見過的類的實例中學習,在知識 圖譜表示中,一個實際的問題是低頻實體和關系的學習比高頻實體和關系的學習更差.然而,借助實體和關系的 多語言和多模態表示,低頻實體和關系的表示可以在一定程度上得到改善.此外,有必要設計新的 KGE 框架,使 其更適合于低頻實體和關系的表示學習.

6.1.2 知識應用的復雜性

KG 在各種應用中發揮著重要的作用,例如 Web 搜索,知識推理和問答.但是,由于現實世界中知識應用的復 雜性,難以高效地利用 KG.在本小節中,將討論在實際應用中使用 KG 時遇到的問題. KG 質量低:知識應用的主要挑戰之一是大型 KG 本身的質量問題.Freebase,DBpedia,Yago,Wikidata 等典型 的 KG 通常是從互聯網上的大量純文本中自動獲取知識來獲取事實三元組.由于缺乏人工標注,這些 KG 遭受噪 音和矛盾的問題.當涉及到實際應用時,這些噪音和矛盾將導致錯誤傳播.因此,如何自動檢測現有 KG 中的矛盾 或錯誤已成為將 KG 的信息納入實際應用中的重要問題. KG 體積過大:現有的 KG 過于繁瑣,無法有效地部署在實際應用中.此外,由于 KG 的體積過大,現有的一些 方法由于計算復雜度的問題也并不實用.因此,有必要在現有的方法上進行改進. KG 不斷變化:隨著時間推移,不斷有新的知識產生.現有的 KGE 方法由于其優化目標與 KG 中的所有事實 三元組相關,因此每次 KG 發生變化時都需要從頭開始重新學習模型.如果在實際應用中使用 KG,那么它既費時 又不實用.因此,設計一種可以進行在線學習并逐步更新模型參數的 KGE 框架對 KG 的應用至關重要.

6.2 未來方向 6.2.1 統一框架 一些知識圖譜表明學習模型已經被證明是等價的.例如,文獻[68]證明 HolE 和 ComplEx 在數學上等價于具 有某些約束的鏈接預測.ANALOGY[69]提供了包括 DistMult,ComplEx 和 HolE 在內的幾種代表性模型的統一視 圖.Wang 等人[62]探討了幾種雙線性模型之間的聯系.Chandrahas 等人[159]探索了加法和乘法 KGE 模型的幾何理 解.大多數工作使用不同的模型來描述知識獲取和關系提取.然而,以類似于圖網絡統一框架的方式進行的統一 研究[158]是彌合研究差距的一種有價值的方法.

6.2.2 可解釋性 知識表示的可解釋性是知識獲取和實際應用中的關鍵問題.現有方法已為可解釋性作出了初步努力. ITransF[51]采用稀疏向量進行知識遷移,通過注意力可視化進行解釋.CrossE[92]利用基于嵌入的路徑搜索生成對 鏈接預測的解釋,探索了知識圖譜的解釋方案.然而,這些神經模型在透明度和可解釋性方面受到了限制,一些 方法結合邏輯規則來提高互操作性,從而將黑盒神經模型與符號推理相結合.因此,應該進一步研究可解釋性并 提高預測知識的可靠性.

6.2.3 可擴展性 在大規模知識圖譜中,可擴展性非常重要.幾種嵌入方法利用簡化來降低計算代價,例如,通過循環相關運 算簡化張量積[66] .但是,這些方法仍然難以擴展到數以百萬計的實體和關系中.最近的神經邏輯模型[161]中的規 則是由簡單的蠻力搜索產生的,這使得它們在大規模知識圖上表現不足.ExpressGNN[162]試圖使用 NeuralLP [163] 進行有效的規則歸納.但是,要處理繁瑣的深層架構和不斷增長的知識圖還需要進一步完善. 6.2.4 自動構建 當前的 KG 高度依賴于人工構建,這是勞動密集且昂貴的.知識圖譜在不同認知智能領域的廣泛應用需要 從大規模的非結構化內容中自動構建知識圖譜.最近的研究主要是在現有知識圖的監督下進行半自動構建.面 對多模態,異構性和大規模應用,自動構建仍然是未來亟待解決的重要問題.

7 總結

知識圖譜作為一種語義網絡擁有極強的表達能力和建模靈活性,可以對現實世界中的實體、概念、屬性以 及它們之間的關系進行建模.隨著最近出現的知識表示學習、知識獲取方法和各種知識圖譜應用,知識圖譜引 起了越來越多的研究關注.知識圖譜嵌入旨在將實體和關系嵌入到連續向量空間中,在各種面向實體的任務中得到了重要應用.本文圍繞知識圖譜嵌入技術的研究現狀,通過回顧僅使用事實進行知識圖譜嵌入的方法、添 加時間維度的動態 KGE 方法以及融合多源信息的 KG E 技術介紹了現有的知識圖譜嵌入技術.并簡要討論了 KGE 技術在下游任務中的實際應用.最后總結了知識圖譜嵌入領域所面臨的挑戰,并對其未來的方向做出展望. 我們進行這項調查的目的是對當前 KGE 的代表性研究工作進行總結,并且希望這一探索可以為 KGE 的未來研 究提供幫助.

付費5元查看完整內容

Attention模型目前已經成為神經網絡中的一個重要概念,注意力模型(AM)自機器翻譯任務【Bahdanau et al 2014】首次引入進來,現在已經成為主流的神經網絡概念。這一模型在研究社區中非常受歡迎,適用領域非常廣泛,包括自然語言處理、統計學習、語音和計算機視覺方面的應用。本篇綜述提供了關于注意力模型的全面概述,并且提供了一種將現有注意力模型進行有效分類的分類法,調查了用于不同網絡結構的注意力模型,并顯示了注意力機制如何提高模型的可解釋性,最后,討論了一些受到注意力模型較大影響的應用問題。

付費5元查看完整內容
北京阿比特科技有限公司