亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

視覺-語言-動作(Vision-Language-Action, VLA)模型標志著人工智能領域的一項變革性進展,旨在在一個統一的計算框架中融合感知、自然語言理解與具身動作執行。本文作為一篇基礎性綜述,圍繞該快速演進領域的五大主題支柱,對近期 VLA 模型的發展進行了系統性梳理與綜合分析。 我們首先建立了 VLA 系統的概念基礎,回顧其從跨模態學習架構演變為深度整合視覺-語言模型(VLMs)、動作規劃器和層級控制器的通用智能體的過程。本文采用嚴格的文獻綜述方法,覆蓋了過去三年內發表的80余種 VLA 模型。

關鍵進展涵蓋了架構創新、參數高效的訓練策略以及實時推理的加速方法。我們還系統探討了 VLA 模型在多種應用領域中的實踐,包括類人機器人、自動駕駛、醫療與工業機器人、精準農業以及增強現實導航等。 此外,本文還深入分析了該領域面臨的主要挑戰,如實時控制、多模態動作表示、系統可擴展性、對未見任務的泛化能力,以及倫理部署風險等。基于當前技術前沿,我們提出了若干應對方案,包括智能體型人工智能(agentic AI)適配跨具身泛化以及統一的神經-符號規劃(neuro-symbolic planning)

在前瞻性討論部分,我們描繪了一個未來藍圖:VLA 模型、VLMs 與 agentic AI 相互融合,共同驅動具備社會適應性、靈活性和通用性的具身智能體系統。本文旨在為推進智能化、現實世界機器人系統與通用人工智能(AGI)發展提供一個基礎性參考。

關鍵詞:視覺-語言-動作、VLA、人工智能、機器人、視覺-語言模型、AI 智能體、智能體型人工智能

1. 引言

在視覺-語言-動作(Vision-Language-Action,VLA)模型出現之前,機器人技術和人工智能的進展主要分布在彼此割裂的幾個子領域:視覺系統能夠“看”并識別圖像 [44, 69];語言系統能夠理解和生成文本 [164, 137];動作系統則能夠控制物體運動 [49]。這些系統在各自領域表現良好,但在協同工作或應對新穎、不可預見的情況時表現乏力 [46, 21],從而限制了它們理解復雜環境或靈活應對真實世界挑戰的能力。 如圖1所示,傳統計算機視覺模型(主要基于卷積神經網絡 CNNs)通常針對如目標檢測或分類等窄域任務進行優化,嚴重依賴大量標注數據,且即便是環境或任務目標的微小變化也需耗費大量精力進行重新訓練 [156, 62]。這些視覺模型雖然具備“看”的能力(例如識別果園中的蘋果),但無法理解語言或將視覺洞察轉化為有目的的動作。 另一方面,語言模型,尤其是大型語言模型(LLMs),在文本理解與生成方面取得了革命性進展 [23],但它們依然局限于語言模態,缺乏對物理世界的感知與推理能力 [76](如圖1中“果園中的成熟蘋果”一例所示)。與此同時,動作系統在機器人中的應用,主要依賴手工設計的策略或強化學習方法 [122],雖可實現特定行為(如操控物體),但通常難以泛化,且開發成本高昂 [119]。 盡管視覺-語言模型(VLMs)通過融合視覺與語言實現了令人印象深刻的多模態理解 [149, 25, 148],但系統在生成或執行連貫動作方面依然存在顯著的集成缺口 [121, 107]。如圖1進一步所示,大多數 AI 系統至多只能融合兩種模態(如視覺-語言、視覺-動作或語言-動作),而難以在統一框架中整合三者。結果是,機器人可以識別物體(如“蘋果”),理解相應的文本指令(如“摘下蘋果”),或執行預定義的動作(如抓取),但要將這些能力整合為流暢且具適應性的行為仍十分困難。這導致系統架構呈碎片化特征,難以適應新任務或新環境,泛化能力弱,開發過程繁瑣,成為具身智能發展的關鍵瓶頸:如果系統無法同時感知、理解并采取行動,真正的智能自主行為將無從談起。 這一迫切需求促使 VLA 模型的興起。VLA 模型構想于 2021-2022 年,并在 Google DeepMind 的 Robotic Transformer 2(RT-2) [224] 等研究工作中得到率先實踐,提出了一種將感知、推理與控制統一于單一架構的變革性方法。作為圖1中所揭示限制的解決方案,VLA 模型整合了視覺輸入、語言理解與運動控制能力,使具身智能體能夠感知環境、理解復雜指令并動態地執行相應動作。 早期的 VLA 方法通過在視覺-語言模型中引入動作標記(action tokens)——即用于表示機器人動作指令的數值或符號形式,實現了這種三模態融合。模型可借助配對的圖像、語言與軌跡數據進行訓練 [121],大幅提升了機器人對未見物體的泛化能力、對新穎語言指令的解釋能力,以及在非結構化環境中的多步推理能力 [83]。 VLA 模型在實現統一多模態智能的道路上邁出了關鍵一步,打破了長期以來視覺、語言與動作分立建模的局限 [121]。借助大規模互聯網級數據集,這些數據集整合了圖像、文本與行為信息,VLA 模型不僅能夠識別與描述環境,還可以進行語境推理并在復雜、動態的場景中執行合適的動作 [196]。如圖1所展示,從各模態割裂的孤立系統發展到集成式的 VLA 模型,標志著朝著真正具備適應性與泛化能力的具身智能體邁出了根本性的一步。 鑒于該范式轉變具有深遠影響,亟需開展一項系統、深入的綜述研究,基于豐富的文獻資料與批判性分析,全面梳理 VLA 模型的發展: 1. 首先,該綜述有助于明確 VLA 的基本概念與架構原則,從而區分其與以往多模態系統的本質差異; 1. 其次,梳理該領域快速發展的進程與關鍵技術節點,幫助研究人員與從業者把握其技術演進路徑; 1. 第三,深入探討 VLA 在現實世界中已展現變革潛力的多個應用場景,如家庭機器人、工業自動化、輔助技術等; 1. 第四,分析當前亟待解決的挑戰,包括數據效率、安全性、泛化能力及倫理風險等,為未來部署提供指導; 1. 第五,通過綜合這些研究洞見,向更廣泛的 AI 與機器人研究社群傳達新興研究方向與工程考量,促進協同創新。

本綜述系統分析了 VLA 模型的概念基礎、發展進展與技術挑戰,旨在凝聚當前研究成果,明確尚存的技術瓶頸,并提出未來的研究方向。 我們首先將深入剖析 VLA 模型的核心概念(圖2),包括其構成要素、歷史演化、多模態融合機制以及基于語言的編碼策略,這些內容為理解 VLA 在模態間的協調提供了基礎。 在此基礎上,我們梳理了近年來的技術進展與訓練效率策略(圖3),涵蓋使 VLA 更具泛化能力的架構創新、數據高效學習機制、參數優化建模方法及推理加速技術。這些進展對實現 VLA 在現實環境中的應用至關重要。 接著,我們全面討論了當前 VLA 系統所面臨的關鍵挑戰(圖4),包括推理瓶頸、安全問題、計算資源開銷、有限的泛化能力及倫理風險。我們不僅指出了這些問題,還從分析角度提出了潛在解決思路。 上述三幅圖共同構建了本綜述的視覺化框架,輔助文本內容展示其概念圖景、創新亮點與亟待解決的問題。本綜述旨在為未來的研究提供指導,促進更加穩健、高效、倫理的 VLA 系統的發展。

付費5元查看完整內容

相關內容

摘要 —— 強化學習(Reinforcement Learning, RL)已成為對齊與增強大語言模型(Large Language Models, LLMs)的一種變革性方法,能夠應對指令遵循、倫理對齊以及推理能力等方面的關鍵挑戰。本文綜述了強化學習與語言模型結合的全面基礎,重點介紹了如近端策略優化(Proximal Policy Optimization, PPO)、Q學習(Q-Learning)和演員-評論家(Actor-Critic)等主流算法。此外,文章系統回顧了專為LLM定制的強化學習技術,包括基于人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF)和基于AI反饋的強化學習(Reinforcement Learning from AI Feedback, RLAIF)等基礎方法,以及偏好直接優化(Direct Preference Optimization, DPO)和群體相對策略優化(Group Relative Policy Optimization, GRPO)等先進策略。我們系統性地分析了這些技術在各領域的應用,從代碼生成到工具增強推理不等。本文還基于獎勵建模、反饋機制與優化策略提出了一套對比性分類體系。評估結果揭示了一些關鍵趨勢:RLHF 仍然是主導性的對齊技術,而基于結果的強化學習(如 RL with Verified Rewards, RLVR)顯著提升了逐步推理能力。然而,獎勵欺騙、計算成本高昂以及反饋收集的可擴展性等持續性挑戰,凸顯了持續創新的必要性。我們進一步探討了若干新興方向,包括混合RL算法、驗證器引導訓練,以及多目標對齊框架。本綜述可為研究人員提供一份關于RL驅動的大語言模型開發的路線圖,致力于在提升能力的同時兼

性與可擴展性。

關鍵詞 —— 強化學習、大語言模型、RLHF、對齊、推理、自然語言處理、人工智能 **

**

一、引言

大語言模型(Large Language Models, LLMs)已成為人工智能領域的變革性技術,在理解和生成自然語言方面展現出卓越能力。從 GPT-3 擁有的 1750 億參數 [1],到近年來如 LLaMA 3.1 的 4050 億參數 [2],以及 DeepSeek-V3 的 6710 億參數 [3],這些模型在規模和能力上持續擴展。盡管它們在多種任務中表現出色,LLMs 仍然面臨“對齊”(alignment)問題,即確保模型輸出始終反映人類的價值觀、偏好與意圖,仍是一項重大挑戰。LLMs 往往會產生“幻覺”(hallucination)[4],存在生成有害內容的風險 [5]–[7],并且在執行復雜指令方面常常表現不佳 [8]。

強化學習(Reinforcement Learning, RL)是一種智能體通過與環境交互中的試錯過程進行學習的范式,近年來成為應對對齊挑戰的強有力框架。與傳統依賴標注樣本的監督學習方法不同,強化學習能夠引入不可微分的反饋信號,并優化多目標的復雜任務。在 LLM 中引入強化學習,標志著人工智能對齊研究的一項重大進展,使模型能夠學習人類偏好、提升推理能力,并更好地遵循倫理規范。本文旨在全面審視應用于 LLM 的強化學習技術,聚焦于模型在“對齊人類價值”與“增強推理能力”兩方面的提升。

將強化學習應用于 LLM 面臨一系列區別于傳統 RL 場景的獨特挑戰。在 LLM 中,狀態空間通常由輸入提示或對話歷史構成,而動作空間則涵蓋模型完整的詞匯表,形成了一個極其龐大且離散的動作集合。這種高維動作空間對算法設計提出了更高要求,與機器人控制或游戲等傳統 RL 應用場景有顯著不同。此外,LLM 中的獎勵信號通常來自于人類對文本質量、有用性、無害性和誠實性等復雜維度的主觀判斷,這些屬性本質上難以量化。

基于人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF)[9] 已成為對齊 LLM 與人類偏好的事實標準。該方法通常包含三個階段:首先基于高質量示范數據進行有監督微調,其次利用人類偏好數據訓練獎勵模型,最后使用如近端策略優化(PPO)[10]等算法對策略進行優化。RLHF 在提升指令遵循能力、減少有害輸出方面取得了顯著成效,OpenAI 的 InstructGPT 即為代表性成果 [9]。

然而,人類標注的可擴展性問題推動了替代方案的發展。基于 AI 反饋的強化學習(Reinforcement Learning from AI Feedback, RLAIF)[11] 用其他 AI 系統的評估結果來替代或增強人類反饋,在維持相近性能的同時大幅降低了標注成本。憲法 AI(Constitutional AI)[12] 是 RLAIF 的一種特化形式,模型根據預定義的原則對自身輸出進行批判與修正,尤其適用于無害性對齊。近期的研究進一步致力于簡化 RLHF 流程,例如偏好直接優化(Direct Preference Optimization, DPO)[13],跳過顯式獎勵建模,直接通過偏好對進行策略優化,在計算效率和訓練穩定性方面具有優勢。實證研究顯示,DPO 在情感控制與摘要等任務中的表現可與基于 PPO 的 RLHF 相媲美甚至超越,同時大大降低了系統復雜度。

除了人類偏好對齊之外,RL 技術也越來越多地用于提升 LLM 的推理能力。基于結果的強化學習(Outcome-Based Reinforcement Learning)[14] 關注最終答案的正確性,即使中間推理步驟未被監督也可進行優化。更先進的方法如帶可驗證獎勵的強化學習(Reinforcement Learning with Verifiable Rewards, RLVR)[15],能為推理過程中的每一步提供反饋,顯著提升模型在數學與邏輯推理任務上的表現。例如,RLVR 將 GPT-3.5 在數學推理基準 GSM8K 上的準確率從 56.8% 提升至 72.5%,且僅需少量訓練樣本。盡管已有顯著進展,將 RL 應用于 LLM 仍存在諸多挑戰,例如獎勵函數被模型“鉆空子”的獎勵欺騙現象(reward hacking)[16], [17];以及 RL 訓練所需的龐大計算成本,尤其是在參數量級為數十億的模型上,給實際部署帶來困難。此外,不論是來自人類還是 AI 系統,確保反饋的質量與代表性 [18], [19] 仍是一個復雜難解的問題。

本文在該領域的貢獻包括以下幾點:第一,我們提供了一份關于 RL 技術在 LLM 中應用的全面技術綜述,涵蓋了如 RLHF 與 RLAIF 等基礎方法,以及 DPO 和群體相對策略優化(Group Relative Policy Optimization, GRPO)等前沿方法。第二,我們系統分析了 RL 技術在多個領域的應用,如代碼生成與工具增強推理,展現其廣泛適應性與有效性。第三,我們提出了一個基于獎勵建模、反饋機制與優化策略的對比分類體系,為理解 RL 在 LLM 中的技術生態提供結構化框架。最后,我們還討論了若干新興研究方向,包括混合 RL 算法、驗證器引導訓練,以及多目標對齊框架。

本文其余部分安排如下:第二節介紹 LLM 與強化學習的基礎概念;第三節詳細講解為 LLM 改編的具體 RL 算法;第四節探討用于對齊與推理增強的 RL 技術;第五節展示 RL 在各類應用場景中的實踐;第六節提供一套比較分析與評估;第七節討論現有挑戰與局限;第八節展望未來研究方向;第九節總結全文。我們希望通過本綜述為研究者與實踐者提供一份推動 RL 驅動 LLM 發展的技術路線圖,在提升模型能力的同時兼顧安全性與可擴展性。

付費5元查看完整內容

 大型語言模型(LLMs)正在推動科學發現范式的轉變,從面向特定任務的自動化工具演變為日益自主的智能體,根本性地重塑了科研流程與人機協作模式。本文系統性地梳理了這一快速發展的研究領域,重點關注LLMs在科學中的角色變遷與能力提升。我們以科學方法為框架,提出了一個基礎的三層級分類體系——工具(Tool)、分析者(Analyst)與科學家(Scientist),以刻畫其自主性遞增及其在科研生命周期中職責的演變。此外,我們還識別了若干關鍵挑戰與未來研究方向,如機器人自動化、自我改進以及倫理治理等。總體而言,本文旨在提供一個概念性架構與戰略性前瞻,以助力AI驅動下的科學發現,實現快速創新與負責任的發展并重。

1 引言

大型語言模型(LLMs)的持續進步催生出一系列新興能力,如規劃(Huang 等,2024b)、復雜推理(Huang 和 Chang,2023)以及指令遵循(Qin 等,2024)。此外,將代理型工作流(agentic workflows)整合進來,使得基于LLM的系統能夠執行更高級的功能,包括網頁導航(He 等,2024)、工具使用(Qu 等,2025)、代碼執行(Jiang 等,2024a)和數據分析(Sun 等,2024)。在科學發現領域,這種高級LLM能力與代理機制的融合正推動一場深刻的范式轉變。該轉變不僅有望加速科研生命周期,還將從根本上改變人類研究者與人工智能在知識探索中的協作關系。 然而,LLM應用的迅猛擴展及其在科學發現中所引發的范式變化,也帶來了諸多挑戰。LLM演化速度之快,以及其與復雜科研流程的深度融合,使得系統性的評估愈發困難,因此亟需結構化的概念框架來整理當前認知,并指引未來發展方向。盡管現有綜述已對LLM在多個科學領域的應用進行了有價值的概覽(Zhang 等,2024, 2025),或對科學中的特定AI技術進行了分類(Luo 等,2025;Reddy 和 Shojaee,2025),但它們往往聚焦于特定學科的應用,或僅呈現LLM能力的靜態快照。因此,這些綜述可能忽略了LLM自主性不斷增強的關鍵趨勢,以及其在整個科學方法流程中角色的動態演變,從而未能充分揭示其影響力的廣度與未來向更高獨立性演進的潛力。 為系統描繪這一演進圖景,并彌補上述空白,本文的分析框架以經典科學方法的六個階段(見圖1)為基礎(Popper,1935;Kuhn,1962):(1)觀察與問題定義,(2)假設提出,(3)實驗與數據收集,(4)數據分析與解釋,(5)得出結論,(6)迭代與優化。我們對LLM在這些階段中的應用進行分析,發現一個顯著趨勢:LLM正從在單一階段執行離散的、面向任務的功能,逐步發展為能貫穿多個階段的復雜代理型系統。值得注意的是,最新研究(Schmidgall 等,2025;Yamada 等,2025)正在探索幾乎能夠自主完成整個科學流程的LLM系統。 為了更有效地捕捉與描述LLM能力與獨立性日益增強的演化路徑,本文提出一個基礎性的三層級分類框架(見表1),用于定義LLM在科學發現中的不同角色:(i)工具型LLM(LLM as Tool):模型在直接監督下完成具體、明確的任務,輔助人類研究者;(ii)分析者型LLM(LLM as Analyst):模型具備更高的自主性,能夠處理復雜信息、執行分析并提供洞見,減少人工干預;(iii)科學家型LLM(LLM as Scientist):代表更高級階段的系統,能夠自主執行從假設構建到結果解釋及提出后續研究方向等主要科研流程。 在此分類體系基礎上,我們進一步識別出當前研究格局中的關鍵空白,并提出未來發展的核心挑戰與方向,包括:(1)實現無需人工干預的全自主科學發現流程;(2)將機器人自動化引入實驗室,實現物理世界的交互與操作;(3)基于以往研究經驗實現持續的自我改進與適應;(4)提升LLM主導科研的透明度與可解釋性;(5)建立符合倫理與社會價值的治理機制。解決上述多維挑戰,將是實現AI作為科學探索變革性合作伙伴的關鍵。

本文聚焦于LLM系統在科學發現中的應用,特別是其不同層級的自主性。雖然我們承認LLM在科學中的廣泛影響,但本文有意縮小研究范圍,不涵蓋通用科學LLM或面向特定領域的知識獲取與推理模型——這類內容已在現有綜述中有較充分的探討(Zhang 等,2024, 2025)。本文其余部分結構如下:第2節介紹我們的分類框架及其與科學方法的對應關系;第3節分析“工具型LLM”的應用,按科學方法各階段分類;第4節探討“分析者型LLM”的應用,按科學領域劃分;第5節聚焦于“科學家型LLM”的研究,分析其創意生成與優化機制;第6節討論未來面臨的挑戰與發展方向。

付費5元查看完整內容

摘要——視覺-語言模型(VLM)在開放詞匯(OV)物體檢測和分割任務中得到了廣泛應用。盡管在與開放詞匯相關的任務中展現了潛力,但它們在傳統視覺任務中的有效性尚未得到評估。本研究對基于VLM的檢測與分割進行了系統綜述,將VLM視為基礎模型,并首次對多個下游任務進行了全面評估: 1)評估涵蓋了八個檢測場景(閉集檢測、領域適應、擁擠物體等)和八個分割場景(少樣本、開放世界、小物體等),揭示了各種VLM架構在不同任務中的性能優勢與局限性。 2)在檢測任務中,我們在三種微調粒度下評估了VLM:零預測、視覺微調和文本提示,并進一步分析了不同微調策略如何在不同任務下影響性能。 3)基于實證研究結果,我們深入分析了任務特征、模型架構和訓練方法之間的關聯,為未來VLM設計提供了洞見。 4)我們相信,本工作將對從事計算機視覺、多模態學習和視覺基礎模型研究的模式識別專家具有價值,幫助他們了解該問題并熟悉當前進展,同時為未來的研究提供有前景的方向。與本綜述和評估相關的項目已創建于//github.com/better-chao/perceptual-abilities-evaluation。

關鍵詞——視覺-語言模型,物體檢測,物體分割,視覺感知評估。

I. 引言

隨著人工智能技術的快速發展,視覺-語言模型(VLM)已經成為多模態學習中的一個重要成果,成為計算機視覺和自然語言處理領域研究的焦點。這一演變的推動因素有幾個:首先,模型架構的迭代發展,從傳統的卷積神經網絡(CNN)[1]–[4]到基于變換器的架構[5]–[8],再到大規模預訓練模型[9]、[10],為提高VLM性能奠定了堅實的基礎。其次,計算能力的顯著進步,特別是GPU和TPU的快速發展,使得大規模數據和復雜模型的處理成為可能。此外,數據可用性的指數增長為VLM的發展提供了支持,數據集從有限規模擴展到大規模的視覺-語言數據集,為模型訓練提供了大量的圖像-文本對。此外,對復雜現實任務的需求日益增加,尤其是從傳統的閉集檢測到開放集場景的轉變,這些任務需要多樣化的能力,進一步推動了學術研究向多模態模型的方向發展。在這種背景下,VLM從單一模態方法發展到先進的多模態融合框架,展現出了顯著的優勢。通過對視覺和文本特征的對齊,VLM能夠有效利用不同的數據形式,增強新類別的泛化能力,并在物體檢測和分割任務中取得出色的表現。

視覺作為理解環境信息的核心感知通道,迫切需要系統地評估VLM在通過多模態理解提升傳統視覺任務中的效果。物體檢測[11]和分割[12]是計算機視覺中的基礎任務,是感知和場景理解的重要組成部分。這些技術構成了多個領域中各種實際應用的基礎,包括自動駕駛[13]、醫學影像[14][15][16]、智能機器人[14]等。

當前的VLM基本上通過對齊視覺和文本特征來實現其廣泛且強大的能力。在物體檢測任務中,基于VLM的檢測通過對比學習方法將視覺特征與文本描述對齊,典型例子包括GLIP[17]和GroundingDINO[18],通過在大規模數據集(如CC12M(Conceptual 12M [19])、YFCC1M(YFCC100M的子集[20]))上的預訓練,實現了對未見類別的泛化。在分割任務方面,近期的研究集中于將VLM的全局多模態對齊能力轉移到細粒度的對齊任務,特別是區域-文本[21]和像素-文本對齊[22]。這些進展利用了多種監督策略,促進了像素級分割任務中的密集預測。

這些模型的核心延伸了如CLIP[10]等預訓練方法的概念;然而,盡管CLIP作為分類模型工作,但不同VLM的對齊機制和原理有所不同。例如,一些模型利用對比學習進行特征對齊,而另一些則采用跨注意力機制進行特征融合。值得注意的是,當前的VLM主要在開放詞匯(OV)任務上表現出色,但它們在向其他具體任務泛化的能力上仍然是一個需要進一步探索的領域。

鑒于VLM的潛力和強大能力,許多研究已開始探索如何將VLM應用于下游任務,包括物體檢測、語義分割等。例如,DA-Pro[23]基于RegionCLIP[24],通過為每個目標類別動態生成與領域相關和領域無關的提示前綴,從而顯著提高跨領域檢測性能。COUNTGD[25]通過在GroundingDINO[18]中增加目標類別的視覺示例來增強文本提示,形成增強的文本描述,以檢測輸入圖像中的目標物體,成為第一個開放世界計數模型。然而,現有的研究和相關綜述主要集中在開放詞匯設置中的檢測和分割任務,往往忽視了現實世界場景的復雜性和挑戰。因此,在廣泛的視覺下游任務中的全面評估尚未開展。如圖1所示,為了全面評估VLM模型在不同場景中的表現,我們設計了8種不同的檢測任務設置,涵蓋了傳統的閉集檢測任務、開放詞匯相關任務、領域適應場景以及更為現實的密集物體場景。對于分割任務,我們設置了8種不同的設置,包括零樣本評估、開放世界語義分割任務、以及小物體和密集分割任務。 在基于VLM的檢測任務中,如圖2所示,我們采用了三種粒度級別的微調策略來評估模型性能:零預測、視覺微調和文本提示。這三種方式在計算成本和性能之間存在權衡,使得它們適用于不同的下游任務。 零預測:這種方法涉及直接將預訓練的VLM模型應用于下游數據集,而不進行任何微調。它利用模型固有的泛化能力,特別適用于需要快速部署的場景。正式地,對于一個預訓練的模型fθ(x, t),其中x代表圖像,t代表文本提示,零預測直接將fθ(x, t)應用于下游數據集。 視覺微調:這種方法涉及對VLM的視覺分支進行微調,而固定文本分支。通過將模型適應下游數據的分布,它使得VLM能夠快速對齊特定任務。然而,這種方法需要較高的微調成本。正式地,如果模型由視覺編碼器Ev和文本編碼器Et組成,視覺微調在固定Et的同時修改Ev。 文本提示:這種方法專注于微調文本提示,僅通過最小的調整將其適應下游任務。具體而言,它引入了可學習的參數到文本編碼過程中,通過低計算開銷實現任務特定的調整。在某些情況下,這種方法甚至可以超越視覺微調,在特定的下游任務中取得更好的性能。正式地,對于一個文本提示t = [t1, t2, . . . , tn],文本提示引入可學習的參數?t,結果是調整后的提示t′ = t + ?t。 與傳統的語義分割模型(通常局限于一組預定義的類別[26])不同,基于VLM的分割方法[22]提供了對任意類別進行開放詞匯分割的潛力。然而,根本問題仍然是:當前的模型是否真正實現了分割任何事物的承諾?在本研究中,我們通過多種基準數據集,對其在多個領域的能力進行了全面評估。通過廣泛的實證研究和深入分析,我們系統地探討了最先進的基于VLM的分割模型[22]、[27]、[28]的優點和局限性。我們的研究結果提供了寶貴的見解,并為推動更強大且多用途的基于VLM的分割模型的發展奠定了基礎。

在本研究中,我們呈現了對視覺-語言模型(VLM)在密集預測視覺任務中的全面調研,并總結了我們的三大主要貢獻如下:

? 開創性的評估:本文首次將VLM作為“基礎模型”進行全面評估,涵蓋了廣泛的下游視覺任務。通過這一獨特的視角,我們系統地展示了VLM在不同視覺任務中的表現,為理解其潛力和局限性提供了寶貴的基準。 ? 微調策略的細粒度分析:我們系統地研究了三種微調方法——零預測、視覺微調和文本提示——在下游任務中的影響,特別關注分割任務。通過深入分析,揭示了各種微調策略在實際應用中的優缺點,為模型優化提供了關鍵見解。

? 機制深入分析:從訓練方法和模型架構的角度出發,我們探討了這些因素如何影響模型在下游任務中的表現。本研究不僅關注表面應用,還深入探討了VLM的內在機制,為未來模型設計和改進提供了支持。

總之,我們的研究不僅提供了對VLM的全面評估和深入分析,還為推動該領域的進展奠定了堅實的基礎,促進了物體檢測和分割任務的進一步突破和進展。本文的剩余部分結構如下:第二節回顧了基于VLM的檢測和分割相關工作;第三節和第四節展示了檢測和分割評估結果及相應的任務分析;第五節概述了VLM發展的潛在未來方向;最后,第六節總結了本文并概括了工作的重要貢獻。

付費5元查看完整內容

機器人視覺正持續受益于多模態融合技術視覺-語言模型(Vision-Language Models, VLMs)的迅速發展。本文系統回顧了多模態融合技術在一系列關鍵機器人視覺任務中的應用,包括語義場景理解同步定位與地圖構建(SLAM)三維目標檢測導航與定位以及機器人操作控制。 我們將基于大型語言模型(LLMs)的視覺-語言模型與傳統多模態融合方法進行了對比,分析了它們在性能、適用性、限制及協同潛力等方面的優劣。與此同時,本文深入剖析了當前常用的數據集,評估其在現實機器人場景中的適用性與挑戰。 我們進一步識別出該領域面臨的若干關鍵研究難題,如跨模態對齊高效融合策略實時部署能力以及領域自適應問題。為推動研究發展,本文提出若干未來研究方向,包括:用于魯棒多模態表示的自監督學習基于Transformer的融合架構以及可擴展的多模態感知框架。 通過全面的文獻回顧、系統對比分析與前瞻性探討,本文為推動機器人視覺領域中的多模態感知與交互提供了有價值的參考。 完整論文列表可訪問://github.com/Xiaofeng-Han-Res/MF-RV

付費5元查看完整內容

摘要:大語言模型(LLMs)的快速發展正在深刻變革交通與運輸研究領域。2023至2025年間,LLMs在各類交通應用中的采納與適配呈現爆發式增長,標志著該領域研究范式的重大轉變。然而,現有研究仍缺乏系統性梳理與整合。為此,本文全面綜述了LLMs在交通領域的方法論體系與應用實踐,重點闡釋其處理非結構化文本數據以推動運輸研究的獨特能力。研究涵蓋自動駕駛、出行行為預測和通用交通咨詢等關鍵應用場景,以及零樣本/小樣本學習、提示工程和微調等核心技術方法。

通過系統分析,本文揭示了兩大維度的研究空白:方法論層面,可通過LLMs與傳統工具的融合及模型架構優化予以突破;應用層面,基于現有研究基礎存在大量待探索的交通挑戰解決方案。本綜述不僅明確了LLMs在交通領域應用現狀,更為構建智能化可持續交通系統提出了未來研究方向。

關鍵詞:大語言模型;自然語言處理;交通運輸;交通流;物流引言自古以來,交通與運輸始終是推動人類文明演進的核心動力。從公元前20世紀海上貿易路線主導的帝國興衰,到復雜路網支撐的城市擴張(Gianpaolo等,2013),人員與貨物的流動構成了社會發展的基石。高效運輸系統既促進了經濟增長、文化交流與技術進步,也帶來了擁堵、安全與環境影響等挑戰。20世紀計算機技術的興起徹底變革了交通研究范式。優化算法與預測模型的出現,使得運輸網絡規劃更具系統性與效率。這些進步顯著提升了交通管理、路徑優化和需求預測能力。然而,現代運輸系統產生的多源異構數據(包括數值指標、視頻圖像,以及來自交通報告、社交媒體和傳感器日志的非結構化文本),仍令傳統算法難以有效整合與解析。人工智能的最新進展,尤其是大語言模型(LLMs),為應對這些挑戰提供了新思路。基于Transformer架構(Vaswani等,2017)的GPT-4、BERT等模型,通過海量數據訓練展現出卓越的語言理解與生成能力。其優勢不僅限于自然語言處理(NLP),更體現在:多模態數據融合與推理非結構化信息自動化提取文本與數值數據的協同分析這些特性使LLMs能夠:? 提升交通預測精度? 生成應急規劃場景? 優化資源配置決策? 減少碳排放促進可持續性本文旨在系統梳理LLMs在交通領域的方法創新與應用實踐,重點探討:LLMs最具應用潛力的交通研究場景針對特定交通問題的適配方法選擇現存挑戰與未來機遇全文結構如下:第2章闡述LLMs方法論基礎;第3章按交通/運輸兩大維度分類應用;第4章量化研究趨勢;第5章總結展望。縮寫詞見表1。

付費5元查看完整內容

大型語言模型(LLMs)以其卓越的能力徹底改變了自然語言處理。然而,由于計算資源有限、內存約束以及邊緣硬件異構性,將LLMs部署在資源受限的邊緣設備上面臨重大挑戰。本文綜述了邊緣LLMs在其生命周期中的最新發展,重點探討了從部署前技術到運行時優化的資源高效設計。此外,還探討了LLMs在個人、企業和工業場景中的設備端應用。通過總結最新進展并指出未來的研究方向,本綜述旨在為LLMs在邊緣設備上的部署提供全面的理解,彌合其巨大潛力與邊緣計算限制之間的差距。

1 引言

基于Transformer的大型語言模型(LLMs)近年來取得了重大進展,徹底改變了自然語言處理(NLP)領域。隨著這一快速進步,多個開源LLM陸續涌現,包括Meta的Llama系列[5, 185, 186]、Mistral AI的Mistral系列[80, 81]以及Google的Gemma[180, 188]。LLM的成功歸因于其在自然語言理解和生成方面的卓越性能[44, 45, 230],這使得其在文本摘要[91, 94, 121]、問答任務[119, 143, 154]和代碼生成[103, 176, 205]等領域廣泛應用。這些應用在學術和工業領域產生了深遠影響,為ChatGPT[145]、Copilot[133]和Claude[12]等AI語言工具鋪平了道路。LLM的興起與成就代表了人工智能[107, 195, 250]、信息檢索[35, 108, 159]和人機交互[93, 197, 204]領域的重大飛躍。LLM的快速發展引發了在資源受限的邊緣設備上部署這些強大AI模型的需求,從智能手機[25, 156]和可穿戴設備[49]到智能家居助理[209]和工業物聯網(IoT)傳感器[207]。這種方法稱為邊緣LLM[41],需要將LLM直接部署在網絡邊緣的設備上,而不是依賴于集中式云服務器。這種方法的好處是多方面的。首先,邊緣計算使LLM可以本地執行,從而實現更快的響應和低延遲的分析[25, 148]。這種本地執行還允許LLM在沒有互聯網連接的情況下運行,使其非常適合在連接有限的區域中使用,例如關鍵基礎設施和需要即時決策的應用,如自動駕駛汽車和機器人[170, 175]。其次,將LLM部署在邊緣設備上可以增強隱私和安全性,因為敏感的用戶數據在設備內處理,避免了傳輸到云端所帶來的隱私泄露風險[51, 234]。最后,邊緣LLM通過設備端學習和自適應功能實現個性化用戶體驗。這種本地化的定制允許模型根據用戶的偏好、使用模式和特定場景調整其響應和功能,而無需犧牲隱私或頻繁的云同步[31, 251]。盡管有諸多優勢,但在資源受限的邊緣設備上部署LLM仍面臨多項重大挑戰。首先,計算和內存的限制對LLM的訓練和推理施加了巨大的限制。LLM計算密集且內存需求高,常常超出邊緣硬件的能力范圍。LLM中的自注意力機制需要大量的張量乘法運算,而這些運算在邊緣設備上執行速度較慢[169]。此外,這些模型的龐大內存占用通常超過了邊緣設備的可用RAM,使得無法加載整個模型[251]。其次,邊緣計算設備的異構性為LLM的設計、部署和跨設備優化帶來了巨大挑戰。邊緣設備從配備ARM處理器的智能手機到帶有專用低功耗芯片的物聯網設備不一而足,每種設備的處理能力各異。這種多樣性還體現在內存系統上,不同設備的緩存級別、RAM容量和存儲類型各不相同,直接影響LLM性能,因而需要針對設備的內存管理策略[97]。軟件環境同樣多樣化,不同的操作系統需要定制化的LLM框架[101]。跨設備優化必須解決如智能手機和筆記本電腦等設備之間的計算差異[24, 73],這需要資源感知的調度算法來動態分配計算資源,基于每臺設備的處理能力和能耗限制[63]。此外,硬件和軟件的協同設計必須使算法與各種硬件配置相匹配,要求對每個平臺的特性有深入了解,以實現有效的性能分析和硬件感知的推理實現[191]。最后,開發實際的邊緣應用程序,以彌合集中式LLM處理和分布式邊緣使用場景之間的差距也是一項重大挑戰。在個人和企業環境中,像AutoDroid[209]和GPTDroid[123]這樣的框架展示了將LLM集成到移動應用中的復雜性,同時保持任務自動化和圖形用戶界面(GUI)測試等任務的響應性和準確性。主要困難在于如何在不影響用戶體驗的情況下,在邊緣設備上高效部署復雜的LLM功能。此外,工業領域在將LLM與其他關鍵應用程序一起調度到邊緣節點時也面臨挑戰。在機器人和自動駕駛等工業領域[56, 175],需要復雜的調度算法來平衡LLM的計算需求與實時進程的要求。這需要動態的資源分配和任務優先級,以確保基于LLM的分析能夠補充而非阻礙關鍵功能。因此,開發者必須將LLM有效適應資源受限的設備,并適應各領域中動態的用戶行為。解決這些挑戰需要在整個應用部署生命周期中采用多方面的設計,如圖1所示。首先,為了在資源受限的邊緣設備上部署LLM,離線的預部署技術聚焦于開發更小、更高效的模型,這些模型在減少計算和內存需求的同時保留其功能。接下來,壓縮后的模型部署到邊緣設備上,在那里應用在線的運行時優化,以適應異構邊緣設備上的模型。最后,優化后的模型在各個不同領域的設備端應用中發揮作用,展示其實際價值。這個端到端的過程無縫集成了離線壓縮、在線優化和多樣化的應用開發,有效應對了LLM在邊緣設備上部署的關鍵挑戰,并展示了這些優化模型的現實應用潛力。為此,本綜述旨在全面探索在邊緣和移動設備上啟用大型語言模型(LLMs)所涉及的關鍵領域。如圖2所示,我們深入探討了三個關鍵方面:離線預部署模型設計技術、在線模型執行優化以及基于邊緣LLM的應用。我們旨在識別當前最先進的技術,找出研究空白,并提出未來在資源受限設備上部署LLM的研究方向,最終為創新的智能應用和服務鋪平道路。具體來說:

  • 預部署技術。預部署技術包括各種模型壓縮方法,旨在減少模型大小,同時降低邊緣部署對內存和存儲的需求。關鍵方法包括量化、剪枝、知識蒸餾、低秩近似等。雖然這些方法已在傳統深度學習模型中取得了良好效果,但它們在LLM中的應用面臨著獨特的挑戰。LLM的規模、基于Transformer的架構以及在多種語言任務中保持性能的需求使得壓縮過程更加復雜[2, 219]。這些挑戰推動了針對LLM開發專門壓縮方法的研究。量化通過使用更少的比特來表示權重或激活值來減小LLM的大小[115, 164]。剪枝通過結構化或非結構化地移除不必要的模型組件以簡化模型[96, 215]。知識蒸餾將大模型中的知識傳遞給較小的模型,保留關鍵特性[82, 113]。此外,低秩近似通過利用矩陣中的固有冗余來壓縮大矩陣[71, 112]。其他方法,如復雜的預訓練技術、數據策劃策略以及架構優化,也有助于實現顯著的壓縮效果[136, 138, 180]。

  • 運行時優化。運行時優化指的是直接在邊緣和移動設備上優化LLM的推理或微調過程。主要的優化指標包括系統響應速度、資源利用效率和計算負載。優化旨在通過各種方法增強LLM在邊緣設備上的性能,例如跨設備優化、資源感知調度、硬件-軟件協同設計、框架級優化以及硬件級優化。跨設備優化通過邊緣設備和云服務器之間的協作策略來提高整體系統響應速度并減少本地計算負載[24, 232]。資源感知調度則通過動態分配計算資源,提升效率并適應不同的工作負載[63, 148]。硬件-軟件協同設計將軟件算法與硬件能力對齊,使得硬件性能的分析更高效,并實現硬件感知的推理算法,從而提升整體系統效率[51, 191]。框架級優化使用專門的引擎來進行高效的內存管理和張量運算,減少內存占用并優化資源利用率[142, 251]。硬件級優化通過利用低功耗的NPUs和AI加速器,顯著提高能效并加速特定AI操作[87, 124]。

  • 設備端應用。設備端應用是指直接在邊緣設備上實施和使用LLM的實際應用。這些應用涵蓋了多個領域,包括個人、企業和工業場景。在個人計算中,設備端LLM為AI助手提供支持,幫助完成上下文數據到文本生成以及日常生活中的復雜任務自動化[25, 95]。可穿戴設備也因設備端LLM受益,能夠實現自然語言接口進行數據搜索和常時AI輔助[49, 156]。在企業環境中,設備端LLM可增強軟件開發流程,例如自動化GUI測試和崩潰重現[74, 123]。此外,設備端LLM還能夠進行安全的本地化文檔處理和問答任務,確保辦公環境中的數據隱私[131, 151]。在工業領域,設備端LLM推動了機器人和人機交互的進步[56, 175],并且能夠進行輕量級文本識別和實時傳感器數據分析,提高運營效率和決策能力,廣泛應用于各種工業場景[42, 207]。 通過采用這些創新技術和方法,開發者能夠利用減少的模型大小和改進的計算效率,促進LLM在邊緣設備上的無縫集成。這不僅提升了邊緣計算的性能,還擴展了LLM在各種資源受限環境中的應用潛力,可能徹底改變邊緣AI應用的格局。本文的其余部分結構如下:第2節分析了LLM復雜性與邊緣設備能力之間的不斷擴大的差距,回顧了關于高效LLM和邊緣計算的相關工作,并分析了設備端LLM優化的研究趨勢,為本綜述奠定背景。第3節和第4節分別全面探討了離線預部署技術和在線運行時優化的最先進方法。第5節深入研究了LLM在設備端應用的廣闊潛力。第6節討論了設備端LLM領域的未來方向和開放性挑戰,而第7節總結了本綜述的關鍵結論和所獲得的見解。

為了補充這些努力,自然語言處理(NLP)領域的研究也取得了顯著進展。Xu和McAuley [218]回顧了提高預訓練語言模型壓縮和加速效率的方法。Hedderich等人[67]綜述了在低資源NLP環境中提升性能的方法。Wan等人[196]全面回顧了高效LLM的研究,將文獻劃分為模型中心、數據中心和框架中心的研究方法。Treviso等人[187]總結了在數據、時間、存儲或能量受限的條件下進行NLP的方法,強調了性能與資源消耗之間的權衡。雖然這些綜述為LLM優化提供了寶貴的見解,但它們并未專門解決邊緣和移動環境中的獨特約束。因此,迫切需要針對邊緣計算限制下LLM的高效實現和管理進行專門研究。 我們的綜述區別于這些工作,提供了LLM在邊緣和移動計算環境中的全面深入分析。兩個最相關的綜述是關于LLM的移動邊緣智能[155],主要側重于跨不同計算節點的協作資源管理,和個人LLM助手[111],探討了LLM助手在個人計算環境中的應用和場景。然而,前者未充分解決邊緣設備的低級別優化問題,后者缺乏對邊緣設備運行時優化的系統分析。為了彌合這一差距,我們從整體的、自上而下的角度探討了用于邊緣和移動設備的LLM,涵蓋了從離線預部署技術到在線運行時優化以及在各個領域中的設備端應用的整個優化流程。我們的分析不僅提供了對邊緣部署的LLM模型架構和推理/訓練范式的細致理解,還為基于Transformer架構的框架和硬件級優化提供了寶貴的見解。此外,我們探討了硬件-軟件協同設計策略,以增強LLM在資源受限設備上的性能。這種多方面的研究方法使我們的綜述與眾不同,提供了對LLM在邊緣設備上部署的挑戰和解決方案的全面分析,從高級架構考慮到低級框架和硬件優化。 如圖4所示,設備端LLM研究方向的時間分布清晰展示了從2019年到2024年的演變過程,分為三大類:預部署技術(藍色)、運行時優化(紫色)和設備端應用(綠色)。量化、剪枝、知識蒸餾和低秩近似等離線預部署技術在整個時間段內持續受到研究關注。在線運行時優化,包括跨設備優化、資源感知調度、硬件-軟件協同設計、框架級優化和硬件級優化,自2021年起獲得了顯著的發展。個人、企業和工業應用中的設備端應用在時間線的后半段尤為引人注目,表明了邊緣AI和移動LLM部署的日益增長的趨勢。該圖表突出了在優化和部署用于資源受限環境的LLM方面方法的快速發展和多樣化,反映了高效設備端AI在各個領域中日益重要的作用。我們的綜述綜合了這些發展,提供了關于設備端LLM部署的最新全面分析。通過這樣做,我們希望為研究人員和從業者提供一個堅實的基礎,以推動這一快速發展的領域的進一步進步。

離線預部署技術

大型語言模型(LLMs)的普及引發了在移動和邊緣設備上部署的需求激增,這一需求源于對增強隱私、降低延遲以及在連接受限環境中提高服務可用性的迫切要求。這種向邊緣計算轉變的范式為LLMs帶來了新的發展前景。然而,由于LLMs固有的計算復雜性和巨大的內存需求[52],這一過程面臨重大挑戰。因此,離線預部署技術成為了關鍵策略,旨在大幅減少LLMs的計算和內存占用,同時保持其性能完整性。這些技術在模型部署到目標邊緣設備之前應用,為在資源受限環境中的高效執行提供了保障。 如圖5所示,LLMs離線預部署方法的核心是模型壓縮,主要分為四類:量化、剪枝、知識蒸餾和低秩近似。除了這些核心技術外,其他創新方法也在離線預部署階段發揮著重要作用,進一步提升了模型的效率和性能。

在線運行時優化

我們已經討論了在預部署階段的離線優化技術,重點是預訓練小型模型。雖然這些方法可能無法完全在邊緣設備上執行,但它們生成的緊湊LLM適合高效部署。本節介紹了用于直接在邊緣設備上進行高效推理或微調的在線運行時優化方法。如圖7所示,LLM的運行時優化可分為五個主要方面。從自上而下的角度來看,包括跨設備優化、資源感知調度、框架級優化和硬件級優化。此外,硬件-軟件協同設計跨越了多個層次。

結論

本綜述全面回顧了設備端LLM的最新進展和技術,這是一個快速發展的研究領域,旨在普及這些強大的AI模型。通過結構化的分類體系,我們系統地探討了優化LLM以便在資源受限設備上進行預部署和執行的兩種主要方法:離線預部署技術和在線運行時優化。此外,我們還分析了設備端LLM的多樣化應用,突出了其廣闊的潛力。展望未來,效率將是邊緣LLM發展的關鍵驅動力,推動創新并應對主要挑戰。本綜述為研究人員和從業者提供了寶貴的資源,奠定了進一步發展高效設備端LLM的堅實基礎,推動更具可訪問性和可持續性的AI解決方案的實現,進而釋放LLM的全部潛力,惠及更多用戶并支持更多樣化的應用。

付費5元查看完整內容

本文深入探討了當前頂尖的人工智能技術,即生成式人工智能(Generative AI)和大型語言模型(LLMs),如何重塑視頻技術領域,包括視頻生成、理解和流媒體。文章強調了這些技術在制作高度逼真視頻中的創新應用,這是在現實世界動態和數字創造之間架起橋梁的一大飛躍。研究還深入探討了LLMs在視頻理解方面的高級能力,展示了它們在從視覺內容中提取有意義信息方面的有效性,從而增強了我們與視頻的互動。在視頻流媒體領域,本文討論了LLMs如何有助于更高效和以用戶為中心的流媒體體驗,適應內容交付以滿足個別觀眾偏好。這篇全面的綜述貫穿了當前的成就、持續的挑戰和將生成式AI和LLMs應用于視頻相關任務的未來可能性,強調了這些技術為推動視頻技術領域的進步——包括多媒體、網絡和人工智能社區——所持有的巨大潛力。

影響聲明—本文通過研究生成式人工智能和大型語言模型(LLMs)在視頻生成、理解和流媒體中的集成,為視頻技術領域做出了貢獻。對這些技術的探索提供了它們在增強視頻內容的真實性和互動性方面的潛力和局限性的基礎理解。LLMs在視頻理解方面的探索為可訪問性和互動的進步奠定了基礎,有望提高教育工具的效能、改進用戶界面和推進視頻分析應用。此外,文章強調了LLMs在優化視頻流媒體服務中的作用,導致更個性化和帶寬高效的平臺。這可能會顯著惠及娛樂行業,提供適應個人偏好的自適應流媒體解決方案。通過識別關鍵挑戰和未來研究方向,文章指導了將AI與視頻技術融合的持續努力,同時提高了人們對潛在倫理問題的認識。其影響力超越了學術界,鼓勵在視頻技術中負責任地發展AI和制定政策,平衡技術進步與倫理考量。

近年來,由于視頻相關技術的激動人心的進步,視頻內容的創建、分析和傳遞都經歷了重大突破。學術界和工業界已共同推動視頻處理領域可能性的極限,從創建逼真的視頻到理解復雜的視覺環境以及優化視頻流媒體以改善用戶體驗。整合生成式AI和大型語言模型(LLM)可以在視頻相關領域開辟激動人心的可能性。 隨著創造逼真且上下文一致的視頻的能力,視頻創作已成為一個引人入勝的研究領域。研究人員已在利用深度學習方法如生成對抗網絡(GANs)制作揭示細節且捕捉現實世界動態本質的電影剪輯方面取得了重大進展。然而,如長期視頻合成一致性和對生成內容的精細控制等挑戰仍在探索中。

視頻理解方面也有類似的發展,該領域涉及從視頻剪輯中提取重要信息。傳統技術依賴于手工創建的特征和視頻動態的顯式建模。最近在語言和視覺方面的進步取得了顯著進展。像OpenAI的GPT等預訓練的基于變換器的架構在處理和生成文本數據方面展示了令人印象深刻的才能。這些LLM對于視頻理解任務,如字幕、動作識別和時間定位,具有巨大的潛力。

此外,由****于對高質量、高分辨率和低延遲視頻服務的需求日益增加,改善視頻傳遞已變得越來越重要且具有挑戰性。帶寬限制、網絡抖動和不同用戶偏好顯著阻礙了無縫和沉浸式的流媒體體驗。通過提供感知上下文的視頻分發、實時視頻質量改進和根據用戶偏好的自適應流媒體,LLM提供了一個克服這些困難的激動人心的方法。

鑒于這些進展,本研究徹底分析了生成式AI和LLM在生成、理解和流式傳輸視頻方面的潛力。我們回顧了現有工作,試圖回答以下問題: ? 提出了哪些技術,并正在徹底改變上述視頻研究領域? ? 為了推動上述視頻服務中生成式AI和LLM方法的使用,還有哪些技術挑戰需要解決? ? 由于采用生成式AI和LLM方法,引發了哪些獨特的關注? 我們希望吸引多媒體、網絡和人工智能社區的關注,以鼓勵對這一迷人且迅速發展的領域的未來研究。

我們設想生成式AI和大型語言模型(LLM)在視頻的整個生命周期中發揮關鍵作用,從生成、理解到流媒體。該框架跨越了三個主要的計算機科學社區,即人工智能、多媒體和網絡。人工智能社區正在見證前所未有的發展速度,從2021年到2022年僅用了大約一年的時間就從能夠進行文本到圖像生成的模型發展到能夠進行文本到視頻生成的模型。現在甚至有演示展示了僅使用提示就能創建3D視頻的能力。因此,我們可以想象生成式AI將對視頻生成行業變得更為重要,超越甚至完全替代傳統的生成方法。視頻理解在許多情況下都很有用,例如場景分割、活動監控、事件檢測和視頻字幕,這是一個獲得越來越多關注的新興方向。自2023年以來,像GPT-4和Video-ChatGPT [8]這樣的最先進產品也顯著提升了LLM理解圖像和視頻等多模態輸入的能力。就視頻流媒體而言,LLM還有改進流媒體管道幾個關鍵步驟的有趣潛力。例如,一個理解能力改進的模型可以把握視頻場景的語義意義,并通過相應地改變編碼率來優化傳輸。此外,如點云這樣在XR游戲中廣泛使用的3D視頻流媒體,可以從LLM對周圍環境的理解中受益,預測用戶下一刻的視野范圍(FoV)來進行內容預取。

A. 主要組成部分 生成式AI和LLM之間的協同作用已在視頻生成領域開辟了新的前沿,打造與現實幾乎無法區分的視覺效果。這些技術共同豐富了數字景觀,創造了創新內容如下(第IV-A節): ? 生成對抗網絡(GANs)利用生成網絡和判別網絡之間的創造性對抗過程來理解和復制復雜模式,產生逼真的視頻樣本。 ? 變分自編碼器(VAEs)生成連貫的視頻序列,提供了一個結構化的概率框架,用于無縫地融合敘事上合理的幀。 ? 自回歸模型創建的序列中,每個視頻幀都邏輯上從上一個幀繼承,確保敘事和視覺的連續性,吸引觀眾。 ? 擴散模型將復雜的文本敘述轉換為詳細和高分辨率的視頻,推動文本到視頻合成的界限。 接下來,LLM通過提供富有情境的解釋和描述來增強視頻理解,促進更深入的視頻內容參與(第IV-B節): ? 視頻字幕使用LLM生成富有洞察力和準確的描述,以自然語言捕捉視覺內容的本質,使視頻更易于搜索和訪問。 ? 視頻問答利用LLM的情境理解能力處理復雜的觀眾詢問,提供增值且深入的觀看體驗的回應。 ? 視頻檢索和分割由LLM革新,它們解析和分類視頻內容為可理解的段落,簡化了龐大視頻庫的可搜索性和導航性。 最后,LLM可以通過優化帶寬使用、個性化內容交付和增強觀眾互動等方式重新定義流媒體景觀(第IV-C節): ? 帶寬預測通過分析過去和現在的網絡數據的LLM進行改進,預測未來需求以主動分配資源,從而確保流暢的流媒體。 ? 視點預測通過LLM對內容和用戶行為的理解增強,預測視頻中的下一個焦點區域,提供量身定制且沉浸式的觀看體驗。 ? 視頻推薦和資源分配通過LLM的分析能力得到提升,將觀眾偏好與內容匹配并管理網絡資源,提供定制化且高效的流媒體服務。

付費5元查看完整內容

轉載于“計算機研究與發展”

近年來,大型語言模型的出現和發展對自然語言處理和人工智能領域產生了變革性影響. 隨著不斷增大模型參數量和訓練數據量,語言模型的文本建模困惑度以可預測的形式降低,在各類自然語言處理任務上的表現也持續提升. 因此,增加語言模型的參數和數據規模成為提升系統智能水平的富有前景的途徑.

本文首先回顧了大型語言模型的基本定義,從模型表現和算力需求的角度給出了“大型”語言模型的界定標準. 其次,從數據、算法、模型三個維度梳理了大型語言模型的發展歷程及規律,展示了不同階段各個維度的規模化如何推動語言模型的發展. 接著,考察了大型語言模型所表現出的涌現能力,介紹了思維鏈、情景學習和指令遵循等關鍵涌現能力的相關研究和應用現狀. 最后,展望了大型語言模型的未來發展和技術挑戰.

內容簡介

1.回顧了大型語言模型的基本定義,從模型表現和算力需求的角度給出了“大型”語言模型的界定標準. 2.從數據、算法、模型三個維度梳理了大型語言模型的發展歷程及規律,展示了不同階段各個維度的規模化如何推動語言模型的發展. 3.考察了大型語言模型所表現出的涌現能力,介紹了思維鏈、情景學習和指令遵循等關鍵涌現能力的相關研究和應用現狀. 4.展望了大型語言模型的未來發展和技術挑戰.

亮點圖文 自GPT-3問世以來,國內外多家機構加大對大型語言模型的研發投入,近三年來涌現了一批具有競爭力的大型語言模型. 目前已有的大型語言模型總體上呈現出以工業界投入為主、以英文為主、以閉源為主等特點. 下面的表格1中列舉了當前常見大型語言模型的基本信息.

如下圖展示了語言模型的主要發展路徑:2008年,Collobert等人發現將語言模型作為輔助任務預先訓練可以顯著提升各個下游任務上的性能,初步展示了語言模型的通用性;2013年,Mikolov等人在更大語料上進行語言模型預訓練得到一組詞向量,接著通過遷移學習的手段,以預訓練得到的詞向量作為初始化,使用下游任務來訓練任務特定模型;2018年,Google的Devlin等人將預訓練參數從詞向量擴增到整個模型,同時采用Transformer架構作為骨干模型,顯著增大了模型容量,在諸多自然語言處理任務上僅需少量微調即可取得很好的效果;隨后,研究人員繼續擴增模型參數規模和訓練數據量,同時采取一系列對齊算法使得語言模型具備更高的易用性、忠誠性、無害性,在許多場景下展現出極強的通用能力,OpenAI于2022年底發布的ChatGPT以及2023年發布的GPT-4是其中的代表. 縱觀近十余年來語言模型的發展歷程,不難發現兩個規律:

  1. 以語言模型及其變體為訓練任務,從多個維度實現規模化. 從2008年到今天,語言模型的訓練任務變化很小,而其訓練數據逐漸從6億單詞增長到今天的超萬億單詞,算法從傳統的多任務學習范式發展到更適合大規模預訓練的遷移學習范式,模型從容量較小的CNN/RNN模型發展為包含超過千億參數的Transformer模型.
  2. 將更多模型參數和訓練任務從下游轉移到上游. 從模型參數的角度,2013年以前的大多數模型要從頭訓練(training from scratch)所有參數;2013年到2018年主要基于預訓練的詞向量訓練參數隨機初始化的任務特定模型;2018年到2020年逐漸轉向“預訓練+微調”范式,即使用預訓練模型作為下游任務初始化,僅需添加少量任務特定參數,例如在預訓練模型上添加一個隨機初始化的線性分類器;2020年左右,基于提示(prompt)的方法得到了很大發展,通常直接使用包括語言模型分類頭(language modeling head)在內的整個預訓練語言模型,通過調整其輸入內容來得到任務特定輸出. 從訓練任務的角度,語言模型從與其他下游任務聯合多任務訓練逐漸發展成為獨立的上游任務,通過數據、模型、算法等多個維度的規模化逐漸降低對下游任務訓練的需求,近年來的大型語言模型通常在已有的上千個指令化自然語言處理任務(例如FLAN)上訓練,從而可以在未經下游任務訓練的情況下很好地泛化到未見任務上. 如下圖給出了當前常見的大型語言模型的參數量和訓練計算量,不難發現,較近的語言模型(如Chinchilla和LLaMA)通常采用相對較大的訓練數據和相對較小的參數規模,這在下游微調和推理部署時具有顯著的效率優勢.

到目前為止,規模定律仍然是一個非常重要且值得探索的方向,特別是中文語言模型的規模定律尚未有公開研究. 此外,已有的對規模定律的研究主要為通過大量實驗得出的經驗性規律,而缺乏對其理論機理的解釋. 未來發展與挑戰**

** 以ChatGPT、GPT-4為代表的大型語言模型已經在社會各界引起了很大反響,其中GPT-4已經初步具備通用人工智能的雛形. 一方面,大型語言模型的強大能力向人們展現了廣闊的研究和應用空間;而另一方面,這類模型的快速發展也帶來了許多挑戰和應用風險.

未來發展

1)高效大型語言模型.當前大型語言模型主要采用Transformer架構,能夠充分利用GPU的并行計算能力并取得不俗的性能表現. 但由于其計算和存儲復雜度與輸入文本長度呈平方關系,因此存在推理效率慢、難以處理長文本輸入等缺陷. 2)插件增強的語言模型.集成功能插件已經成為大型語言模型快速獲得新能力的重要手段3)實時交互學習.語言模型能夠在與用戶交互過程中完成實時學習,特別是能夠根據用戶輸入的自然語言指令更新自身知識是邁向通用人工智能的重要步驟.4)語言模型驅動的具身智能.通過多模態深度融合、強化邏輯推理與計劃能力等手段,打造具備強大認知智能的具身系統正在成為大型語言模型和機器人領域的研究熱點.

** 挑戰**1)檢測.大型語言模型生成的文本高度復雜甚至相當精致,在很多場景下難以與人類創作的文本區分開. 因而,語言模型生成文本的檢測和監管成為亟待解決的問題,2)安全性.大型語言模型的訓練數據大量來自互聯網上未經標注的文本,因而不可避免地引入了有害、不實或歧視性內容. 如何構造適合中文環境的安全性評估標準及其相應訓練數據仍然是中文語言模型大規模落地應用的重要挑戰.3)幻覺.目前ChatGPT和GPT-4等高性能語言模型仍然存在較嚴重的幻覺問題,即經常生成包含事實性錯誤、似是而非的文本,這嚴重影響了其在部分專業領域應用的可靠性.有效識別模型的內部知識和能力邊界仍舊是極具挑戰性的未解之題. 總之,大型語言模型給自然語言處理乃至人工智能領域帶來了巨大的范式變革,將原來按不同任務進行橫向劃分的領域設定轉變為按流程階段進行縱向劃分的新型研究分工,并構建了以大型語言模型為中心的人工智能新生態.

引用格式

舒文韜, 李睿瀟 , 孫天祥, 黃萱菁, 邱錫鵬. 大型語言模型:原理、實現與發展[J]. 計算機研究與發展. doi: 10.7544/issn1000-1239.202330303 Shu Wentao, Li Ruixiao, Sun Tianxiang, Huang Xuanjing, Qiu Xipeng. Large Language Models: Theories, Methods, and Progress[J]. Journal of Computer Research and Development. doi: 10.7544/issn1000-1239.202330303

付費5元查看完整內容

大模型與知識圖譜是知識表達的一體兩面,如何結合兩者是近期業界關注的焦點。來自英國愛丁堡大學等學者最新《大模型與知識圖譜》的簡述,討論了大模型和知識圖譜的互相促進的方式,值得關注!

大型語言模型(LLMs)已在知識表示領域——以及全球——引起軒然大波。這一轉折點標志著從明確的知識表示到對明確知識和參數知識雙方的混合表示的重新關注。在這篇立場論文中,我們將討論社區中關于LLMs(參數知識)和知識圖譜(明確知識)的一些常見爭論點,并推測這種重新關注帶來的機會、愿景以及相關的研究主題和挑戰。

大型語言模型與知識圖譜:機遇與挑戰

大型語言模型(LLMs)在知識表示(KR)和整個世界中引起了軒然大波,因為它們在廣泛的自然語言任務中展現出了人類級別的表現,包括一些需要人類知識的任務。在此之后,人們逐漸開始接受某些語言模型的參數中可能存在知識的可能性。LLMs的到來標志著知識計算的時代的開始,在這個時代中,KR內的推理概念擴大到基于各種知識表示的許多計算任務。這對知識表示領域來說是一個巨大的步驟。長時間以來,人們關注的是明確的知識,例如嵌入在文本中的知識,有時也被稱為非結構化數據,以及以結構化形式存在的知識,例如在數據庫和知識圖譜(KGs)[123]中。從歷史上看,人們長時間使用文本將他們的知識從一代傳遞到另一代,直到大約20世紀60年代,研究者開始研究知識表示以更好地理解自然語言,并開發了早期系統,例如MIT的ELIZA[180]。在21世紀初,知識表示和語義網社區合作標準化了廣泛使用的知識表示語言,例如RDF[121]和OWL[55],在網絡規模上,使用它們,大規模的知識庫被更廣泛地稱為KGs[123],由于它們有用的圖結構,實現了邏輯推理和基于圖的學習。與LLMs的到來相伴的這一轉折點,標志著從明確的知識表示向對明確知識和參數知識兩者的混合表示的重新關注的范式轉變。作為明確知識表示的流行方法,KGs現在被廣泛研究用于與基于Transformer的LLMs結合,包括像BERT[39]和RoBERTa[104]這樣的預訓練掩碼語言模型(PLMs),以及更近期的生成性LLMs,如GPT系列[23]和LLaMA[165]。一些工作使用LLMs增強KGs,例如,知識提取、KG構建和精煉,而其他工作使用KGs增強LLMs,例如,訓練和提示學習,或知識增強。在本文中,考慮到LLMs用于KGs和KGs用于LLMs的兩個方向,我們提出了一個從明確知識表示到對明確知識和參數知識兩者的混合表示的重新關注的轉變的更好理解。一個相關的調查論文[204]對使用LLMs進行KG構建和推理進行了全面的審查,而我們的工作為這一轉折點提供了更深入的視角,不僅考慮了關系性KGs,還考慮了使用本體論作為模式的KGs,以及其他維度的結構化知識,包括表格數據[183]和數值[122]。在LLMs和KGs的交叉點上的其他研究與我們論文中涵蓋的主題有輕微的重疊;例如,使用LLMs作為KGs的研究[5],使用KGs增強LLMs的研究[185],或者在三個與知識相關的任務上比較GPT-4、ChatGPT和SOTA微調方法——實體、關系和事件提取,鏈接預測和KG問題回答[204]。總的來說,這些論文中沒有一個深入探討這一轉折點的具體應用的含義。為此,本文總結了社區內的常見爭議點,介紹了在KGs和LLMs集成的一系列主題上的最新技術,并進一步提出了機會和挑戰。

知識圖譜與大型語言模型結合參數知識和明確知識的可用性所帶來的機會和愿景,本節我們將按照四個不同的主題對使用LLMs和KGs的最近發展進行分類、總結和展示。

1. LLMs 用于KGs:知識提取和規范化

KG的構建是一個復雜的任務,要求從包括結構化、半結構化和非結構化數據在內的廣泛來源收集和整合信息。傳統方法通常依賴于為處理每種數據類型而特別設計的模塊,并在內容多樣且結構異質時面臨困難。然而,LLMs 是在廣泛的信息來源上訓練的強大的NLP模型,使它們非常適合知識提取任務。本節介紹了使用LLMs從各種來源進行知識提取的工作。

實體解析與匹配實體解析(也稱為實體匹配、實體鏈接或實體對齊)是將出現在多個異構數據集中并指向同一個實體的信息片段進行鏈接的過程[46, 50, 126]。過去的研究主要集中在為扁平結構化數據所代表的實體之間開發方法和相似性度量。然而,針對KGs的半結構化數據的實體解析是一個相對較新的主題,受到的關注明顯較少。實體對齊的方法可以分為通用方法和基于嵌入的類別。通用方法,例如CG-MuAlign[203],使用圖神經網絡(GNNs)執行多類型實體對齊,利用鄰近信息并泛化到未標記的類型,以及REA[129],通過結合對抗性訓練與GNNs來解決多語言實體對齊問題,以應對輸入的噪聲標記數據問題。基于嵌入的實體對齊方法將圖實體之間的符號相似性減少到一個向量空間中,以消除圖組件的異質性并促進推理[156]。具體來說,總共有23種代表性的嵌入對齊方法在性能方面進行了交叉比較,但也顯示它們在標簽階段需要大量的監督。因此,在未來的研究調查中,非監督方法和能夠處理大規模KGs的方法是非常受歡迎的。LLMs在KGs的實體解析和鏈接中有多種用途[7]。首先,LLMs可以幫助標記訓練數據,這通常是一個資源密集且耗時的步驟,阻礙了KGs的實體對齊性能。類似于[146]使用生成對抗網絡(GANs)來減少標記數據的努力,我們認為LLMs可以提供KGs的標記樣本并控制上述基于嵌入的方法的性能。此外,LLMs可以幫助構建穩固的實體匹配規則語料庫,只要在圖設置中定義了一個聲明性形式化的邏輯語言L。這種邏輯語言的訓練數據應作為輸入提供給LLMs,類似于在文本語料庫中可供消費的SQL語句。然而,需要進行提示工程以產生對于像DBpedia[9]和Wikidata[169]這樣的實際大規模KGs有意義的規則語料庫。可以設想為這些實際的大規模KGs提供實體匹配規則日志,與這些KGs的查詢日志類似[18, 19]。總之,實體對齊和匹配是完整知識推理的必要前處理步驟。將通用實體鏈接方法與基于嵌入的方法相結合,以及利用LLM驅動的規則和標記數據構造,都可以更好地整合LLMs與知識推理[66]。后者整合LLMs和知識推理也可以提高性能,從而使模型的輸出可解釋和可解釋,并填補符號和統計AI之間的差距。

知識從表格數據中的提取

從數據庫、網頁表格和CSV文件等表格數據中提取知識是構建KG的常見方式。對于已知語義(元信息)的表格,可以定義和使用啟發式規則將其數據轉化為KG事實。然而,現實世界的表格通常具有不明確的語義,重要的元信息(如表格名稱和列標題)未明確定義。與此同時,在可以提取預期的知識之前,通常需要檢索、探索、整合和策劃原始數據。

近年來,基于Transformer的LM已被研究用于處理表格,尤其是它們的文本內容。它們可以被應用于表格向量表示作為其他預測任務的基礎[168]。TURL [38] 是一個典型的表格表示學習方法,使用BERT [39],已應用于多個任務,如單元格填充、列類型注釋和關系提取。類似地,RPT [162] 使用BERT和GPT進行表格表示模型的預訓練。Starmie [47] 使用模板將列轉化為序列,并使用可聯合和不可聯合的列對作為樣本微調BERT,采用對比學習框架。

在所有表格處理任務中,語義表格注釋,該注釋將表格數據匹配到KG組件(例如,表格列到KG類,表格單元格到KG實體,列間關系到KG屬性)可以直接應用于提取知識,用于KG的構建和填充[103, 76]。已經有幾次嘗試使用LLMs進行這些任務。Doduo [155] 將表格序列化為一個令牌序列,并訓練BERT來預測列類型和列間關系。Korini等人[86]提示ChatGPT來注釋語義列類型。當任務特定的示例極少或不存在時,ChatGPT的性能與RoBERTa模型相似。

盡管已經注意到了利用LLMs進行表格數據處理和KG構建,但仍然有很大的研究空間,特別是面臨以下挑戰

將表格內容轉化為序列:表格或帶有其結構化上下文的表格元素需要被轉化為一個序列,然后才能輸入到LLMs中。對于不同的LLM利用場景,如微調LLMs、帶提示的LLM推斷以及LLM的指導調整,需要不同的轉換方法。

表示和利用非文本的表格數據:表格通常不僅包含長文本和短文本,還包含如數字和日期等其他類型的數據。還有很少的工作考慮這些數據。

提取表格知識:LLMs主要用于處理和理解表格,但很少應用于知識提取的最后步驟。已知OntoGPT[25]使用ChatGPT從文本中提取實例以填充本體,但對于表格沒有對應的工具。除了實例之外,提取關系事實更具挑戰性。

從文本中提取知識

從文本中提取知識通常涉及自動提取實體及其相關關系,傳統的流水線處理大量的句子和文檔。這個過程使原始文本轉化為可行動的知識,有助于各種應用,如信息檢索、推薦系統和KG構建。LLMs的語言理解能力已經增強了這一過程。例如,

命名實體識別 (NER) 和實體鏈接:如4.1.1節所述,涉及識別和分類文本中的命名實體(如人、組織和地點)并將其鏈接(更多內容參見4.2.1節)到KGs。

關系提取:關注識別和分類實體之間的關系,利用LLMs的零射擊和少射擊的上下文學習技術[178, 93]。

事件提取:旨在檢測和分類文本中提到的事件,包括其參與者和屬性[170, 194]。

語義角色標記 (SRL):涉及識別句子中實體所扮演的角色,如主語、賓語和謂語[148, 199]。

這些方法允許LLMs從文本中提取信息,無需在特定領域進行大量的明確培訓,從而提高其多功能性和適應性。此外,LLMs已經證明了在從英語之外的語言中提取知識的能力,包括低資源語言,為跨語言知識提取鋪平了道路,并使LLMs能夠在多種語言環境中使用[89]。

此外,對LLMs的提示引入了NLP領域的新范式和可能性。LLMs可以生成高質量的合成數據,然后可以用來微調較小的特定任務模型。這種方法,稱為合成數據生成,解決了有限的訓練數據可用性的挑戰,并提高了模型的性能[77, 163]。此外,指導調整已經成為一種強大的技術,其中LLMs被訓練在由明確指令描述的數據集上,使得能夠更精確地控制和定制它們的行為以適應特定的任務[178, 174]。

還有,對于構建特定領域的KGs,風險更高,因此對生成的文本(由專家)進行審查是必要的。然而,這仍然是一個進步,因為人工注釋的成本低于人類文本生成。

除了訓練和利用這些LLM所需的大量計算資源需求之外,還存在各種挑戰,包括在第2節中提到的挑戰。更具體地說,以下未來的方向仍然是可能的: * 從非常長的文檔中有效提取:當前的LLMs無法一次處理像小說這樣的非常長的文檔。在這方面,可以進一步改進建模長范圍依賴性和執行語料級信息提取。 * 高覆蓋率信息提取:幾乎所有的提取流水線都關注高精度。然而,高回報率被忽視或未被充分探索[152]。建立具有高精度和高回報率的知識提取器將是建立終身信息提取器的一個巨大飛躍。

LLMs 用于 KGs知識圖譜構建 我們強調了 LLMs 在改進知識圖譜構建中的重要作用,重點關注這個領域的當前趨勢、問題和未回答的問題。我們首先討論鏈接預測,這是根據現有的知識圖譜生成新事實的一種方法。接下來,我們考察歸納鏈接預測,一種預測未見關系的三元組的方法。我們的關注點隨后轉移到一種更為近期的方法,其中三元組直接從 LLM 的參數知識中提取出來。作為這個部分的結論,我們討論了基于 LLM 的知識圖譜構建方法的挑戰。這些挑戰涉及到長尾實體、數值以及這些方法的精確性問題。

**LLMs 用于 KGs 本體模式構建 **一個知識圖譜通常配備有一個本體模式(包括規則、約束和本體)以確保質量,使知識訪問更加容易,支持推理等。同時,一個獨立的本體,通常代表概念性知識有時帶有邏輯,也可以被視為一個知識圖譜。在這部分,我們介紹 LLMs 被應用于學習本體模式和管理本體的主題。

**KGs 為 LLMs 提供支持:訓練與訪問 **LLMs 在 4.1 到 4.3 節中,我們討論了使用 LLMs 為 KGs 提供支持的三個不同方面。在本節中,我們將研究相反的方向,即使用 KGs 為 LLMs 提供支持。這里有幾個維度。首先,KGs 可以用作 LLMs 的訓練數據。其次,KGs 中的三元組可以用于構建提示。最后但同樣重要的是,KGs 可以用作檢索增強語言模型中的外部知識。**4.5 應用 **將 KGs 和 LLMs 集成到統一的方法中具有巨大的潛力,因為它們的組合能夠相互增強并以有價值的方式互補。例如,KGs 提供非常準確和明確的知識,這對于某些應用(如醫療保健)至關重要,而 LLMs 由于缺乏事實知識而被批評導致幻覺和不準確的事實。其次,LLMs 缺乏可解釋性,相反,由于 KGs 具有符號推理能力,它們能夠生成可解釋的結果。另一方面,從非結構化文本構建 KGs 很困難,并且存在不完整性,因此,可以利用 LLMs 通過文本處理來解決這些挑戰。各種應用都采用了這種將 LLMs 與 KGs 結合的方法,如醫療助手,問題回答系統[188]或 ChatBots,以及可持續性等。

結論

近年來,大型語言模型(LLMs)的進展為知識圖譜(KG)研究標志了一個重要的轉折點。盡管如何結合它們的優勢的重要問題仍然懸而未決,但這為未來的研究提供了令人興奮的機會。社區已經迅速調整其研究重點,新的論壇如 KBC-LM 工作坊 [79] 和 LM-KBC 挑戰 [151] 已經出現,資源大量轉向知識提取、整合和使用的混合方法。我們提出以下建議

不要因為范式的轉變而丟棄 KG:對于一系列可靠性或安全關鍵的應用,結構化知識仍然是不可或缺的,我們已經概述了 KGs 和 LLMs 如何相互促進的多種方式。KGs 是留下來的,不要僅僅因為時尚而拋棄它們。

殺掉你的寵兒:LLMs 已經大大推進了 KG 和本體構建管道中的許多任務,甚至使一些任務過時。對最為確立的管道組件進行嚴格的審查,并不斷地與基于 LLM 的最新技術進行比較。

保持好奇,保持批判:LLMs 無疑是過去幾年 AI 研究的最令人印象深刻的產物。盡管如此,公眾和研究文獻中都存在大量夸大的聲明和期望,人們應該保持適度的批判反思。特別是,對所謂的幻覺問題的根本解決方法尚未出現。

過去已經結束,讓我們開始新的旅程:由 LLMs 觸發的進展以前所未有的方式顛覆了這個領域,并使得進入這個領域有了重要的捷徑。在與知識計算相關的領域開始新的征程,現在是最好的時機。盡管目前的轉變方向廣泛開放,但隨著研究者繼續探索混合方法的潛力和挑戰,我們可以期待在知識的表示和處理上看到新的突破,這將對從知識計算到 NLP、AI 乃至其他領域產生深遠的影響。

付費5元查看完整內容
北京阿比特科技有限公司