從符號型和反應型智能體到基于強化學習和遷移學習的智能體,再到當前基于大模型 的智能體,AI智能體經歷了三代發展,逐漸成為人工智能研究和應用的核心。其中基于大模型的智能 體是能夠更準確地感知環境、進行反應和判斷、形成并執行決策的智能計算實體,在多個領域展現出 廣泛的應用前景,包括圖像生成、視頻生成、數據分析、圖文修改輔助、談判指導、教育教學、學術 研究、生活助手、網站開發等。OpenAI、Google、Apple、NVIDIA等國外廠商,以及騰訊、百度、商 湯、聯想、訊飛等國內廠家,都在大模型智能體領域進行了積極的探索與實踐,推出了各自的大模型 智能體產品,涵蓋了游戲、生活、線上助手、營銷、教育等多個領域。本文將回顧AI智能體的定義與 發展,著重介紹大模型智能體的概念和發展前沿,以及大模型智能體在產業實踐方面的代表性成果, 為有志于大模型智能體研究和開發的讀者提供參考。
隨著 ChatGPT 等基于大模型的產品展現出強大的通用性能,學術界和工業界正積極探索如何 將這些模型適配到特定行業和應用場景中,即進行垂直領域大模型的定制化。然而,現有的通用大模 型可能無法完全適配特定領域數據的格式,或不足以捕捉該領域的獨特需求。因此,本文旨在探討垂 直領域大模型定制化的方法論,包括大模型的定義和類別、通用架構的描述、大模型有效性背后的理論 基礎,以及幾種可行的垂直領域大模型構建方法,期望通過這些內容為相關領域的研究者和從業者在 垂直領域大模型定制化方面提供指導和參考。
ChatGPT 以其卓越的通用性能重塑了人們對人工智能的理解。作為 ChatGPT 的核心,大語言模 型(Large language model)已經成為眾多領域研究人員和專業人士改進工作流程的重要工具。通用大 模型通常在廣泛的公開數據集上進行訓練,這使得它們能夠學習并解決各種常見問題,但這些數據集 無法完全覆蓋某些特定領域的所有專業知識和技術細節,這導致盡管通用大模型具備廣泛的通用知 識,卻缺乏足夠的知識深度來滿足某些特定領域的復雜需求。因此,針對特定行業的需求來構建垂直 領域大模型變得尤為重要。垂直領域大模型,或稱垂類大模型、行業大模型,是針對特定領域的數據和 應用而開發的大模型[1] 。與通用大模型相比,它們在訓練過程中會使用大量特定領域的數據,從而能夠 更準確地理解和生成與該領域相關的專業內容。 隨著類 ChatGPT 的產品和神經網絡模型的接連推出,“大模型”概念的范圍也在逐步擴張[2?4] 。鑒 于相關概念繁雜,為了確定本文的研究共識,需要對“大模型”概念進行定義并闡述其特點,從而奠定后 文對垂直領域大模型定制化的敘述基礎。本文所提及的大模型(Foundation model),是在多模態大模型 (Multimodal large model)五模塊框架(下文將詳細介紹該框架)中,包含了能夠實現其中一個或多個模 塊功能的神經網絡模型,且該模型符合以下特點: (1)大數據。使用覆蓋了多種場景的大量數據進行模型的訓練,為模型提供充足的知識。 (2)大參數。模型的參數量達到一定規模,足以將大量數據中隱含的知識固化到模型參數中。 (3)通用性。模型的輸入數據格式和數據處理流程能夠適配多種任務場景下的輸入格式和需求。 (4)泛化性。模型擁有一定的泛化性,使其在未知數據域中依然具有良好性能。 根據大模型可處理的模態數量,可將大模型分為單模態大模型和多模態大模型: (1)單模態大模型。VGG[5] ,ResNet[6] ,GPT?1 [7] ,GPT?2 [8] ,GPT?3 [9] ,GPT?3.5 turbo[10] ,BERT[11] , GLM[12?13] ,LLaMA[14] ,LLaMA?2 [15] ,iGPT[16] ,LVM[17] ,BART[18] 和 T5 [19] 。 (2)多 模 態 大 模 型 。 CoDi[20],CoDi ? 2 [21],Claude ? 3 [22],GPT ? 4 [23],LLaVA[24],BriVL[25],Image? Bind[26] 和 NExT?GPT[27] 。 在構建垂直領域大模型的過程中將面臨一系列挑戰,尤其是在數據獲取和預處理階段。比如,其 需要處理的垂直領域數據并不開源或難以獲取,具有私密性;或是數據模態與通用大模型使用的中心 模態不同,導致無法遷移現成的大模型處理該數據;又或是垂直領域數據與預訓練模型的數據域有所 不同,需要向預訓練模型輸入專業領域知識。垂直領域大模型應用方式靈活,涉及的應用領域繁雜,構 建難度大、開銷大,涉及的技術安全問題至關重要,期望產生的經濟效益高[28?30] ,因此有必要對其構建方 法論進行深入探索和全面梳理,并總結出相應的方法論。 以往的綜述文獻都更多地關注大模型本身的發展[2?4,31?36] ,但對于垂直領域大模型的定制化方法論 方面缺乏詳細的討論。本文通過介紹垂直領域大模型定制的理論基礎、垂直領域大模型的定制方法、 垂直領域大模型的應用實例,以及垂直領域大模型定制化的未來發展方向,為有意構建垂直領域大模 型應用的研究者及工作者提供模型定制方法論層面的參考。
[目的/意義] 近年來,人工智能在農業領域的應用取得了顯著進展,但仍面臨諸如模型數據收集標記困 難、模型泛化能力弱等挑戰。大模型技術作為近期人工智能領域新的熱點技術,已在多個行業的垂直領域中展現 出了良好性能,尤其在復雜關聯表示、模型泛化、多模態信息處理等方面較傳統機器學習方法有著較大優勢。[進 展] 本文首先闡述了大模型的基本概念和核心技術方法,展示了在參數規模擴大與自監督訓練下,模型通用能力 與下游適應能力的顯著提升。隨后,分析了大模型在農業領域應用的主要場景;按照語言大模型、視覺大模型和 多模態大模型三大類,在闡述模型發展的同時重點介紹在農業領域的應用現狀,展示了大模型在農業上取得的研 究進展。[結論/展望] 對農業大模型數據集少而分散、模型部署難度大、農業應用場景復雜等困難提出見解,展 望了農業大模型未來的發展重點方向。預計大模型將在未來提供全面綜合的農業決策系統,并為公眾提供專業優 質的農業服務。
大 模 型 (Big Models)[1] , 或 稱 基 礎 模 型 (Foundation Models)[2] ,指經過在大規模數據上訓 練,具有龐大參數量的深度神經網絡模型。這些模 型通常基于 Transformer[3] 架構,通過自監督的方 法從大量數據中進行學習,不僅擁有卓越的通用能 力,也可以適應不同的下游任務。通過擴展,模型 在多個領域展示出強大能力的同時,甚至可以涌現 出 的 新 能 力 。 例 如 基 于 GPT (Generative Pretrained Transformer)[4] 系列技術的 ChatGPT 對話機 器人,可以經過一定的提示詞,在如機器翻譯、情 感分析、文本摘要等大量的自然語言處理任務中表 現出色,亦可以推理小模型無法處理的復雜邏輯。 大模型一般使用自監督 (Self-supervised) 的方式 進行大規模的訓練,然后將模型應用于不同的下游 任務。自監督的學習方式擺脫了對大量人工標記的 依賴。通過擴展模型的規模與訓練量,模型的任務 范圍與性能均能有顯著提高,同時微調 (Fine-tun‐ ing) 也可以在特定任務上利用少量數據快速提升 模型能力。在大模型中,以語言大模型 (Large Language Models, LLMs)[5] 為代表性成果,其可以 通過一定的提示詞完成廣泛的文本生成任務,展現 出強大的模型泛化能力。大模型也包括視覺大模型 (Large Vision Models, LVMs) 與 多 模 態 大 模 型 (Large Multi-modal Models, LMMs) 等。 現代農業的迅猛發展與人工智能技術進步密切相關,特別是深度學習的突破性進展對農業產生了 深遠影響。深度學習強大的特征學習與數據處理等 能力,使其在雜草控制、作物病蟲害檢測、畜牧業 管理以及農業遙感等領域均有廣泛應用。然而,這 些方法大多使用監督學習,依賴于特定的高質量人 工標注數據。收集和標注這類數據集不僅耗時、耗 資巨大,且模型遷移到其他任務的能力有限,限制 了數據規模與模型的發展。因此,尋找能夠跨應用 領域通用的模型和技術,減少對大規模數據標記的 新方法,擴展深度學習框架的通用性,是推動農業 等領域進步的重要挑戰。農業大模型 (Agricultural Big Models) 是為克服上述困難的一次重大嘗試, 為解決農業領域數據較少且分散的現狀提供了方 案,同時其廣泛的任務遷移能力也得到了多個農業 子領域的關注。圖 1介紹了大模型的構建流程,包 含使用異構數據訓練模型,對模型微調提升能力, 以及使用外部系統增強生成能力等;最終,模型可 以用于多種農業綜合服務中,提供強大而全面的農 業問題解決方案。
人工智能技術的發展極大推動了智能博弈決策問題求解范式的變革,從最優解、均衡解到適 變解,如何構建基于生成式大模型的智能博弈自適應決策智能體充滿挑戰。博弈強對抗環境中兵力 分配和多實體協同是研究排兵布陣和作戰協同的核心課題。基于技能、排序和偏好元博弈模型構建 的策略強化學習、策略博弈樹搜索與策略偏好投票選擇方法,設計了滿足生成時規劃的大模型智能 體架構。該架構可對齊指揮員意圖,具有可行性、適用性、擴展性,可為自適應決策過程提供可解 釋性策略推薦。從基座模型構建、目標引導博弈強化學習和開放式元博弈策略學習分析了關鍵技術 需求。期望為強化學習類模型、博弈學習類模型與生成式大語言模型結合的交叉研究提供參考。
為了推進美國戰略與預算評估中心提出的“決 策中心戰”,DARPA 于 2017 年提出了馬賽克戰概 念,蘭德公司利用上校布洛托博弈(Colonel Blotto Game)研究了馬賽克戰作戰資源分配問題[1]。作戰 資源分配主要包括兵力、火力、武器和后勤等子問 題,上校布洛托博弈作為一類典型的兵力布勢問題 模型[2],為排兵布陣問題研究提供了基準參考。作 為上校布洛托博弈模型的泛化形式,強權外交 (Diplomacy)這款桌游(特別是無通信版本)很好地 刻畫了多方一般和多階段不完美信息博弈的動態 交互過程[3]。為了利用智能博弈相關技術研究作戰 協同問題,DARPA 啟動“打破游戲規則的人工智 能探索 ”(Gamebreaker Artificial Intelligence Exploration)項目[4],致力于開發人工智能并將其應 用到現有的開放世界視頻游戲中,以定量評估游戲 平衡,確定顯著有助于游戲平衡的基本參數,并從 新功能、戰術和規則修改等角度探索導致游戲不穩 定性的變量,旨在為美軍創造更大的作戰優勢,或 在對手尋求優勢時尋求對抗的平衡。 如何生成多種類型行動方案計劃為指揮員推 薦策略選項是聯合全聯指控中為對手制造多重困 境(dilemma)的主要方法途徑[5]。利用軍事人工智能 技術輔助決策推薦是當前的研究前沿[6]。早期的一 些研究采用抽象桌游(abstract board games, ABG) 來實時分析大規模對抗問題,如 Stilman 等[7]基于 語言幾何(linguistic geometry, LG)工具與博弈理論 構建的私人參謀長,Serge 等[8]基于語言幾何與對 抗情報推理決策構建的計算機模擬程序 LG-RAID,其中語言幾何作為軟件程序的大腦負責 預測對手的作戰行動方案。近年來,圍繞多方對抗 問題,2020 年 DARPA 開展了針對“對戰敵方戰術 的構建性機器學習”(constructive machine learning battle for enemy tactics, COMBAT)項目[9],利用自 然語言處理提取非結構化文本信息,利用博弈論與 強化學習等方法生成應對美軍的作戰行動方案,旨 在為仿真環境提供敵軍旅級兵力行動模擬。2023 年美國海軍陸戰隊大學以 Command 為基準環境, 開展了將生成式人工智能應用于仿真與兵棋推演 的相關探索[10]。Hinton 等[11]分析了生成式人工智 能在兵棋推演領域的想定生成、對手 AI、紅隊等 方面的應用前景。許霄等[12]提出了作戰行動序列引 導和約束的聯合作戰兵棋推演智能決策框架,設計 了目標驅動的自適應作戰控制和任務式指令驅動 的戰術任務策略優化模塊。 人工智能技術的跨越式發展為智能博弈決策 問題求解定義了新范式,從傳統的優化理論最優 解、博弈理論均衡解,逐漸過渡至如今的模型理論 適變解[13]。為智能指控系統構建多范式融合的博弈 決策策略推薦方法充滿挑戰。 本文圍繞智能博弈自適應決策挑戰,基于元博 弈模型設計了決策大模型智能體的指控思維鏈,以 滿足生成時規劃,最后從決策基座模型構建、智能 博弈決策策略學習和人機協同決策方式共三個方 面分析了關鍵技術需求。
本文深入探討了當前頂尖的人工智能技術,即生成式人工智能(Generative AI)和大型語言模型(LLMs),如何重塑視頻技術領域,包括視頻生成、理解和流媒體。文章強調了這些技術在制作高度逼真視頻中的創新應用,這是在現實世界動態和數字創造之間架起橋梁的一大飛躍。研究還深入探討了LLMs在視頻理解方面的高級能力,展示了它們在從視覺內容中提取有意義信息方面的有效性,從而增強了我們與視頻的互動。在視頻流媒體領域,本文討論了LLMs如何有助于更高效和以用戶為中心的流媒體體驗,適應內容交付以滿足個別觀眾偏好。這篇全面的綜述貫穿了當前的成就、持續的挑戰和將生成式AI和LLMs應用于視頻相關任務的未來可能性,強調了這些技術為推動視頻技術領域的進步——包括多媒體、網絡和人工智能社區——所持有的巨大潛力。
影響聲明—本文通過研究生成式人工智能和大型語言模型(LLMs)在視頻生成、理解和流媒體中的集成,為視頻技術領域做出了貢獻。對這些技術的探索提供了它們在增強視頻內容的真實性和互動性方面的潛力和局限性的基礎理解。LLMs在視頻理解方面的探索為可訪問性和互動的進步奠定了基礎,有望提高教育工具的效能、改進用戶界面和推進視頻分析應用。此外,文章強調了LLMs在優化視頻流媒體服務中的作用,導致更個性化和帶寬高效的平臺。這可能會顯著惠及娛樂行業,提供適應個人偏好的自適應流媒體解決方案。通過識別關鍵挑戰和未來研究方向,文章指導了將AI與視頻技術融合的持續努力,同時提高了人們對潛在倫理問題的認識。其影響力超越了學術界,鼓勵在視頻技術中負責任地發展AI和制定政策,平衡技術進步與倫理考量。
近年來,由于視頻相關技術的激動人心的進步,視頻內容的創建、分析和傳遞都經歷了重大突破。學術界和工業界已共同推動視頻處理領域可能性的極限,從創建逼真的視頻到理解復雜的視覺環境以及優化視頻流媒體以改善用戶體驗。整合生成式AI和大型語言模型(LLM)可以在視頻相關領域開辟激動人心的可能性。 隨著創造逼真且上下文一致的視頻的能力,視頻創作已成為一個引人入勝的研究領域。研究人員已在利用深度學習方法如生成對抗網絡(GANs)制作揭示細節且捕捉現實世界動態本質的電影剪輯方面取得了重大進展。然而,如長期視頻合成一致性和對生成內容的精細控制等挑戰仍在探索中。
視頻理解方面也有類似的發展,該領域涉及從視頻剪輯中提取重要信息。傳統技術依賴于手工創建的特征和視頻動態的顯式建模。最近在語言和視覺方面的進步取得了顯著進展。像OpenAI的GPT等預訓練的基于變換器的架構在處理和生成文本數據方面展示了令人印象深刻的才能。這些LLM對于視頻理解任務,如字幕、動作識別和時間定位,具有巨大的潛力。
此外,由****于對高質量、高分辨率和低延遲視頻服務的需求日益增加,改善視頻傳遞已變得越來越重要且具有挑戰性。帶寬限制、網絡抖動和不同用戶偏好顯著阻礙了無縫和沉浸式的流媒體體驗。通過提供感知上下文的視頻分發、實時視頻質量改進和根據用戶偏好的自適應流媒體,LLM提供了一個克服這些困難的激動人心的方法。
鑒于這些進展,本研究徹底分析了生成式AI和LLM在生成、理解和流式傳輸視頻方面的潛力。我們回顧了現有工作,試圖回答以下問題: ? 提出了哪些技術,并正在徹底改變上述視頻研究領域? ? 為了推動上述視頻服務中生成式AI和LLM方法的使用,還有哪些技術挑戰需要解決? ? 由于采用生成式AI和LLM方法,引發了哪些獨特的關注? 我們希望吸引多媒體、網絡和人工智能社區的關注,以鼓勵對這一迷人且迅速發展的領域的未來研究。
我們設想生成式AI和大型語言模型(LLM)在視頻的整個生命周期中發揮關鍵作用,從生成、理解到流媒體。該框架跨越了三個主要的計算機科學社區,即人工智能、多媒體和網絡。人工智能社區正在見證前所未有的發展速度,從2021年到2022年僅用了大約一年的時間就從能夠進行文本到圖像生成的模型發展到能夠進行文本到視頻生成的模型。現在甚至有演示展示了僅使用提示就能創建3D視頻的能力。因此,我們可以想象生成式AI將對視頻生成行業變得更為重要,超越甚至完全替代傳統的生成方法。視頻理解在許多情況下都很有用,例如場景分割、活動監控、事件檢測和視頻字幕,這是一個獲得越來越多關注的新興方向。自2023年以來,像GPT-4和Video-ChatGPT [8]這樣的最先進產品也顯著提升了LLM理解圖像和視頻等多模態輸入的能力。就視頻流媒體而言,LLM還有改進流媒體管道幾個關鍵步驟的有趣潛力。例如,一個理解能力改進的模型可以把握視頻場景的語義意義,并通過相應地改變編碼率來優化傳輸。此外,如點云這樣在XR游戲中廣泛使用的3D視頻流媒體,可以從LLM對周圍環境的理解中受益,預測用戶下一刻的視野范圍(FoV)來進行內容預取。
A. 主要組成部分 生成式AI和LLM之間的協同作用已在視頻生成領域開辟了新的前沿,打造與現實幾乎無法區分的視覺效果。這些技術共同豐富了數字景觀,創造了創新內容如下(第IV-A節): ? 生成對抗網絡(GANs)利用生成網絡和判別網絡之間的創造性對抗過程來理解和復制復雜模式,產生逼真的視頻樣本。 ? 變分自編碼器(VAEs)生成連貫的視頻序列,提供了一個結構化的概率框架,用于無縫地融合敘事上合理的幀。 ? 自回歸模型創建的序列中,每個視頻幀都邏輯上從上一個幀繼承,確保敘事和視覺的連續性,吸引觀眾。 ? 擴散模型將復雜的文本敘述轉換為詳細和高分辨率的視頻,推動文本到視頻合成的界限。 接下來,LLM通過提供富有情境的解釋和描述來增強視頻理解,促進更深入的視頻內容參與(第IV-B節): ? 視頻字幕使用LLM生成富有洞察力和準確的描述,以自然語言捕捉視覺內容的本質,使視頻更易于搜索和訪問。 ? 視頻問答利用LLM的情境理解能力處理復雜的觀眾詢問,提供增值且深入的觀看體驗的回應。 ? 視頻檢索和分割由LLM革新,它們解析和分類視頻內容為可理解的段落,簡化了龐大視頻庫的可搜索性和導航性。 最后,LLM可以通過優化帶寬使用、個性化內容交付和增強觀眾互動等方式重新定義流媒體景觀(第IV-C節): ? 帶寬預測通過分析過去和現在的網絡數據的LLM進行改進,預測未來需求以主動分配資源,從而確保流暢的流媒體。 ? 視點預測通過LLM對內容和用戶行為的理解增強,預測視頻中的下一個焦點區域,提供量身定制且沉浸式的觀看體驗。 ? 視頻推薦和資源分配通過LLM的分析能力得到提升,將觀眾偏好與內容匹配并管理網絡資源,提供定制化且高效的流媒體服務。
智能規劃又叫自動規劃,主要研究在復雜環境下,如何通過自動化的方式生成可行的行動序列,以實現從初始狀態到達目標狀態。大語言模型是指使用大量文本數據訓練的深度學習生成式模型,可以生成自然語言文本或理解語言文本的含義。當前圍繞如何讓大語言模型在強大的常識性知識基礎上獲得生成式智能規劃能力已然成為當下研究的熱潮。本文從大語言模型的視角入手,首先對智能規劃的定義和發展進行概述、簡要介紹了傳統智能規劃的方法;其次基于大語言智能體與智能規劃的緊密關系,介紹了大語言模型的架構和典型的大模型智能體;再次重點圍繞大模型的智能規劃,梳理了規劃語言學習、思維鏈推理、反饋優化和流程自動化共4類規劃方法;最后結合當前的挑戰與困難,介紹大模型進行智能規劃的前沿研究展望。
智能集群系統是人工智能的重要分支,所涌現出的智能形態被稱為集群智能,具有個體激發時的自組織性 和群體匯聚時的強魯棒性等特征.智能集群系統的協同決策過程是融合人-機-物,覆蓋多元空間,囊括感知-決策反饋-優化的復雜非線性問題,具有開放的決策模型和龐大的解空間.然而,傳統的算法依賴大量的知識與經驗,使 其難以支持系統的持續演化.強化學習是一類兼具感知決策的端到端方法,其通過試錯的方式不斷迭代優化,具有 強大的自主學習能力 .近些年來,受生物群體和人工智能的啟發,強化學習算法已由求解個體的決策問題,向優化 集群的聯合協同問題演進,為增強集群智能的匯聚和涌現注入了新動能.但是,強化學習在處理集群任務時面臨感 知環境時空敏感、群內個體高度自治、群間關系復雜多變、任務目標多維等挑戰 .本文立足于智能集群系統的協同 決策過程與強化學習運行機理,從聯合通信、協同決策、獎勵反饋與策略優化四個方面梳理了強化學習算法應對挑 戰的方法,論述了面向智能集群系統的強化學習算法的典型應用,列舉了相關開源平臺及其適用算法 .最后,從實 際需求出發,討論總結了今后的研究方向.//cjc.ict.ac.cn/online/onlinepaper/lll-20231210115504.pdf
個性化推薦系統能夠根據用戶的個性化偏好和需要,自動、快速、精準地為用戶提供其所需的互聯網資源,已成為當今大數據時代應用最廣泛的信息檢索系統,具有巨大的商業應用價值。近年來,隨著互聯網海量數據的激增,人工智能技術的快速發展與普及,以知識圖譜為代表的大數據知識工程日益受到學界和業界的高度關注,也有力地推動推薦系統和個性化推薦技術也邁入到知識驅動與賦能的發展階段。將知識圖譜中蘊含的豐富知識作為有用的輔助信息引入推薦系統,不僅能夠有效應對數據稀疏、語義失配等傳統推薦系統難以避免的問題,還能幫助推薦系統產生多樣化、可解釋的推薦結果,并更好地完成跨領域推薦、序列化推薦等具有挑戰性的推薦任務,從而提升各類實際推薦場景中的用戶滿意度。本文將現有融入知識圖譜的各種推薦模型按其采用的推薦算法與面向的推薦場景不同進行分類,構建科學、合理的分類體系。其中,按照推薦方法的不同,劃分出基于特征表示的和基于圖結構的兩大類推薦模型;按推薦場景劃分,特別關注多樣化推薦、可解釋推薦、序列化推薦與跨領域推薦。然后,我們在各類推薦模型中分別選取代表性的研究工作進行介紹,還簡要對比了各個模型的特點與優劣。此外,本文還結合當下人工智能技術和應用的發展趨勢,展望了認知智能推薦系統的發展前景,具體包括融合多模態知識的推薦系統,具有常識理解能力的推薦系統,以及解說式、勸說式、抗辯式推薦系統。本文的綜述內容和展望可作為推薦系統未來研究方向的有益參考。
//jcs.iie.ac.cn/xxaqxb/ch/reader/view_abstract.aspx?file_no=20210503&flag=1