亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本文深入探討了當前頂尖的人工智能技術,即生成式人工智能(Generative AI)和大型語言模型(LLMs),如何重塑視頻技術領域,包括視頻生成、理解和流媒體。文章強調了這些技術在制作高度逼真視頻中的創新應用,這是在現實世界動態和數字創造之間架起橋梁的一大飛躍。研究還深入探討了LLMs在視頻理解方面的高級能力,展示了它們在從視覺內容中提取有意義信息方面的有效性,從而增強了我們與視頻的互動。在視頻流媒體領域,本文討論了LLMs如何有助于更高效和以用戶為中心的流媒體體驗,適應內容交付以滿足個別觀眾偏好。這篇全面的綜述貫穿了當前的成就、持續的挑戰和將生成式AI和LLMs應用于視頻相關任務的未來可能性,強調了這些技術為推動視頻技術領域的進步——包括多媒體、網絡和人工智能社區——所持有的巨大潛力。

影響聲明—本文通過研究生成式人工智能和大型語言模型(LLMs)在視頻生成、理解和流媒體中的集成,為視頻技術領域做出了貢獻。對這些技術的探索提供了它們在增強視頻內容的真實性和互動性方面的潛力和局限性的基礎理解。LLMs在視頻理解方面的探索為可訪問性和互動的進步奠定了基礎,有望提高教育工具的效能、改進用戶界面和推進視頻分析應用。此外,文章強調了LLMs在優化視頻流媒體服務中的作用,導致更個性化和帶寬高效的平臺。這可能會顯著惠及娛樂行業,提供適應個人偏好的自適應流媒體解決方案。通過識別關鍵挑戰和未來研究方向,文章指導了將AI與視頻技術融合的持續努力,同時提高了人們對潛在倫理問題的認識。其影響力超越了學術界,鼓勵在視頻技術中負責任地發展AI和制定政策,平衡技術進步與倫理考量。

近年來,由于視頻相關技術的激動人心的進步,視頻內容的創建、分析和傳遞都經歷了重大突破。學術界和工業界已共同推動視頻處理領域可能性的極限,從創建逼真的視頻到理解復雜的視覺環境以及優化視頻流媒體以改善用戶體驗。整合生成式AI和大型語言模型(LLM)可以在視頻相關領域開辟激動人心的可能性。 隨著創造逼真且上下文一致的視頻的能力,視頻創作已成為一個引人入勝的研究領域。研究人員已在利用深度學習方法如生成對抗網絡(GANs)制作揭示細節且捕捉現實世界動態本質的電影剪輯方面取得了重大進展。然而,如長期視頻合成一致性和對生成內容的精細控制等挑戰仍在探索中。

視頻理解方面也有類似的發展,該領域涉及從視頻剪輯中提取重要信息。傳統技術依賴于手工創建的特征和視頻動態的顯式建模。最近在語言和視覺方面的進步取得了顯著進展。像OpenAI的GPT等預訓練的基于變換器的架構在處理和生成文本數據方面展示了令人印象深刻的才能。這些LLM對于視頻理解任務,如字幕、動作識別和時間定位,具有巨大的潛力。

此外,由****于對高質量、高分辨率和低延遲視頻服務的需求日益增加,改善視頻傳遞已變得越來越重要且具有挑戰性。帶寬限制、網絡抖動和不同用戶偏好顯著阻礙了無縫和沉浸式的流媒體體驗。通過提供感知上下文的視頻分發、實時視頻質量改進和根據用戶偏好的自適應流媒體,LLM提供了一個克服這些困難的激動人心的方法。

鑒于這些進展,本研究徹底分析了生成式AI和LLM在生成、理解和流式傳輸視頻方面的潛力。我們回顧了現有工作,試圖回答以下問題: ? 提出了哪些技術,并正在徹底改變上述視頻研究領域? ? 為了推動上述視頻服務中生成式AI和LLM方法的使用,還有哪些技術挑戰需要解決? ? 由于采用生成式AI和LLM方法,引發了哪些獨特的關注? 我們希望吸引多媒體、網絡和人工智能社區的關注,以鼓勵對這一迷人且迅速發展的領域的未來研究。

我們設想生成式AI和大型語言模型(LLM)在視頻的整個生命周期中發揮關鍵作用,從生成、理解到流媒體。該框架跨越了三個主要的計算機科學社區,即人工智能、多媒體和網絡。人工智能社區正在見證前所未有的發展速度,從2021年到2022年僅用了大約一年的時間就從能夠進行文本到圖像生成的模型發展到能夠進行文本到視頻生成的模型。現在甚至有演示展示了僅使用提示就能創建3D視頻的能力。因此,我們可以想象生成式AI將對視頻生成行業變得更為重要,超越甚至完全替代傳統的生成方法。視頻理解在許多情況下都很有用,例如場景分割、活動監控、事件檢測和視頻字幕,這是一個獲得越來越多關注的新興方向。自2023年以來,像GPT-4和Video-ChatGPT [8]這樣的最先進產品也顯著提升了LLM理解圖像和視頻等多模態輸入的能力。就視頻流媒體而言,LLM還有改進流媒體管道幾個關鍵步驟的有趣潛力。例如,一個理解能力改進的模型可以把握視頻場景的語義意義,并通過相應地改變編碼率來優化傳輸。此外,如點云這樣在XR游戲中廣泛使用的3D視頻流媒體,可以從LLM對周圍環境的理解中受益,預測用戶下一刻的視野范圍(FoV)來進行內容預取。

A. 主要組成部分 生成式AI和LLM之間的協同作用已在視頻生成領域開辟了新的前沿,打造與現實幾乎無法區分的視覺效果。這些技術共同豐富了數字景觀,創造了創新內容如下(第IV-A節): ? 生成對抗網絡(GANs)利用生成網絡和判別網絡之間的創造性對抗過程來理解和復制復雜模式,產生逼真的視頻樣本。 ? 變分自編碼器(VAEs)生成連貫的視頻序列,提供了一個結構化的概率框架,用于無縫地融合敘事上合理的幀。 ? 自回歸模型創建的序列中,每個視頻幀都邏輯上從上一個幀繼承,確保敘事和視覺的連續性,吸引觀眾。 ? 擴散模型將復雜的文本敘述轉換為詳細和高分辨率的視頻,推動文本到視頻合成的界限。 接下來,LLM通過提供富有情境的解釋和描述來增強視頻理解,促進更深入的視頻內容參與(第IV-B節): ? 視頻字幕使用LLM生成富有洞察力和準確的描述,以自然語言捕捉視覺內容的本質,使視頻更易于搜索和訪問。 ? 視頻問答利用LLM的情境理解能力處理復雜的觀眾詢問,提供增值且深入的觀看體驗的回應。 ? 視頻檢索和分割由LLM革新,它們解析和分類視頻內容為可理解的段落,簡化了龐大視頻庫的可搜索性和導航性。 最后,LLM可以通過優化帶寬使用、個性化內容交付和增強觀眾互動等方式重新定義流媒體景觀(第IV-C節): ? 帶寬預測通過分析過去和現在的網絡數據的LLM進行改進,預測未來需求以主動分配資源,從而確保流暢的流媒體。 ? 視點預測通過LLM對內容和用戶行為的理解增強,預測視頻中的下一個焦點區域,提供量身定制且沉浸式的觀看體驗。 ? 視頻推薦和資源分配通過LLM的分析能力得到提升,將觀眾偏好與內容匹配并管理網絡資源,提供定制化且高效的流媒體服務。

付費5元查看完整內容

相關內容

隨著大型語言模型(LLMs)的最新進展,結合LLMs與多模態學習的興趣日益增長。先前關于多模態大型語言模型(MLLMs)的綜述主要集中在理解方面。本綜述詳細闡述了不同領域的多模態生成,包括圖像、視頻、3D和音頻,并重點介紹了這些領域的里程碑式的顯著進展。具體來說,我們詳盡調查了這些方法背后的關鍵技術組件和研究中使用的多模態數據集。此外,我們深入探討了可以利用現有生成模型進行人機交互的工具增強型多模態代理。最后,我們還全面討論了人工智能安全的進展,并研究了新興應用及未來前景。我們的工作提供了對多模態生成的系統且深入的概述,預計將推動生成內容人工智能(AIGC)和世界模型的發展。所有相關論文的精選列表可以在//github.com/YingqingHe/Awesome-LLMs-meet-Multimodal-Generation找到。

人與物理世界的互動涉及來自多種模態的信息,例如語言、視覺和音頻。因此,實現一個世界模擬器也需要模型能夠以靈活的方式感知和響應多模態信息。最近,OpenAI提出了一個基礎視頻生成模型Sora [1],能夠生成高度逼真的視頻作為世界模擬器。它在模擬或生成真實世界視頻方面取得了很大進展,但無法生成其他模態,如文本、3D和音頻。此外,它缺乏感知其他模態(如圖像、視頻、3D和音頻)的能力,使其成為一個無法全面理解的世界模擬器。

在過去的幾年中,研究人員專注于單一模態的生成并取得了很大的進展:在文本生成方面,我們見證了從BERT [2]、GPT1 [3]、GPT2 [4]、GPT3 [5]、GPT4 [6]到ChatGPT [7]、LLaMA [8]、[9]的定性飛躍,模型參數和訓練樣本數量迅速增長,導致模態能力和產品部署的不斷提升。在視覺生成領域,隨著擴散模型和大規模圖文數據集的快速進步,圖像生成取得了顯著成就,能夠根據各種用戶提供的提示文本合成高質量的圖像 [10]–[13]。隨后,通過視頻擴散模型和大規模視頻語言數據集,視頻生成領域也取得了重要進展,出現了許多開創性的工作,如 [14]–[22] 和Sora [1]。在3D生成方面,隨著CLIP [23]模型的出現,一些方法 [24]–[26] 嘗試將文本信息帶入3D表示的渲染圖像(即點云、網格、NeRF [27]和高斯投影 [28]),這些方法在文本到3D生成方面取得了顯著進展。此外,將Stable Diffusion (SD) [10]與文本到圖像渲染相結合,推動了一系列文本到3D生成的工作 [29]–[43]。強大的文本到圖像模型幫助3D生成實現了更高的性能和更好的結果。在音頻生成領域,一系列代表性工作涉及不同的音頻域,如 [44]–[46] 的文本到音頻、 [47]–[49] 的文本到音樂和 [50]–[55] 的文本到語音,它們在生成高質量的自然聲音、音樂和人類級語音方面取得了顯著的性能。

隨著大型語言模型(LLMs)的顯著進步,其他非文本模態開始利用LLMs的力量來增強其生成流程,或將文本生成與非文本生成集成到一個統一系統中,旨在實現更高級的功能和改進的生成性能。在圖像生成方面,有兩類方法與語言模型實現了顯著的整合。第一類方法涉及將視覺信息編碼為離散的令牌ID,試圖統一視覺理解與生成 [56]–[61]。具體來說,視覺信息被編碼為令牌表示,LLMs直接理解并生成視覺令牌,從而實現視覺理解與生成的同步。第二類方法專注于利用LLMs提升現有預訓練文本到圖像(T2I)模型的生成質量:一類工作涉及利用LLMs作為布局規劃器,結合對象的空間位置、數量和對象大小的知識,生成所需的邊界框 [62]–[66]。在獲得邊界框后,可以通過一個基于文本到圖像(T2I)模型生成圖像 [67]。另一種方法是利用LLMs擴展用戶輸入的提示 [68]:通過提供高度詳細和全面的用戶提示,LLMs通過豐富提示信息生成高質量的圖像。在LLMs的幫助下,視覺生成實現了更高的生成質量、改進的提示跟隨能力、對話功能和用戶友好界面。在視頻生成方面,LLMs作為統一的多模態聯合生成的通用骨干 [69]、[70],用于視頻布局規劃 [63]、[71]–[74] 和動態指導的時間提示生成 [75]–[79]。在3D生成和編輯方面,LLMs作為用戶與3D資產之間的橋梁,提高了交互效率 [80]、[81] 并幫助用戶理解 [82]、[83] 3D資產。在音頻生成和編輯方面,語言模型主要作為多模態音頻的協調骨干 [84]–[96],用于特定任務的條件器 [97]–[99],用于音頻理解的標簽器 [100]–[102],以及用于交互生成/編輯的代理 [103]–[108],并作為新方法的靈感來源 [47]、[48]、[53]、[109]–[111]。LLMs在音頻領域的日益廣泛使用不僅改變了我們與聲音和音樂互動的方式,還擴展了AGI與音頻技術交叉點的邊界。此外,多模態代理將多種模態整合到一個系統中,開發出一個能夠理解和生成非文本模態的通用系統。因此,LLMs在生成各種模式的內容中扮演著越來越不可或缺的角色。

為了賦能世界模擬器并推動多模態生成的發展,在這項工作中,我們對涉及LLMs在多模態生成中的工作及其在這一過程中的角色進行了全面回顧。如圖1所示,我們將LLMs的角色總結為幾個關鍵方面,如評估者、標注者、指令處理器、規劃者、語義指導的提供者或骨干架構。此外,我們在第9節討論了AIGC時代的重要安全問題,在第10節和第11節探討了新興應用和未來前景。

我們總結了我們的貢獻如下

  • 我們首次系統性地回顧了LLMs在多模態生成中的應用,包括圖像、視頻、3D和音頻。
  • 我們通過比較分析前LLM時代和后LLM時代的生成技術演變,提供了對這些方法進展和改進的清晰視角。
  • 我們從技術角度總結了LLMs在各模態生成過程中的各種角色。
  • 我們討論了重要的AI安全問題,研究了新興應用,并探索了未來方向,以促進多模態生成和世界模型的發展。 內容概述

我們首先在第2節回顧了關于特定模態生成和LLMs的相關綜述。接著在第3節簡要回顧了代表性生成模型、多模態編碼器、Transformer和LLMs的基本技術。然后,我們在第4節、第5節、第6節、第7節和第8節分別回顧了基于LLMs的不同視覺模態的視覺生成,包括圖像、視頻、3D、音頻和多模態代理。最后,我們在第9節討論了生成式AI的安全性,并在第11節探討了基于LLMs的多模態生成領域的幾個潛在未來方向。

范圍

本綜述探討了多種模態的生成,包括圖像、視頻、3D模型和音頻。我們的多模態生成綜述涵蓋了不同模態的單獨生成以及多模態的聯合生成。我們不會深入探討純文本生成,因為已有許多綜述專門關注該領域的進展 [112]–[114]。我們的主要關注點是近年來大型語言模型的出現如何幫助生成其他視覺和音頻模態,特別是在開放域生成方面。這將有助于我們設計更好的多模態統一生成模型。具體來說,我們關注以下任務:

  • 圖像生成與編輯:圖像生成旨在根據用戶提供的文本描述創建各種開放域圖像內容,包括圖片、照片或風格化繪畫。圖像編輯旨在根據用戶指示修改輸入的圖像內容。
  • 視頻生成與編輯:模型根據自由形式的文本描述生成或修改任意和各種動態視覺內容。
  • 3D生成與編輯:生成和編輯3D對象、場景或頭像的任務,基于用戶提供的文本描述。
  • 音頻生成與編輯:使用文本描述生成音頻,包括一般聲音、音樂和語音。音頻編輯任務如添加、刪除或修復涉及使用文本描述修改現有音頻。
  • 多模態生成代理:使LLMs能夠通過利用各種專門的多模態工具處理不同模態的數據。
  • 生成式AI安全:關注減少有害和偏見內容,保護版權,并解決多模態生成模型創建虛假內容的問題

付費5元查看完整內容

人類通過多種感官,如視覺、嗅覺、聽覺和觸覺來感知世界。同樣,多模態大型語言模型(MLLMs)通過整合和處理包括文本、視覺、音頻、視頻和3D環境在內的多種模態數據,增強了傳統大型語言模型的能力。數據在這些模型的發展和優化中起到了關鍵作用。在這篇綜述中,我們從數據中心視角全面回顧了MLLMs的相關文獻。具體而言,我們探討了在MLLMs預訓練和適應階段準備多模態數據的方法。此外,我們還分析了數據集的評估方法,并回顧了評估MLLMs的基準測試。我們的綜述還概述了未來潛在的研究方向。本研究旨在為研究人員提供關于MLLMs數據驅動方面的詳細理解,促進該領域的進一步探索和創新。

近年來,我們見證了大型語言模型(LLMs)和多模態大型語言模型(MLLMs)的快速發展[280, 324]。諸如GPT-4 [208]、Flamingo [4]、BLIP2 [151]和X-InstructBLIP [212]等MLLMs整合了多模態信息,展示了令人印象深刻的理解和生成能力。這些模型在傳統的多模態任務中取得了競爭性表現,如視覺識別[320]、視頻理解[258, 289]、語音識別[200]和3D理解[89, 100]。此外,它們卓越的語言理解能力使其在文本豐富的任務中表現出色,如問答[104]、多輪對話和邏輯推理[156, 296]。

大多數現有的MLLMs主要關注修改模型架構以探索多模態信息的使用[121, 178, 246, 286, 287, 304]。盡管模型的有效性至關重要,數據也顯著影響了MLLMs的成功。例如,Hoffmann等人[99]展示了為了擴展模型,有必要增加訓練數據的規模。除了數據數量外,數據質量同樣重要。先前的研究[251]表明,精心策劃的數據集可以使較小的模型達到與較大模型相當的性能。然而,關于MLLMs數據策劃和利用的綜合研究仍然缺乏。因此,本研究旨在從數據中心視角提供對MLLMs的全面理解。

與優先考慮架構增強而依賴固定數據集的模型中心方法相比,數據中心視角強調對數據集的迭代改進以提高性能。在數據中心MLLMs的范圍內,我們關注利用數據模態的異質性、增強數據結構、增加數據數量和提高數據質量以改進MLLMs [316]。我們的討論從不同階段的MLLMs數據中心視角回答了三個關鍵問題:

  • Q1:如何收集、選擇和管理MLLMs的數據?大量的數據需求和多模態數據的異質性在收集、選擇和有效管理模型訓練數據方面帶來了挑戰。MLLMs的不同訓練階段也導致了不同的數據類型需求。

  • Q2:數據如何影響MLLMs的性能?理解數據特性與MLLMs性能之間的關系對于優化數據集和增強模型能力至關重要。

  • Q3:如何評估MLLMs的數據?有必要開發全面的評估基準,以評估MLLMs在各種任務中的性能和魯棒性。 本綜述與現有綜述的區別。在模型中心視角下,已有若干綜述聚焦于LLMs [93, 203, 324]和MLLMs [280, 318],但缺乏對數據中心方面的深入分析。最近,一些綜述開始關注LLMs的數據準備,如數據管理方法[274]、數據選擇方法[5]和LLM數據集的綜合綜述[174]。然而,這些綜述主要集中于僅文本LLMs的數據管理和選擇方法,沒有對MLLMs的數據處理管道進行徹底分析。盡管Zhang等人[318]總結了MLLMs的數據集,但未能提供對這些數據集的全面分析。與我們最相關的工作是數據中心人工智能(DCAI)[109, 111, 220, 279, 316],它也關注AI研究的數據中心視角,但未具體分析LLMs和MLLMs。

隨著MLLMs的快速增長以及數據在這個大型模型時代越來越重要的角色,我們認為提供一個全面的MLLMs數據中心方法綜述是至關重要的。本綜述旨在從數據中心視角全面回顧MLLMs的進展文獻,并討論該領域的開放問題或未來方向。

貢獻。在這篇綜述中,我們從數據中心視角回顧了MLLMs的進展文獻。我們為研究人員和開發者提供了對MLLMs數據方面最新發展的總體和全面的理解。本綜述的主要貢獻總結如下:

  • 新的數據中心視角。我們從數據中心視角提供了對MLLMs的全面綜述,考慮了文本、圖像、視頻和音頻等模態。
  • 數據準備和管理管道。我們總結了在預訓練和適應階段MLLMs的數據準備和管理管道。
  • 數據評估基準。我們概述了常用的從數據中心視角出發的評估基準。
  • 開放問題和未來方向。我們討論了當前數據中心LLMs研究中的開放問題,并提出了若干未來研究方向。

本文的其余部分安排如下:第2節介紹LLMs和MLLMs的預備知識,并討論從數據中心視角分析它們的動機。第3至第5節總結了MLLMs訓練數據的收集、處理和選擇的主要階段。第6節總結了MLLMs的評估方法和現有的評估數據集。第7節討論了開放問題并強調了該領域的若干未來研究方向。最后,我們在第8節對本綜述進行了總結。我們的Github倉庫可以在//github.com/beccabai/Data-centric_multimodal_LLM找到。

付費5元查看完整內容

視頻基礎模型(ViFMs)旨在為各種視頻理解任務學習通用表示。通過利用大規模數據集和強大的模型,ViFMs通過從視頻數據中提取穩健且通用的特征來實現這一目標。這篇綜述分析了超過200個視頻基礎模型,提供了針對14種不同視頻任務的基準和評估指標的全面概覽,并將其分為3個主要類別。此外,我們還對最常見的6種視頻任務的這些模型進行了深入的性能分析。我們將ViFMs分為三類:1)基于圖像的ViFMs,將現有的圖像模型應用于視頻任務;2)基于視頻的ViFMs,采用特定于視頻的編碼方法;3)通用基礎模型(UFMs),在單一框架內結合多種模態(圖像、視頻、音頻和文本等)。通過比較各種ViFMs在不同任務上的性能,這篇綜述提供了有關它們優缺點的寶貴見解,為視頻理解的未來進展提供指導。我們的分析結果令人驚訝地發現,基于圖像的基礎模型在大多數視頻理解任務上始終優于基于視頻的模型。此外,利用多模態的UFMs在視頻任務上表現出色。我們在以下地址分享了這項研究中所分析的ViFMs完整列表://github.com/NeeluMadan/ViFM_Survey.git

強大的計算資源的日益普及和不斷增長的數據集推動了基礎模型的發展[10, 24]。這些多功能的AI模型使用自監督學習或半監督學習在海量數據上進行訓練,可以通過微調用于各種下游任務。最初的成功集中在靜態圖像上[123, 238],例如CLIP[238]和SAM[139]等模型都取得了令人印象深刻的成果。最近的研究[322, 352]已將這一成果擴展到視頻領域,開發出了幾種針對視頻基礎模型(ViFMs)的預訓練策略。 盡管視頻分析和生成數十年來一直是計算機視覺社區關注的焦點[19, 30, 134, 142, 278, 281],但由于任務的復雜性、額外的時間維度以及數據量龐大,這一問題在很大程度上一直具有挑戰性。最初開發的方法主要基于使用標準圖像分析技術處理各個幀并在其上加入時間維度[30, 80]。或者,專為視頻設計的更高級技術也被開發出來,例如3D卷積[338]、循環網絡、光流的使用以及Transformers[7, 19],直接作用于視頻,從而提供更好的時間建模。此外,針對增強視頻理解的多模態角色的研究也有顯著發展[111, 245]。 我們在ViFMs的發展中也看到了類似的趨勢,延續了圖像(基于圖像的ViFMs)、獨立的視頻建模(基于視頻的ViFMs)以及結合額外模態(例如自動語音識別(ASR))(通用基礎模型,Universal FMs)的路徑。 動機和貢獻:視頻理解領域正在經歷顯著的進步,這可以從日益增長的專注于各類視頻理解任務的研究論文數量中看出(圖1)。這種增長與大規模預訓練技術的發展相吻合。這些技術在適應不同任務方面表現出非凡的能力,只需最少的額外訓練即可實現強大的泛化。因此,研究人員正在積極探索這些基礎模型在解決各種視頻理解挑戰中的作用。為了在這個快速發展的研究領域中導航(見圖2),對視頻理解模型進行系統的綜述是必要的。我們試圖通過對用于視頻理解任務的基礎模型進行全面分析來填補這一關鍵空白。我們希望這篇綜述能夠為視頻理解相關的未來研究方向提供路線圖。

我們綜述的主要貢獻: * 本文首次對部署于各種視頻理解任務的基礎模型(ViFMs)進行了全面的綜述。我們將ViFMs分為三類:1)基于圖像的ViFMs:僅在圖像數據上進行訓練。2)基于視頻的ViFMs:在訓練期間利用視頻數據。3)通用基礎模型(UFMs):在預訓練期間結合多種模態(圖像、視頻、音頻、文本)。 * 我們獨特地根據視頻理解任務中對時間維度的涉入程度對其進行了分類。此外,還提供了與每個分類任務相關的數據集和評估指標的詳細列表。 * 我們對每個類別的ViFMs進行了全面的比較,分析了各種研究成果。這一分析揭示了有關最有效的ViFMs在不同視頻理解任務中的寶貴見解。 * 本綜述進一步指出了ViFMs面臨的關鍵挑戰,強調了需要進一步研究關注的開放性問題。此外,我們討論了ViFM開發的有前景的未來方向,為視頻理解的進步鋪平道路。

相關綜述:盡管一些綜述深入探討了特定的視頻理解任務[353, 366]或圖像的基礎模型[10],如Shiappa等人[252]提供了關于自監督視頻理解方法的詳盡綜述,但近年來這一領域已經發生了顯著變化。隨著大規模基礎模型的興起,需要對這些模型在視頻理解背景下進行全面的綜述。據我們所知,我們的綜述是第一個提供用于視頻理解的基礎模型的全面概述。 論文組織結構:在論文的第一部分(第2節),我們涵蓋了從視頻分類到生成的各種視頻分析任務。我們討論了廣泛使用的架構和損失函數,以及與大規模預訓練相關的數據集。接下來,我們解釋了ViFMs的主要類別,即:基于圖像的ViFMs(第3節)、基于視頻的ViFMs(第4節)和通用基礎模型(UFMs)(第5節)(有關分類法請參見圖5)。最后(第6-7節),我們比較并討論了所介紹模型的性能,并展示了該領域的挑戰和未來方向。

付費5元查看完整內容

多模態融合致力于整合來自多種模態的信息,目的是實現更準確的預測。在包括自動駕駛和醫療診斷等廣泛的場景中,多模態融合已取得顯著進展。然而,在低質量數據環境下,多模態融合的可靠性大部分仍未被探索。本文綜述了開放多模態融合面臨的常見挑戰和最新進展,并將它們呈現在一個全面的分類體系中。從數據中心的視角,我們確定了低質量數據上多模態融合面臨的四個主要挑戰,即**(1)噪聲多模態數據,它們被不同種類的噪聲污染;(2)不完整的多模態數據,某些模態缺失;(3)不平衡的多模態數據,不同模態的質量或屬性有顯著差異;以及(4)質量變化的多模態數據**,每種模態的質量會根據不同樣本動態變化。這一新的分類體系將使研究人員能夠理解該領域的現狀,并識別出幾個潛在的研究方向。我們還討論了這一領域的開放問題以及有趣的未來研究方向。

//arxiv.org/abs/2404.18947 我們對世界的感知基于多種模態,例如觸覺、視覺、聽覺、嗅覺和味覺。即使某些感官信號不可靠,人類也能從不完美的多模態輸入中提取有用線索,并進一步拼湊出正在發生事件的整個場景【1】。隨著感知技術的發展,我們可以輕松收集各種形式的數據進行分析。為了充分釋放每種模式的價值,多模態融合作為一種有前景的范式出現,通過整合所有可用線索進行下游分析任務,以獲得精確和可靠的預測,例如醫學圖像分析、自動駕駛車輛【2】【3】和情感識別【4】【5】【6】。直觀地說,融合來自不同模式的信息提供了探索跨模態相關性并獲得更好性能的可能性。然而,人們越來越認識到,廣泛使用的AI模型常常被低質量數據中的假相關性和偏見所誤導。在現實世界中,由于意外的環境因素或傳感器問題,不同模態的質量通常存在差異。一些最近的研究實證和理論上表明,傳統的多模態融合可能在野外的低質量多模態數據上失敗,例如不平衡【7】【8】【9】【10】、噪聲【11】或甚至損壞【12】的多模態數據。為了克服這一限制,并向實際應用中強大且通用的多模態學習邁進一步,我們確定了低質量多模態數據的特性,并專注于現實世界多模態機器融合的一些獨特挑戰。我們還強調了可能有助于使多模態融合在開放環境中更加可靠和值得信賴的技術進展。在本文中,我們識別并探索了圍繞低質量多模態數據的多模態融合的四個核心技術挑戰。它們總結如下(也在圖1中直觀展示): (1) 噪聲多模態數據。第一個基本挑戰是學習如何減輕多模態數據中任意噪聲的潛在影響。高維多模態數據往往包含復雜的噪聲。多模態數據的異質性使得識別和減少潛在噪聲成為挑戰,同時也提供了通過探索不同模態之間的相關性來識別和減少噪聲的機會。 (2) 不完整的多模態數據。第二個基本挑戰是如何學習帶有部分缺失模態的多模態數據(即不完整的多模態數據)。例如,在醫療領域,即使是患有同一疾病的患者也可能選擇不同的醫療檢查,產生不完整的多模態數據。開發能夠處理不完整多模態數據的靈活且可靠的多模態學習方法是一個具有挑戰性但充滿希望的研究方向。 (3) 不平衡的多模態數據。第三個基本挑戰是如何減輕模態間偏差和差異的影響。例如,視覺模態通常比聽覺模態更有效,導致模型采取捷徑且缺乏對音頻的探索。盡管現有融合方法表現出有希望的性能,但它們可能無法在某些偏好特定模態的應用上比單模態主導模型表現更好。 (4) 質量動態變化的多模態數據。第四個基本挑戰是如何適應多模態數據的質量動態變化性質。在實踐中,由于不可預見的環境因素或傳感器問題,一個模態的質量通常會因不同樣本而變化。例如,在低光或逆光條件下,RGB圖像的信息量不如熱成像模態。因此,在實際應用中,意識到融合中的質量變化并動態整合多模態數據是必要的。 為了應對這些日益重要的多模態融合問題,本研究系統地組織了通過幾個分類體系的關鍵挑戰。與以往討論各種多模態學習任務【13】【14】的相關工作不同,這項綜述主要關注多模態學習中最基本的問題以及在下游任務中低質量多模態數據所引起的獨特挑戰,包括聚類、分類、對象檢測和語義分割。在以下部分中,我們通過最近的進展和多模態融合面臨的技術挑戰詳細介紹了這一領域:在噪聲多模態數據上的學習(第2節)、缺失模態插補(第3節)、平衡多模態融合(第4節)和動態多模態融合(第5節)。第6節提供了一個作為結論的討論。 在噪聲多模態數據上的學習

在現實世界場景中收集高質量的多模態數據不可避免地面臨著由噪聲帶來的重大挑戰。多模態數據【15】的噪聲可能源于傳感器錯誤【16】、環境干擾或傳輸損失。對于視覺模態,傳感器中的電子噪聲會導致細節丟失。此外,音頻模態可能因環境因素受到意外的扭曲。更糟糕的是,弱對齊甚至未對齊的多模態樣本也常見,這存在于更高級別的語義空間中。幸運的是,考慮多模態之間的相關性或更好地利用多模態數據可以幫助融合噪聲多模態數據。各種相關工作【16】【17】【18】表明,多模態模型超越了它們的單模態對應物。這可以歸因于多模態數據利用不同模態之間的相關性,識別和減輕潛在噪聲的能力。 多模態噪聲大致可以根據其來源分為兩類:1) 模態特定噪聲,來源于各個模態的傳感器錯誤、環境因素或傳輸;2) 跨模態噪聲,來源于未對齊的多模態對,可以被視為語義級別的噪聲。

不完整多模態學習

在真實應用中收集的多模態數據常常不完整,某些樣本的部分模態因意外因素(如設備損壞、數據傳輸和存儲損失)而缺失。例如,在面向用戶的推薦系統中,瀏覽行為歷史和信用評分信息可能并不總是對某些用戶可用【48】。同樣地,雖然結合多種模態的數據,例如磁共振成像(MRI)掃描、正電子發射斷層掃描(PET)和腦脊液(CSF)信息,可以為阿爾茨海默病提供更準確的診斷【49】【50】,但由于PET掃描的高測量成本和CSF的不適感侵入性測試,一些患者可能拒絕進行這些檢查。因此,在阿爾茨海默病診斷中常見不完整的多模態數據【51】。通常,傳統的多模態學習模型假設多模態數據的完整性,因此不能直接適用于部分模態缺失的情況。針對這一問題,旨在探索具有部分缺失模態的不完整多模態數據的信息的不完整多模態學習出現,并在近年來獲得了越來越多的研究關注【52】。在本節中,我們主要關注不完整多模態學習研究的當前進展。從是否對缺失數據進行插補的角度來看,我們將現有方法分為兩大類,包括基于插補的和無插補的不完整多模態學習,其中基于插補的方法進一步分為兩組,如圖2所示,包括實例和模態級別的插補。 平衡多模態學習

不同的模態之間緊密相關,因為它們從不同的視角描述同一概念。這一屬性激發了多模態學習的興盛,其中多種模態被整合,旨在增強對相關事件或對象的理解。然而,盡管存在自然的跨模態相關性,每種模態都有其獨特的數據來源和形式。例如,音頻數據通常表現為一維波形,而視覺數據則由像素組成的圖像構成。一方面,這種差異賦予了每種模態不同的屬性,如收斂速度,然后使得同時處理和學習所有模態變得困難,給聯合多模態學習帶來了難度。另一方面,這種差異也反映在單模態數據的質量上。盡管所有模態描述相同的概念,它們與目標事件或對象相關的信息量不同。例如,考慮一個標有會議的音視覺樣本,視覺數據明顯顯示了會議的視覺內容,這很容易被識別(見圖1c)。而相應的音頻數據是嘈雜的街道汽車聲,很難與會議標簽建立聯系。視覺模態的信息量顯然比音頻模態多。由于深度神經網絡的貪婪本性【9】,多模態模型傾向于僅依賴具有充足與目標相關信息的高質量模態,同時對其他模態欠擬合。為了應對這些挑戰并提高多模態模型的效能,最近的研究集中于策略上,以平衡模態之間的差異并增強模型的整體性能。 動態多模態融合

當前的多模態融合方法常基于一種假設,即多模態數據的質量是靜態的,這在現實世界場景中并不總是成立的。處理具有動態變化質量的多模態數據是多模態智能系統不可避免的問題。由于意外的環境因素和傳感器問題,一些模態可能會遭受可靠性差和丟失任務特定信息的問題。此外,不同模態的質量會根據場景動態變化,如圖5所示。這一現象激發了一種新的多模態學習范式,即動態多模態融合,其目標是適應多模態數據質量的動態變化并有選擇性地整合任務特定信息。在本節中,我們關注動態多模態融合的挑戰,并將當前文獻中的進展分類為三個主要方向,包括啟發式、基于注意力和意識到不確定性的動態融合。

付費5元查看完整內容

近年來,大型語言模型(LLM)的集成徹底改變了機器人技術領域,使機器人能夠以類似人類的熟練程度進行交流、理解和推理。本文探討了LLM對機器人學的多方面影響,討論了利用這些模型的關鍵挑戰和機遇。通過對LLM在機器人核心元素——通信、感知、規劃和控制中的應用進行分類和分析,我們旨在為尋求將LLM集成到其機器人系統中的研究者提供可行的見解。

我們的研究主要集中在GPT-3.5之后開發的LLM上,主要是基于文本的模式,同時也考慮了用于感知和控制的多模態方法。我們提供全面的指導原則和示例,以便初學者能夠輕松接觸基于LLM的機器人解決方案。通過教程級別的示例和結構化的提示構建,我們展示了如何將LLM引導的增強功能無縫集成到機器人應用中。本綜述為研究人員在不斷發展的LLM驅動的機器人技術領域中的導航提供了路線圖,提供了全面的概述和實用的指導,以利用語言模型在機器人開發中的潛力。

在過去的十年中,我們見證了機器人學領域在應用語言模型(LMs)方面取得了顯著的進展。這些進展不僅包括類似人類的交流能力,還包括機器人的理解和推理能力,從而顯著提高了它們在從家庭雜務到工業操作等各種任務中的效率。在早期工作中,這些成功源于統計模型分析和預測語言表達中的詞匯。這些模型使機器人能夠解釋人類命令,理解上下文,表征世界,并與人類互動,盡管理解的深度有限。隨后,采用了具有自我注意機制的Transformer架構,尤其是像BERT這樣的預訓練語言模型,提高了捕捉復雜模式的能力,同時為特定任務進行微調。然而,這些模型的性能通常取決于有限的數據集,限制了它們把握更深層次上下文理解和在不同場景中泛化的能力。

隨著大型語言模型(LLMs)的發展,基于語言的機器人引入了各個領域的創新變化,如信息檢索、推理任務、環境適應、持續學習和改進等。這些LLMs,以其龐大的參數規模和在互聯網規模數據集上的訓練為特征,為下游任務提供了零次和少次學習能力,而不需要額外的參數更新。這些顯著的進步來自于文獻中定義為“在小模型中不存在但在大模型中出現的能力”的突現能力。這些能力顯著增強了機器人在理解、推斷和響應開放式指令方面的性能,利用了廣泛的常識知識。此外,稱為提示工程的提示創建技術使LLMs能夠通過自由形式的語言描述或互動對話,整合更豐富的上下文信息,促進了泛化推理。引入上下文學習能力使LLMs能夠根據提供的指示或示例中的提示生成預期格式的輸出,如JSON、YAML或PDDL,甚至代碼。最近的LLMs,如GPT-4,通過與外部機器人工具(如規劃器或翻譯器)的整合,進一步擴展了能力。

盡管LLMs具有多樣的能力,但它們的利用面臨幾個挑戰。首先,LLMs經常生成不準確或意外的響應。由于機器人執行的安全性是最重要的部署因素,基于LLM的機器人應用需要過濾和糾正機制以確保安全。其次,如上下文學習等突現能力尚不可預測且不一致。即使是對輸入文本的輕微更改也可能導致響應的不可預測變化。第三,精心設計的提示使機器人能夠有效地利用LLMs的能力,但缺乏支持機器人系統關鍵組件的系統化指導,阻礙了無縫集成。因此,我們需要研究LLMs在機器人中的逐部件參與,以了解其限制和安全性。 當前,各種綜述已開始探索LLMs與機器人的交集,主要關注LLM驅動的機器人應用或互動維度。然而,仍然存在在機器人系統的關鍵元素,包括通信、感知、規劃和控制方面提供全面評論和可操作見解的空白。此外,研究者們還在探索廣泛的預訓練大容量模型領域,稱為基礎模型,尋求跨模態Transformer模型的泛化能力。然而,這一廣闊領域涵蓋了廣泛的機器人學和多樣的方法論,使得新興研究者錯過深入的評論和指導。 在本文中,如圖1所示,我們旨在分類和分析LLMs如何增強機器人系統的核心元素,以及我們如何指導新興研究者在每個領域內整合LLMs,以促進智能機器人的發展。我們根據三個關鍵問題結構化本文: ? Q1: LLMs在每個機器人領域中如何被利用? ? Q2: 研究人員如何克服LLMs的集成限制? ? Q3: 在每個領域產生最低功能所需的基本提示結構是什么?

為了回答這些問題,我們專注于在引入GPT-3.5之后開發的LLMs。我們主要考慮基于文本的模式,但也審查了感知和控制領域的多模態。然而,為了進行深入審查,我們將調查限制在LLMs而非基礎模型上。 此外,我們提供了全面的提示工程指南和示例,旨在使初學者能夠訪問基于LLM的機器人解決方案。我們的教程級示例展示了如何通過引入四種類型的示例提示——對話提示用于互動定位,指令提示用于場景圖生成,計劃提示用于少次計劃,以及代碼生成提示用于獎勵生成——增強或替換機器人組件的基本功能。通過提供提示構建的規則和技巧,我們概述了生成預期格式輸出的良好設計提示的過程。這些原則確保了機器人應用中有效的LLM引導增強,無需參數調整。

本文的其余部分安排如下。第2節概述了機器人學中LMs和LLMs的歷史背景。第3節評審了LLMs賦能機器人通過語言理解和生成進行交流的方式。第4節調查了LLMs如何感知各種傳感器模態并推進感知行為。第5節和第6節分別組織了基于LLM的計劃和控制研究。在第7節中,我們提供了提示工程的全面指南,作為LLM在機器人中集成的起點。最后,第8節總結了這篇綜述。

付費5元查看完整內容

視頻生成是一個迅速發展的研究領域,由于其廣泛的應用范圍而獲得了重大關注。這一領域的一個關鍵方面是長時視頻的生成,這呈現了獨特的挑戰和機遇。本文呈現了對長視頻生成近期進展的第一個綜述,并將其總結為兩個關鍵范式:分而治之或時間自回歸。我們深入探討了每個范式中常用的模型,包括網絡設計和條件技術的方面。此外,我們提供了數據集和評估指標的全面概述和分類,這對于推進長視頻生成研究至關重要。以現有研究的總結結束,我們還討論了這一動態領域中出現的挑戰和未來方向。我們希望這篇綜述能成為長視頻生成領域的研究人員和實踐者的重要參考。

//www.zhuanzhi.ai/paper/6fcdf09712b06f301551fccf2dc693f8

計算機視覺和人工智能領域經歷了變革性的增長,特別是在視頻生成領域。最近,開發出能夠產生高質量和逼真視頻序列的算法激增。值得注意的是,長視頻的生成,以其延長的持續時間和復雜的內容為特征,為社區提出了新的挑戰并激發了新的研究方向。

盡管如此,關于長視頻生成的研究仍存在差距。當前研究中的一個缺口是缺乏長視頻的標準定義。長短視頻之間的區別通常依賴于不同工作中的相對度量,如幀數(例如,512,1024或3376幀)或持續時間(例如,3、5分鐘),與較短視頻(例如,30、48或64幀)相比。考慮到研究標準的多樣性,我們在圖1中總結了現有研究中聲稱的長視頻生成的視頻長度,基于此我們提出了長視頻的定義。具體而言,如果視頻的持續時間超過10秒,假設標準幀率為10fps,或者等價地,如果視頻包含超過100幀,則將視頻分類為“長”視頻。這一定義旨在為各種研究背景中長視頻的識別提供一個明確的基準。

根據這一定義,長視頻長度已取得顯著進展。Yin等人(2023)提出了一種分而治之的擴散結構,專門針對長視頻進行訓練,以消除推理和訓練之間的差距,成功生成長達1024幀的視頻。Zhuang等人(2024)利用大型語言模型(LLM)的強大能力,將輸入文本擴展為腳本,以指導生成分鐘級長視頻。最近,Sora(OpenAI,2024)實現了高保真且無縫生成長達一分鐘的長視頻,特色包括多分辨率和鏡頭轉換等高質量效果。此外,許多杰出的研究在現有視頻生成模型上引入了新的結構和思想,為長視頻生成鋪平了道路。

即便如此,長視頻的生成仍面臨諸多挑戰。其核心是,長視頻的固有多維復雜性對處理和生成的硬件資源提出了巨大的需求,導致訓練和生成成本在時間和資源上的顯著增加。這提出了在現有資源約束下生成長視頻的挑戰。此外,長視頻數據集的稀缺性未能滿足訓練要求,阻止研究人員直接獲得支持長視頻模型生成的最優參數。在這種情況下,當生成的視頻長度超過某些閾值時,難以保持長視頻生成的時間一致性、連續性和多樣性。此外,當前研究表面上出現了幾種偏離現實世界既定物理定律的現象,提出了尚未被現有方法理解或直接操縱的未預見挑戰。因此,長視頻生成研究仍處于早期階段,有許多挑戰待解決,需要進一步的探索和發展。 在這項綜述中,我們對長視頻生成的現有研究進行了全面調查,旨在提供當前發展狀態的清晰概述,并為其未來進展做出貢獻。本文其余部分的組織概述在圖2中。最初,我們在第1節中定義了長視頻持續時間。第2節討論了四種不同類型的視頻生成模型和控制信號。根據第1節和第2節,我們在第3.1節和第3.2節中分別介紹了簡化長視頻生成任務的兩種常見范式:分而治之和時間自回歸。第4節和第5節討論了視頻質量改進和硬件要求。最后,本文以長視頻生成的總結和對新興趨勢及機會的討論結束。

我們詳細介紹了四種流行的視頻生成模型,包括擴散模型、自回歸模型、生成對抗網絡(GAN)和掩碼建模。 擴散模型用于視頻生成,采用了傳統擴散技術的迭代細化過程,這些技術最初是為靜態圖像設計的(Ho等,2020),適應了視頻的動態領域。這些模型的核心是從一系列隨機噪聲開始,通過一系列步驟逐步去噪,以生成一個連貫的視頻序列。每一步都由學習到的梯度指導,這些梯度能夠基于單個幀的空間內容及連續幀之間的時間關系預測性地去噪。這種方法允許生成的視頻不僅每一幀在視覺上與其前序幀一致,而且還有助于整個序列的流暢性。 在視頻生成中,空間自回歸模型(Alex Graves,2013)采用了一種獨特的方法,通過基于補丁的方法合成內容,每個補丁的創建依賴于與之前生成的補丁的空間關系。這個過程類似于遞歸算法,一次生成一個補丁。因此,它一幀一幀地構建視頻,直至完成。在這個框架內,補丁之間的空間關系至關重要,因為每個后續補丁必須與其鄰居無縫對齊,以確保整個幀在視覺上的連貫性。這種方法利用了視頻內容中固有的空間依賴性,確保視頻在時間上進展時,每一幀都與其前序幀保持一致和連續,不僅僅是在時間上,也在空間上。 GAN(生成對抗網絡)(Creswell等,2020)在使用GAN進行視頻生成的過程中,從生成器開始,將簡單的噪聲模式轉換為一系列視頻幀。這個本質上隨機的噪聲作為視頻制作的初始空白狀態。通過神經網絡的層,生成器逐漸將這個噪聲塑造成看起來像視頻幀的圖像,確保每一幀邏輯上緊跟上一幀,創造平滑的動作和可信的敘述。 這種從噪聲到視頻的演變通過來自鑒別器的反饋進行精煉,鑒別器是一個判斷生成的視頻看起來是真實還是假的組件。生成器從這個判斷中學習,隨著時間的推移提高其產生更逼真視頻的能力。最終目標是生成的視頻與真實視頻無法區分,并展示自然的動作和過渡。 掩碼建模在視頻生成中,掩碼建模利用了選擇性遮蓋視頻幀部分區域以增強模型學習過程的概念。這種技術通過在視頻的某些段落應用掩碼開始,有效地在訓練期間將它們隱藏起來。模型隨后學習基于可見的上下文和視頻的時間流動來預測這些遮蓋的部分。這個過程不僅迫使模型理解視頻內容的基本結構和動態,還提高了其生成連貫和連續視頻序列的能力。通過在部分可見數據上進行迭代訓練,模型變得擅長填補缺失的信息,確保生成的視頻保持場景和動作的自然進展。 長視頻生成范式

在長視頻生成的領域中,有限的計算資源的挑戰以及現有模型直接生成顯著持續時間視頻的能力不足,導致提出了兩個不同的范式:分而治之和時間自回歸,如圖3所示。這些范式旨在將長視頻生成的復雜任務解構為更易管理的過程,專注于創建單個幀或短片段,這些片段可以邏輯上組裝以完成長視頻的生成。 分而治之范式首先通過識別概述主要敘事的關鍵幀開始,然后生成介于關鍵幀之間的幀,以編織出一個連貫的長視頻。另一方面,時間自回歸范式,也簡稱為自回歸,采用序列方法基于先前條件生成短視頻段。這一范式旨在確保片段之間的流暢過渡,從而實現連續的長視頻敘述。與分而治之采取層次化方法通過區分故事線關鍵幀和補充填充幀不同,時間自回歸范式放棄了層次結構,轉而專注于直接生成由前序幀信息指導的詳細片段。 在這一部分,討論集中在兩個范式上,考察當前研究如何策略性地將長視頻生成任務簡化為更小、更易管理的任務。此外,它還突出了現有模型是如何被用于生成的,這些輸出隨后被組裝成完整的視頻敘述。

結論與未來方向

本文提供了長視頻生成領域最新研究進展的全面回顧。我們系統地回顧了四種視頻生成模型,并深入探討了基于這些模型生成長視頻的范式,將它們歸類為兩大類型:分而治之和自回歸。此外,我們的工作包括了長視頻生成質量特性的綜合總結。為旨在增強這些質量的現有研究提供了詳細解釋。還討論了聚焦于資源需求解決方案的研究。為了進一步推進該領域,我們識別了幾個未來發展的有希望方向。 數據資源擴展現有方法面臨著在訓練長視頻生成模型時由于長視頻數據集資源不足的挑戰,這些數據集未能滿足通過訓練數據獲得最優模型參數的要求。因此,這導致了如長視頻生成不連貫和內容重復等問題。為了解決這一問題,Gu等人(2023)提出了一種使用大型語言模型并轉換現有視頻內容以擴展數據集的方法,有效解決了數據稀缺問題。未來的研究可以探索更有效的方法來豐富長視頻數據集。 統一生成方法的開發長視頻生成的現有范式被總結為兩大類:分而治之和自回歸。雖然它們能夠利用現有模型生成長視頻,但每種方法都有其缺點。具體而言,分而治之受制于長視頻訓練數據集的稀缺性,需要顯著的生成時間,面臨在長時間跨度上預測關鍵幀的挑戰,且關鍵幀的質量顯著影響填充幀的質量。自回歸傾向于累積錯誤,并在多次推斷后遭受內容退化。總體而言,每種范式都有其優勢和弱點。未來的研究可能旨在開發一種高質量的統一范式,整合兩種范式的優勢以解決它們各自的局限性。 具有靈活長度和寬高比的生成當前的研究主要側重于訓練和創建具有預定尺寸的長視頻內容。然而,對多樣化視頻內容和模擬現實世界的日益增長的需求,要求生成具有可變長度和寬高比的視頻。Sora(OpenAI,2024)和FiT(Lu等人,2024)在這一領域取得了進展,Sora實現了靈活視頻大小的生成,FiT在圖像生成的兩個維度上展示了適應性。未來的研究可能會強調改善視頻生成的靈活性,旨在提高生成模型在現實世界設置中的適用性,并進一步激發視頻內容利用的創新。 超長視頻的生成在圖1中描述的調查中,現有研究中長視頻的最長持續時間為1小時(Skorokhodov等人,2022)。然而,在現實生活中,如電影和駕駛模擬中,視頻持續時間通常為90分鐘甚至更長。我們將這些稱為“超長視頻”。因此,未來的研究可以集中于生成超長視頻,并解決隨著持續時間延長而出現的視角轉換、角色和場景發展以及動作和情節豐富化的挑戰。 增強的可控性和現實世界模擬在長視頻生成中,當前模型在生成過程中和內部操作像黑盒一樣,使得理解錯誤的原因(如違反物理定律的錯誤,由Sora(OpenAI,2024)展示)變得具有挑戰性。現有解決方案缺乏對問題起源的洞察以及直觀、可控的補救措施。因此,需要新的方法和技術來增強我們對生成模型的理解和控制,使它們更適合于現實世界的應用。

付費5元查看完整內容

近期在基礎模型上的發展,如大型語言模型(LLMs)和視覺-語言模型(VLMs),它們基于大量數據訓練,促進了跨不同任務和模態的靈活應用。它們的影響覆蓋了多個領域,包括健康護理、教育和機器人技術。本文提供了基礎模型在現實世界機器人應用中的概覽,主要強調在現有機器人系統中替換特定組件。總結包括了基礎模型中輸入輸出關系的視角,以及它們在機器人技術領域內的感知、運動規劃和控制中的作用。本文最后討論了實際機器人應用面臨的未來挑戰和含義。

近期在人工智能領域的進步顯著擴展了機器人的操作能力,使它們能夠承擔多種多樣的活動【1-5】。雖然最初機器人的部署主要限于大規模生產環境【6-11】,但現在工業機器人的適用性已經擴展到小批量和高多樣性生產領域,包括室內空間和災難現場【12-15】。這種擴散不僅僅限于環境多樣性的增加;它還擴展到了任務范圍的擴大,包括日常活動,如整理【16-18】、洗滌【19,20】、擦拭【21,22】和烹飪【23,24】。機器學習為滿足這些機器人系統的需求提供了一種方式。然而,僅僅在特定領域數據上訓練每個模型對于多樣的機器人、任務和環境來說是不夠的。越來越多地需要開發可以使用單一的、預訓練的系統或模塊應用于各種機體、任務和環境的機器人。 解決這一挑戰的一個方案是引入基礎模型【25】。基礎模型是在大量數據上訓練的模型,可以通過上下文學習、微調或甚至零樣本的方式輕松應用于廣泛的下游任務【26,27】。顯著的例子包括大型語言模型(LLMs)如GPT【27】和視覺-語言模型(VLMs)如CLIP【28】,其中語言是結合各種類型模態的粘合劑。這些基礎模型的影響是顯著的,有幾篇綜述文章討論了它們在不同領域的影響【29-32】。Wang等人【29】和Zeng等人【30】進行了關于大型語言模型在機器人學中應用的綜述,而Firoozi等人【31】和Hu等人【32】進行了更廣泛的綜述,關注于基礎模型在機器人學中的應用。在本文中,我們總結了基礎模型對現實世界機器人的適用性,旨在加速它們在實際機器人應用中的采用。與其他綜述文章相比,我們提供了如何從基礎模型的輸入輸出關系以及機器人學中的感知、運動規劃和控制的角度,用基礎模型替換現有機器人系統中的特定組件的總結。 本研究的結構如圖1所示。在第2節中,我們將描述基礎模型本身。特別地,我們將根據它們使用的模態類型,例如視覺【33,34】、語言【35-41】等,以及它們可以應用的下游任務類型進行分類。在第3節中,我們將基于當前應用【2,3,42】描述如何將基礎模型應用于機器人學。一般來說,機器人需要配備感知模塊、規劃模塊和控制模塊。從這個角度,我們分類了可以將基礎模型應用于現實世界機器人學的方式,包括低級感知、高級感知、高級規劃和低級規劃。此外,我們還將解釋在訓練直接連接低級感知和低級規劃的映射時,對機器人學的數據增強。在第4節中,我們將描述包括機器人實體在內的基礎模型,即機器人基礎模型,包括關于如何就模型架構、數據集和學習目標制作這些機器人基礎模型的討論。在第5節中,我們將描述使用基礎模型的機器人、任務和環境。我們將任務分類為導航、操縱、帶有操縱的導航、運動和交流。最后,我們將討論未來的挑戰并提出我們的結論。

“基礎模型”一詞最初在【25】中被引入。在這項綜述中,我們將簡單描述在機器人應用中使用的基礎模型的類型,以及下游任務,將關于基礎模型本身的討論推遲到【25】。在2012年,深度學習因ILSVRC-2012比賽的獲勝模型而獲得機器學習社區的主流關注【43】。2017年,由【44】介紹的Transformer模型,促進了自然語言處理(NLP)【45】和計算機視覺【46】領域的重大進步。到2021年,一個經過大量數據訓練、能夠輕松應用于廣泛下游任務的模型被稱為“基礎模型”【25】。基礎模型的特點主要有三個:

上下文學習 * 規模定律 * 同質化

上下文學習使得僅用幾個例子就能完成新任務成為可能,無需重新訓練或微調。規模定律允許隨著數據、計算資源和模型大小的增加而持續提升性能。同質化允許某些基礎模型架構以統一的方式處理多種模態。 在這一章中,我們從在機器人學中的適用性的角度對基礎模型進行分類。機器人利用基礎模型的最關鍵標準是選擇使用哪些模態。本章從語言、視覺、音頻、3D表示和各種其他模態的角度討論了基礎模型的類型和它們可以執行的下游任務。在利用每種模態的背景下,我們進一步從網絡輸入和輸出的角度對基礎模型進行分類。概覽顯示在圖2中。請注意,我們的目標不是在這里全面覆蓋基礎模型;我們的重點仍然在于解決模態差異和基礎模型的分類。

通常,機器人的行為由感知、規劃和控制組成。在本研究中,我們將感知分為兩個類別:低級感知和高級感知。同時,我們將規劃和控制分別稱為高級規劃和低級規劃。加上對學習這些組成部分的數據增強,我們將機器人對基礎模型的利用分為以下五個類別。 * 低級感知 * 高級感知 * 高級規劃 * 低級規劃 * 數據增強

這些類別之間的關系如圖3所示。用于低級感知的基礎模型包括在圖像或3D表示中的語義分割和邊界框提取,以及在各種模態中的特征提取。用于高級感知的基礎模型涉及將從低級感知獲得的結果轉換和利用成如地圖、獎勵和運動約束等形式。用于高級規劃的基礎模型執行更高級別的抽象任務規劃,不包括直接控制。用于低級規劃的基礎模型執行較低級別的運動控制,包括關節和末端執行器控制。用于數據增強的基礎模型在執行連接低級感知和低級規劃的學習時,通過數據增強增強魯棒性。 在實踐中,通過組合這五種利用方法創建了各種應用。主要分為四種類型,如圖4所示。 (i) 進行低級感知,然后用高級規劃規劃行為。 (ii) 通過低級感知和高級感知提取獎勵和運動約束,并用于強化學習和軌跡優化。 (iii) 通過低級感知和高級感知生成地圖、場景圖等,并將它們作為任務規劃的基礎。 (iv) 使用數據增強,穩健地進行直接關聯低級感知的特征提取和控制輸入的端到端學習。 值得注意的是,也有一些研究方法不適用于這一框架。 從這些角度出發,我們選取了幾篇具有代表性的論文并在表1中進行了總結。

付費5元查看完整內容

本文介紹了生成式人工智能(Generative Artificial Intelligence)在虛假信息(數字化社會的主要威脅之一)背景下可以發揮的作用。提出了一個研究框架,用于為虛假信息模擬生成定制的基于智能體的社交網絡,從而在討論公開挑戰的同時理解和評估這些現象。

生成式人工智能(GenAI)的出現從根本上重塑了數字內容創作領域,影響了我們制作圖像、視頻、音頻和文本的方式。目前,人工智能模型可以根據簡單的語言提示所提供的語境制作出非常逼真的內容。GPT-4 (OpenAI)、Claude (Anthropic)、PaLM 和 LaMDA (Google)、LLaMA (Meta AI)、Chinchilla (Deep Mind) 和 Alpaca (Stanford) 等出色的 LLM 極大地增強了根據給定上下文生成文本的能力。同樣,DALLE 2(OpenAI)、Stable Diffusion(Runway)和 IMAGEN(Google)等圖像生成模型也引入了一種新方法,用于創建能準確描繪現實生活場景的圖像。值得注意的是,Phenaki(谷歌)和 Gen-2(Runway)等文本到視頻模型也取得了重大進展[1]。

這些生成技術配備了開源模型和可訪問的界面,對編程、娛樂、教育和藝術等一系列領域的生產力產生了積極影響。在學術和研究領域,特別是對社會科學家而言,這些工具為創建逼真的內容、模擬人類行為或定制行為實驗提供了新的機會[2]。大型企業和大學最近進行的試驗凸顯了這些人工智能工具在自我指導生活模擬、開放世界實驗、心理研究和社會模擬等領域的潛力[3]。

在這種情況下,我們不難認為 GenAI,尤其是大型語言模型(LLMs),是應對當今社交媒體中出現的主要威脅之一(即虛假信息)的有力武器。也就是說,惡意實體利用社會網絡的超級連接性,故意傳播虛假或誤導性信息,欺騙或操縱人們的信仰、觀點或行動。最近的研究表明,這些欺騙技術在社交媒體中非常有效,例如在政治選舉中[4]。

在本研究中,將深入探討 LLMs 作為一種創新方法在受控實驗環境中理解、模擬和評估虛假信息的潛力[5]。在傳統背景下,虛假信息主要圍繞假新聞傳播和影響的理論建模,以及利用社交媒體數據進行檢測和評估。這一領域要解決幾個問題,包括審查事件的復雜性,因為沒有真相基線來確認影響活動的目標、策略和參與者;缺乏各種操縱行為的標記數據集;在第三方平臺測試技術對策的不可行性;或必須有人參與才能衡量欺騙活動的認知影響[6]。

反之,LLM 正被用于用體現人類行為的智能體來真實地統治系統,取代數學模型和靜態實驗[7]。這一進步為創建控制信息交換的上下文、用戶和功能的任何信息環境打開了大門,導致基于智能體的生成式社會網絡成為沙盒。在這些受控場景中,可以對紅色智能體進行編程,以模擬定制的虛假信息攻擊,從而進一步分析其演變過程和對個體網絡的影響。因此,我們認為 LLM 有可能緩解虛假信息領域的一些普遍挑戰。本文深入探討了研究機會,并指出了實現這些設想目標所面臨的尚未解決的突出挑戰。

研究機會

隨著 GenAI(特別是 LLMs)的進步,本文闡明了這些技術在社交媒體和虛假信息研究方面的潛在研究機會。

O1. 基于智能體的生成式社會網絡

基于智能體的社會系統的創建涉及開發和實施計算模型,模擬社會背景下個體的互動和行為[2]。這些系統通常旨在模擬真實世界的社會動態,從而探索和分析復雜的社會現象[7]。

傳統的智能體系統雖然有助于模擬社會動態,但也存在局限性。它們依賴于預定義的規則,這限制了它們模擬現實世界中不可預知性的能力、適應性和可擴展性。然而,LLM 可以增強這些智能體的自主性,讓它們在預設規則的范圍之外做出獨特的反應或行動,從而使模擬更加動態和逼真[3]。此外,它還能模擬錯綜復雜的決策過程或實現 OODA(觀察、定向、決策、行動)循環,使智能體能夠對廣泛的情況和互動做出反應。

LLM 為模擬任意數量的用戶和創建逼真的有機互動提供了一個獨特的機會,這項任務在過去具有相當大的挑戰性,但如今卻可以生成基于智能體的社會網絡。人工智能驅動的智能體具備適應流動場景的能力,能產生連貫、多變和逼真的沙盒[8]。在圖 1 中,使用 GPT4 和三個隨機用戶啟動了一個模擬。從零開始,在沒有任何背景的情況下,每個智能體都能感知模擬的社交網絡,保留其感知和行動的記憶,并據此進行互動或發布內容,從而更新模擬環境。

圖 1. 由 GPT-4 管理的三個智能體用戶的合成社交線程

O2. 可定制的虛假信息環境

基于生成式智能體的社交網絡為再現量身定制的情境(如虛假信息情境)提供了重要機會[9]。這一過程可能涉及三個組成部分:智能體描述和屬性、共同語境信息和邏輯規則。

首先,智能體的描述和屬性是每個智能體個體行為的驅動力。這些因素千差萬別,可能包括智能體的網絡角色(人類用戶、組織或機器人)、背景、簡介、思想、社會人口特征和行為[6]。仔細定義這些屬性,就能產生多種多樣的智能體,準確地代表現實世界社交網絡中的用戶[8]。不僅可以模擬來自不同意識形態、國家或年齡的多樣化用戶,還可以模擬具有惡意目的的用戶,如制造爭議、進行非法互動以支持未經證實的主張或有機生成陰謀內容。關于惡意用戶,DISARM 框架可配置不同類型虛假信息攻擊的戰術、技術和程序(TTPs),例如,計劃戰略和目標、目標受眾分析、開發敘事和內容、建立社會資產和合法性、微目標和選擇渠道、提供內容、最大化曝光和在信息環境中持續存在。

此外,共同背景信息提供了塑造環境的更廣泛的社會和群體方面[10]。它包括事件、事實、社會經濟因素和其他影響智能體在網絡中的行為和互動的要素。例如,上個月失業率大幅上升,戰爭爆發,或由于假新聞的日益猖獗而導致社會兩極分化。此外,還可以誘導虛假信息傳播背后的因素,如情緒因素、不確定性、缺乏控制或偏見。多種變量和因素的結合有助于制作一個特定的真實場景,模擬虛假信息是如何傳播的。

同時,邏輯規則決定了信息環境的設置和運行,從而迫使這些復雜系統在真實世界中運行[7]。生成信息的數量和用戶參與互動的概率可以是高級參數,用于影響社交網絡的動態、影響力、擴散以及信息在網絡中共享和傳播的其他方面[11]。這些規則配置智能體的行為,從而影響社交網絡的整體動態。

考慮一個選舉舞弊場景。首先,定義智能體屬性,包括普通公民、政治活動家、散布虛假信息的機器人和官方選舉賬戶的特征,每個人都有獨特的特征和行為。這就為 LLM 所利用的每個用戶創建了特定的上下文。其次,LLM 在交互過程中還會考慮到背景信息,如選舉在即、潛在的投票違規行為和當前的政治氣候。最后,還設定了管理信息共享、影響確定和網絡對新信息的響應的邏輯規則,以編制模擬和 LLM 使用的工作流程。

O3. 評估虛假信息的影響

使用 LLM 和基于智能體的社會場景為在受控場景內研究虛假信息提供了一個難得的機會,這主要是由于在真實世界環境中評估這些攻擊的復雜性。具體來說,根據上述 DISARM 框架,虛假信息攻擊的最后階段是評估效果。

具體來說,虛假信息策略往往與常規信息流交織在一起,因此區分、隔離和分析其實際影響具有挑戰性。另一方面,模擬環境提供了一個安全可控的環境,可以引入和研究不同類型的虛假信息攻擊,而不受現實世界的相關限制[11]。它還為實驗新的欺騙理念提供了一個獨特的試驗場。事實上,從這些研究框架中可以生成合成的標注數據集,不過需要人工審核或半自動系統對其進行評估[12]。

此外,在虛擬沙盒中,可以調整和跟蹤各種變量,如 TTP、強度和操縱操作的性質,以及智能體的屬性和上下文。通過采用適當的框架和模型,可以估算出特定虛假信息策略的有效性。此外,還可以仔細研究智能體概況或情景背景等變量的影響[5]。

圖 3 展示了兩個智能體在面臨選舉舞弊威脅時的觀點演變過程,這兩個智能體分別是 40 歲的公民和憤怒的青少年。每個人一開始都對選舉結果有自己的看法。成人起初保持中立,盡管受到了虛假信息的干擾,但他仍然對系統抱有信心,因為他的觀點更加詳盡。相反,預先設定了憤怒情緒的青少年在與社交網絡互動后,反映更為簡單,并開始質疑選舉結果的合法性。這個例子表明,情緒狀態、年齡和對預期結果的確認偏差等因素會在很大程度上影響對虛假信息的易感性和觀點的改變。

圖 3. GPT-4對智能體意見管理中虛假信息的影響

O4. 技術反制措施測試

在基于智能體的社交網絡中,可以模擬并獨立配置針對虛假信息的技術反制措施(對策),而無需依賴大型公司[9]。DISARM 框架提出了應對技術措施,如內容靜音、刪除、限制相同內容的傳播率、創建競爭性敘述、實時事實核查或為內容添加元數據。也就是說,所有這些應對措施都可以在模擬中進行測試。

從這個意義上說,LLM 具有創建良性智能體的優勢,而這些智能體可以作為打擊虛假信息的有力輔助工具。這些智能體可以提供另一種說法,為誤導性信息添加上下文,根據可信度、情感或真實性對信息進行實時檢查,并利用其分類能力標記可疑內容[12]。在圖 4 中,我們命令 GPT-4 模擬對第一條投票舞弊信息進行事實檢查,并為巨魔帖子添加上下文橫幅。此外,它還會根據情感和真實性對每條信息進行分類。兩個智能體的意見不再受到有關選舉的陰謀論的干擾,在兩種情況下都對民主結果保持信心。

上述模擬緩解技術可在受控沙盒中進行評估,以證明其在虛假信息環境中的有效性。在沒有保護措施的情況下(圖 3)和有反制措施的情況下(圖 4),對智能體接觸虛假信息時的信念和反應進行比較,可以證明應對策略的有效性。從這個意義上說,事實核查、上下文信息和內容標記等保護機制消除了成年公民的不確定性或青少年表達的疑慮。此類比較研究可為制定更有效的反虛假信息戰略提供寶貴的見解。

圖 4. 在 GPT-4 管理的虛假信息環境中采取反制措施的效果

O5. 輔助個性化認知培訓

網絡安全意識和認知培訓為提高人類能力提供了解決方案,特別是在使用云、移動、物聯網和社交網絡等技術生成的復雜系統中,因為這些技術會產生海量信息。意識是一個在心理學中定義明確的概念,已成為多項研究的主題,旨在將其原理轉化到網絡安全領域。特別是,需要采取教育干預措施,在社交媒體和虛假信息場景中培養這種意識。通過評估安全指標,可以了解網絡安全的現狀,預測安全風險、潛在攻擊以及隨著時間推移可能產生的影響[9]。

在這種情況下,基于智能體的生成式社交網絡可以成為旨在改進社交媒體安全培訓和認知意識課程的教育框架的基礎。具體來說,現實世界中的受訓者可以在這些真實場景中學會識別誤導性信息、識別潛在偏見或辨別兩極分化的情況。此外,虛假信息環境可以由 LLM 支持,以適應特定個人或群體的需求,在培訓期間提供明確的幫助,并根據學生的行動、反應和表現,在網絡演練過程中允許一定程度的靈活性。

圖 5 顯示了 GPT-4 根據兩個不同用戶的個人需求量身定制的基于選舉舞弊的指導性培訓練習,這兩個用戶分別是第一次參加投票且不習慣使用社交媒體的青少年和每天在社交網絡上花費八小時的資深政治影響者。前者缺乏經驗,不了解政治話語的復雜性,可能尚未發展出批判性思維來辨別誤導性和情緒化的說法。后者意識到了政治的復雜性和當前的兩極分化,需要提高認識才能正確行事,避免進一步助長社會分裂。出于教育目的,該系統可以利用 LLM,在飛行過程中根據個人描述進行調整,提供實用的背景標語,并顯示精確的理論課程。這種適應性可確保實際情況的復雜性不斷變化,以應對學生在連續練習中回答問題時發現的挑戰,從而實現持續學習。

圖 5. 基于 GPT-4 的智能體對人類進行虛假信息培訓

開放性挑戰

如前所述,LLM 為推動虛假信息研究提供了令人興奮的機遇。此外,所述機遇可以映射到基于智能體的生成式社交網絡的高級框架中。具體來說,圖 6 所示的框架由五個相互關聯的模塊組成,每個模塊都具有一定的特性和功能。首先,"定義 "組件負責對組成框架的實體進行建模,然后在模擬環境中重新創建。也就是說,模擬塊包含模擬實體,即 LLM 驅動的智能體、社交網絡本身和虛假信息模塊,而虛假信息模塊又包括進攻和防御框架。值得注意的是,機會 O1 與生成智能體和社交網絡的模擬有關,而進攻框架則與機會 O2 綁定。然后,仿真模塊負責從認知、社會和防御角度評估模擬環境中的整體情況。在這里,認知和防御評估分別與機會 O3 和 O4 對應。最后但同樣重要的是,"開發 "模塊將該框架與其他有價值的工具連接起來,以充分發揮其潛力,并從不同角度讓人類行動者參與其中。在我們的設想中,這樣一個組件包含可視化模塊、社交媒體可視化界面、培訓平臺(即與機遇 O5 相關的網絡范圍)和實時網絡態勢感知(CSA)模塊。

事實上,圖 6 顯示了擬議概念框架與分析機會之間的緊密聯系。然而,將這些機遇整合到虛假信息領域也會面臨一些挑戰,需要認真考慮。圖 6 也突出顯示了這些挑戰,包括每個模擬實體。在本節中,將對主要挑戰進行細致描述,并添加提示以幫助研究人員解決這些挑戰,從而研究并在可能的情況下減輕數字環境中的虛假信息威脅。

圖 6. 基于智能體的生成式社交網絡的機遇與挑戰概念框架

C1. 智能體建模、模擬和評估

首先,對 LLM 驅動的智能體在虛假信息背景下的行為建模可以說是一個難題。事實上,這種建模應考慮與模擬智能體的不同個性有關的幾個方面。從這個意義上說,必須定義每個智能體的個人特征,如年齡、性別、興趣和個人信仰等。這些特征至關重要,可能會影響智能體在模擬社交網絡中的行為和態度,這一點已在前面有關研究機會的示例中說明。此外,每個智能體都應具備屬性和目標,并將利用這些屬性和目標做出決策、形成觀點以及與總體模擬進行交互。也就是說,還應考慮智能體的異質性,如不同程度的影響力、可信度和易受說服性。從這個意義上說,有效的提示設計對于溝通和塑造 LLM 驅動的智能體至關重要。特別是,最好能結合上下文信息來促進智能體的行為,并在提供極其具體的指示與允許創造性和動態性之間取得平衡。然而,由于 LLM 的內部過程是隨機的,因此以清晰、可解釋的方式設計和實施行為是一項艱巨的任務。

此外,模擬這些智能體也是一項挑戰。在圖 6 中,我們將模擬生成智能體與模擬環境進行持續互動。特別是,它們會感知來自社交網絡的一些信息,并因此根據自身特點采取行動。從這個意義上說,虛假信息研究中最重要的問題之一在于理解和模擬虛假信息是如何在社交網絡中傳播并影響個體的。從這個意義上說,將心理模型和認知理論整合到 LLM 中,為模擬和研究驅動人類接收、分析和傳播虛假信息的心理機制提供了一個難得的機會[9]。

一個明顯的例子是利用認知偏差來塑造生成智能體的個性,如確認偏差或可得性偏差[13],這將對研究人員大有裨益,他們將能夠重新生成與預先存在的信念或容易獲取的信息相一致的有機虛假信息內容。例如,可以對 LLM 進行編程,使其生成有說服力的虛假(或半真實)敘述,從而利用個人的確認偏差,強化其現有觀點,進而影響其決策過程。通過這種方式,該模型可以生成與特定目標受眾相呼應的量身定制的虛假信息,從而提高虛假信息被消費和傳播的總體概率。此外,LLM 還可以借助認知理論來識別人類決策過程中的漏洞。具體來說,法律信息模型可以模擬人類內在的認知限制或啟發式方法,例如有界理性(影響次優決策)或可用性啟發式方法(影響情感決策過程)。這樣,LLMs 就能生成威脅性的虛假信息,試圖利用這些弱點作為最終目標。舉例來說,虛假信息內容可以利用個人有限的注意力,使他們由于時間限制和缺乏詳盡的事實核查而更容易受到這種威脅。盡管如此,這些認知機制對智能體的模擬和行動的影響也應加以衡量(最好加以調整),以實現逼真的模擬。

C2. 社交網絡建模、模擬和監測

為了研究在虛假信息背景下使用 LLM 的情況,并在可能的情況下打擊這種現象,必須對現實的社交網絡進行模擬和建模。顯然,這些過程相當復雜,因為現代社交網絡包含一些固有特征,在模擬時需要特別注意。從這個意義上說,如圖 6 所示,信息環境是概念框架的核心組成部分。具體來說,它與智能體雙向互動(通過通知相關社會事件和接收更新),并從紅色框架(注入虛假信息)和藍色框架(通過部署技術對策保護信息生態系統)獲得輸入。

特別是,研究人員應設計和開發有意義的模型,模擬用戶互動和交流模式,以捕捉社交網絡的復雜性[7]。開發包含互動、推薦、傳播和社會影響動態的代表性社交網絡模型,對于準確模擬虛假信息在社區內的傳播至關重要。這項任務主要包括分析以下內容:

  • 直接交流: 捕捉用戶如何通過消息、評論或直接互動進行直接交流。這一特征反映了社交網絡中的個人聯系和對話。
  • 信息共享: 模擬用戶之間如何共享和傳播(非)信息。這包括在網絡中分享鏈接、文章或任何其他內容。
  • 用戶參與: 捕捉用戶對不同類型內容的參與。這包括用戶與不同帖子、評論或討論的互動。

顯然,所有這些事件都應通知到智能體,由其感知信息并動態調整自己的行為,從而執行相應的操作。在這一循環中,強迫智能體采取特定的微調行為顯然是復雜的,尤其是考慮到復雜的社交網絡中同時存在大量事件和多個模擬用戶。另一方面,信息環境是紅色框架的目標,例如,根據 DISARM 分類法生成虛假信息。當然,這種威脅也可能是由參與社會環境的 LLM 智能體產生的。在這種情況下,模擬網絡應能適應虛假信息的注入,修改上述用戶之間的互動和交流模式。此外,作為虛假信息活動的后果,藍色框架會部署技術反制措施。從這個角度看,社交圖譜也應能夠根據所選反制措施的性質進行動態調整。

最后但并非最不重要的一點是,必須研究和評估虛假信息的擴散和放大,如影響力和回音室。更具體地說,信息擴散是指信息通過社會網絡從一個實體傳播到另一個實體的過程。就虛假信息研究而言,評估虛假信息內容如何在社交網絡中傳播和放大尤為重要。要實現這一宏偉目標,考慮到大量用戶和關系,每當發起虛假信息活動時,監控整個社交圖譜的狀態至關重要。

C3. 虛假信息建模、模擬和評估

要充分利用虛假信息研究的能力,可以說,對虛假信息活動進行建模和模擬是該框架的核心要素。然而,從設計和技術角度來看,這些過程都具有挑戰性。

從第一項任務開始,虛假信息建模顯然是文獻中眾所周知的研究課題。然而,正如圖 6 所示,它與智能體之間的關系也提供了巨大的研究機會和挑戰。具體來說,設計虛假信息攻擊和反制措施至關重要,因為它們應該在社交網絡中真實模擬,以研究其動態并衡量其影響。一方面,必須確定虛假信息攻擊的主要目標和范圍。在這方面,所涉及的人群(及其內在屬性)、目標社交渠道和攻擊持續時間對于創建一個逼真的模型至關重要。一旦確定了目標,該模型就應能夠創建與目標相一致的虛假信息內容,同時考慮到信息的含義(如文章、帖子等)和信息本身(如語氣、風格等)。在這一階段,DISARM 框架可以幫助塑造虛假信息攻擊,此外,還可以使模型具有可復制性,并隨時與研究界共享。

另一方面,我們也考慮了防御的觀點,因為我們相信模擬智能體可以成為部署反制虛假信息攻擊的主要行動者。與紅色框架相反,藍色框架無法與通用框架聯系起來,因此,除傳統的事實核查、媒體審查、內容刪除等措施外,提出更多的應對措施也是這一過程的挑戰之一。一旦正確建模,就必須在社交網絡中模擬防御行動,以便可能發現智能體的行為差異和反應,例如,反制措施有效,智能體理解了虛假信息攻擊,或者相反,他們拒絕反制措施,信任虛假信息宣傳。觸發臨時和無代理反制措施的可能性也很吸引人,以便觀察是否出現任何社會動態變化。

建模和模擬階段結束后,評估社會圖譜中虛假信息攻擊和反制措施的有效性或低效性至關重要[14]。要實現這一目標,第一站就是創建有意義的指標,以衡量其對生成智能體的行為和動態的影響。例如,從個體和群體的角度評估不同的虛假信息攻擊(如針對不同主題、具有不同模式等)對智能體的感知和隨之采取的行動的影響將是有益的。從這個意義上說,要完成這項任務顯然是很困難的,這主要是由于社會互動的復雜性、行為模擬的多樣性以及可能的攻擊等等。同樣,每當啟動一項反制措施時,系統都需要對其有效性進行監控和評估。即使在這種情況下,社交網絡的內在特性也會使任務更加艱巨。此外,可以說不同的反制措施(如社區標簽、事實核查等)會對社交互動產生不同的影響,從而增加了評估過程。然后,應評估攻擊-防御模式的效果。具體來說,一旦虛假信息攻擊和補救措施的模型和模擬都取得成功,交替執行不同模式的紅藍任務就值得關注。

結論

本文討論了 LLM 對虛假信息研究的影響。從生成可定制的虛假信息環境,到基于這些環境對用戶進行意識培訓,有許多研究方向可能真正具有開創性。不過,文獻也指出了使用這些技術的一些倫理問題。其中有些是很普遍的問題,比如將其用于欺騙目的或傳播社會偏見[14],而另一些則可能是虛假信息領域特有的問題,比如它有可能將這項研究武器化。

一般來說,使用 LLMs 存在固有風險。正如由專家和公眾人物簽署的《人工智能風險聲明》所反映的那樣,欺騙性風險是多方面的、復雜的。這對社交工程、社交媒體和認知安全的影響尤為明顯,這些領域由于依賴數字內容和用戶的內在信任而十分脆弱。主要威脅可能包括人工智能驅動的魚叉式網絡釣魚、深度假冒、大規模虛假信息活動或人工智能驅動的系統漏洞利用[15]。生成性誤用能夠為欺騙目的制造超逼真的內容,對網絡生態系統構成新的威脅[14]。其危險性在于它們不僅能制作逼真的內容,還能制作符合語境和針對受眾的內容,從而增加成功欺騙的可能性。2023 年 6 月的一個案例是普京令人信服的深度偽造視頻,其目的是虛構烏克蘭入侵俄羅斯領土的動員信息,并成功滲入主流新聞頻道。更具體地說,這項研究的潛在發展也可用于負面目的,例如將模擬環境與真實社交網絡連接起來,以策劃虛假信息宣傳活動,或分析哪種虛假信息攻擊能對某些總統候選人的投票產生最大影響。

這種緊張關系經常出現在適用雙重用途困境的研究場景中,例如在網絡安全方面,研究網絡攻擊以找到適當的防御方法,或試驗可用于治療的新藥物。因此,考慮到目前存在的倫理問題,在這種背景下開展的研究應仔細論證,并以有益于社會的應用為目標,例如調查技術或人為對策的效果,以減少虛假信息的傳播,或開發提高認識的培訓工具,以提高我們普通民眾的信息素養技能。最終,這些應用將需要被最終用戶所采用,因此,我們應采用以人為本的方法,并掌握使用這些工具所需的掃盲技能。

總之,本文認為,虛假信息和 LLM 是一個很好的組合,有許多潛在的研究應用,可以發展成為有影響力的工具。然而,技術、人類和倫理方面的挑戰也是巨大的,需要在未來十年開展前沿研究,以超越上述差距。如果研究得當,這項多學科研究將有助于對抗對 21 世紀社會構成重大威脅的虛假信息危險。

付費5元查看完整內容

機器學習已經被應用于越來越多影響我們日常生活的社交相關場景,從社交媒體和電子商務到自動駕駛汽車和刑事司法。因此,開發可信、可靠的機器學習方法至關重要,以避免對個人和社會產生負面影響。本文致力于理解和提升圖機器學習的可信性,由于圖數據的復雜關系結構,這提出了獨特的挑戰

特別地,我們認為機器學習模型的可信性在異常情況下是可靠的。例如,機器學習模型在對抗攻擊下或在子種群上的性能不應嚴重退化,分別對應對抗魯棒性或公平性問題。值得信任的圖機器學習的獨特挑戰是,在圖數據的上下文中有許多更復雜的,有時是隱式的異常條件。本文識別了未充分挖掘的異常情況,理解了識別出的異常情況下的預期模型行為,并改進了現有模型在此類異常情況下的行為。

重點關注圖神經網絡(GNN),這是一類流行的圖機器學習模型,利用了深度學習的最新進展。**本文確定了圖神經網絡的三種異常情況。**首先,受社交網絡應用場景啟發,通過一個新的實際威脅模型研究了GNN的對抗魯棒性,并研究了GNN何時以及為什么會遭受對抗攻擊。發現現有的GNN對許多現實世界的圖數據可能會被錯誤指定,并開發了一個新的框架來改進現有的模型。發現了一種與節點結構位置相關的測試節點子種群之間的GNN預測的不公平性。本文還提出了一種主動學習框架來緩解不公平問題。

人工智能(AI),特別是機器學習(ML),已經作為一種通用技術融入人類社會1,有望在許多方面重塑我們的日常生活,從社交媒體和電子商務,到自動駕駛汽車和刑事司法。然而,盡管AI和ML帶來了巨大的經驗成功和商業價值,但要更廣泛地部署這些技術,需要更好地理解ML模型對社會的影響。因此,可信的ML成為了一個越來越受歡迎的研究方向。Trustworthy ML是一個概括性的概念,包括關于ML可靠性和透明度的各種主題,如公平性、魯棒性、可解釋性等。

例如,機器學習模型可能在特定子種群上的系統表現較差,這導致了公平性問題。因此,對機器學習公平性的研究興趣迅速增加。也有現實世界的ML應用程序證明了偏見和不公平:亞馬遜的人工智能招聘工具被發現具有性別偏見[37];一種曾經廣泛使用的犯罪預測工具,矯正罪犯管理分析替代制裁(COMPAS),被發現具有種族偏見[4]。另一個例子是,ML模型已被證明對添加到數據中的小的對抗性擾動很敏感,因此容易受到對抗性攻擊[136]。例如,最先進的計算機視覺模型可能通過停車標志[45]上看似隨機的涂鴉,將停車標志識別為限速標志。

由于相關主題的多樣性和我們對可信機器學習的科學理解的文獻歷史,社區自然發展出了一套相對被廣泛接受的可信性問題的概念類別,包括但不限于公平性、魯棒性、安全性、隱私、可問責性、可解釋性和因果性。雖然這種概念分類,像任何分類系統一樣,有助于簡化對該領域的理解,但有時也會產生誤導。

首先,這種分類可以使可信機器學習的不同問題被視為孤立的主題。然而,這些不同的可信性問題可能相互沖突或相關。例如,在某些隱私和公平概念之間存在固有的沖突[32,24]。另一方面,公平性也可以與域外泛化相關[99]。此外,可解釋的ML[41]和因果推理[113]可以成為一些公平性或魯棒性問題的候選解決方案。一個扁平的概念類別分類方法無法捕捉不同主題之間豐富的相互關系。

其次,這種分類傾向于為每個主題尋找過度通用的解決方案,這可能不是解決可信機器學習問題的最佳方法。由于主題的概念性質,通常有各種直觀合理的方法來將可信性概念(例如,公平性或魯棒性)形式化為定量概念,而同時實現所有概念的可信性是不現實的。例如,Kleinberg等人[78]證明,通常不可能有一種算法同時滿足三個常見的公平標準。因此,沒有一個通用的解決方案是所有應用的萬能藥。此外,不同的可信性問題的重要性和恰當表述是高度特定于應用程序的。就可信性不同方面的重要性而言,例如,自動駕駛汽車可能會遭受對抗性攻擊,因為它在野生[45]中接受數據輸入;相比之下,對電子健康記錄(EHR)數據進行對抗性攻擊實際上要困難得多,因為這些數據由授權的醫療專家生成,并且在封閉的系統中循環。另一方面,EHR數據的隱私標準遠高于駕駛數據。在可信性的正確制定方面,研究表明,制定的選擇應該利用利益相關者在具體應用[28]中的感知。總的來說,應該將可信性作為位于特定類型的應用程序場景中的ML技術的屬性來研究,而不是作為通用ML技術的屬性。

許多現有的可信性概念可以按照這個程序重新制定。例如,機器學習模型的不公平性問題往往是由于它們在特定少數子種群上的性能下降,而與它們在多數子種群上的性能相比。機器學習的對抗漏洞是指與在干凈數據上的性能相比,它們在對抗攻擊下的性能下降。另一方面,其他一些可信性概念,如可解釋性或因果關系,不能通過上述過程直接表述。在某種程度上,不公平或不魯棒的模型將產生直接后果,而可解釋性或因果關系可以被視為緩解問題的候選解決方案(例如,不公平或不魯棒)。上述過程關注的是作為問題而不是解決方案的可信性概念。這個過程還強調應用場景的可信性問題。

為約束特定應用場景下的可信范圍,本文對圖機器學習(GML)的可信性進行了研究。現實世界的數據中存在大量的關系結構,通常以圖的形式表示。例如,社交媒體上的用戶或物聯網系統中的傳感器通過圖結構進行連接。如果在預測任務中使用得當,這種關系圖結構可以提供顯著的預測能力。GML是一個流行的機器學習技術家族,它將圖結構用于預測模型。近年來,GML在許多影響人們日常生活的應用中表現出了優異的性能。舉個常見的例子,GML在Uber Eats[65]、亞馬遜[162]和Pinterest[157]的工業推薦系統中發揮著重要作用;GML還被廣泛用于在谷歌Map[38]中的ETA預測或房地產價格估計等任務中對地理數據進行建模[114]。此外,由于關系結構的普遍性,GML方法已經應用于或準備應用于高利害攸關的決策問題,如社會正義。例如犯罪預測和數據驅動的起訴[68,156],警察不當行為預測[22],假釋決定的風險評估[132],公共安全監視[95],以及許多其他社會公正和安全問題[111]。

鑒于GML的眾多社會相關應用場景,這類ML系統的可信性問題變得至關重要。此外,與傳統的ML相比,由于GML復雜的關系結構,在理解和改進GML的可信性問題方面存在獨特的挑戰。特別是,在GML的上下文中,有許多更復雜,有時甚至是隱式的異常條件。以對抗性攻擊為例,在傳統的機器學習設置中,攻擊者大多通過向輸入特征添加對抗性擾動來進行攻擊。對于GML,在實際應用中存在著更復雜的威脅:攻擊者不僅可以擾動GML節點屬性,還可以擾動圖結構;攻擊者還可以通過擾動鄰居節點來間接影響節點的預測結果。在子種群之間的機器學習公平性方面,大多數傳統文獻研究的是有關某些敏感屬性的子種群,如性別或種族。在圖數據中,人們可以根據圖結構來調查子群體,例如節點中心性[12,13]或社區結構[51,47]。社會科學理論認為,社會網絡中人們的結構特征往往與其社會經濟地位相關[53,16]。圖數據中獨特的對抗性威脅和基于結構的子群呈現出在傳統ML文獻中沒有充分探索的例外情況,使可信的GML更具挑戰性。

本文旨在解決這些對理解和提高GML可信性的獨特挑戰。具體而言,本文旨在回答以下3類研究問題,并在3種應用場景下展示研究方法。

  1. GML模型在實際應用場景中可能遇到的潛在異常情況是什么?2. 在確定的異常條件下,GML模型的預期行為是什么?3.在識別出的異常情況下,如何緩解GML模型的性能差異? 在GML方法中,我們關注圖神經網絡(GNN)[52,124,77],這是一個大的趨勢GML模型家族,將深度學習[83]的最新進展利用到GML中,并在許多真實世界的應用程序中顯示出卓越的性能。
付費5元查看完整內容

行為識別是當前計算機視覺方向中視頻理解領域的重要研究課題。從視頻中準確提取人體動作的特征并識別動作,能為醫療、安防等領域提供重要的信息,是一個十分具有前景的方向。本文從數據驅動的角度出發,全面介紹了行為識別技術的研究發展,對具有代表性的行為識別方法或模型進行了系統闡述。行為識別的數據分為RGB模態數據、深度模態數據、骨骼模態數據以及融合模態數據。首先介紹了行為識別的主要過程和人類行為識別領域不同數據模態的公開數據集;然后根據數據模態分類,回顧了RGB模態、深度模態和骨骼模態下基于傳統手工特征和深度學習的行為識別方法,以及多模態融合分類下RGB模態與深度模態融合的方法和其他模態融合的方法。傳統手工特征法包括基于時空體積和時空興趣點的方法(RGB模態)、基于運動變化和外觀的方法(深度模態)以及基于骨骼特征的方法(骨骼模態)等;深度學習方法主要涉及卷積網絡、圖卷積網絡和混合網絡,重點介紹了其改進點、特點以及模型的創新點。基于不同模態的數據集分類進行不同行為識別技術的對比分析。通過類別內部和類別之間兩個角度對比分析后,得出不同模態的優缺點與適用場景、手工特征法與深度學習法的區別和融合多模態的優勢。最后,總結了行為識別技術當前面臨的問題和挑戰,并基于數據模態的角度提出了未來可行的研究方向和研究重點。 //www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20221101&flag=1

付費5元查看完整內容
北京阿比特科技有限公司