亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要—隨著生成建模技術的最新進展,深偽內容的真實感不斷提高,甚至達到了一個人們常常無法在線識別被篡改的媒體內容的程度,從而導致各種類型的欺詐行為。在本文中,我們對深偽生成與檢測技術進行了綜述,包括該領域的最新發展,如擴散模型和神經輻射場。我們的文獻綜述涵蓋了所有類型的深偽媒體,包括圖像、視頻、音頻和多模態(視聽)內容。我們根據修改或生成虛假內容的過程,識別了不同種類的深偽。進一步地,我們構建了一個深偽生成與檢測方法的分類體系,闡述了重要方法的類別及其應用領域。接著,我們收集了用于深偽檢測的數據集,并提供了在最受歡迎數據集上表現最佳的深偽檢測器的最新排名。此外,我們開發了一個新的多模態基準,旨在評估深偽檢測器在分布外內容上的表現。結果表明,最先進的檢測器未能在未見過的深偽生成器生成的深偽內容上進行有效推廣。最后,我們提出了獲取穩健且強大的深偽檢測器的未來方向。我們的項目頁面和新的基準已發布在 //github.com/CroitoruAlin/biodeep。

關鍵詞—深偽,深偽生成,深偽檢測,深偽基準。

1 引言

深偽媒體包括通過人工智能工具對圖像、視頻或音頻文件進行數字化篡改或從頭生成的內容,以偽裝成真實或虛構的人物。生成式AI方法的最新突破性進展[1]–[6]使得生成逼真的深偽媒體變得異常簡單[7]–[18]。不幸的是,生成的深偽媒體可能被詐騙者利用,在社交媒體平臺上傳播虛假信息,進行大規模的政治操控,并欺騙個人或公司進行金融詐騙。

在信息可以通過社交媒體平臺迅速傳播的時代,深偽構成了對公眾信任和民主的嚴重威脅,尤其是在其在線濫用不斷增長的情況下。近期的欺詐趨勢分析表明,基于深偽的詐騙案件在2023年比2022年增加了10倍1。另一項研究發現,大約70%的人無法區分真實和深偽聲音2。深偽的質量和數量的不斷提升引發了嚴重關注,特別是關于在線詐騙和操控的問題。為了防止深偽媒體的傳播,研究人員開發了廣泛的單模態[19]–[23]或多模態[24]–[26]深偽檢測方法。然而,基于某一組AI工具生成的媒體訓練出來的深偽檢測器,通常在使用不同工具生成的深偽上表現不佳[20]–[22]。這導致了開發更強大且穩健的深偽檢測器的無休止競爭。

為此,我們對深偽媒體生成與檢測領域的最新發展進行了全面綜述。我們首先定義了一組深偽類別,這些類別是根據生成深偽內容所使用的過程來確定的。我們識別了領域無關和領域特定的深偽類型,并解釋了每一類別中屬于哪種深偽媒體。接下來,我們構建了深偽生成和檢測方法的分類體系,基于所考慮的媒體類型、所使用的架構和所針對的任務,創建了一個多角度的分層分類。如圖1所示,我們首先按任務將貢獻分為生成和檢測。對于每個任務,我們識別了所采用的架構。對于深偽生成,我們發現最流行的架構是生成對抗網絡(GANs)[8],[14]–[16],[27],[28]和去噪擴散模型[11]–[13],[18],[29]–[31]。在深偽檢測方面,大多數方法基于卷積神經網絡(CNNs)[19],[21],[24],[25],變壓器(transformers)[32]–[34],或者是將CNN與變壓器[35]–[37]或遞歸神經網絡(RNNs)[38],[39]結合的混合架構。對于每種架構,我們進一步根據媒體類型(圖像、視頻、音頻或多模態(視聽))對貢獻進行了劃分。接下來,我們呈現了在分類體系中每個類別的主要貢獻。我們還回顧了圖像、視頻和音頻中用于深偽檢測的現有數據集。然后,我們匯總了深偽檢測器在最受歡迎數據集上的報告性能,便于直接比較現有方法。此外,我們介紹了一個基準,旨在測試深偽檢測器在分布外內容上的泛化能力。有趣的是,我們發現最先進的深偽檢測器在新型更強大的生成模型生成的逼真深偽內容上表現較差。最后,我們識別了當前文獻中的研究空白,并提出了一系列未來研究方向,旨在開發更好的框架以檢測深偽媒體。

總結來說,我們的貢獻有四個方面: * 我們對深偽生成與檢測方法進行了全面的綜述,涵蓋了圖像、視頻、音頻和多模態四個領域的最新進展。 * 我們構建了深偽生成與檢測方法的分類體系,根據任務、架構和媒體類型對研究文章進行了分類。 * 我們收集并匯總了在流行的深偽檢測基準上報告的結果,提供了便于評估深偽檢測器當前性能水平的手段。 * 我們介紹了一個基準,旨在測試深偽檢測模型的領域外泛化能力,顯示當前檢測器在新一代強大生成器生成的深偽內容上普遍存在較大的性能下降。

付費5元查看完整內容

相關內容

多生成智能體系統(MGASs)自大規模語言模型(LLMs)興起以來,已成為研究的熱點。然而,隨著新相關研究的不斷涌現,現有的綜述文章難以全面覆蓋這些進展。本文對這些研究進行了全面的綜述。我們首先討論了MGAS的定義,并提供了一個框架,涵蓋了大量的前期工作。接著,我們概述了MGAS在以下幾個方面的應用:(i)解決復雜任務,(ii)模擬特定場景,以及(iii)評估生成智能體。此外,基于以往的研究,我們還重點指出了一些挑戰,并提出了該領域未來研究的方向。

1 引言

多智能體系統(MAS)因其適應性和解決復雜分布式問題的能力,得到了顯著擴展(Balaji 和 Srinivasan,2010)。與單智能體設置(Gronauer 和 Diepold,2022)相比,MAS 更能準確地反映現實世界,因為許多實際應用自然涉及多個決策者的同時互動。然而,由于傳統強化學習(RL)智能體的參數限制以及缺乏通用知識和能力,智能體無法解決復雜的決策任務,例如與其他智能體合作進行開發(Qian 等,2024b)。近年來,大規模語言模型(LLMs),如 Llama 3(Dubey 等,2024)和 GPT-4(OpenAI 等,2024),在大量網絡語料庫上進行訓練并取得了顯著成功(Radford 等)。與強化學習相比,以 LLM 為核心控制智能體的生成智能體,即使沒有經過訓練,也能在推理、長時間決策等方面表現得更好(Shinn 等,2023)。此外,生成智能體提供了自然語言接口,便于與人類進行互動,使這些互動更加靈活且更易于解釋(Park 等,2023)。

基于這些優勢,多生成智能體系統(MGAS)應運而生。研究人員已經對這些新興工作進行了綜述,并提出了一個通用框架(Guo 等,2024)。然而,隨著相關研究數量的不斷增長,出現了一些超出原框架范圍的工作。本文基于以往對多生成智能體系統(MGASs)的綜述,提供了一個新的視角,重點討論了最新的進展并探討了潛在的研究方向。我們收集了 2023 和 2024 年在頂級人工智能會議(如 *ACL、NeurIPS、AAAI 和 ICLR)上發表的 125 篇論文,并結合一些尚未發表但有價值的 arXiv 論文。根據 MGAS 的應用目的,我們將其應用總結為:任務求解、特定問題的仿真以及生成智能體的評估。圖 1 展示了我們提出的 MGAS 應用框架。(i)解決復雜任務。多智能體將自然地將任務拆分為子任務,從而提高任務的執行性能。(ii)特定場景的仿真。研究人員將 MGAS 視為一個沙盒,用于模擬特定領域中的問題。(iii)生成智能體的評估。與傳統任務評估相比,MGAS 具備動態評估的能力,更加靈活且更難發生數據泄漏。對于每一類應用,我們將討論代表性的 MGAS、資源及其評估。 與之前的綜述(Wang 等,2024a;Zhao 等,2024c;Chuang 和 Rogers,2023;Guo 等,2024;Gao 等,2023a;Gronauer 和 Diepold,2022)相比,本文的獨特貢獻如下:(i)與當前趨勢高度相關的分類法:我們基于 MGAS 應用目的,提出了一個更為近期的分類法(如圖 1 所示)。(ii)更多的資源:我們分析了開放源代碼框架以及具有基準或數據集的研究工作,以便為研究社區提供便利。(iii)挑戰與未來:我們討論了 MGAS 中的挑戰,并闡明了未來的研究方向。

付費5元查看完整內容

移動智能體在復雜和動態的移動環境中自動化任務方面至關重要。隨著基礎模型的不斷演進,對能夠實時適應并處理多模態數據的智能體需求也隨之增加。本綜述全面回顧了移動智能體技術,重點關注提升實時適應性和多模態交互的最新進展。近期開發的評估基準更好地反映了移動任務中的靜態和交互式環境,從而對智能體的性能提供更準確的評估。

我們將這些進展分為兩大主要方法:基于提示的方法,利用大型語言模型(LLM)執行基于指令的任務;以及基于訓練的方法,對多模態模型進行微調,以適應特定的移動應用。此外,我們還探討了增強智能體性能的互補技術。通過討論關鍵挑戰并概述未來的研究方向,本綜述為推進移動智能體技術提供了寶貴的見解。完整的資源列表可訪問://github.com/aialt/awesomemobile-agents

1 引言

移動智能體在處理復雜的移動環境中取得了顯著的成功,能夠在各種應用中實現任務執行的自動化,且僅需最少的人為干預 (Zhang等, 2023a; Li等, 2024; Bai等, 2024)。這些智能體被設計用于感知、規劃和執行任務,以適應動態環境,特別適用于需要實時適應性的移動平臺。多年來,關于移動智能體的研究顯著發展,從簡單的基于規則的系統演變為能夠處理多模態和動態環境中復雜任務的先進模型 (Shi等, 2017; Rawles等, 2023)。

在早期階段,移動智能體主要關注通過輕量級的基于規則的系統執行預定義的工作流程,這些系統針對移動設備上的特定任務進行了優化。這些早期智能體通常受限于硬件的計算和存儲約束,主要依賴基本的交互模式和靜態流程。然而,移動技術的快速進步為更先進的智能體架構鋪平了道路,使其能夠執行更豐富的任務。 評估移動智能體面臨獨特的挑戰,因為傳統的靜態評估方法往往無法捕捉現實移動任務的動態和交互特性。為了解決這一問題,最近的基準如AndroidEnv (Toyama等, 2021)和Mobile-Env (Zhang等, 2023a) 提供了交互式環境,以評估智能體在真實條件下的適應性和表現。這些基準不僅測量任務完成情況,還評估智能體在應對不斷變化的移動環境方面的反應能力,從而對其能力進行更全面的評估。

移動智能體研究的最新進展可分為兩種方法:基于提示的方法和基于訓練的方法。基于提示的方法利用大型語言模型(LLM),如ChatGPT (OpenAI, 2023)和GPT-4 (OpenAI, 2023),通過指令提示和鏈式思維(CoT)推理處理復雜任務。OmniAct (Kapoor等, 2024) 和AppAgent (Yang等, 2023)等著名研究展示了基于提示的系統在交互式移動環境中的潛力,但其在可擴展性和穩健性方面仍面臨挑戰。另一方面,基于訓練的方法專注于微調多模態模型,例如LLaVA (Liu等, 2023a)和Llama (Touvron等, 2023),專門用于移動應用。這些模型能夠通過整合視覺和文本輸入來處理豐富的多模態數據,從而提升其在界面導航和任務執行等任務中的表現 (Ma等, 2024; Dorka等, 2024)。

本綜述對移動智能體技術進行了深入分析,重點關注感知、規劃、行動和記憶的基本組成部分。我們將現有研究分為基于提示和基于訓練的方法。此外,我們還探討了用于評估移動智能體性能的基準和指標,并討論了互補技術在增強智能體與移動環境交互中的作用。通過本次綜述,我們旨在識別當前的挑戰和未來在推進移動智能體研究方面的機遇。

付費5元查看完整內容

摘要—多模態情感計算(MAC)由于其在人類行為和意圖分析中的廣泛應用,尤其是在以文本為主導的多模態情感計算領域中,受到了越來越多的關注。本綜述從自然語言處理(NLP)視角出發,介紹了多模態情感計算的最新趨勢,涵蓋四個熱門任務:多模態情感分析、多模態對話情感識別、多模態基于方面的情感分析以及多模態多標簽情感識別。本綜述的目標是探索當前多模態情感研究的現狀,識別發展趨勢,突出不同任務之間的相似性和差異性,并為多模態情感計算在NLP視角下的最新進展提供全面報告。本綜述涵蓋了任務的形式化,概述了相關研究工作,描述了基準數據集,并詳細介紹了每個任務的評估指標。此外,本文簡要討論了涉及面部表情、聲學信號、生理信號和情感原因的多模態情感計算研究。我們還討論了多模態情感計算中的技術方法、挑戰及未來發展方向。為了支持進一步的研究,我們發布了一個匯集了多模態情感計算相關工作的資源庫,提供了詳細的資源和參考文獻,供研究社區使用。

情感計算結合了計算機科學、心理學和認知科學的專業知識,其目標是賦予機器識別、解釋和模擬人類情感的能力【1】–【6】。當今世界充滿了各種模態——我們通過視覺感知物體,通過聽覺感受聲音,通過觸覺感受物體的質地,通過嗅覺聞到氣味,等等。模態是指體驗的感知或發生方式,通常與視覺或觸覺等感官模態相關,這些模態對交流和感知至關重要。在多個領域的多模態學習取得重大進展【7】【8】后,多模態情感計算的進展加速并受到越來越多的關注。

多模態情感計算旨在開發能夠在多種模態下解釋和推理情感或情緒狀態的模型。在其早期階段,情感計算的研究主要集中在單一模態任務上,分別研究基于文本、音頻和視覺的情感計算。例如,D-MILN【9】是一個文本情感分類模型,而工作【10】利用訓練在原始音頻上的雙向長短期記憶(BiLSTM)模型預測群體反應的平均情感。如今,情感分析已廣泛應用于各種模態中,用于市場研究、品牌監測、客戶服務分析和社交媒體監控等應用。多媒體技術的最新進展【11】–【14】拓寬了信息傳播的渠道,新聞、微博等社交媒體平臺以及視頻內容的涌現將文本(口語特征)、聲學(節奏、音高)和視覺(面部屬性)信息整合起來,用于全面分析人類情感。例如,Xu等人【15】將圖像模態數據引入傳統的基于文本的方面級情感分析,創建了多模態基于方面的情感分析新任務。同樣,Wang等人【16】將文本情感原因對提取擴展到多模態對話環境中,利用多模態信號(文本、音頻和視頻)增強模型理解情感及其原因的能力。

多模態情感計算任務與機器學習中的多個學習范式密切相關,包括遷移學習【17】–【19】、多模態學習【20】【21】、多任務學習【22】–【24】和語義理解【25】【26】。在遷移學習方面,它使得在一個領域訓練的情感分析模型能夠適應其他領域的有效表現。通過在目標領域有限的數據上微調預訓練模型,這些模型可以遷移到新領域,從而提升其在多模態情感計算任務中的表現。在多模態學習中,跨模態注意力動態對齊并聚焦于來自不同模態的相關信息,通過突出關鍵特征及其交互來增強模型捕捉情感的能力。在多任務學習中,跨情感計算任務和模態的共享表示通過從文本、音頻和視頻中捕捉共同的情感相關特征來提升表現。 最近,多模態學習的研究通過在大規模多模態數據集上預訓練多模態模型,進一步提升了下游任務的性能,如多模態情感分析【27】–【30】。隨著預訓練模型規模的擴大,參數高效的遷移學習方法如適配器【31】、提示【32】、指令微調【33】和上下文學習【34】【35】等不斷涌現。越來越多的多模態情感計算研究利用這些參數高效的遷移學習方法,將預訓練模型(如單模態預訓練模型或多模態預訓練模型)的知識遷移到下游情感任務中,通過進一步微調預訓練模型來提升模型性能。例如,Zou等人【36】設計了一個多模態提示Transformer(MPT)用于跨模態信息融合。UniMSE【37】提出了一種基于適配器的模態融合方法,它將聲學和視覺信號注入T5模型中,與多層次的文本信息進行融合。

多模態情感計算涵蓋了情感分析、觀點挖掘和情感識別等任務,使用的模態包括文本、音頻、圖像、視頻、生理信號和觸覺反饋。本綜述主要關注三種關鍵模態:自然語言、視覺信號和聲音信號。我們在本綜述中突出了四個主要任務:多模態情感分析(MSA)、多模態對話中的情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)。多模態情感計算領域已有大量研究,且已有多篇綜述【14】【38】–【40】發表。然而,這些綜述主要集中于特定的情感計算任務或單一模態,忽略了跨多任務的多模態情感計算的總體概況,以及這些任務之間的一致性和差異性。

本綜述的目標有兩點。首先,旨在為初學者提供多模態情感計算的全面概述,探索情感分析中的深度學習,詳細介紹任務、輸入、輸出及相關數據集。其次,為研究人員提供反思過去發展、探索未來趨勢的視角,并研究多模態情感分析和情感識別領域的技術方法、挑戰及研究方向。


綜述的結構

第III節概述了多模態情感任務的任務形式化及應用場景。第IV節介紹了特征提取方法和最近的多模態預訓練模型(如CLIP、BLIP、BLIP2)。第V節從多模態融合和多模態對齊兩個角度分析了多模態情感研究,并簡要總結了用于進一步微調預訓練模型的參數高效遷移方法。第VI節回顧了關于MSA、MERC、MABSA和MMER的文獻,重點討論了多任務學習、預訓練模型、增強知識和上下文信息。此外,第VII節總結了多模態數據集,第VIII節涵蓋了每個多模態情感計算任務的評估指標。在回顧多模態情感計算工作后,第IX節簡要回顧了基于面部表情、聲學信號、生理信號和情感原因的多模態情感計算工作,突出其一致性、差異性及其最新趨勢。第X節從三個方面展望了未來工作:多模態情感計算任務的統一、外部知識的引入以及較少研究的模態情感計算。最后,第XI節總結了本綜述及其對多模態情感計算社區的貢獻。

多模態情感計算中的多模態學習

多模態學習涉及從不同模態中學習表示。通常,多模態模型應首先基于語義對模態進行對齊,然后再融合多模態信號。在對齊后,模型將多個模態組合成一個表示向量。

A. 初步概述

隨著預訓練模型規模的擴大,出現了諸如適配器【31】、提示【32】、指令微調【33】和上下文學習【34】【35】等參數高效的遷移學習方法。在這種范式下,預訓練的語言模型(LMs)不再通過目標工程適應下游任務,而是通過提示、指令微調和上下文學習,將下游任務重新格式化,使其更像原始LM訓練期間解決的任務。例如,在視覺語言模型(VLMs)中,像GPT-4V【65】和Flamingo【67】的提示使用,使模型能夠基于視覺和文本輸入的結合來解釋和生成輸出。與提示不同,指令微調屬于提示學習范式。此外,像InstructBLIP【70】和FLAN【72】這樣的模型表明,指令微調不僅提高了模型對指令的遵循性,還增強了其跨任務的泛化能力。在多模態情感計算領域,研究人員可以利用這些參數高效的遷移學習方法(例如適配器、提示和指令微調),將預訓練模型(例如單模態預訓練模型或多模態預訓練模型)的知識遷移到下游情感任務中,并通過情感數據集進一步微調預訓練模型。鑒于多模態情感計算涉及多模態學習,因此我們從多模態融合和多模態對齊的角度分析多模態情感計算的相關工作,如圖1所示。

B. 多模態融合

多模態信號是異質的,來源于各種信息源,因此將多模態信號整合為一個表示至關重要。Tasi等人【74】根據融合階段將多模態融合總結為早期融合、晚期融合和中間融合。早期融合在模型處理之前,將來自不同模態的特征在輸入級別進行組合。晚期融合則通過單獨的子網絡分別處理來自不同模態的特征,并在做出最終決策之前的晚期階段將這些子網絡的輸出進行組合。晚期融合使用單模態的決策值,并通過如平均【121】、投票方案【122】、基于通道噪聲的加權【123】和信號方差【124】等機制將它們結合起來,或者通過學習模型【6】【125】進行融合。這兩種融合策略面臨一些問題。例如,特征級別的早期融合在融合操作后可能低估模態內的動態,而決策級別的晚期融合在融合操作之前可能難以捕捉模態間的動態。不同于前兩種方法的地方在于,中間融合是在模型學習器的中間層結合來自不同模態的特征,允許模態在不同的處理階段進行更多的交互,從而可能產生更豐富的表示【37】【126】【127】。基于這些融合策略,我們從三個方面回顧了多模態融合:跨模態學習、模態一致性與差異性、多階段模態融合。圖2展示了模態融合的三個方面。

**1) 跨模態學習

跨模態學習關注的是通過引入模態間的依賴關系和交互來實現更好的模態融合。早期的多模態融合工作【73】主要在特征空間中進行幾何操作,以融合多種模態。最近,跨模態學習的常見方式是引入基于注意力的學習方法來建模模態間和模態內的交互。例如,MuLT【74】提出了多模態Transformer,用于學習模態間的交互。Chen等人【75】通過三模態協同交互增強了模態內和模態間的特征,并統一了三種模態的特性(跨模態)。楊等人【76】提出了跨模態BERT(CM-BERT),旨在基于預訓練的BERT模型對文本和音頻模態的交互進行建模。Lin等人【77】探討了模態內和模態間表示的復雜關系,用于情感提取。最近,Tang等人【78】提出了多模態動態增強模塊,用于捕捉模態內的情感上下文,減少輔助模態的模態內冗余。Huang等人【79】提出了一個基于跨模態注意力的文本中心融合網絡(TeFNA),這個多模態融合網絡利用跨模態注意力建模未對齊的多模態時間信息。

在情感識別領域,CMCF-SRNet【80】是一個跨模態上下文融合和語義精煉網絡,包含一個跨模態局部約束Transformer和基于圖的語義精煉Transformer,旨在探索話語間的多模態交互和依賴關系。Shi等人【81】提出了一個基于注意力的相關性感知多模態融合框架MultiEMO,該框架基于雙向多頭跨注意力層捕捉文本、音頻和視覺模態間的映射關系。總之,跨模態學習主要關注模態間關系的建模。

**2) 模態一致性與差異性

模態一致性是指對于同一樣本,不同模態之間共享的特征空間,而模態差異性則突出每種模態提供的獨特信息。大多數多模態融合方法將表示分為模態不變(一致性)和模態特定(差異性)兩個組成部分。模態一致性有助于處理缺失模態,而模態差異性則利用每個模態的互補信息來改進整體數據理解。例如,幾項研究【86】【87】通過對比學習探索了模態一致性與差異性的學習。Han等人【85】通過最大化模態間及模態內的互信息來探索模態一致性。另一項研究【86】提出了一個混合對比學習框架,該框架同時進行模態內/模態間對比學習和半對比學習,建模跨模態交互,保持類間關系,并減少模態差距。此外,Zheng等人【87】將模態對之間的互信息最大化與輸入數據和相應特征之間的互信息最小化相結合。該方法旨在提取模態不變且任務相關的信息。模態一致性也可以被視為將多種模態投射到共同潛在空間(模態不變表示)的過程,而模態差異性則指將模態投射到模態特定的表示空間。例如,Hazarika等人【88】提出了一種方法,將每種模態投射到模態不變和模態特定的空間中。他們實現了一個解碼器,通過模態不變和模態特定特征來重建原始模態表示。AMuSE【84】提出了一個多模態注意力網絡,通過聯合學習模式特定的外周和中央網絡,捕捉不同層次空間抽象下的跨模態交互。對于細粒度的情感分析,Xiao等人【89】提出了CoolNet,以提高視覺語言模型在無縫整合視覺和語言信息方面的性能。Zhang等人【90】通過探索模態一致性,提出了一個基于融合判別注意力網絡的方面級情感分類模型。

**3) 多階段模態融合

多階段多模態融合【128】【129】指的是將從多個階段或多個尺度提取的模態信息結合起來,以融合模態表示。Li等人【94】設計了一個兩階段對比學習任務,學習相同情感類別數據的相似特征,并為不同情感類別的數據學習可區分的特征。HFFN【95】將多模態融合過程分為分解、征服和組合三個部分,在每個局部塊學習局部交互,并通過跨局部交互傳遞信息來探索全局交互。與HFFN的工作不同,Li等人【96】對齊并融合了文本和圖像的token級特征,設計了基于標簽的對比學習和基于數據的對比學習,以捕捉多模態數據中與情感相關的共同特征。一些工作【97】將融合過程分解為多個階段,每個階段專注于部分多模態信號,以實現更專門和有效的融合。此外,CTFN【130】提出了一種新的特征融合策略,按照層次化的方式進行,首先兩兩融合模態,然后再融合三種模態。此外,在多個層次的模態融合方面也取得了進展,例如,Li等人【99】提出了一種基于多層次相關性挖掘和自監督多任務學習的多模態情感分析方法,Peng等人【100】提出了一種細粒度模態標簽的多階段網絡(FmlMSN),利用來自文本、音頻、圖像及其組合的七種情感標簽,在不同粒度上進行信息整合。研究人員通常專注于模型決策前的尺度級模態對齊和模態融合。Sharafi等人【93】提出了一種新的融合方法,利用不同的尺度進行多模態情感識別。

C. 多模態對齊

多模態對齊涉及在融合多模態數據之前對模態語義進行同步。一個關鍵挑戰是處理缺失模態的情況,例如由于攝像頭關閉、用戶沉默或設備故障導致語音和文本同時缺失。由于始終擁有所有模態的假設在現實中通常不切實際,因此多模態對齊必須解決這些缺失。此外,它還涉及通過語義對齊來對齊圖像、文本和音頻中的對象。因此,我們從處理缺失模態和實現語義對齊的角度討論多模態對齊。圖3展示了多模態對齊的示意圖。

**1) 缺失模態的對齊

在實際場景中,數據收集有時會由于不可預見的事件同時丟失某些模態。雖然多模態情感計算通常假設所有模態都可用,但這一假設在實踐中經常失敗,這可能會導致在缺少某些模態時,模態融合和對齊模型出現問題。我們將現有的處理缺失模態的方法分為四類。第一類是數據增強方法,通過隨機刪除輸入來模擬缺失模態的情況。Parthasarathy等人【107】提出了一種策略,在訓練過程中隨機刪除視頻輸入的剪輯或幀,模擬現實世界場景。Wang等人【108】通過訓練情感識別模型,迭代性地進行數據增強,處理話語級模態缺失問題。第二類基于生成方法,直接預測給定可用模態的缺失模態【131】。例如,Zhao等人【106】提出了缺失模態想象網絡(MMIN),在不同缺失模態條件下,根據可用模態預測任何缺失模態的表示,以應對不確定的缺失模態問題。Zeng等人【109】提出了基于集成的缺失模態重建(EMMR)網絡,以檢測并恢復關鍵缺失模態的語義特征。Yuan等人【110】提出了一種基于Transformer的特征重建網絡(TFR-Net),該網絡通過增強模型在非對齊模態序列中隨機缺失的魯棒性。Luo等人【111】提出了多模態重建與對齊網絡(MRAN),專門處理缺失模態問題,尤其是緩解文本模態缺失帶來的性能下降。

第三類旨在學習聯合多模態表示,這些表示能夠包含基于組合的視覺和文本輸入的相關信息。例如,Ma等人【133】提出了一個統一的深度學習框架,通過相關分析有效處理音視頻情感識別中的缺失標簽和缺失模態問題。Zeng等人【113】提出了一個標簽輔助Transformer編碼器網絡(TATE),用于處理不確定的缺失模態問題,該網絡設計了一個標簽編碼模塊,以覆蓋單模態和多模態缺失的情況,從而引導網絡對缺失模態的關注。Zuo等人【114】提出使用不變特征的缺失模態想象網絡(IF-MMIN),該網絡包含不變特征學習策略和基于不變特征的想象模塊(IF-IM)。通過這兩種策略,IF-MMIN能夠在預測缺失模態時緩解模態差距,從而提高多模態聯合表示的魯棒性。Zhou等人【116】在缺失一種或多種模態的情況下,提出了一種新穎的腦腫瘤分割網絡。該網絡由三個子網絡組成:一個特征增強生成器、一個相關性約束模塊和一個分割網絡。 最后一類是基于翻譯的方法。Tang等人【98】提出了耦合翻譯融合網絡(CTFN),通過耦合學習建模雙向交互,確保在缺失模態情況下的魯棒性。Liu等人【115】提出了一種基于模態翻譯的多模態情感分析模型(MTMSA),該模型對不確定的缺失模態具有魯棒性。總而言之,關于缺失模態對齊的研究集中在基于現有模態信息的缺失模態重建和學習。

**2) 跨模態語義對齊

語義對齊旨在找到同一樣本中多種模態之間的連接,指的是通過一種模態信息搜索另一種模態信息,反之亦然。在多模態情感分析領域,Tsai等人【74】利用跨模態和多尺度模態對齊,分別在語義層面實現模態一致性。ScaleVLAD【200】提出了一種融合模型,通過共享的局部聚合描述符向量,從文本、視頻和音頻中聚集多尺度表示,以改進未對齊的多模態情感分析。Yang等人【104】將未對齊的多模態序列數據轉換為一個具有異質節點和邊的圖,捕捉模態間和時間上的豐富交互。Lee等人【201】將音頻和基礎文本信號按相同步長分段,使得順序信號的相同時間步覆蓋信號的相同時間跨度。Zong等人【202】利用多次雙向翻譯,與傳統的翻譯方法相比,產生了雙倍的多模態融合嵌入。Wang等人【203】提出了一種基于Transformer的多模態編碼–解碼翻譯網絡,并采用了以文本為主要信息、聲音和圖像為次要信息的聯合編碼–解碼方法。Zhang等人【120】提出了一種新穎的多級對齊方法,用于彌合聲學和詞匯模態之間的差距,該方法可以有效對比實例級和原型級的關系,在潛在空間中分離多模態特征。Yu等人【204】提出了一種無監督方法,通過最小化兩種模態之間的Wasserstein距離,強迫兩種編碼器產生更合適的表示,以便最終對文本和圖像進行對齊。 Lai等人【119】提出了一種基于協方差矩陣的深度模態共享信息學習模塊,用于捕捉模態之間的共享信息。此外,我們使用了一個基于自監督學習策略的標簽生成模塊,以捕捉模態的私有信息。我們的模塊在多模態任務中是即插即用的,并且通過改變參數化,它可以調整模式之間的信息交換關系,學習特定模式之間的私有或共享信息。我們還采用了多任務學習策略,幫助模型專注于模態差異的訓練數據。為了增強模型的魯棒性,Robust-MSA【118】提出了一個交互式平臺,可視化模態噪聲的影響,以幫助研究人員提高模型能力。

多模態情感計算中的模型

在多模態情感計算領域,相關工作在技術路線發展上表現出顯著的一致性。為了更清晰地展示,我們根據多任務學習、預訓練模型、增強知識、上下文信息這四個方面對這些工作進行了分類。同時,我們簡要總結了在多模態情感分析(MSA)、多模態對話情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)任務中的進展。圖4總結了在這些方面的典型多模態情感計算工作,表II展示了多模態情感計算的分類。

A. 多任務學習

多任務學習是在多個相關任務上同時訓練模型,通過共享信息來提升性能。損失函數結合了所有任務的損失,通過梯度下降來更新模型參數。在多模態情感計算中,多任務學習有助于區分模態不變和模態特定特征,并將與情感相關的子任務整合到統一框架中。圖5展示了多模態情感學習任務中多任務學習的范式。

**1) 多模態情感分析

在多模態情感分析領域,Self-MM【134】為單一模態生成偽標簽【205】–【207】,然后基于生成的和原始標簽共同訓練單模態和多模態表示。此外,還使用了一種模態間的翻譯框架ARGF,作為輔助任務將一種模態翻譯到另一種模態,從而規范多模態表示學習【135】。Akhtar等人【136】利用情感和情緒任務的相互依賴性來提高模型在這兩個任務上的性能。Chen等人【137】提出了一個基于視頻的跨模態輔助網絡(VCAN),該網絡由一個音頻特征映射模塊和一個跨模態選擇模塊組成,以利用輔助信息。Zheng等人【138】提出了帶有松弛重建的解耦翻譯網絡(DTN),用于捕捉期望的信息屬性,獲取統一的特征分布,并減少冗余。Zheng等人【87】結合了模態對之間的互信息最大化(MMMIE)與輸入數據和相應特征之間的互信息最小化,在單一架構中共同提取模態不變和任務相關的信息。

**2) 多模態對話情感識別

在多模態情感識別社區中,Zheng等人【24】提出了一個名為面部表情感知多模態多任務學習的兩階段框架(FacialMMT),該框架在統一架構中共同訓練多模態面部識別、無監督面部聚類和面部匹配,以利用幀級別的面部情感分布來幫助改進基于多任務學習的話語級情感識別。Zhang等人【208】設計了兩種多任務學習解碼器,即單級解碼器和多級解碼器,以探索其潛力。更具體地說,單級解碼器的核心是掩蔽的外模態自注意機制。Sun等人【139】設計了兩個輔助任務,以緩解模態間融合不足的問題,并引導網絡捕捉和對齊與情感相關的特征。Zhao等人【140】提出了基于Transformer的深度融合網絡(TDFNet)用于多模態情感識別,解決了上述問題。TDFNet中的多模態嵌入(ME)模塊通過使用大量無標簽數據為模型提供多模態信息的先驗知識,來緩解數據稀缺問題。Ren等人【141】提出了一種新穎的多模態對抗學習網絡(MALN),該網絡首先從上下文序列中挖掘說話者的特征,然后將其與單模態特征結合起來。Liu等人【142】提出了LGCCT,一種輕量級的門控和交叉互補Transformer,用于多模態語音情感識別。

**3) 多模態基于方面的情感分析

Yang等人【144】提出了一個名為跨模態多任務Transformer(CMMT)的多任務學習框架,該框架包含兩個輔助任務,用于學習方面/情感感知的模態內表示,并引入了一個文本引導的跨模態交互模塊,以動態控制視覺信息對每個詞的模態間交互表示的貢獻。Jain等人【145】提出了一個分層多模態生成方法(AbCoRD),用于基于方面的投訴和理由檢測,將多任務問題重新表述為多模態文本生成任務。Ju等人【146】是第一個聯合執行多模態ATE(MATE)和多模態ASC(MASC)的人,并提出了一個聯合框架JML,用于基于多模態方面級情感分析(MALSA)的輔助跨模態關系檢測,以控制視覺信息的適當利用。Zou等人【36】設計了一個多模態提示Transformer(MPT)進行跨模態信息融合。同時,該工作使用了混合對比學習(HCL)策略,以優化模型處理少量標簽樣本的能力。Chen等人【82】設計了音頻模塊應比文本模塊更具表現力,并將單一模態情感表示動態融合到多模態情感表示中,提出了相應的基于規則的多模態多任務網絡(MMRBN),用于限制表示學習。

**4) 多模態多標簽情感識別

對于多模態多標簽情感識別,Ge等人【92】設計了對抗性時間掩蔽策略和對抗性參數擾動策略,以分別增強其他模態的編碼和模型的泛化能力。MER-MULTI【147】是一種標簽分布自適應方法,適應了訓練集和測試集之間的標簽分布,以消除與測試集特征不匹配的訓練樣本。Akhtar等人【209】提出了一個深度多任務學習框架,該框架聯合執行情感和情緒分析,利用兩個相關任務(即情感和情緒)的相互依賴性來提高它們各自的性能。

B. 預訓練模型

近年來,大語言模型(LLM)【56】【210】和多模態預訓練模型【21】【26】【211】【212】取得了顯著進展【25】【210】【213】。與非預訓練模型相比,預訓練模型包含大量轉移知識【27】【31】,可以引入到多模態表示學習中,以探索更豐富的信息。圖6展示了預訓練模型在多模態情感學習任務中的使用。

**1) 多模態情感分析

在多模態情感分析領域,Rahman等人【21】提出了一種附加到預訓練模型BERT和XLNet上的多模態適應門(MAG),該適應門允許BERT和XLNet通過生成一個基于視覺和聲學模態的偏移來接受多模態的非語言數據。UniMSE【37】是基于T5模型【57】的統一情感共享框架,該框架將非語言信號注入預訓練的Transformer模型中,以探索LLM中存儲的知識。AOBERT【148】引入了一種單流Transformer結構,將所有模態整合到一個BERT模型中。Qian等人【149】在詞級別嵌入情感信息到預訓練的多模態表示中,以便在有限的標注數據上進行進一步學習。TEASAL【150】是一個基于Transformer的語音前綴語言模型,它利用一個傳統的預訓練語言模型作為跨模態Transformer編碼器。Yu等人【151】研究了面向目標的多模態情感分類(TMSC),并提出了一個多模態BERT架構,用于多模態情感分析任務。Cheng等人【152】設置了分層參數共享和分解的共同注意機制,以便在跨注意力塊之間共享參數,從而允許多模態信號在每一層進行交互。ALMT【153】結合了一個自適應超模態學習(AHL)模塊,用于在語言特征的指導下從視覺和音頻特征中學習無關性/沖突抑制的表示。

**2) 多模態對話情感識別

在多模態對話情感識別領域,FacialMMT【24】是一個兩階段框架,使用RoBERTa【214】和Swin Transformer作為表示學習的主干。Qiu等人【215】采用VATT【30】分別編碼視覺、文本和音頻,并使學到的模態表示進行對齊。QAP【19】是一個量子啟發的自適應優先學習模型,采用ALBERT作為文本編碼器,并引入了量子理論(QT)以自適應地學習模態優先級。UniMSE【37】提出了一種基于預訓練模型T5的多模態融合方法,旨在通過預訓練的知識融合模態信息。GraphSmile【154】采用RoBERTa【214】逐層跟蹤多模態對話中的復雜情感線索,逐層吸收模態內和模態間的情感依賴關系,充分捕捉跨模態線索,同時有效避免融合沖突。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Xu等人【47】首次提出了多模態基于方面的情感分析任務,并提出了一種新穎的多交互記憶網絡(MIMN),該網絡包含兩個交互記憶網絡,分別用于監督文本和視覺信息與給定方面的關聯,并學習跨模態數據之間的交互影響以及單模態數據中的自我影響。Yang等人【17】提出了一種新穎的生成多模態提示(GMP)模型,用于MABSA,該模型包含多模態編碼器模塊和N流解碼器模塊,并通過少量標注的多模態樣本執行三項MABSA相關任務。Liu等人【155】提出了一種基于視覺提示的實體相關無監督預訓練,用于MABSA。Ling等人【156】提出了一個任務特定的視覺-語言預訓練框架(VLPMABSA),這是一個統一的多模態編碼器-解碼器架構,適用于所有的預訓練和下游任務。Zhang等人【157】構建了一個動態重加權的BERT(DR-BERT),設計用于學習基于BERT的動態方面導向語義。

**4) 多模態多標簽情感識別

一些關于多模態多標簽情感識別的工作利用了預訓練模型來提高模型性能。據我們所知,TAILOR【91】是一個新穎的多模態學習框架,用于多標簽情感識別,它對多個模態之間的共性和差異進行了對抗性描繪。TAILOR通過對抗性地提取私有和共性模態表示來執行這些任務。

C. 增強知識

在機器學習和人工智能中,外部知識是指來自訓練數據集之外的信息,包括知識庫、文本語料庫、知識圖譜、預訓練模型和專家見解。整合這些知識可以提高模型的性能、泛化能力、可解釋性以及對噪聲或有限數據的魯棒性。圖7展示了在多模態情感學習任務中整合外部知識的常見方法。

**1) 多模態情感分析

在多模態情感分析研究領域,Rahmani等人【18】通過層次劃分用戶構建了自適應樹,并利用基于注意力的融合來在樹內轉移認知導向的知識。TETFN【163】是一種新穎的方法,名為文本增強Transformer融合網絡,它學習面向文本的成對跨模態映射,以獲得有效的統一多模態表示。Zhu等人【164】提出了情感知識增強的注意力融合網絡(SKEAFN),這是一個新穎的端到端融合網絡,通過整合來自外部知識庫的附加情感知識表示來增強多模態融合。

**2) 多模態對話情感識別

在多模態對話情感識別領域的研究中,Fu等人【166】將上下文建模、知識豐富和多模態(文本和音頻)學習集成到基于GCN的架構中。Li等人【167】提出了一種解耦的多模態蒸餾(DMD)方法,旨在通過靈活和自適應的跨模態知識蒸餾來增強每種模態的判別特征。Sun等人【168】研究了一種基于粗集理論的多模態融合Transformer網絡,通過粗集跨注意力促進了多模態信息的交互和特征引導。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Xu等人【172】引入了外部知識,包括文本語法和跨模態關聯知識,通過知識誘導矩陣切斷文本或跨模態模態之間的無關連接。Yang等人【173】提煉了視覺情感線索,并將其與文本內容對齊,以選擇性地與文本模態中的目標方面匹配和融合。CoolNet【174】是一個跨模態的細粒度對齊和融合網絡,旨在提高視覺-語言模型在無縫整合視覺和語言信息方面的表現。

**4) 多模態多標簽情感識別

在多模態多標簽情感識別研究領域,Zheng等人【176】提出通過使用效價-喚醒(VA)空間來表示每個情感類別,以捕捉情感類別之間的相關性,并設計了一種基于VA的對比學習算法。CARAT【177】提出了基于對比的特征重建和聚合機制,用于MMER任務。具體而言,CARAT設計了一種基于重建的融合機制,通過對比學習模態分離和標簽特定特征,來更好地建模細粒度的模態與標簽之間的依賴關系。

D. 上下文信息

上下文是指圍繞某個詞或短語的單詞、句子或段落,這些信息為該詞或短語賦予了特定的含義。理解上下文對于對話系統或情感分析等任務至關重要。在對話中,上下文包括之前話語的歷史,而對于新聞來說,它指的是整篇文章提供的總體描述。總的來說,上下文信息幫助機器做出更準確的預測。圖8展示了上下文信息在多模態情感學習任務中的重要性。

**1) 多模態情感分析

在多模態情感分析領域,Chauhan等人【180】采用了一個上下文感知的注意力模塊,通過編碼器-解碼器結構學習參與模態之間的模態內交互。Poria等人【181】提出了一個帶有多級多重注意的遞歸模型,以捕捉話語之間的上下文信息,并設計了一個遞歸模型來捕捉話語之間的上下文信息,引入了基于注意力的網絡,以提高上下文學習和動態特征融合的效果。

**2) 多模態對話情感識別

在多模態對話情感識別研究領域,Hu等人【185】有效利用了多模態依賴關系,并利用說話者信息來建模說話者之間和說話者內部的依賴關系。Zhang等人【80】提出了一個跨模態上下文融合和語義精煉網絡(CMCF-SRNet),解決了話語之間語義關系信息不足的局限性。Zhang等人【187】構建了多個特定模態的圖,以建模多模態上下文的異質性。Chen等人【188】提出了一個基于GNN的模型,該模型探索了多變量關系,并通過評估多頻信號的情感差異和共性的不同重要性來捕捉這些關系。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Yu等人【158】提出了一種無監督的方法,該方法最小化了兩個模態之間的Wasserstein距離,強制兩個編碼器生成更適合最終提取的表示。Xu等人【192】設計并構建了一個多模態中文產品評論數據集(MCPR),以支持MABSA的研究。

**4) 多模態多標簽情感識別

MMS2S【197】是一種多模態序列到集合的模型,用于有效建模標簽依賴和模態依賴。MESGN【198】首次提出了這一任務,該模型同時建模模態到標簽和標簽到標簽的依賴關系。Zhao等人【199】提出了一個通用的多模態對話感知交互框架(MDI),用于建模對話上下文對情感識別的影響。 結論

多模態情感計算(MAC)已成為人工智能領域中的一個重要研究方向,并在理解和解釋情感方面取得了顯著進展。本文綜述了與多模態情感計算相關的多種任務,涵蓋了其研究背景、定義、相關工作、技術方法、基準數據集和評估指標。我們將多模態情感計算中的任務劃分為四類:多任務學習、預訓練模型、增強知識和上下文信息,涉及多模態情感分析(MSA)、多模態對話情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)。此外,我們總結了不同情感計算任務之間的一致性和差異性,并報告了多模態情感分析中固有的挑戰,探索了未來研究和發展的潛在方向。

付費5元查看完整內容

由于該領域的多重進展,計算機視覺系統在過去二十年中取得了快速進步。隨著這些系統越來越多地部署在高風險的現實應用中,迫切需要確保它們不會傳播或放大歷史或人工整理數據中的任何歧視性傾向,或無意中從虛假的相關性中學習到偏見。本文提供了關于公平性的全面綜述,總結并揭示了計算機視覺背景下的最新趨勢和成功。我們討論的話題包括:

  1. 從廣泛的公平機器學習文獻和相關學科中得出的公平性的起源和技術定義。
  2. 旨在發現和分析計算機視覺系統中偏見的研究工作。
  3. 近年來提出的緩解計算機視覺系統中偏見的方法的總結。
  4. 研究人員為測量、分析和緩解偏見以及增強公平性而產生的資源和數據集的全面總結。
  5. 對該領域的成功、在多模態基礎和生成模型背景下的持續趨勢以及仍需解決的空白的討論。

所提出的描述應幫助研究人員理解在計算機視覺中識別和緩解偏見的重要性、該領域的現狀,并識別未來研究的潛在方向

計算機視覺領域多年來經歷了多次重大進展。機器學習和統計方法的引入引發了對視覺識別的極大興趣和進步,例如[1, 2, 3],這最終激發了最近在使用神經網絡[4, 5, 6]和大規模數據集[7, 8]的深度學習方法方面的諸多進展。識別問題的快速進展也激發了對各種其他問題的正確方法和模型的探索,例如用于圖像分割的U-Net [9]或用于圖像合成的潛在擴散模型[10]。 然而,機器學習和統計方法依賴于可以引發、傳播或放大統計偏差的訓練數據集和損失函數。當這些偏差與人們相關的敏感保護屬性(例如種族、性別、年齡或民族)相關時,這些偏差是不受歡迎的。學習這些固有相關性或依賴于這些屬性的虛假相關性的模型可能會產生不同的結果,從而導致倫理或法律問題[11, 12]。公平性和偏差緩解的目標[13, 14]是防止或最小化此類偏差對模型決策的影響。 為了使計算機視覺系統廣泛采用、接受和信任,有必要避免社會不平等并提高其可靠性。這激發了對公平性和偏差問題的關注,旨在開發能夠公平地為社會服務的負責任的視覺識別和相關系統。從早期揭示圖像描述[15]或面部識別[16]偏見的研究,到最近在各種任務中緩解偏見的努力[14, 17, 18, 19],在研究公平性和提出緩解計算機視覺偏見方法方面,已經有大量的工作。本文綜述了這方面的文獻以及機器學習系統在大規模數據集上訓練并應用于社會偏見相關問題的相關問題。 本文首先介紹了公平性的符號、起源和定義,同時總結了與更廣泛的機器學習文獻中公平性研究的共性。然后,我們簡要討論了先前在發現和分析計算機視覺數據集和模型中的偏見方面的工作。接下來,我們綜合了用于研究偏見及其緩解的提出的方法和數據集。最后,我們討論了在多模態基礎模型中發現和緩解偏見的當前趨勢以及該領域的未解問題。該綜述旨在為新研究提供快速參考和起點,適應或設計新方法以最大限度地提高新興計算機視覺模型的公平性。 計算機視覺模型中公平性研究與其他領域(如表格數據和圖表)相比有何不同?公平性的總體框架包括量化模型對不同類別敏感保護屬性群體的不同比例結果,并提出緩解這些差異的方法。例如,COMPAS[20]是一個常用于分析機器學習公平性的表格數據集,其中將種族作為敏感保護屬性,包括為分類變量。相比之下,計算機視覺數據集通常缺乏對敏感屬性的明確分類標簽。這些屬性通常隱含在輸入圖像像素的組合和模型要推斷的特定任務目標屬性中。例如,在沒有偏見緩解的情況下,訓練預測人類活動(如烹飪與不烹飪)的計算機視覺模型可能會對不同性別的人物圖像預測出不同的比例[21]。挑戰在于解開與性別相關的人物外觀和正在執行的活動的影響。由于這一目標很難實現,計算機視覺中的偏見緩解提出了表格數據集中不存在的獨特挑戰。這證明了對計算機視覺方法進行全面綜述的必要性,同時簡要回顧了更一般的公平性文獻。對于機器學習公平性的全面綜述,我們推薦閱讀Mehrabi等人[22]、Pessach和Shmueli[23]、Le Quy等人[24]、Caton和Haas[25]的文獻。或許與我們更相關和互補的是Parraga等人[26]最近的綜述,該綜述側重于視覺與語言模型。相比之下,我們的綜述更全面地總結了與傳統計算機視覺任務(如圖像分類、目標檢測、活動識別和面部識別與分析)相關的公平性文獻。 計算機視覺的另一個挑戰是缺乏對敏感保護屬性的明確標簽的訪問。通常,計算機視覺數據集中沒有明確注釋或由圖像中的個人提供的人口變量(如性別、種族或民族)信息。因此,這些數據集上的大多數注釋只能被視為基于數據注釋者感知判斷的代理值。此外,Scheuerman和Brubaker[29]認為,科技工作者和科學家在定義計算機視覺數據集中的人物身份類別方面也發揮了重要作用。因此,之前的研究中對性別等人口標記的研究僅作為二元變量,種族則通常作為一組離散類別進行研究。本綜述中總結的幾項工作承認了其中一些問題,但總體領域應在這種背景下進行評估。 除了這些問題之外,由于偏見的性質、數據集和任務的多樣性以及模型性能和公平性之間的權衡,導航計算機視覺中的公平性和偏見緩解挑戰仍然是一項復雜的工作。本文綜述了核心計算機視覺任務,并確定了實現每項任務的公平性和緩解偏見所面臨的主要挑戰。圖1展示了計算機視覺系統中普遍存在的人口偏見和不公平類型。表1和表2廣泛總結了計算機視覺文獻中開發的特定任務去偏方法以及用于研究偏見和公平性的數據集。在第4節和第5節中可以找到對偏見緩解的常用方法的詳細概述以及按偏見屬性和任務分類的數據集的全面討論。

付費5元查看完整內容

摘要——大型語言模型(LLMs)的快速進展有潛力革新各個領域,但其迅猛發展在監督、倫理開發和建立用戶信任方面帶來了顯著挑戰。本綜述全面調研了LLMs中的關鍵信任問題,重點關注意外傷害、缺乏透明性、易受攻擊、人類價值觀對齊和環境影響等問題。我們強調了可能破壞用戶信任的諸多障礙,包括社會偏見、決策過程中的不透明性、潛在的濫用以及技術快速演變帶來的挑戰。隨著LLMs在金融、醫療、教育和政策等敏感領域的普及,解決這些信任差距至關重要。 為了解決這些問題,我們建議采用綜合方法,包括倫理監督、行業問責、監管和公眾參與。我們主張重塑AI開發規范、對齊激勵措施,并在整個機器學習過程中整合倫理考量,這需要技術、倫理、法律和政策等不同領域專業人士的密切合作。我們的綜述通過提供一個評估LLMs信任的強大框架和對復雜信任動態的深入分析,為該領域作出了貢獻。我們提供了上下文化的指南和標準,旨在負責任地開發和部署這些強大的AI系統。 本綜述識別了在開發可信AI過程中面臨的關鍵限制和挑戰。通過應對這些問題,我們的目標是創建一個透明、負責的AI生態系統,在帶來社會利益的同時將風險降至最低。我們的研究成果為研究人員、政策制定者和行業領導者提供了寶貴的指導,幫助他們在各類應用中建立對LLMs的信任,并確保其負責任地使用造福社會。 關鍵詞——AI治理、算法偏見、可解釋的AI、大型語言模型、可信的AI。

人工智能(AI)的發展顯著受到了作出基礎性貢獻的關鍵人物的影響。AI的創始人約翰·麥卡錫提出了“人工智能”一詞,并倡導使用數學邏輯來表示知識,開創了知識表示領域。他還開發了LISP,這是一種對AI進展至關重要的編程語言[1]。麻省理工學院計算機科學與人工智能實驗室的聯合創始人馬文·明斯基通過理論AI研究推動了對機器智能和推理的理解[2]。由麥卡錫、明斯基、內森尼爾·羅切斯特和克勞德·香農提出的1956年達特茅斯會議是AI歷史上的一個關鍵時刻,將該領域從理論概念轉向實際應用[3]。這一時期見證了啟發式搜索技術和早期機器學習模型的進步,展示了AI向實際應用的轉變。

1970年代后期,AI進展放緩,被稱為“第一次AI寒冬”。這是由于未能達到預期和計算能力有限導致資金和興趣的減少。1980年代見證了向實際AI應用的轉變,如專家系統和自然語言處理,為大型語言模型(LLMs)奠定了基礎,推進了AI對語言理解和生成的能力。盡管在AI寒冬期間面臨挑戰,早期的專家系統在AI商業化方面起到了關鍵作用[4]。

最近的AI進展歸因于廣泛的數據集和日益增加的計算能力,特別是GPU的使用。這些因素在推動深度學習技術的發展中起到了關鍵作用,顯著影響了計算機視覺和語音識別[5],[6]。另一個重要的里程碑是語言模型的創建,這些模型能夠處理和生成類人文本,從而擴展了AI的能力。深度神經網絡(DNNs)和LLMs的有效性導致了AI在醫療、金融、交通和零售等各個行業的廣泛采用,提高了效率和數據處理能力[8]-[10]。神經網絡(NNs)用于分析大量數據集并識別模式,而LLMs則用于為自動化客戶服務的聊天機器人提供動力[11]-[14]。這些技術革新了不同領域的技術互動,凸顯了深度學習和語言模型對AI進展的重大影響[9]。 DNN架構,包括LLMs,導致了“黑箱”問題,使得理解其工作原理及其結果變得困難[15]。雖然像決策樹這樣的簡單AI模型是透明的,但LLMs缺乏透明性,這在用于決策時引發了倫理問題。挑戰在于使這些系統更透明和可理解,同時考慮到潛在的偏見和錯誤。解決這些問題的努力包括開發使算法過程更透明的方法,但這在AI倫理和治理中仍然是一個重大挑戰[16]。要更好地理解這一點,請參見圖1,它展示了AI的演變和信任挑戰。

時間軸展示了AI在醫療、金融、交通、零售和電子商務領域的日益擴大影響。LLMs在利用先進的語言生成技術變革內容創建方面處于領先地位。時間軸強調了AI中的信任和監督挑戰以及建立信任策略的重要性[17],[18]。它揭示了AI進展與政策和治理發展之間的差距。

LLMs的最新進展改善了其語言生成能力,但其復雜性阻礙了我們對其決策過程的理解。黃和王在2023年的調查[19]強調了解釋性對LLMs的重要性,特別是在需要透明度和信任的關鍵行業。主要發現包括:a)用于基于神經網絡的NLP模型的事后解釋工具如InSeq工具包;b)模型校準和不確定性估計技術;c)用于擴展和推理的指令微調LLMs研究,問題回答中的元推理;d)LLMs的數學推理能力,語義解析魯棒性研究,減少LLM使用危害的舉措,Aug-imodels等框架[19]用于高效和可解釋的模型,評估代碼訓練的LLMs,以及e)改進LLM推理性能的Chain-of-Thought樞紐措施。他們的研究強調了解釋性對LLMs的倫理和實際重要性。在LLMs被集成到多種應用中時,提供可理解和可解釋的響應是重要的。增強模型設計和交互、提高魯棒性和效率、指導訓練技術都是理解LLM操作的好處。他們的調查是揭開LLM復雜性的一個重要貢獻,為在醫療、金融和法律領域透明和倫理部署LLM奠定了基礎。它為未來研究奠定了基礎,以彌合原始LLM輸出與人類可理解解釋之間的差距。持續開發LLM解釋性對推進AI技術的可信性和可及性至關重要。

A. 構建大型語言模型的信任

黃和王的調查工作[19]及更廣泛的解決“黑箱”問題的努力指明了清晰的前進方向。然而,我們需要一種綜合方法,考慮倫理、技術和政策,以構建AI系統的信任,尤其是像LLMs這樣復雜的模型。 1)LLMs的倫理問題:LLMs在醫療、金融、政策制定和法律系統等領域的日益使用引發了關于隱私、偏見、公平和問責的倫理問題,原因是它們具有先進的自然語言能力。 LLMs可能會因為訓練文本數據中包含敏感信息而損害隱私。這可能導致隱私泄露,例如暴露醫療保健中的機密患者數據或在數據分析中泄露敏感的客戶記錄。為減少這些風險,有必要避免將個人可識別信息納入模型,并評估其隱私影響。確保LLM系統中的透明性和用戶對其數據的控制至關重要。明確的數據隱私指南和法規對于與用戶建立信任至關重要[20]-[30]。 偏見是LLMs的另一個倫理問題。它指的是LLMs在訓練數據中反映和延續的偏見,這可能導致偏見輸出或決策,損害邊緣化群體。性別、種族或文化偏見可能影響LLM模型,導致不公平或刻板印象的輸出和歧視性決策。例如,一個以人力資源為重點的LLM助手可能會對某些群體不利。為解決這一問題,公司應建立多元化的審查委員會,并定期使用偏見檢測工具審核LLM輸出[31]-[33]。 LLMs的另一個倫理問題是公平性,指的是公正待遇。LLM系統必須避免偏見并確保公平,通過公正對待每個人來實現。不公平的LLM模型可能會加劇不平等并造成傷害。例如,在公共政策中使用LLMs評估貸款或抵押申請可能會加劇經濟不平等。實現LLMs的公平性需要防止數據和算法中的偏見,使用對抗性去偏技術,并使用明確定義的指標持續評估公平性[34]-[37]。 問責在LLM系統中至關重要[38]-[40]。由于其復雜的推理過程,LLMs在醫療、司法和就業等影響人們生活的領域中尤其難以追究責任。用戶和利益相關者應知道誰對開發、部署和維護負責。他們應有錯誤、偏見或傷害的申訴機制。組織應建立明確的責任制和透明的治理,包括AI倫理委員會、模型性能的詳細記錄和跟蹤,以及關于LLM系統開發和部署的全面報告。 訓練和運行如GPT-3之類的LLMs需要大量的計算資源,導致高能耗和碳排放[41]。例如,GPT-3的訓練消耗了大約1287 MWh的電力,產生了502公噸的CO2排放,相當于112輛燃油車一年的排放。推理過程可能比訓練消耗更多的能量,估計約60%的AI能量用于推理,40%用于訓練[42]。一次ChatGPT請求的能耗可能是一次谷歌搜索的100倍。盡管LLMs目前對整個ICT行業的排放貢獻不到0.5%,對全球總排放的貢獻不到0.01%,但其影響正在迅速增加[43],[44]。為了促進AI的可持續性,行業應優先透明測量能耗和排放,利用可再生能源數據中心,開發更高效的AI硬件和算法,啟用排放跟蹤功能,并考慮轉向較小的專用模型而非大型通用LLMs。盡管LLMs目前對全球排放的貢獻很小,但其日益廣泛的使用需要積極努力減輕其環境影響,確保AI發展惠及世界而不加劇氣候變化。AI社區、政府和科技公司之間的合作對于實現更可持續的AI未來至關重要[45],[46]。

2)信任基礎上的LLMs技術進步:LLM系統需要解決技術挑戰以建立信任,例如解釋性。解釋性指的是理解和解釋LLM系統的決策過程。透明性通過使用戶理解系統的推理并識別潛在的偏見或錯誤來建立信任。可解釋的LLM系統可以幫助識別倫理問題并提供決策見解[20],[47],[48]。 可解釋AI(XAI)技術對于理解LLMs及建立其復雜系統的信任至關重要。注意力機制提供了對模型預測的見解[49],但其解釋可能存在爭議[50]。更可靠的方法如綜合梯度[51]和代理模型[52]提供了特征相關性的量化指標,增強了我們對模型決策的理解。最新進展應用電路分析[53]來分解復雜的黑箱LLMs為可解釋的元素,提供了模型操作的詳細見解。使用提示技術生成的模型解釋允許全面的因果敘述[54]。然而,重要的是嚴格評估這些解釋的準確性和有用性[55]。使用各種XAI方法對于LLM的負責任使用至關重要。清晰的解釋通過描述模型的能力、局限性和風險來幫助建立終端用戶的信任[56]。它們對于調試[57]、識別偏見[58]和促進倫理使用至關重要。隨著LLMs的進步,開發可解釋的LLMs至關重要。這在技術上具有挑戰性,但在倫理和研究上必不可少。定制的XAI技術需要在各個層次提供解釋,反映模型的邏輯以增強用戶信心、確保安全并指導AI的倫理使用。

另一個技術挑戰是數據偏見。數據偏見指的是LLM訓練數據中的不公平偏向或歧視。它可能導致有偏見的結果并延續社會不平等。解決數據偏見需要采取措施,如數據審計、預處理以減輕偏見以及多樣化訓練數據集以實現代表性和包容性。明確定義的指標可以幫助評估LLM系統的公平性、準確性、可靠性和透明性,提供其倫理表現的量化指標[20],[37],[47],[48]。

最新研究探索了通過解決幻覺和缺乏可解釋性等問題來提高LLMs可信度的技術[59]。他們提出了一種稱為圖上的推理(RoG)的方法,通過知識圖譜與LLMs協同進行真實和可解釋的推理。在其檢索-推理優化方法中,RoG使用知識圖譜檢索推理路徑,以便LLMs生成答案。RoG中的推理模塊使LLMs能夠識別重要的推理路徑并提供可解釋的解釋,增強了AI系統的可信度。通過專注于知識圖譜中的推理過程并提供透明的解釋,像RoG這樣的方法展示了建立LLMs信任的有希望的方向[59]。

具有可靠日志記錄的可解釋系統增強了透明性、審計和問責制[60]。文檔和日志記錄提供了對決策過程的見解,支持錯誤解決,并確保遵守倫理和法規標準,從而建立用戶信任。這些機制使技術和非技術利益相關者能夠理解AI系統的內部運作,并確定影響其輸出的因素。

3)用戶信任的心理因素:用戶對LLMs的信任在很大程度上取決于心理因素,而不僅僅是技術的可靠性[61]-[65]。用戶必須對LLM系統的可靠性、準確性和可信度有信心。通過有效的溝通和透明性可以實現這一點。組織應清楚地傳達LLM系統的能力和局限性,提供有關系統工作原理和決策方式的信息。此外,組織應對其數據收集和使用實踐保持透明,讓用戶了解他們的數據如何被使用和保護。

4)信任基礎上的LLMs政策與治理:有效的治理對于管理部署LLM系統相關的倫理、技術和問責問題至關重要[36],[40],[47],[61],[66]-[69]。應建立結構和流程,以確保LLM系統的倫理和負責任開發、部署和監控。涉及關鍵利益相關者,如AI倫理委員會、監管機構和行業專家,可以提供指導和監督。為了確保公平和無偏見的決策,必須包括用戶反饋和多樣化的觀點。為了建立對LLMs的信任,我們必須解決解釋性和數據偏見等技術問題,同時建立強有力的治理框架。

5)社會經濟影響:必須評估LLMs的社會經濟影響,以了解其對勞動力和社會的影響。LLMs可能會取代人類工人,導致失業和社會動蕩。需要投資于技能發展,以幫助工人適應變化。再培訓計劃和其他培訓可以使工人能夠與LLMs協同工作或從事新角色。應實施優先考慮工作保障和社會支持的政策,以減輕影響。探索LLMs的潛在社會福利,如增加信息獲取,可以促進更包容的社會。在設計和實施LLMs時,倫理考量和負責任的部署至關重要。應建立促進透明、問責和公平的政策和法規。對LLMs影響的仔細考慮、技能發展的投資和負責任的部署對于對社會產生積極影響至關重要[70]-[72]。

B. 本綜述的主要貢獻

本綜述對AI系統的信任進行了全面分析,重點關注LLMs。通過審查倫理、技術和社會因素,我們為負責任的AI開發討論作出了貢獻。我們的綜述提供了應對構建AI系統信任挑戰的見解和建議,特別是LLMs。主要貢獻如下所述。

? 綜合評估框架:本綜述提供了一個用于分析高級AI系統,特別是LLMs中的算法偏見和漏洞的分類法。該框架由八個視角組成,涵蓋透明性、魯棒性、人類價值對齊和環境影響等方面。此方法使得能夠對LLMs的信任進行徹底評估,解決其開發和部署中的問題。通過整合多種視角,該框架提供了LLM可信度的全貌,對負責任的AI作出了重要貢獻。 ?** 綜合信任動態分析**:本綜述審查了影響用戶對AI系統信任的因素,包括心理、倫理、技術和政策方面。通過分析AI能力、法規和社會接受度的交叉點,識別了實現可信AI的障礙。此研究揭示了信任動態,為從事負責任的AI開發和實施的研究人員、政策制定者和行業專業人士提供了指導。 ? 針對LLMs的上下文化指南和標準:本綜述審查了現代AI系統,特別是不透明模型如LLMs的倫理指南和政策標準的應用。倫理指南在確保AI使用的責任方面發揮重要作用。然而,LLMs由于其類人文本生成和缺乏透明性,面臨獨特的挑戰,這使得理解和解釋其行為變得困難。本綜述探討了在實際LLM部署中實施倫理原則的實際意義,考慮了技術限制、社會影響和潛在風險。它識別了局限性并提供了解釋和操作化LLM開發和部署倫理指南的見解。目標是通過突出差距并倡導完善LLM特定指南來促進AI治理,促進AI使用的透明性、公平性和問責制。

C. 本綜述的局限性

本綜述對AI信任進行了全面審查,特別關注LLMs。然而,重要的是要承認我們研究的局限性。我們的分析基于現有的AI倫理和信任領域的文獻和研究,包括專門針對LLMs的相關工作。因此,本綜述可能無法完全捕捉這些快速發展的領域中最新的想法或進展。

我們的分析范圍限于學術出版物和行業報告,這限制了所考慮的觀點范圍。對于LLMs,這尤為相關,因為本綜述可能未包括未出版的研究或不太知名的觀點,這些觀點可能提供寶貴的見解。此外,鑒于AI技術發展和LLMs倫理考慮不斷演變的速度,本綜述中提出的一些討論和結論可能會隨著時間的推移而變得不再相關。盡管我們的綜述旨在涵蓋AI,包括LLMs,越來越多部署在高風險領域中的情況,但它并未詳盡地解決所有與LLMs相關的信任方面或行業特定挑戰。本綜述中提出的解釋和分析基于撰寫時可獲得的最佳數據和研究。讀者在評估這些發現和建議時應考慮這些局限性。

需要強調的是,本綜述的目標是對AI和LLMs的信任進行全面審查,同時保持對分析范圍的透明度。我們旨在通過探索現有的指南和框架、討論構建LLMs信任的方法和挑戰以及提出未來研究方向,為AI信任和倫理的持續對話作出貢獻。我們鼓勵在可能探索較少或快速發展的領域進行進一步研究和對話,因為這些討論對于AI系統負責任的開發和部署至關重要。在本綜述中,我們創建了一個敘述,捕捉了AI信任的當前狀態及其領域中的潛在發展。然而,AI倫理和信任的領域是復雜和多面的,我們的綜述可能未涵蓋每一個細微差別或觀點。盡管如此,我們希望這項工作能為研究人員、政策制定者和從業人員在應對與AI和LLMs信任相關的挑戰和機遇時,提供有價值的資源。

付費5元查看完整內容

視覺與語言導航(VLN)近年來受到越來越多的關注,許多方法已經涌現出來以推動其發展。基礎模型的顯著成就已經塑造了VLN研究的挑戰和提出的方法。在本綜述中,我們提供了一種自上而下的審視方法,采用了一種原則性框架進行具身規劃和推理,并強調了利用基礎模型應對VLN挑戰的當前方法和未來機會。我們希望通過深入的討論提供有價值的資源和見解:一方面,用以標記進展里程碑,探索基礎模型在該領域的機會和潛在作用;另一方面,為基礎模型研究者整理VLN中的各種挑戰和解決方案。

開發能夠與人類及其周圍環境互動的具身代理是人工智能(AI)的長期目標之一(Nguyen et al., 2021; Duan et al., 2022)。這些AI系統在實際應用中具有巨大的潛力,可以作為多功能助手在日常生活中發揮作用,如家庭機器人(Szot et al., 2021)、自動駕駛汽車(Hu et al., 2023)和個人助理(Chu et al., 2023)。一個推進這一研究方向的正式問題設置是視覺與語言導航(VLN)(Anderson et al., 2018),這是一項多模態和協作任務,要求代理根據人類指令探索三維環境,并在各種模糊情況下進行在場通信。多年來,VLN在仿真環境(Chang et al., 2017; Savva et al., 2019; Xia et al., 2018)和實際環境(Mirowski et al., 2018; Banerjee et al., 2021)中都進行了探索,產生了許多基準測試(Anderson et al., 2018; Ku et al., 2020; Krantz et al., 2020),每個基準測試都提出了稍有不同的問題表述。

近年來,基礎模型(Bommasani et al., 2021)從早期的預訓練模型如BERT(Kenton and Toutanova, 2019)到當代的大型語言模型(LLMs)和視覺語言模型(VLMs)(Achiam et al., 2023; Radford et al., 2021)展現出了在多模態理解、推理和跨領域泛化方面的非凡能力。這些模型在海量數據上進行了預訓練,如文本、圖像、音頻和視頻,并可以進一步適應廣泛的具體應用,包括具身AI任務(Xu et al., 2024)。將這些基礎模型整合到VLN任務中標志著具身AI研究的一個關鍵進展,表現出顯著的性能提升(Chen et al., 2021b; Wang et al., 2023f; Zhou et al., 2024a)。基礎模型還為VLN領域帶來了新的機會,例如從多模態注意力學習和策略政策學習擴展到預訓練通用的視覺和語言表征,從而實現任務規劃、常識推理以及泛化到現實環境。

盡管基礎模型對VLN研究產生了最近的影響,以往關于VLN的綜述(Gu et al., 2022; Park and Kim, 2023; Wu et al., 2024)來自基礎模型時代之前,主要關注VLN基準測試和傳統方法,即缺少利用基礎模型解決VLN挑戰的現有方法和機會的全面概述。特別是隨著LLMs的出現,據我們所知,尚未有綜述討論它們在VLN任務中的應用。此外,與以前將VLN任務視為孤立的下游任務的努力不同,本綜述的目標有兩個:首先,標記進展里程碑,探索基礎模型在該領域的機會和潛在作用;其次,在系統框架內為基礎模型研究者組織VLN中的不同挑戰和解決方案。為建立這種聯系,我們采用LAW框架(Hu and Shu, 2023),其中基礎模型作為世界模型和代理模型的骨干。該框架提供了基礎模型中推理和規劃的一般景觀,并與VLN的核心挑戰緊密相關。

具體而言,在每一步導航中,AI代理感知視覺環境,接收來自人類的語言指令,并基于其對世界和人類的表征進行推理,以規劃行動并高效完成導航任務。如圖1所示,世界模型是代理理解周圍外部環境以及其行動如何改變世界狀態的抽象(Ha and Schmidhuber, 2018; Koh et al., 2021)。該模型是一個更廣泛的代理模型的一部分,該代理模型還包含一個人類模型,該模型解釋其人類伙伴的指令,從而告知代理的目標(Andreas, 2022; Ma et al., 2023)。為了回顧VLN領域不斷增長的工作并理解所取得的里程碑,我們采用自上而下的方法進行綜述,重點關注從三個角度出發的基本挑戰:

  • 學習一個世界模型來表示視覺環境并泛化到未見過的環境。
  • 學習一個人類模型以有效地從基礎指令中解釋人類意圖。
  • 學習一個VLN代理,利用其世界和人類模型來實現語言的基礎、溝通、推理和規劃,使其能夠按指示導航環境。

我們在圖2中展示了一個分層和細粒度的分類法,基于基礎模型討論每個模型的挑戰、解決方案和未來方向。為了組織本綜述,我們首先簡要概述該領域的背景和相關研究工作以及可用的基準測試(第2節)。我們圍繞提出的方法如何解決上述三個關鍵挑戰進行結構化審查:世界模型(第3節)、人類模型(第4節)和VLN代理(第5節)。最后,我們討論了當前的挑戰和未來的研究機會,特別是在基礎模型興起的背景下(第6節)。

VLN任務定義

一個典型的視覺與語言導航(VLN)代理在指定位置接收來自人類指令者的(一系列)語言指令。代理使用以自我為中心的視覺視角在環境中導航。通過遵循指令,代理的任務是在一系列離散視圖或較低級別的動作和控制(例如,前進0.25米)上生成軌跡,以到達目的地。如果代理到達距離目的地指定距離(例如3米)以內的位置,則任務被認為成功。此外,代理可以在導航過程中與指令者交換信息,可以請求幫助或進行自由形式的語言交流。此外,人們對VLN代理集成額外任務(如操作任務(Shridhar et al., 2020)和物體檢測(Qi et al., 2020b))的期望也在不斷增加。

基準測試

如表1所示,現有的VLN基準測試可以根據幾個關鍵方面進行分類:(1)導航發生的世界,包括領域(室內或室外)和環境的具體情況。(2)涉及的人機交互類型,包括交互回合(單次或多次)、通信格式(自由對話、限制對話或多重指令)和語言粒度(動作導向或目標導向)。(3)VLN代理,包括其類型(如家庭機器人、自動駕駛車輛或自主飛行器)、動作空間(基于圖形、離散或連續)和額外任務(操作和物體檢測)。(4)數據集的收集,包括文本收集方法(人類生成或模板化)和路徑演示(人類執行或規劃生成)。有代表性的是,Anderson等人(2018)基于Matterport3D模擬器(Chang et al., 2017)創建了Room-to-Room(R2R)數據集,代理需要遵循精細的導航指令到達目標。Room-across-Room(RxR)(Ku et al., 2020)是一個多語言版本,包括英語、印地語和泰盧固語指令。它提供了更大的樣本量,并為虛擬姿態提供了時間對齊的指令,豐富了任務的語言和空間信息。Matterport3D允許VLN代理在離散環境中操作,并依賴預定義的連接圖進行導航,代理通過在相鄰節點之間的傳送在圖上移動,被稱為VLN-DE。為了使簡化的設置更現實,Krantz等人(2020)、Li等人(2022c)、Irshad等人(2021)通過將離散的R2R路徑轉移到連續空間(Savva等人,2019)提出了連續環境中的VLN(VLN-CE)。Robo-VLN(Irshad等人,2021)通過引入在機器人環境中更現實的連續動作空間的VLN,進一步縮小了模擬到現實的差距。最近的VLN基準測試經歷了幾次設計變更和期望,我們在第6節中討論這些變更。

評估指標

三種主要指標用于評估導航路徑規劃性能(Anderson等人,2018):(1)導航誤差(NE),代理最終位置與目標位置之間最短路徑距離的平均值;(2)成功率(SR),最終位置足夠接近目標位置的百分比;(3)成功率加權路徑長度(SPL),通過軌跡長度標準化成功率。一些其他指標用于衡量指令遵循的忠實度和預測軌跡與真實軌跡之間的一致性,例如:(4)按長度加權的覆蓋得分(CLS)(Jain等人,2019);(5)歸一化動態時間規整(nDTW)(Ilharco等人,2019),對偏離真實軌跡的情況進行懲罰;以及(6)按成功率加權的歸一化動態時間規整(sDTW)(Ilharco等人,2019),對偏離真實軌跡的情況進行懲罰,并考慮成功率。

付費5元查看完整內容

視頻生成是一個迅速發展的研究領域,由于其廣泛的應用范圍而獲得了重大關注。這一領域的一個關鍵方面是長時視頻的生成,這呈現了獨特的挑戰和機遇。本文呈現了對長視頻生成近期進展的第一個綜述,并將其總結為兩個關鍵范式:分而治之或時間自回歸。我們深入探討了每個范式中常用的模型,包括網絡設計和條件技術的方面。此外,我們提供了數據集和評估指標的全面概述和分類,這對于推進長視頻生成研究至關重要。以現有研究的總結結束,我們還討論了這一動態領域中出現的挑戰和未來方向。我們希望這篇綜述能成為長視頻生成領域的研究人員和實踐者的重要參考。

//www.zhuanzhi.ai/paper/6fcdf09712b06f301551fccf2dc693f8

計算機視覺和人工智能領域經歷了變革性的增長,特別是在視頻生成領域。最近,開發出能夠產生高質量和逼真視頻序列的算法激增。值得注意的是,長視頻的生成,以其延長的持續時間和復雜的內容為特征,為社區提出了新的挑戰并激發了新的研究方向。

盡管如此,關于長視頻生成的研究仍存在差距。當前研究中的一個缺口是缺乏長視頻的標準定義。長短視頻之間的區別通常依賴于不同工作中的相對度量,如幀數(例如,512,1024或3376幀)或持續時間(例如,3、5分鐘),與較短視頻(例如,30、48或64幀)相比。考慮到研究標準的多樣性,我們在圖1中總結了現有研究中聲稱的長視頻生成的視頻長度,基于此我們提出了長視頻的定義。具體而言,如果視頻的持續時間超過10秒,假設標準幀率為10fps,或者等價地,如果視頻包含超過100幀,則將視頻分類為“長”視頻。這一定義旨在為各種研究背景中長視頻的識別提供一個明確的基準。

根據這一定義,長視頻長度已取得顯著進展。Yin等人(2023)提出了一種分而治之的擴散結構,專門針對長視頻進行訓練,以消除推理和訓練之間的差距,成功生成長達1024幀的視頻。Zhuang等人(2024)利用大型語言模型(LLM)的強大能力,將輸入文本擴展為腳本,以指導生成分鐘級長視頻。最近,Sora(OpenAI,2024)實現了高保真且無縫生成長達一分鐘的長視頻,特色包括多分辨率和鏡頭轉換等高質量效果。此外,許多杰出的研究在現有視頻生成模型上引入了新的結構和思想,為長視頻生成鋪平了道路。

即便如此,長視頻的生成仍面臨諸多挑戰。其核心是,長視頻的固有多維復雜性對處理和生成的硬件資源提出了巨大的需求,導致訓練和生成成本在時間和資源上的顯著增加。這提出了在現有資源約束下生成長視頻的挑戰。此外,長視頻數據集的稀缺性未能滿足訓練要求,阻止研究人員直接獲得支持長視頻模型生成的最優參數。在這種情況下,當生成的視頻長度超過某些閾值時,難以保持長視頻生成的時間一致性、連續性和多樣性。此外,當前研究表面上出現了幾種偏離現實世界既定物理定律的現象,提出了尚未被現有方法理解或直接操縱的未預見挑戰。因此,長視頻生成研究仍處于早期階段,有許多挑戰待解決,需要進一步的探索和發展。 在這項綜述中,我們對長視頻生成的現有研究進行了全面調查,旨在提供當前發展狀態的清晰概述,并為其未來進展做出貢獻。本文其余部分的組織概述在圖2中。最初,我們在第1節中定義了長視頻持續時間。第2節討論了四種不同類型的視頻生成模型和控制信號。根據第1節和第2節,我們在第3.1節和第3.2節中分別介紹了簡化長視頻生成任務的兩種常見范式:分而治之和時間自回歸。第4節和第5節討論了視頻質量改進和硬件要求。最后,本文以長視頻生成的總結和對新興趨勢及機會的討論結束。

我們詳細介紹了四種流行的視頻生成模型,包括擴散模型、自回歸模型、生成對抗網絡(GAN)和掩碼建模。 擴散模型用于視頻生成,采用了傳統擴散技術的迭代細化過程,這些技術最初是為靜態圖像設計的(Ho等,2020),適應了視頻的動態領域。這些模型的核心是從一系列隨機噪聲開始,通過一系列步驟逐步去噪,以生成一個連貫的視頻序列。每一步都由學習到的梯度指導,這些梯度能夠基于單個幀的空間內容及連續幀之間的時間關系預測性地去噪。這種方法允許生成的視頻不僅每一幀在視覺上與其前序幀一致,而且還有助于整個序列的流暢性。 在視頻生成中,空間自回歸模型(Alex Graves,2013)采用了一種獨特的方法,通過基于補丁的方法合成內容,每個補丁的創建依賴于與之前生成的補丁的空間關系。這個過程類似于遞歸算法,一次生成一個補丁。因此,它一幀一幀地構建視頻,直至完成。在這個框架內,補丁之間的空間關系至關重要,因為每個后續補丁必須與其鄰居無縫對齊,以確保整個幀在視覺上的連貫性。這種方法利用了視頻內容中固有的空間依賴性,確保視頻在時間上進展時,每一幀都與其前序幀保持一致和連續,不僅僅是在時間上,也在空間上。 GAN(生成對抗網絡)(Creswell等,2020)在使用GAN進行視頻生成的過程中,從生成器開始,將簡單的噪聲模式轉換為一系列視頻幀。這個本質上隨機的噪聲作為視頻制作的初始空白狀態。通過神經網絡的層,生成器逐漸將這個噪聲塑造成看起來像視頻幀的圖像,確保每一幀邏輯上緊跟上一幀,創造平滑的動作和可信的敘述。 這種從噪聲到視頻的演變通過來自鑒別器的反饋進行精煉,鑒別器是一個判斷生成的視頻看起來是真實還是假的組件。生成器從這個判斷中學習,隨著時間的推移提高其產生更逼真視頻的能力。最終目標是生成的視頻與真實視頻無法區分,并展示自然的動作和過渡。 掩碼建模在視頻生成中,掩碼建模利用了選擇性遮蓋視頻幀部分區域以增強模型學習過程的概念。這種技術通過在視頻的某些段落應用掩碼開始,有效地在訓練期間將它們隱藏起來。模型隨后學習基于可見的上下文和視頻的時間流動來預測這些遮蓋的部分。這個過程不僅迫使模型理解視頻內容的基本結構和動態,還提高了其生成連貫和連續視頻序列的能力。通過在部分可見數據上進行迭代訓練,模型變得擅長填補缺失的信息,確保生成的視頻保持場景和動作的自然進展。 長視頻生成范式

在長視頻生成的領域中,有限的計算資源的挑戰以及現有模型直接生成顯著持續時間視頻的能力不足,導致提出了兩個不同的范式:分而治之和時間自回歸,如圖3所示。這些范式旨在將長視頻生成的復雜任務解構為更易管理的過程,專注于創建單個幀或短片段,這些片段可以邏輯上組裝以完成長視頻的生成。 分而治之范式首先通過識別概述主要敘事的關鍵幀開始,然后生成介于關鍵幀之間的幀,以編織出一個連貫的長視頻。另一方面,時間自回歸范式,也簡稱為自回歸,采用序列方法基于先前條件生成短視頻段。這一范式旨在確保片段之間的流暢過渡,從而實現連續的長視頻敘述。與分而治之采取層次化方法通過區分故事線關鍵幀和補充填充幀不同,時間自回歸范式放棄了層次結構,轉而專注于直接生成由前序幀信息指導的詳細片段。 在這一部分,討論集中在兩個范式上,考察當前研究如何策略性地將長視頻生成任務簡化為更小、更易管理的任務。此外,它還突出了現有模型是如何被用于生成的,這些輸出隨后被組裝成完整的視頻敘述。

結論與未來方向

本文提供了長視頻生成領域最新研究進展的全面回顧。我們系統地回顧了四種視頻生成模型,并深入探討了基于這些模型生成長視頻的范式,將它們歸類為兩大類型:分而治之和自回歸。此外,我們的工作包括了長視頻生成質量特性的綜合總結。為旨在增強這些質量的現有研究提供了詳細解釋。還討論了聚焦于資源需求解決方案的研究。為了進一步推進該領域,我們識別了幾個未來發展的有希望方向。 數據資源擴展現有方法面臨著在訓練長視頻生成模型時由于長視頻數據集資源不足的挑戰,這些數據集未能滿足通過訓練數據獲得最優模型參數的要求。因此,這導致了如長視頻生成不連貫和內容重復等問題。為了解決這一問題,Gu等人(2023)提出了一種使用大型語言模型并轉換現有視頻內容以擴展數據集的方法,有效解決了數據稀缺問題。未來的研究可以探索更有效的方法來豐富長視頻數據集。 統一生成方法的開發長視頻生成的現有范式被總結為兩大類:分而治之和自回歸。雖然它們能夠利用現有模型生成長視頻,但每種方法都有其缺點。具體而言,分而治之受制于長視頻訓練數據集的稀缺性,需要顯著的生成時間,面臨在長時間跨度上預測關鍵幀的挑戰,且關鍵幀的質量顯著影響填充幀的質量。自回歸傾向于累積錯誤,并在多次推斷后遭受內容退化。總體而言,每種范式都有其優勢和弱點。未來的研究可能旨在開發一種高質量的統一范式,整合兩種范式的優勢以解決它們各自的局限性。 具有靈活長度和寬高比的生成當前的研究主要側重于訓練和創建具有預定尺寸的長視頻內容。然而,對多樣化視頻內容和模擬現實世界的日益增長的需求,要求生成具有可變長度和寬高比的視頻。Sora(OpenAI,2024)和FiT(Lu等人,2024)在這一領域取得了進展,Sora實現了靈活視頻大小的生成,FiT在圖像生成的兩個維度上展示了適應性。未來的研究可能會強調改善視頻生成的靈活性,旨在提高生成模型在現實世界設置中的適用性,并進一步激發視頻內容利用的創新。 超長視頻的生成在圖1中描述的調查中,現有研究中長視頻的最長持續時間為1小時(Skorokhodov等人,2022)。然而,在現實生活中,如電影和駕駛模擬中,視頻持續時間通常為90分鐘甚至更長。我們將這些稱為“超長視頻”。因此,未來的研究可以集中于生成超長視頻,并解決隨著持續時間延長而出現的視角轉換、角色和場景發展以及動作和情節豐富化的挑戰。 增強的可控性和現實世界模擬在長視頻生成中,當前模型在生成過程中和內部操作像黑盒一樣,使得理解錯誤的原因(如違反物理定律的錯誤,由Sora(OpenAI,2024)展示)變得具有挑戰性。現有解決方案缺乏對問題起源的洞察以及直觀、可控的補救措施。因此,需要新的方法和技術來增強我們對生成模型的理解和控制,使它們更適合于現實世界的應用。

付費5元查看完整內容

本文介紹了生成式人工智能(Generative Artificial Intelligence)在虛假信息(數字化社會的主要威脅之一)背景下可以發揮的作用。提出了一個研究框架,用于為虛假信息模擬生成定制的基于智能體的社交網絡,從而在討論公開挑戰的同時理解和評估這些現象。

生成式人工智能(GenAI)的出現從根本上重塑了數字內容創作領域,影響了我們制作圖像、視頻、音頻和文本的方式。目前,人工智能模型可以根據簡單的語言提示所提供的語境制作出非常逼真的內容。GPT-4 (OpenAI)、Claude (Anthropic)、PaLM 和 LaMDA (Google)、LLaMA (Meta AI)、Chinchilla (Deep Mind) 和 Alpaca (Stanford) 等出色的 LLM 極大地增強了根據給定上下文生成文本的能力。同樣,DALLE 2(OpenAI)、Stable Diffusion(Runway)和 IMAGEN(Google)等圖像生成模型也引入了一種新方法,用于創建能準確描繪現實生活場景的圖像。值得注意的是,Phenaki(谷歌)和 Gen-2(Runway)等文本到視頻模型也取得了重大進展[1]。

這些生成技術配備了開源模型和可訪問的界面,對編程、娛樂、教育和藝術等一系列領域的生產力產生了積極影響。在學術和研究領域,特別是對社會科學家而言,這些工具為創建逼真的內容、模擬人類行為或定制行為實驗提供了新的機會[2]。大型企業和大學最近進行的試驗凸顯了這些人工智能工具在自我指導生活模擬、開放世界實驗、心理研究和社會模擬等領域的潛力[3]。

在這種情況下,我們不難認為 GenAI,尤其是大型語言模型(LLMs),是應對當今社交媒體中出現的主要威脅之一(即虛假信息)的有力武器。也就是說,惡意實體利用社會網絡的超級連接性,故意傳播虛假或誤導性信息,欺騙或操縱人們的信仰、觀點或行動。最近的研究表明,這些欺騙技術在社交媒體中非常有效,例如在政治選舉中[4]。

在本研究中,將深入探討 LLMs 作為一種創新方法在受控實驗環境中理解、模擬和評估虛假信息的潛力[5]。在傳統背景下,虛假信息主要圍繞假新聞傳播和影響的理論建模,以及利用社交媒體數據進行檢測和評估。這一領域要解決幾個問題,包括審查事件的復雜性,因為沒有真相基線來確認影響活動的目標、策略和參與者;缺乏各種操縱行為的標記數據集;在第三方平臺測試技術對策的不可行性;或必須有人參與才能衡量欺騙活動的認知影響[6]。

反之,LLM 正被用于用體現人類行為的智能體來真實地統治系統,取代數學模型和靜態實驗[7]。這一進步為創建控制信息交換的上下文、用戶和功能的任何信息環境打開了大門,導致基于智能體的生成式社會網絡成為沙盒。在這些受控場景中,可以對紅色智能體進行編程,以模擬定制的虛假信息攻擊,從而進一步分析其演變過程和對個體網絡的影響。因此,我們認為 LLM 有可能緩解虛假信息領域的一些普遍挑戰。本文深入探討了研究機會,并指出了實現這些設想目標所面臨的尚未解決的突出挑戰。

研究機會

隨著 GenAI(特別是 LLMs)的進步,本文闡明了這些技術在社交媒體和虛假信息研究方面的潛在研究機會。

O1. 基于智能體的生成式社會網絡

基于智能體的社會系統的創建涉及開發和實施計算模型,模擬社會背景下個體的互動和行為[2]。這些系統通常旨在模擬真實世界的社會動態,從而探索和分析復雜的社會現象[7]。

傳統的智能體系統雖然有助于模擬社會動態,但也存在局限性。它們依賴于預定義的規則,這限制了它們模擬現實世界中不可預知性的能力、適應性和可擴展性。然而,LLM 可以增強這些智能體的自主性,讓它們在預設規則的范圍之外做出獨特的反應或行動,從而使模擬更加動態和逼真[3]。此外,它還能模擬錯綜復雜的決策過程或實現 OODA(觀察、定向、決策、行動)循環,使智能體能夠對廣泛的情況和互動做出反應。

LLM 為模擬任意數量的用戶和創建逼真的有機互動提供了一個獨特的機會,這項任務在過去具有相當大的挑戰性,但如今卻可以生成基于智能體的社會網絡。人工智能驅動的智能體具備適應流動場景的能力,能產生連貫、多變和逼真的沙盒[8]。在圖 1 中,使用 GPT4 和三個隨機用戶啟動了一個模擬。從零開始,在沒有任何背景的情況下,每個智能體都能感知模擬的社交網絡,保留其感知和行動的記憶,并據此進行互動或發布內容,從而更新模擬環境。

圖 1. 由 GPT-4 管理的三個智能體用戶的合成社交線程

O2. 可定制的虛假信息環境

基于生成式智能體的社交網絡為再現量身定制的情境(如虛假信息情境)提供了重要機會[9]。這一過程可能涉及三個組成部分:智能體描述和屬性、共同語境信息和邏輯規則。

首先,智能體的描述和屬性是每個智能體個體行為的驅動力。這些因素千差萬別,可能包括智能體的網絡角色(人類用戶、組織或機器人)、背景、簡介、思想、社會人口特征和行為[6]。仔細定義這些屬性,就能產生多種多樣的智能體,準確地代表現實世界社交網絡中的用戶[8]。不僅可以模擬來自不同意識形態、國家或年齡的多樣化用戶,還可以模擬具有惡意目的的用戶,如制造爭議、進行非法互動以支持未經證實的主張或有機生成陰謀內容。關于惡意用戶,DISARM 框架可配置不同類型虛假信息攻擊的戰術、技術和程序(TTPs),例如,計劃戰略和目標、目標受眾分析、開發敘事和內容、建立社會資產和合法性、微目標和選擇渠道、提供內容、最大化曝光和在信息環境中持續存在。

此外,共同背景信息提供了塑造環境的更廣泛的社會和群體方面[10]。它包括事件、事實、社會經濟因素和其他影響智能體在網絡中的行為和互動的要素。例如,上個月失業率大幅上升,戰爭爆發,或由于假新聞的日益猖獗而導致社會兩極分化。此外,還可以誘導虛假信息傳播背后的因素,如情緒因素、不確定性、缺乏控制或偏見。多種變量和因素的結合有助于制作一個特定的真實場景,模擬虛假信息是如何傳播的。

同時,邏輯規則決定了信息環境的設置和運行,從而迫使這些復雜系統在真實世界中運行[7]。生成信息的數量和用戶參與互動的概率可以是高級參數,用于影響社交網絡的動態、影響力、擴散以及信息在網絡中共享和傳播的其他方面[11]。這些規則配置智能體的行為,從而影響社交網絡的整體動態。

考慮一個選舉舞弊場景。首先,定義智能體屬性,包括普通公民、政治活動家、散布虛假信息的機器人和官方選舉賬戶的特征,每個人都有獨特的特征和行為。這就為 LLM 所利用的每個用戶創建了特定的上下文。其次,LLM 在交互過程中還會考慮到背景信息,如選舉在即、潛在的投票違規行為和當前的政治氣候。最后,還設定了管理信息共享、影響確定和網絡對新信息的響應的邏輯規則,以編制模擬和 LLM 使用的工作流程。

O3. 評估虛假信息的影響

使用 LLM 和基于智能體的社會場景為在受控場景內研究虛假信息提供了一個難得的機會,這主要是由于在真實世界環境中評估這些攻擊的復雜性。具體來說,根據上述 DISARM 框架,虛假信息攻擊的最后階段是評估效果。

具體來說,虛假信息策略往往與常規信息流交織在一起,因此區分、隔離和分析其實際影響具有挑戰性。另一方面,模擬環境提供了一個安全可控的環境,可以引入和研究不同類型的虛假信息攻擊,而不受現實世界的相關限制[11]。它還為實驗新的欺騙理念提供了一個獨特的試驗場。事實上,從這些研究框架中可以生成合成的標注數據集,不過需要人工審核或半自動系統對其進行評估[12]。

此外,在虛擬沙盒中,可以調整和跟蹤各種變量,如 TTP、強度和操縱操作的性質,以及智能體的屬性和上下文。通過采用適當的框架和模型,可以估算出特定虛假信息策略的有效性。此外,還可以仔細研究智能體概況或情景背景等變量的影響[5]。

圖 3 展示了兩個智能體在面臨選舉舞弊威脅時的觀點演變過程,這兩個智能體分別是 40 歲的公民和憤怒的青少年。每個人一開始都對選舉結果有自己的看法。成人起初保持中立,盡管受到了虛假信息的干擾,但他仍然對系統抱有信心,因為他的觀點更加詳盡。相反,預先設定了憤怒情緒的青少年在與社交網絡互動后,反映更為簡單,并開始質疑選舉結果的合法性。這個例子表明,情緒狀態、年齡和對預期結果的確認偏差等因素會在很大程度上影響對虛假信息的易感性和觀點的改變。

圖 3. GPT-4對智能體意見管理中虛假信息的影響

O4. 技術反制措施測試

在基于智能體的社交網絡中,可以模擬并獨立配置針對虛假信息的技術反制措施(對策),而無需依賴大型公司[9]。DISARM 框架提出了應對技術措施,如內容靜音、刪除、限制相同內容的傳播率、創建競爭性敘述、實時事實核查或為內容添加元數據。也就是說,所有這些應對措施都可以在模擬中進行測試。

從這個意義上說,LLM 具有創建良性智能體的優勢,而這些智能體可以作為打擊虛假信息的有力輔助工具。這些智能體可以提供另一種說法,為誤導性信息添加上下文,根據可信度、情感或真實性對信息進行實時檢查,并利用其分類能力標記可疑內容[12]。在圖 4 中,我們命令 GPT-4 模擬對第一條投票舞弊信息進行事實檢查,并為巨魔帖子添加上下文橫幅。此外,它還會根據情感和真實性對每條信息進行分類。兩個智能體的意見不再受到有關選舉的陰謀論的干擾,在兩種情況下都對民主結果保持信心。

上述模擬緩解技術可在受控沙盒中進行評估,以證明其在虛假信息環境中的有效性。在沒有保護措施的情況下(圖 3)和有反制措施的情況下(圖 4),對智能體接觸虛假信息時的信念和反應進行比較,可以證明應對策略的有效性。從這個意義上說,事實核查、上下文信息和內容標記等保護機制消除了成年公民的不確定性或青少年表達的疑慮。此類比較研究可為制定更有效的反虛假信息戰略提供寶貴的見解。

圖 4. 在 GPT-4 管理的虛假信息環境中采取反制措施的效果

O5. 輔助個性化認知培訓

網絡安全意識和認知培訓為提高人類能力提供了解決方案,特別是在使用云、移動、物聯網和社交網絡等技術生成的復雜系統中,因為這些技術會產生海量信息。意識是一個在心理學中定義明確的概念,已成為多項研究的主題,旨在將其原理轉化到網絡安全領域。特別是,需要采取教育干預措施,在社交媒體和虛假信息場景中培養這種意識。通過評估安全指標,可以了解網絡安全的現狀,預測安全風險、潛在攻擊以及隨著時間推移可能產生的影響[9]。

在這種情況下,基于智能體的生成式社交網絡可以成為旨在改進社交媒體安全培訓和認知意識課程的教育框架的基礎。具體來說,現實世界中的受訓者可以在這些真實場景中學會識別誤導性信息、識別潛在偏見或辨別兩極分化的情況。此外,虛假信息環境可以由 LLM 支持,以適應特定個人或群體的需求,在培訓期間提供明確的幫助,并根據學生的行動、反應和表現,在網絡演練過程中允許一定程度的靈活性。

圖 5 顯示了 GPT-4 根據兩個不同用戶的個人需求量身定制的基于選舉舞弊的指導性培訓練習,這兩個用戶分別是第一次參加投票且不習慣使用社交媒體的青少年和每天在社交網絡上花費八小時的資深政治影響者。前者缺乏經驗,不了解政治話語的復雜性,可能尚未發展出批判性思維來辨別誤導性和情緒化的說法。后者意識到了政治的復雜性和當前的兩極分化,需要提高認識才能正確行事,避免進一步助長社會分裂。出于教育目的,該系統可以利用 LLM,在飛行過程中根據個人描述進行調整,提供實用的背景標語,并顯示精確的理論課程。這種適應性可確保實際情況的復雜性不斷變化,以應對學生在連續練習中回答問題時發現的挑戰,從而實現持續學習。

圖 5. 基于 GPT-4 的智能體對人類進行虛假信息培訓

開放性挑戰

如前所述,LLM 為推動虛假信息研究提供了令人興奮的機遇。此外,所述機遇可以映射到基于智能體的生成式社交網絡的高級框架中。具體來說,圖 6 所示的框架由五個相互關聯的模塊組成,每個模塊都具有一定的特性和功能。首先,"定義 "組件負責對組成框架的實體進行建模,然后在模擬環境中重新創建。也就是說,模擬塊包含模擬實體,即 LLM 驅動的智能體、社交網絡本身和虛假信息模塊,而虛假信息模塊又包括進攻和防御框架。值得注意的是,機會 O1 與生成智能體和社交網絡的模擬有關,而進攻框架則與機會 O2 綁定。然后,仿真模塊負責從認知、社會和防御角度評估模擬環境中的整體情況。在這里,認知和防御評估分別與機會 O3 和 O4 對應。最后但同樣重要的是,"開發 "模塊將該框架與其他有價值的工具連接起來,以充分發揮其潛力,并從不同角度讓人類行動者參與其中。在我們的設想中,這樣一個組件包含可視化模塊、社交媒體可視化界面、培訓平臺(即與機遇 O5 相關的網絡范圍)和實時網絡態勢感知(CSA)模塊。

事實上,圖 6 顯示了擬議概念框架與分析機會之間的緊密聯系。然而,將這些機遇整合到虛假信息領域也會面臨一些挑戰,需要認真考慮。圖 6 也突出顯示了這些挑戰,包括每個模擬實體。在本節中,將對主要挑戰進行細致描述,并添加提示以幫助研究人員解決這些挑戰,從而研究并在可能的情況下減輕數字環境中的虛假信息威脅。

圖 6. 基于智能體的生成式社交網絡的機遇與挑戰概念框架

C1. 智能體建模、模擬和評估

首先,對 LLM 驅動的智能體在虛假信息背景下的行為建模可以說是一個難題。事實上,這種建模應考慮與模擬智能體的不同個性有關的幾個方面。從這個意義上說,必須定義每個智能體的個人特征,如年齡、性別、興趣和個人信仰等。這些特征至關重要,可能會影響智能體在模擬社交網絡中的行為和態度,這一點已在前面有關研究機會的示例中說明。此外,每個智能體都應具備屬性和目標,并將利用這些屬性和目標做出決策、形成觀點以及與總體模擬進行交互。也就是說,還應考慮智能體的異質性,如不同程度的影響力、可信度和易受說服性。從這個意義上說,有效的提示設計對于溝通和塑造 LLM 驅動的智能體至關重要。特別是,最好能結合上下文信息來促進智能體的行為,并在提供極其具體的指示與允許創造性和動態性之間取得平衡。然而,由于 LLM 的內部過程是隨機的,因此以清晰、可解釋的方式設計和實施行為是一項艱巨的任務。

此外,模擬這些智能體也是一項挑戰。在圖 6 中,我們將模擬生成智能體與模擬環境進行持續互動。特別是,它們會感知來自社交網絡的一些信息,并因此根據自身特點采取行動。從這個意義上說,虛假信息研究中最重要的問題之一在于理解和模擬虛假信息是如何在社交網絡中傳播并影響個體的。從這個意義上說,將心理模型和認知理論整合到 LLM 中,為模擬和研究驅動人類接收、分析和傳播虛假信息的心理機制提供了一個難得的機會[9]。

一個明顯的例子是利用認知偏差來塑造生成智能體的個性,如確認偏差或可得性偏差[13],這將對研究人員大有裨益,他們將能夠重新生成與預先存在的信念或容易獲取的信息相一致的有機虛假信息內容。例如,可以對 LLM 進行編程,使其生成有說服力的虛假(或半真實)敘述,從而利用個人的確認偏差,強化其現有觀點,進而影響其決策過程。通過這種方式,該模型可以生成與特定目標受眾相呼應的量身定制的虛假信息,從而提高虛假信息被消費和傳播的總體概率。此外,LLM 還可以借助認知理論來識別人類決策過程中的漏洞。具體來說,法律信息模型可以模擬人類內在的認知限制或啟發式方法,例如有界理性(影響次優決策)或可用性啟發式方法(影響情感決策過程)。這樣,LLMs 就能生成威脅性的虛假信息,試圖利用這些弱點作為最終目標。舉例來說,虛假信息內容可以利用個人有限的注意力,使他們由于時間限制和缺乏詳盡的事實核查而更容易受到這種威脅。盡管如此,這些認知機制對智能體的模擬和行動的影響也應加以衡量(最好加以調整),以實現逼真的模擬。

C2. 社交網絡建模、模擬和監測

為了研究在虛假信息背景下使用 LLM 的情況,并在可能的情況下打擊這種現象,必須對現實的社交網絡進行模擬和建模。顯然,這些過程相當復雜,因為現代社交網絡包含一些固有特征,在模擬時需要特別注意。從這個意義上說,如圖 6 所示,信息環境是概念框架的核心組成部分。具體來說,它與智能體雙向互動(通過通知相關社會事件和接收更新),并從紅色框架(注入虛假信息)和藍色框架(通過部署技術對策保護信息生態系統)獲得輸入。

特別是,研究人員應設計和開發有意義的模型,模擬用戶互動和交流模式,以捕捉社交網絡的復雜性[7]。開發包含互動、推薦、傳播和社會影響動態的代表性社交網絡模型,對于準確模擬虛假信息在社區內的傳播至關重要。這項任務主要包括分析以下內容:

  • 直接交流: 捕捉用戶如何通過消息、評論或直接互動進行直接交流。這一特征反映了社交網絡中的個人聯系和對話。
  • 信息共享: 模擬用戶之間如何共享和傳播(非)信息。這包括在網絡中分享鏈接、文章或任何其他內容。
  • 用戶參與: 捕捉用戶對不同類型內容的參與。這包括用戶與不同帖子、評論或討論的互動。

顯然,所有這些事件都應通知到智能體,由其感知信息并動態調整自己的行為,從而執行相應的操作。在這一循環中,強迫智能體采取特定的微調行為顯然是復雜的,尤其是考慮到復雜的社交網絡中同時存在大量事件和多個模擬用戶。另一方面,信息環境是紅色框架的目標,例如,根據 DISARM 分類法生成虛假信息。當然,這種威脅也可能是由參與社會環境的 LLM 智能體產生的。在這種情況下,模擬網絡應能適應虛假信息的注入,修改上述用戶之間的互動和交流模式。此外,作為虛假信息活動的后果,藍色框架會部署技術反制措施。從這個角度看,社交圖譜也應能夠根據所選反制措施的性質進行動態調整。

最后但并非最不重要的一點是,必須研究和評估虛假信息的擴散和放大,如影響力和回音室。更具體地說,信息擴散是指信息通過社會網絡從一個實體傳播到另一個實體的過程。就虛假信息研究而言,評估虛假信息內容如何在社交網絡中傳播和放大尤為重要。要實現這一宏偉目標,考慮到大量用戶和關系,每當發起虛假信息活動時,監控整個社交圖譜的狀態至關重要。

C3. 虛假信息建模、模擬和評估

要充分利用虛假信息研究的能力,可以說,對虛假信息活動進行建模和模擬是該框架的核心要素。然而,從設計和技術角度來看,這些過程都具有挑戰性。

從第一項任務開始,虛假信息建模顯然是文獻中眾所周知的研究課題。然而,正如圖 6 所示,它與智能體之間的關系也提供了巨大的研究機會和挑戰。具體來說,設計虛假信息攻擊和反制措施至關重要,因為它們應該在社交網絡中真實模擬,以研究其動態并衡量其影響。一方面,必須確定虛假信息攻擊的主要目標和范圍。在這方面,所涉及的人群(及其內在屬性)、目標社交渠道和攻擊持續時間對于創建一個逼真的模型至關重要。一旦確定了目標,該模型就應能夠創建與目標相一致的虛假信息內容,同時考慮到信息的含義(如文章、帖子等)和信息本身(如語氣、風格等)。在這一階段,DISARM 框架可以幫助塑造虛假信息攻擊,此外,還可以使模型具有可復制性,并隨時與研究界共享。

另一方面,我們也考慮了防御的觀點,因為我們相信模擬智能體可以成為部署反制虛假信息攻擊的主要行動者。與紅色框架相反,藍色框架無法與通用框架聯系起來,因此,除傳統的事實核查、媒體審查、內容刪除等措施外,提出更多的應對措施也是這一過程的挑戰之一。一旦正確建模,就必須在社交網絡中模擬防御行動,以便可能發現智能體的行為差異和反應,例如,反制措施有效,智能體理解了虛假信息攻擊,或者相反,他們拒絕反制措施,信任虛假信息宣傳。觸發臨時和無代理反制措施的可能性也很吸引人,以便觀察是否出現任何社會動態變化。

建模和模擬階段結束后,評估社會圖譜中虛假信息攻擊和反制措施的有效性或低效性至關重要[14]。要實現這一目標,第一站就是創建有意義的指標,以衡量其對生成智能體的行為和動態的影響。例如,從個體和群體的角度評估不同的虛假信息攻擊(如針對不同主題、具有不同模式等)對智能體的感知和隨之采取的行動的影響將是有益的。從這個意義上說,要完成這項任務顯然是很困難的,這主要是由于社會互動的復雜性、行為模擬的多樣性以及可能的攻擊等等。同樣,每當啟動一項反制措施時,系統都需要對其有效性進行監控和評估。即使在這種情況下,社交網絡的內在特性也會使任務更加艱巨。此外,可以說不同的反制措施(如社區標簽、事實核查等)會對社交互動產生不同的影響,從而增加了評估過程。然后,應評估攻擊-防御模式的效果。具體來說,一旦虛假信息攻擊和補救措施的模型和模擬都取得成功,交替執行不同模式的紅藍任務就值得關注。

結論

本文討論了 LLM 對虛假信息研究的影響。從生成可定制的虛假信息環境,到基于這些環境對用戶進行意識培訓,有許多研究方向可能真正具有開創性。不過,文獻也指出了使用這些技術的一些倫理問題。其中有些是很普遍的問題,比如將其用于欺騙目的或傳播社會偏見[14],而另一些則可能是虛假信息領域特有的問題,比如它有可能將這項研究武器化。

一般來說,使用 LLMs 存在固有風險。正如由專家和公眾人物簽署的《人工智能風險聲明》所反映的那樣,欺騙性風險是多方面的、復雜的。這對社交工程、社交媒體和認知安全的影響尤為明顯,這些領域由于依賴數字內容和用戶的內在信任而十分脆弱。主要威脅可能包括人工智能驅動的魚叉式網絡釣魚、深度假冒、大規模虛假信息活動或人工智能驅動的系統漏洞利用[15]。生成性誤用能夠為欺騙目的制造超逼真的內容,對網絡生態系統構成新的威脅[14]。其危險性在于它們不僅能制作逼真的內容,還能制作符合語境和針對受眾的內容,從而增加成功欺騙的可能性。2023 年 6 月的一個案例是普京令人信服的深度偽造視頻,其目的是虛構烏克蘭入侵俄羅斯領土的動員信息,并成功滲入主流新聞頻道。更具體地說,這項研究的潛在發展也可用于負面目的,例如將模擬環境與真實社交網絡連接起來,以策劃虛假信息宣傳活動,或分析哪種虛假信息攻擊能對某些總統候選人的投票產生最大影響。

這種緊張關系經常出現在適用雙重用途困境的研究場景中,例如在網絡安全方面,研究網絡攻擊以找到適當的防御方法,或試驗可用于治療的新藥物。因此,考慮到目前存在的倫理問題,在這種背景下開展的研究應仔細論證,并以有益于社會的應用為目標,例如調查技術或人為對策的效果,以減少虛假信息的傳播,或開發提高認識的培訓工具,以提高我們普通民眾的信息素養技能。最終,這些應用將需要被最終用戶所采用,因此,我們應采用以人為本的方法,并掌握使用這些工具所需的掃盲技能。

總之,本文認為,虛假信息和 LLM 是一個很好的組合,有許多潛在的研究應用,可以發展成為有影響力的工具。然而,技術、人類和倫理方面的挑戰也是巨大的,需要在未來十年開展前沿研究,以超越上述差距。如果研究得當,這項多學科研究將有助于對抗對 21 世紀社會構成重大威脅的虛假信息危險。

付費5元查看完整內容

摘要

最近,利用深度神經網絡進行生成性建模的進展使得制造數字媒體比以往任何時候都更容易,可以用來促進宣傳和虛假信息在互聯網上的傳播。因此,對社交媒體的情報收集變得越來越重要。在本文中,我們評估了檢測自動生成并上傳到Twitter的圖像和文本的方法。我們的研究結果表明,盡管這些檢測器在某些條件下能夠達到很高的精度,并且確實有潛力幫助情報分析員開展工作,但要建立足夠可靠的綜合檢測系統,以便在野外部署,仍然是一個挑戰。

引言和前期工作

隨著大規模的網絡影響行動變得越來越復雜,能夠核實網上信息的可信度也變得越來越困難。生成式建模的進步使得對手有可能生成大量被認為是真實的數字媒體。例如,公開的人工智能工具[1, 2]可以被利用來建立看起來像真的社交媒體資料的機器人網絡,其中用戶資料內容(如個人資料圖片[3])和打算傳播的信息(如虛假信息的推文)都是自動生成的。因此,開發能夠檢測生成的媒體的工具非常重要;不僅要對其采取行動,而且要研究將檢測器納入用于情報收集的系統的可能性,作為提高態勢感知的一個步驟。從大量的非結構化網絡數據中自動提取感興趣的信息的能力最終可能有助于簡化情報分析員和決策者的工作流程。

先前的工作表明,基于神經的檢測器可以在生成模型為防御者所知的受控環境中可靠地檢測生成的媒體[4, 5, 6, 7, 8]。然而,在野外未知來源的數據上評估檢測器的工作很有限。由于檢測器對后處理和模型變化的脆性是眾所周知的[4, 5, 6, 9],它們是否足夠可靠以用于現實世界的系統還不明顯。有鑒于此,我們在Twitter數據上評估了最先進的檢測器,這些數據包括個人資料圖片和推文的文本。我們訓練XceptionNet[10]來檢測用生成對抗網絡(GANs)合成的人臉圖像,并微調基于變換器的語言模型RoBERTa[11]來檢測用語言模型生成的文本。我們的實驗與我們的原型密切相關,它可以用來進行分析和提取感興趣的信息,而不需要終端用戶有深厚的技術知識。

圖2-1: XceptionNet圖像檢測器的訓練。當從訓練數據集中獲得標記的樣本時,該檢測器學會了區分真實和生成的人臉圖像。在實踐中,該檢測器作為一個分類器工作,為每個輸入樣本輸出一個標簽(真實或生成)
付費5元查看完整內容

摘要

醫學圖像的計算機分析研究為改善病人的健康帶來了許多希望。然而,一些系統性的挑戰正在減緩該領域的進展,從數據的局限性(如偏差)到研究激勵(如優化出版)。在這篇文章中,我們回顧了開發和評估方法的障礙。根據來自文獻和數據挑戰的證據,我們的分析表明,在每一步中,潛在的偏見都可能滲入。我們還積極地討論了目前為解決這些問題所作的努力。最后,對今后如何進一步解決這些問題提出了建議。

引言

作為當今人工智能(AI)革命的基石,機器學習通過醫學圖像為臨床實踐帶來了新的承諾。例如,在根據醫學圖像診斷各種疾病時,機器學習的表現與醫學專家不相上下。軟件應用程序開始被認證用于臨床。機器學習可能是實現幾十年前在醫學領域勾勒出的人工智能愿景的關鍵。風險很高,關于醫學圖像的機器學習的研究數量驚人。但這種增長并不必然導致臨床進展。更高的研究量可以與學術動機相結合,而不是臨床醫生和患者的需要。例如,可能有大量的論文顯示了基準數據的最先進性能,但對臨床問題沒有實際的改善。關于機器學習治療COVID的話題,Robert等人回顧了62項已發表的研究,但沒有發現有臨床應用潛力。

在這篇論文中,我們探索了提高機器學習在醫學成像中的臨床影響的途徑。在概述了情況后,在章節中記錄了不平衡的進展,這并不全是關于更大的數據集,我們研究了醫學影像論文中經常出現的一些失敗,在“出版生命周期”的不同步驟: 使用什么數據,使用什么方法和如何評估它們,以及如何發布結果。在每個部分,我們首先討論問題,支持從以前的研究證據以及我們自己的分析最近的論文。然后,我們討論了一些改善這種狀況的步驟,有時借鑒了相關社區的做法。我們希望這些想法將有助于塑造研究實踐,從而更有效地解決現實世界的醫學挑戰。

大型標記數據集的可用性使得解決困難的機器學習問題成為可能,例如計算機視覺中的自然圖像識別,其中數據集可以包含數百萬張圖像。因此,人們普遍希望在醫療應用領域也能取得類似的進展,算法研究最終應該能夠解決一個臨床問題,即判別任務。然而,醫療數據集通常較小,在數百或數千個量級: 共享一個由16個“大型開源醫療成像數據集”組成的列表,規模從267到65,000個受試者不等。請注意,在醫學成像中,我們指的是受試者的數量,但一個受試者可能有多個圖像,例如,在不同的時間點拍攝的圖像。為了簡單起見,我們假設診斷任務為每個受試者提供一張圖像/掃描。很少有臨床問題會像能夠被自然地框定為機器學習任務的恰當的判別任務那樣。但是,即使是這些,更大的數據集也不能帶來希望的進展。一個例子是阿爾茨海默病(AD)的早期診斷,由于人口老齡化,這是一個日益增長的健康負擔。早期診斷將打開早期干預的大門,這最有可能是有效的。大量的研究工作已經獲得了有患AD風險的老年人的大量腦成像群組,利用機器學習可以開發早期的生物標志物。因此,應用機器學習開發計算機輔助診斷AD或其前身輕度認知障礙的典型樣本量穩步增加。這種增長在出版物中清晰可見,如圖1a,一項薈萃分析匯編了來自6篇系統綜述的478篇研究。

對6篇綜述論文進行元分析,涵蓋500多篇獨立論文。機器學習問題通常被描述為區分各種相關的臨床狀況,阿爾茨海默病(AD)、健康控制(HC)和輕度認知障礙,這可能是阿爾茨海默病的前驅癥狀。從臨床角度來看,區分進行性輕度認知障礙(pMCI)和穩定性輕度認知障礙(sMCI)是最相關的機器學習任務。

然而,數據量的增加(最大的數據集包含超過1000名受試者)并沒有帶來更好的診斷準確性,特別是在最相關的臨床問題上,區分具有阿爾茨海默病前驅癥狀的患者的病理與穩定進化(圖1b)。相反,樣本量較大的研究往往報告較差的預測精度。這令人擔憂,因為這些更大的研究更接近現實生活。另一方面,跨時間的研究工作甚至在大型異質性隊列中也確實帶來了改善(圖1c),因為后來發表的研究顯示了大樣本量的改善(補充信息中的統計分析)。目前的醫學成像數據集比那些為計算機視覺帶來突破的數據集要小得多。雖然無法對大小進行一對一的比較,因為計算機視覺數據集有許多變化較大的類(與醫學成像中變化較小的少數類相比),但要在醫學成像中實現更好的泛化,可能需要組裝大得多的數據集,同時避免由機會主義數據收集造成的偏見,如下所述。

數據集可能是有偏見的

現有的數據集只能部分反映特定醫療條件的臨床情況,導致數據集存在偏差。例如,作為人口研究的一部分收集的數據集可能與轉診到醫院治療的人具有不同的特征(疾病發病率較高)。由于研究者可能不知道相應的數據集偏差是可能導致重要的研究缺點。當用于構建決策模型的數據(訓練數據)與應用它的數據(測試數據)的分布不同時,數據集就會出現偏差。為了評估與臨床相關的預測,測試數據必須與實際目標人群匹配,而不是與訓練數據一樣是同一個數據池的隨機子集,這是機器學習研究中的常見做法。由于這種不匹配,在基準測試中得分高的算法在現實場景中的表現可能很差。在醫學成像中,數據集偏差已在胸部x光片、視網膜成像、大腦成像、組織病理學或皮膚病學中得到證實。通過跨不同來源的數據集訓練和測試模型,并觀察不同來源的性能下降,可以揭示這些偏差。

數據集的可用性扭曲了研究

我們展示了肺癌(藍色)和乳腺癌(紅色)的論文占兩個領域所有論文的百分比:醫學腫瘤學(實線)和人工智能(虛線)。關于論文如何選擇的細節在補充信息中給出)。這一比例相對穩定,但人工智能的肺癌患病率在2016年之后有所上升。

數據集的可用性會影響對哪些應用進行更廣泛的研究。一個顯著的例子可以在腫瘤學的兩個應用中看到: 檢測肺結節和在放射學圖像中檢測乳腺腫瘤。

讓我們建立對數據局限性的認識

解決這些由數據引起的問題需要對數據集的選擇進行判別性思考,在項目級別,即選擇哪些數據集進行研究或挑戰,在更廣泛的級別,即我們作為一個社區使用哪些數據集。

付費5元查看完整內容
北京阿比特科技有限公司