亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要——隨著生成式人工智能(Generative AI)的快速發展,尤其是大語言模型的不斷突破,推薦系統正朝著更具通用性的方向演進。與傳統方法不同,生成式人工智能不僅能夠從復雜數據中學習模式和表示,還具備內容生成、數據合成和個性化體驗等能力。這種生成能力在推薦系統中發揮著關鍵作用,能夠緩解數據稀疏問題,并提升系統的整體性能。當前,基于生成式 AI 的推薦系統研究已取得了豐富成果。與此同時,推薦系統的目標也已超越單一的準確性要求,催生了大量面向多目標優化的研究,試圖在推薦中綜合考慮多種目標。然而,據我們所知,目前尚缺乏基于生成式 AI 技術的多目標推薦系統的系統性綜述研究,相關文獻仍存在明顯空白。為填補這一研究空缺,本文對融合生成式 AI 的多目標推薦系統研究進行了系統梳理,按照優化目標對現有工作進行分類整理。同時,我們總結了相關的評估指標和常用數據集,并進一步分析了該領域面臨的挑戰與未來發展方向。 關鍵詞——多目標優化,推薦系統,生成式人工智能,大語言模型

1 引言 在大數據時代,推薦系統已成為應對信息過載問題的關鍵工具,幫助用戶高效地發現有價值的內容。它們被廣泛應用于音樂、新聞、職位推薦等多個領域 [1]–[3],通過過濾海量信息流,顯著提升用戶體驗。推薦系統的發展已歷經數十年,從最初的協同過濾方法 [4]–[7] 和內容推薦方法 [8], [9],到后來的混合模型 [10]、基于圖神經網絡的方法 [11],以及深度學習方法 [12], [13],不斷演進以滿足日益增長的個性化和可擴展性需求。

近年來,生成式人工智能(Generative AI)的突破顯著改變了推薦系統的格局。正如文獻 [14] 所指出的,基于生成技術的推薦系統已成為該領域的新興研究方向。生成對抗網絡(GANs)[15]、變分自編碼器(VAEs)[16]、擴散模型 [17] 和大語言模型(LLMs)[18] 等技術,使得推薦系統能夠更豐富地進行數據合成并實現更深層次的上下文理解。其中,大語言模型在處理多模態數據(文本、圖像、視頻)和生成上下文感知的推薦內容方面展現出強大能力,帶來了前所未有的靈活性。與傳統模型依賴歷史數據預測用戶偏好不同,生成模型可以模擬用戶交互、增強稀疏數據集,并生成個性化內容,從而為推薦范式的創新開辟了新路徑。

生成模型在推薦系統領域展現出巨大潛力。目前的研究主要集中在單一目標任務,例如通過合成數據提升準確性,或利用大語言模型增強可解釋性。然而,對準確性的過度關注可能導致“過濾泡沫”(filter bubble)現象 [19],使用戶被限制在重復或同質化的內容中,抑制探索行為并削弱長期參與度。考慮到生成式人工智能在推理和理解方面的先進能力,其在多目標推薦中的應用也極具前景。 研究社區已廣泛探索在傳統推薦系統框架下平衡多種目標的多目標推薦系統(MORS)[20]–[23],但在融合生成式 AI 技術方面,相關研究仍屬稀缺。因此,將多目標優化整合進生成式推薦系統,是一個亟待深入研究的方向。

為填補這一空白,本文系統調研了使用生成技術實現多目標推薦的現有研究。我們特別強調,任何關于推薦系統附加目標(如多樣性、偶然性或公平性)的討論,都隱含地將準確性作為基礎性前提。因此,我們將多目標推薦系統(MORS)定義為:優化準確性之外其他目標的推薦系統。 本綜述識別出當前生成式推薦系統中除準確性外的主要目標包括:多樣性、偶然性、公平性與安全性;此外還涉及新穎性、可控性、效率與魯棒性等附加目標。我們聚焦于推薦系統中廣泛應用的四類生成技術:GANs、擴散模型、VAEs 與大語言模型。針對每一類目標,我們深入回顧了主流的模型架構與評估指標,并總結相關發展挑戰,旨在為未來的多目標生成式推薦研究提供基礎性見解。

本文的主要貢獻如下:

本文為首個將生成式人工智能(包括 GANs、VAEs、擴散模型和大語言模型)與多目標推薦系統(MORS)結合的全面綜述,提出了一個面向目標的分類框架,系統回顧了四類關鍵目標(多樣性、偶然性、公平性、安全性)下模型架構、優化策略和評估指標的發展與局限性。 * 我們系統總結了不同目標領域(如公平性與偶然性)下的專用評估指標對應基準數據集,為實驗設計提供標準化參考。 * 我們還討論了生成式 MORS 研究中的核心挑戰,并展望了未來的發展方向,包括改進評估指標、設計適用于 LLM 的高級策略、融合多種生成技術以提升推薦質量等。此外,我們強調跨學科合作(如倫理學、社會學)的重要性,以構建更加公平透明的推薦系統。這些見解為學術界與工業界的進一步探索與創新奠定了基礎。

文章結構概覽:

第 2 節綜述推薦系統、生成式推薦系統和多目標推薦系統的相關文獻,構建研究背景。 第 3 節介紹本文涵蓋的四類主要生成技術。 第 4 節作為核心部分,系統梳理基于生成技術的多目標推薦系統,按超越準確性的目標進行分類,介紹相關定義、模型與評估指標。 第 5 節總結各類目標下常用的推薦數據集。 第 6 節探討每類關鍵目標面臨的主要挑戰。 最后在第 7 節對全文進行總結。

付費5元查看完整內容

相關內容

生成式人工智能是利用復雜的算法、模型和規則,從大規模數據集中學習,以創造新的原創內容的人工智能技術。這項技術能夠創造文本、圖片、聲音、視頻和代碼等多種類型的內容,全面超越了傳統軟件的數據處理和分析能力。2022年末,OpenAI推出的ChatGPT標志著這一技術在文本生成領域取得了顯著進展,2023年被稱為生成式人工智能的突破之年。這項技術從單一的語言生成逐步向多模態、具身化快速發展。在圖像生成方面,生成系統在解釋提示和生成逼真輸出方面取得了顯著的進步。同時,視頻和音頻的生成技術也在迅速發展,這為虛擬現實和元宇宙的實現提供了新的途徑。生成式人工智能技術在各行業、各領域都具有廣泛的應用前景。

摘要:

人工智能(AI)正在重塑科學發現,其角色正從專門的計算工具演化為自主的科研伙伴。我們將**智能體科學(Agentic Science)**定位為“AI for Science”范式中的關鍵階段,在這一階段,AI 系統從部分輔助走向全面的科學自主性。借助大語言模型(LLMs)、多模態系統以及一體化研究平臺,智能體化 AI 展現出在假設生成、實驗設計、執行、分析與迭代改進等方面的能力——這些行為曾被認為是人類獨有的。本綜述從生命科學、化學、材料和物理等領域出發,對自主科學發現進行了面向學科的系統性回顧,綜合各學科的研究進展與突破。我們通過一個綜合框架統一了此前分散的三類視角——過程導向、自主性導向和機制導向——并將其與基礎能力、核心過程及領域特定實現聯系起來。在該框架的基礎上,我們:(i) 追溯 AI for Science 的演進,(ii) 識別支撐科學自主性的五大核心能力,(iii) 將科學發現建模為動態的四階段工作流,(iv) 回顧其在生命科學、化學、材料科學和物理學中的應用,(v) 綜合關鍵挑戰與未來機遇。本研究確立了一個面向學科的自主科學發現綜合視角,并將智能體科學定位為推動 AI 驅動科研進步的結構化范式。 關鍵詞: 智能體科學,自主科學發現,自然科學,AI for Science,智能體化 AI,大語言模型

1. 引言

科學發現正經歷著一場由人工智能(AI)快速演進所驅動的變革性轉變,AI 的角色正在從專門化的工具轉向科研合作者。這一進展標志著“AI for Science”范式中的關鍵階段,即 AI 系統已從充當面向特定任務的計算“神諭”【121, 306, 339, 42, 87, 281, 351】逐步走向智能體科學(Agentic Science)的興起(見圖 1)【229, 220, 81, 274, 157】。智能體科學指的是“AI for Science”演化中的特定階段——主要對應圖 1 中的第 3 級(完全智能體化發現),其前身是第 2 級(部分智能體化發現)。在這一階段,AI 作為自主科學智能體,能夠獨立提出假設、設計并執行實驗、解釋結果,并以更少的人類依賴性迭代完善理論【229, 22】。這種進展得益于諸如 Intern-Discovery 這樣的綜合平臺(其提供了對多樣化 AI 智能體和數據集的訪問),以及 Intern-S1 等展現出深度科學推理能力的多模態模型。 這一轉變受到基礎模型(尤其是大語言模型,LLMs)【82, 256, 351】的最新突破所推動。LLMs 在自然語言理解、復雜推理和工具使用方面提供了前所未有的能力【245, 348, 323, 338, 337】,從而催生出能夠超越靜態學習流程的 AI 智能體。這類智能體不再僅是被動的模型,而是作為動態的、目標驅動的實體,能夠自主探索科學方法【311, 89, 178, 358】。從假設生成【307, 209】,到自主實驗【22, 317】,再到合成數據集的構建【150】,這些智能體展現出曾被認為僅屬于人類的涌現行為。 與現有綜述的比較。 盡管該領域發展迅速,但關于如何理解與設計日益自主化的科學系統,目前仍缺乏統一的框架。現有綜述大體可分為三類互補視角。過程導向的綜述試圖將 LLM 的能力映射到經典的 與現有綜述的比較。 盡管研究進展迅速,但關于如何理解和設計日益自主的科學系統,仍缺乏統一框架。現有綜述可沿三條互補軸線加以歸類:過程導向的視角將 LLM 的能力映射到經典研究循環【172, 352, 39】;自主性導向的研究依據系統的主動性與責任劃分等級【346, 293】;機制導向的分析則剖析支撐智能體行為的架構基元及其演化角色【220, 331, 81, 274】。盡管這些工作奠定了重要基礎,但仍然碎片化——往往將工作流程、自主性分級或體系結構彼此割裂開來單獨考察。 我們的貢獻。 有別于既有綜述分別從過程、自主性或架構單點切入,本文通過圖 2 所示的綜合框架對上述視角進行統一與拓展,將自主科學發現中的基礎能力—核心過程—領域實現貫通起來。我們圍繞生命科學、化學、材料與物理四大領域,給出面向學科的自主科學發現綜述,系統綜合各學科的研究進展與代表性成果。該統一視角將智能體科學從一個抽象階段提升為貫穿“能力—過程—應用”的結構化研究范式。我們的具體貢獻如下: 1. 繪制 AI for Science 的演進圖譜。 我們追溯了從“計算神諭”到“自主科研伙伴”的演進,形式化地將智能體科學界定為 AI 系統展現自主性、目標驅動推理與迭代學習的階段。 1. 科學智能體的“機理解剖”:五大核心能力。 我們識別并分析科學智能體所需的五項基礎能力:(i) 推理與規劃,(ii) 工具整合,(iii) 記憶機制,(iv) 多智能體協作,以及 (v) 優化與進化。針對每一項能力,我們回顧最前沿的實現(如【169, 25, 189, 32】)與領域特定挑戰。 1. 智能體科學的動態工作流:四個核心階段。 我們將科學發現建模為由智能體驅動的動態四階段工作流:(i) 觀察與假設生成,(ii) 實驗規劃與執行,(iii) 數據與結果分析,(iv) 綜合、驗證與進化。我們強調,智能體可以靈活、動態地組合這些階段以解決復雜科學問題【12, 22, 74, 73】。 1. 跨自然科學的系統綜述。 我們在自然科學四大領域(見圖 4:生命科學、化學、材料、物理)系統回顧智能體系統,覆蓋十余個細分方向,從藥物發現【317】到材料設計【113】,展示了智能體科學的廣泛適用性與領域特定創新。 1. 挑戰與未來機遇。 我們綜合該領域面臨的主要技術、倫理與哲學挑戰——包括可復現性新發現的驗證人—智能體協作——并提出研究路線圖,以引導穩健、可信且具影響力的科學智能體的未來發展。

通過上述綜合,我們旨在為智能體科學奠定概念與方法論基礎,引導后續研究走向能夠與人類探究共進化的 AI 系統設計,從而加速科學發現前沿的推進。

付費5元查看完整內容

摘要——近年來,視覺-語言預訓練(Vision-Language Pretraining)作為一項融合視覺與文本模態優勢的變革性技術,催生了強大的視覺-語言模型(VLMs)。依托于網絡規模的預訓練數據,這些模型展現出卓越的零樣本推理能力。然而,在面對特定領域或專業任務時,其性能常常出現顯著下降。為解決該問題,研究社區日益關注如何將 VLM 中蘊含的豐富知識遷移或泛化到多樣的下游應用中。 本文旨在全面梳理 VLM 泛化的研究設定、方法體系、評測基準與實驗結果。我們首先分析典型的 VLM 架構,并依據遷移模塊的不同,將現有文獻劃分為基于 Prompt(提示)、基于參數、以及基于特征的方法三大類。隨后,結合經典遷移學習(Transfer Learning, TL)設定,進一步總結與探討各類方法的差異與特點,提出 VLM 時代下遷移學習的新解讀。此外,本文還系統介紹了主流 VLM 泛化評測基準,并對各類方法在不同任務中的表現進行了詳盡對比。

隨著大規模通用預訓練的不斷演進,本文也探討了視覺-語言模型與最新多模態大語言模型(Multimodal Large Language Models, MLLMs,如 DeepSeek-VL)之間的關聯與差異。通過從“泛化”這一全新且實用的視角系統梳理視覺-語言研究的快速進展,本文有助于清晰描繪當前與未來多模態研究的整體格局。 關鍵詞——視覺-語言模型,遷移學習,提示調優,魯棒微調,領域泛化,測試時自適應,無監督領域適應,多模態大語言模型

1 引言

深度神經網絡已在眾多實際應用中取得顯著成果。以視覺模型為例,從 AlexNet【1】到 ResNet【2】再到 Vision Transformer【3】,模型規模與表示能力都得到了極大提升。然而,高效訓練這些大規模模型往往需要大量標注數據與巨大的計算資源。為了解決這一問題,“基礎模型”(foundation model)的概念應運而生——即在大規模數據集上預訓練通用模型,以便將其知識遷移到各種下游任務中【4】。例如,預訓練于 ImageNet【5】上的 ResNet 系列已成為圖像分類【2】、目標識別【6】等視覺任務的重要基石。 自然語言處理領域也經歷了類似的發展,從 Transformer【7】、BERT【8】到 GPT-2【9】與 GPT-3【10】,均在各自的單模態任務中取得卓越表現,但它們本質上缺乏對多模態信息的感知與推理能力。 如圖 1 所示,對比式語言-圖像預訓練(contrastive language-image pretraining)范式的出現【11】徹底重塑了視覺-語言學習格局。Radford 等人提出的 CLIP【11】模型利用 4 億網頁爬取的圖文對進行對比學習:將語義匹配的圖文拉近、不匹配的拉遠,從而實現了跨任務的強大零樣本泛化能力,覆蓋圖像分類【11】、目標檢測【12】、視頻檢索【13】等任務。后續研究通過擴大與去噪預訓練數據集【14】【15】【16】、探索多樣的預訓練策略【17】【18】、引入多語言數據【19】【20】【21】,進一步增強了 VLM 的能力。 盡管 VLM 在通用任務上表現出色,但其預訓練知識在特定領域的下游任務上泛化能力有限。若無合適的遷移方式,預訓練的 VLM 往往難以處理分布外(OOD)數據,如遙感圖像【22】或精細類別圖像【23】【24】。傳統的“預訓練-微調”范式仍適用,但在 VLM 中直接微調可能破壞其對齊的視覺-語言表示,導致性能下降【25】【26】【27】。 因此,如何以盡可能低的計算與標注成本將 VLM 中的知識優雅地泛化至下游任務,已成為研究熱點。考慮到 VLM 的多模態特性,研究者們嘗試將單模態領域成熟的遷移策略,如 Prompt Tuning【28】、Adapter 插件【29】、知識蒸餾【30】,擴展應用于 VLM【26】【31】【32】【33】。借助其龐大的通識知識,VLM 正逐步成為“任務無關型”求解器,在無監督領域適應(UDA)【34】【35】【36】、領域泛化(DG)【37】【38】【39】、測試時自適應(TTA)【40】【41】【42】等遷移學習場景中設立了新基線。 面對這種趨勢,我們提出了關鍵問題:在 VLM 時代,知識遷移有何不同?

為此,本文對 VLM 的泛化能力展開系統文獻綜述。


研究動機與貢獻

現有綜述多聚焦于 VLM 的預訓練階段,如模型結構、預訓練目標與數據集【43】【44】【45】。雖然部分工作提及了遷移學習【43】,但其覆蓋面有限,尤其缺乏對不同遷移設定之間差異的探討。本文是首個專注于 VLM 遷移與泛化能力 的系統綜述。我們以主流的雙分支架構(如 CLIP【11】)為基礎,識別并歸類遷移的關鍵模塊,具體如下: 1. Prompt-based 方法:僅調節文本提示嵌入以控制模型行為【31】【32】【40】; 1. Parameter-based 方法:有策略地更新預訓練參數【46】【47】【48】,或通過知識蒸餾引入新參數【33】【38】【39】; 1. Feature-based 方法:對提取到的特征進行后處理,如引入可學習模塊【26】【35】或構建免訓練緩存機制【27】【41】【49】。

我們結合遷移學習研究中的經典設定【4】【50】【51】,重新審視這些 VLM 方法,并分析其在不同遷移設定中的特性差異。隨后,我們系統匯總了適用于各類遷移任務的主流基準數據集,并提供基于模型結構與方法設計的性能比較。


同時,本文還涵蓋了 VLM 與多模態大語言模型(MLLM)之間的融合。近年來,大語言模型(LLM)取得突破性進展【52】【53】【54】【55】,將對齊語言的視覺編碼器(如 CLIP)與 LLM 相連接,并以大規模多模態指令數據進行訓練,構建出視覺-語言大模型(MLLM)。這些模型在視頻理解、視覺問答、圖像字幕、分割與識別等任務中展現出強大的泛化能力【18】【56】【57】【58】。 作為另一類通用視覺-語言模型,本文對 MLLM 的基本構建框架、模型類型、使用的預訓練數據與目標,以及其在多任務中的表現進行全面總結,并呈現當前該領域的研究圖譜(如圖 3 所示)。


綜述貢獻總結如下:

系統回顧 VLM 泛化研究進展:涵蓋無監督領域適應、領域泛化、小樣本適應、測試時自適應等遷移學習任務;據我們所知,這是首個專注于 VLM 泛化的綜述工作。 1. 提出三類關鍵遷移方法分類:Prompt-based、Parameter-based 與 Feature-based,并在各類遷移設定下深入分析其技術細節與適用場景。 1. 收集主流評測基準并對比方法性能:從泛化設定、模型結構與設計角度出發,提供公平、系統的性能評估。 1. 引入并分析 MLLM 的發展與代表模型:總結其結構、組成模塊、泛化能力、訓練數據與目標,為理解視覺-語言研究的前沿進展提供參考。 1. 提出當前挑戰與未來方向:識別現階段研究瓶頸,并展望可行的研究路徑與潛力。


文章結構如下:

第 2 節介紹 VLM 相關基礎知識及所涉及的遷移學習設定; * 第 3 節討論 Prompt-based 方法,分為訓練時提示(3.1)與測試時提示(3.2); * 第 4 節介紹 Parameter-based 方法,包括參數微調(4.1)與知識蒸餾(4.2); * 第 5 節探討 Feature-based 方法,包括可學習適配器(5.1)與免訓練緩存機制(5.2); * 第 6 節總結主流基準與方法性能評估; * 第 7 節介紹現代 LLM 如何增強與泛化 VLM,構成 MLLM; * 第 8 節總結當前進展并討論未來的研究方向。

付費5元查看完整內容

摘要——近年來,基于大語言模型(LLM)驅動的AI智能體展現出前所未有的智能性、靈活性與適應性,正在迅速改變人類的生產方式與生活方式。如今,智能體正經歷新一輪的演化:它們不再像傳統LLM那樣孤立運行,而是開始與多種外部實體(如其他智能體與工具)進行通信,以協同完成更復雜的任務。在這一趨勢下,智能體通信被視為未來AI生態系統的基礎支柱,許多組織也在近幾個月內密集推出相關通信協議(如Anthropic的MCP和Google的A2A)。然而,這一新興領域也暴露出顯著的安全隱患,可能對現實場景造成嚴重破壞。為幫助研究者迅速把握這一前沿方向,并促進未來智能體通信的發展,本文對智能體通信的安全問題進行了系統性綜述。具體而言,我們首先明確界定了“智能體通信”的概念,并將其完整生命周期劃分為三個階段:用戶-智能體交互、智能體-智能體通信以及智能體-環境通信。隨后,我們針對每個通信階段詳細解析相關通信協議,并根據其通信特性剖析潛在的安全風險。在此基礎上,我們總結并展望了各類安全威脅可能的防御對策。最后,本文還討論了該領域仍待解決的關鍵問題與未來研究方向。 關鍵詞:大語言模型、AI智能體、智能體通信、攻擊與安全

一、引言

大語言模型(LLM)的出現引發了人工智能(AI)領域的革命性進展,在理解復雜任務方面展現出前所未有的能力【308】。更重要的是,LLM極大推動了人類所期望的理想AI形式——智能體(agent)的發展。與主要扮演聊天機器人的LLM不同,智能體具備更全面的能力(如感知、交互、推理與執行),使其能夠獨立完成現實世界中的任務。例如,當用戶希望制定旅行計劃時,LLM只能以文本形式提供最佳方案,而智能體則可以將方案轉化為實際行動,如查詢天氣、購買機票和預訂酒店。智能體大大加速了企業智能化轉型的進程,其市場規模預計將以每年46%的速度增長【222】。可以預見,智能體將顛覆現代社會的生產與生活模式,深刻改變未來商業格局。因此,發展和推廣智能體已成為各大國家和頭部科技企業的戰略重點。 當前,智能體正朝著面向特定領域的定制化實體方向演進,即針對特定場景和任務進行專門設計。在這一背景下,如圖1所示,許多任務往往需要多個智能體協作完成,這些智能體可能分布于全球互聯網上。在這種條件下,智能體通信成為未來AI生態系統的基礎,能夠支持智能體發現具備特定能力的其他智能體、訪問外部知識、分派任務及完成其他交互。基于這一龐大的通信需求,越來越多的研究社區和企業開始搶占先機,投身于智能體通信的發展。 2024年11月,Anthropic提出了模型上下文協議(Model Context Protocol,MCP)【16】,這是一個通用協議,允許智能體調用外部環境,如數據集、工具和API。MCP在近幾個月內迅速引起廣泛關注,截至目前,已有數百家企業宣布接入MCP,包括OpenAI【203】、Google【87】、Microsoft【53】、Amazon【21】、阿里巴巴【10】和騰訊【251】,MCP軟件包的每周下載量已超過300萬次【17】。2025年4月,Google又提出了Agent to Agent協議(A2A)【218】,該協議支持智能體之間的無縫通信與協作。自發布以來,A2A獲得了包括Microsoft【188】、Atlassian【149】和PayPal【229】等多家企業的廣泛支持。由此可見,智能體通信的突破正帶來迅速且深遠的變革,并將成為AI生態系統不可或缺的一部分。 然而,智能體通信的迅猛發展也帶來了復雜的安全風險,可能對AI生態系統造成嚴重破壞。例如,不同組織間的智能體協作顯著擴大了攻擊面,可能引發嚴重的安全威脅,包括但不限于隱私泄露、智能體偽造、智能體欺凌以及拒絕服務(DoS)攻擊。由于智能體通信研究尚處于初期階段,急需對整個通信生命周期中存在的安全問題進行系統性回顧。順應這一趨勢,本文旨在對現有的智能體通信技術進行全面梳理,分析其中的安全風險,并探討相應的防御對策。我們相信本研究將對廣泛讀者群體有所幫助,無論是投身于智能體研發的科研人員,還是剛入門的AI初學者。 本文的主要貢獻如下: * 首次系統性綜述智能體通信:我們首次提出智能體通信的定義,并按通信對象將其劃分為三個階段:用戶-智能體交互、智能體-智能體通信、智能體-環境通信。該分類覆蓋了智能體通信的完整生命周期,同一階段的通信協議通常具有相似的攻擊面,有助于后續研究更方便地進行分析與評估。 * 深入分析智能體通信發展過程中的安全風險:我們討論了已發現的攻擊方式以及尚未揭示的潛在威脅。分析表明,用戶-智能體交互主要面臨來自惡意或錯誤用戶輸入的威脅,智能體之間的通信則易受到來自其他智能體或中間人的攻擊,而智能體-環境通信則可能被受損的外部工具和資源所影響。 * 詳細探討有針對性的防御對策:我們指出了針對已識別安全風險的可能防護方向。例如,用戶-智能體交互需要有效過濾多模態輸入;智能體-智能體通信需要強大的機制來監控、歸檔、審計并量化協作中行為的責任;智能體-環境通信則應依賴于對外部環境中“中毒”內容的強力檢測機制。 * 最后討論開放問題與未來研究方向:我們不僅指出了急需發展的防護技術,還強調相關法律與監管體系亦需盡快完善。只有技術和法規雙輪驅動,才能切實保障智能體通信在現實中的安全性。

文章結構

如圖2所示,本文的組織結構如下:第二節對比相關綜述,突出本文的創新點;第三節介紹研究所需的基礎知識;第四節提出智能體通信的定義與分類;第五至第七節依次介紹用戶-智能體交互、智能體-智能體通信、智能體-環境通信中的協議、安全風險及防御對策;第八節討論該領域的開放問題與未來研究方向;第九節為本文的總結。

付費5元查看完整內容

摘要——對于自動駕駛車輛而言,在復雜環境中實現安全導航依賴于其對多樣化且罕見的駕駛場景的應對能力。基于仿真與場景的測試已成為自動駕駛系統開發與驗證的關鍵方法。傳統的場景生成依賴于基于規則的系統、知識驅動模型和數據驅動的合成方式,但這些方法往往生成的場景多樣性有限,且難以覆蓋逼真的安全關鍵情形。隨著基礎模型(即新一代預訓練的通用人工智能模型)的興起,開發者可以處理異構輸入(例如自然語言、傳感器數據、高精地圖和控制動作),從而實現復雜駕駛場景的合成與理解。 本文針對基礎模型在自動駕駛中的場景生成場景分析應用(截至2025年5月)進行了系統綜述。我們提出了一個統一的分類體系,涵蓋大語言模型、視覺語言模型、多模態大語言模型、擴散模型和世界模型,用于自動駕駛場景的生成與分析。此外,本文還回顧了相關的方法論、開源數據集、仿真平臺與基準挑戰,并分析了專門面向場景生成與分析的評估指標。最后,我們總結了當前存在的關鍵挑戰與研究問題,并提出了未來值得探索的研究方向。所有參考論文均收錄于持續維護的資料庫中,附帶補充材料,托管于 GitHub.com/TUM-AVS/FM-for-Scenario-Generation-Analysis。

關鍵詞——自動駕駛、場景生成、場景分析、基礎模型、大語言模型。

一、引言

近年來,自動駕駛(Autonomous Driving, AD)取得了飛速發展,已達到在特定運行設計域(Operational Design Domains, ODDs)內幾乎無需人類干預,甚至可完全自主運行的水平 [1]。Waymo 等公司自 2018 年起便已成功部署了具備 SAE L4 等級的全自動機器人出租車(robotaxi)服務 [2][3],在特定城市環境中驗證了無人駕駛出行的可行性。截至 2025 年,Waymo 每周已提供約 250,000 次商業化出行服務 [4]。這一系列進展得益于高可靠性模塊化自動駕駛軟件功能的開發與嚴格驗證,包括感知、預測、規劃與控制等模塊 [5]。 除了傳統的模塊化架構,近年來還涌現出基于深度學習的端到端學習方法 [6][7],可直接從原始傳感器數據中生成軌跡或控制動作 [8]。

在仿真中進行的**基于場景的測試(scenario-based testing)**是評估和驗證自動駕駛系統安全性與性能的關鍵手段 [9]。作為一種成本效益高的替代實地測試方式,它能夠模擬真實、可復現且可控的駕駛環境 [10],尤其擅長重現那些在現實數據集中罕見或難以捕捉的安全關鍵情況(corner case)[11][12]。因此,系統化生成與分析駕駛場景的能力,對基于場景的測試至關重要,是自動駕駛功能(如感知、規劃和控制)開發、驗證與確認的重要支撐。

隨著機器學習的不斷發展,尤其是大規模基礎模型(Foundation Models, FMs)的出現,自動駕駛中基于場景的測試在真實性、多樣性與可擴展性方面迎來了新的機遇。基礎模型由斯坦福大學人本人工智能研究所(HAI)于 2021 年 8 月首次提出 [13],用于描述一類在大規模多樣化數據集上,通常采用自監督學習訓練的模型。與傳統機器學習模型通常針對特定任務進行訓練不同,基礎模型具備良好的遷移能力,可通過提示學習(prompting)或微調(fine-tuning)適應多種任務。這些模型已在多個領域取得卓越表現,包括自然語言處理(NLP)[14]、視覺理解 [15] 與代碼生成 [16]。在自動駕駛領域,基礎模型也日益受到關注,因為它們能夠結合預訓練階段習得的通用知識與針對特定自動駕駛任務的高效適應能力 [17]–[19]。


A. 文獻綜述范圍

本綜述聚焦于基礎模型在自動駕駛場景生成與場景分析中的應用(參見圖 1)。我們通過在 Google Scholar 中進行關鍵詞檢索(完整關鍵詞列表見論文 GitHub 倉庫)對相關文獻進行篩選。 為了確保綜述的廣度與相關性,我們納入了同行評審的會議與期刊論文,以及 arXiv 上的預印本。盡管 arXiv 上的論文未經過正式同行評審,但其在快速發展領域(如基礎模型應用)中往往代表前沿且具有影響力的研究。我們調研的時間范圍涵蓋從 2022 年 10 月至 2025 年 5 月 之間發表的文獻,重點關注自動駕駛、計算機視覺、機器學習/人工智能(AI)與機器人領域的研究成果。圖 2 展示了按月統計的發表數量及其在不同類型平臺(會議、期刊或預印本)中的分布趨勢。每篇文獻的發表平臺及其開源代碼(如有)均在論文 GitHub 倉庫中列出。


B. 綜述結構安排

本綜述的整體結構如圖 3 所示: * 第 II 節介紹基礎模型,并對已有關于場景生成與分析的相關綜述進行評述,涵蓋經典方法與基礎模型驅動的最新進展; * 第 III、IV、V 節系統探討語言類基礎模型,從基本概念出發,詳細分析大語言模型(LLMs)視覺語言模型(VLMs)多模態大語言模型(MLLMs)在場景生成與分析中的應用; * 第 VI 與 VII 節聚焦于視覺為中心的基礎模型,分別介紹擴散模型與世界模型的基本原理及其與場景生成的關聯; * 第 VIII 節調研當前可公開獲取的數據集與仿真基準,重點介紹與自動駕駛場景生成與分析密切相關的競賽與挑戰; * 第 IX 和 X 節歸納當前的研究難點與開放性問題,并展望未來的研究方向; * 第 XI 節總結本綜述的核心發現與主要觀點。

付費5元查看完整內容

摘 要:盡管深度學習在處理非線性高維問題時表現出強大的能力,但在復雜科學與工程問題中仍面臨諸多挑戰, 如高昂的計算成本、大量的數據需求、難以解釋的黑盒特性,缺乏對物理規律的建模能力等。為此,近年來涌現了一 種新的框架——物理引導深度學習,通過將領域內的物理知識融入深度學習模型的構建和訓練過程中,旨在增強模 型的性能、可解釋性及其物理一致性。對國內外關于物理引導深度學習的相關工作進行了全面梳理與分析。介紹 了物理引導深度學習框架的主要動機與理論基礎。對物理信息組合與物理信息融合兩種模式進行了詳細討論,總 結了各方法的特點、局限性與應用場景。分析了物理引導深度學習在多個領域應用中的表現,并從計算復雜性與優 化收斂問題、控制方程偏離問題、觀測數據依賴問題與知識融合困難問題四個方面探討了該框架目前面臨的挑戰, 并基于此展望該領域未來的發展方向,以期為研究者提供借鑒思路及多維度視角。 關鍵詞:科學范式;物理引導;深度學習;模型融合;控制方程

付費5元查看完整內容

摘要 — 從快速擴展的互聯網信息中獲取有價值的數據已經成為一個重要的課題,而推薦系統作為一種廣泛使用且有效的工具,幫助用戶發現感興趣的項目。推薦系統的本質在于其能夠預測用戶對各種項目的評分或偏好,并基于歷史交互數據和公開信息推薦最相關的項目。隨著包括文本、圖像、視頻和音頻在內的多種多媒體服務的出現,人類可以通過多種模態感知世界。因此,一個能夠理解和解釋不同模態數據的推薦系統能夠更有效地參考個體偏好。多模態推薦系統(MRS)不僅捕捉跨多種模態的隱式交互信息,還具有揭示這些模態之間隱藏關系的潛力。本文綜述的主要目標是全面回顧MRS的最新研究進展,并從技術角度分析這些模型。具體而言,我們旨在總結MRS的總體過程和主要挑戰。然后,我們通過將現有的MRS模型分類為四個關鍵領域:特征提取、編碼器、多模態融合和損失函數,來介紹這些模型。最后,我們進一步討論了發展和增強MRS的潛在未來方向。本綜述為MRS領域的研究人員和實踐者提供了全面的指南,提供了MRS技術的現狀見解,并確定了未來研究的方向。我們希望能夠為開發更為復雜和有效的多模態推薦系統做出貢獻。欲了解更多詳情,請訪問我們的開源倉庫://github.com/JinfengXu/Awesome-Multimodal-Recommender-Systems。 關鍵詞 — 信息系統,數據挖掘,多媒體信息系統,多模態推薦系統。 I. 引言

互聯網的快速擴展導致信息量的激增,使得用戶越來越難以識別哪些信息是有用的和相關的。這種現象被稱為信息過載,主要源于在數字時代幾乎無法控制信息的生成和傳播。因此,迫切需要強大的過濾機制,以優先處理相關內容,從而促進高效的溝通和決策過程。推薦系統應運而生,它通過根據不同領域的特定需求個性化內容過濾,已證明能夠有效緩解信息過載的負面影響。這些系統在商業應用中尤其成功,如電子商務、廣告和社交媒體,在這些領域中,個性化對于用戶參與和滿意度至關重要[1]–[4]。 推薦系統的主要功能是預測用戶對各種項目的評分或偏好,并根據歷史交互數據和公開信息推薦最可能和相關的項目。然而,傳統的基于ID的推薦方法,基于用戶傾向于選擇與其之前喜歡的項目相似的原則,往往嚴重依賴于足夠的用戶-項目交互。盡管取得了一些成功,推薦系統仍面臨兩個主要挑戰:數據稀疏性和冷啟動問題。數據稀疏性源于用戶與產品之間的交互數據天然稀疏,導致難以準確預測用戶的偏好。這種稀疏性可能導致不可靠的推薦,尤其是在具有大量項目目錄但相對較少用戶交互的系統中。冷啟動問題則發生在傳統推薦系統模型過度依賴ID嵌入時,這些模型難以為沒有歷史交互數據的新用戶或新產品提供令人滿意的預測。這個問題在動態環境中尤為突出,因為新項目和新用戶會持續引入。 為了緩解這些問題,推薦系統中越來越多地集成了多模態信息。多模態推薦系統(MRS)利用文本、圖像、視頻和音頻等輔助多模態信息,補充用戶與項目之間的歷史交互。這種方法通過提供更豐富、更全面的用戶偏好理解,提升了推薦性能。推薦系統的核心目標是迎合人們的偏好,而由于人類對世界的感知本質上是多模態的,整合多種模態信息能夠更細致地捕捉偏好,從而提供更準確和個性化的推薦,進而提高用戶的滿意度和參與度。

多模態推薦研究正在迅速增長和發展。為了幫助研究人員快速理解MRS并支持社區的發展,迫切需要從技術角度進行全面回顧。現有工作[5]嘗試從技術角度對MRS進行分類,但隨著該領域的快速發展,一些分類已顯得過時。因此,我們旨在收集近期的研究工作,提出一個更為最新的分類框架,幫助研究人員掌握MRS社區的最新進展。本綜述將全面概述當前MRS技術,突出新興趨勢,并識別未來的研究與開發方向。通過系統地審視MRS領域的最新進展,我們希望為提升推薦系統在多模態數字世界中的能力和應用做出貢獻。 A. 相關論文的檢索策略

我們通過系統地檢索和分析該領域頂級會議和期刊中的文章,進行了一項關于多模態推薦系統(MRS)的全面調研。我們涉及的會議和期刊包括但不限于MM、KDD、WWW、SIGIR、AAAI、ICLR、IJCAI、CIKM、WSDM、TMM、TKDE、TPAMI和INFFUS。這個嚴格的選擇過程確保了我們的調研涵蓋了MRS領域最具影響力和前沿的研究成果。 我們的檢索方法分為三個 distinct 階段:

  • 高質量文章的收集:在初始階段,我們從上述頂級會議和期刊中收集了文章。該選擇基于來源的聲譽和影響因子,確保僅包含高質量和同行評審的研究。
  • 過濾與后處理:收集階段后,我們仔細過濾并后處理這些文章。該步驟包括去除重復項,評估每篇文章與MRS主題的相關性,并確保僅保留最相關的研究。這一嚴格的過濾過程對于維持調研的焦點和質量至關重要。
  • 技術分析與綜合:在最后階段,我們對每篇文章所采用的技術進行了詳細分析。分析內容包括方法論、模型、算法的使用,以及這些方法背后的動機。我們還回顧了每篇文章引用的相關工作,以提供對MRS領域發展和當前趨勢的全面理解。通過綜合這些信息,我們總結了該領域的關鍵技術和動機。

通過這種系統化的方法,我們的調研提供了MRS領域最新技術的深入概述,突出了該領域的重要進展、新興趨勢及未來潛在的研究方向,為研究人員和從業者提供了寶貴的指導。 B. 與相關綜述的比較

此前已經有一些關于推薦系統的綜述,涉及這些系統的一般方面或特定的部分內容。然而,沒有任何綜述提供對近年來的SOTA MRS工作中所使用的過程和技術的全面合理的分類,這正是當前該領域亟需的。MRS的目標是通過將多模態信息引入推薦系統,增強提取用戶與項目之間更深層次、更準確交互的能力。本文討論了現有相關綜述的主要貢獻和局限性,并突出了我們工作中的獨特貢獻,如表 I 所示。 Zhang 等人[6]提供了基于深度學習的推薦系統進展的全景視圖,調查了未來的方向和挑戰,包括聯合表示學習、可解釋性、更深的模型和機器推理。然而,他們的工作缺乏對現有SOTA技術的細粒度介紹。Deldjoo 等人[8]提供了一個綜合性綜述,并按模態進行了粗粒度分類,包括音頻、視覺和文本等常見特征,以及運動、元數據和語義取向等特殊特征。然而,這一分類較為粗略,缺乏精確性。 Jannach 等人[9]探討了對話式推薦系統(CRS)的領域,提供了現有技術的分類綜述,但其工作未整合多模態信息。Deldjoo 等人[1]討論了基于內容的MRS的SOTA方法,調查了挑戰和歷史演變,包括增加推薦多樣性和新穎性、提供透明性和解釋、實現上下文感知、提高可擴展性和效率,以及緩解冷啟動問題。然而,他們的重點主要放在基于內容的MRS上,而非涵蓋整個MRS領域。 之前的工作[7],[10]集中于推薦系統中的圖結構。Guo 等人[7]提供了一個細粒度的綜述,分析了利用知識圖譜(KG)來增強推薦結果的方法,將方法分為基于嵌入的、基于路徑的和統一的。Wu 等人[10]提供了關于圖神經網絡(GNN)技術在推薦系統中的綜合性綜述,指出了多個限制和未來的方向,包括多樣性和不確定性表示、可擴展性、動態性、感受野、自監督學習、魯棒性、隱私保護方法和公平性。 Deldjoo 等人[2]提供了一個關于時尚領域推薦系統的全面綜述,分類了市場中的任務,并概述了時尚領域特有的評估目標。Meng 等人[11]對個性化新聞推薦進行了深入分析,討論了技術,并列出了多個局限性和未來方向,包括隱私保護、假新聞緩解和去偏見。Zhou 等人[12]總結了MRS中所采用的主要方法,并提出了一個通用框架,用于常見的MRS模型。盡管他們的工作提供了對以往方法的全面回顧,但他們提出的MRS管道缺乏詳細闡述。最近,Liu 等人[5]也總結了MRS中使用的主要方法,并提供了一個常見框架。然而,這項工作從過程的角度劃分MRS,而不是專注于技術發展,這限制了讀者對該領域研究方向的全面理解。 總之,我們的工作旨在填補這些空白,提供一個更加詳細和最新的MRS過程和技術分類,從而推動對這個快速發展的領域的理解和發展。 我們的調研專注于從技術角度對MRS進行精細分類,以為研究人員提供有關MRS技術發展的見解。最后,我們討論了多模態推薦系統發展的潛在未來方向。 C. 本綜述的大綱

本綜述的結構安排如下:

  • 第 I 節:引言

簡要概述推薦系統的歷史發展,強調利用多模態信息提升推薦的意義。隨后,我們詳細介紹了本文的檢索策略,確保了研究的質量。此外,我們還與先前的綜述進行對比分析,并介紹了本綜述的結構和主要貢獻。

  • 第 II 節:技術分類

我們提出了多模態推薦系統的最新技術分類框架,并詳細討論了各種技術的應用。

  • 第 III 節:新興趨勢

總結當前領域中的新興趨勢,突出在多模態推薦中取得的重要進展。

  • 第 IV 節:挑戰與未來方向

討論當前技術面臨的主要挑戰,并提出未來的研究方向。

  • 第 V 節:結論

總結本綜述的主要內容,并提供對未來研究的展望。

II. 技術分類法

根據當前多模態推薦系統(MRS)的最新研究成果,我們將MRS中的技術總結并組織為四個部分,如圖2所示。具體而言,這四個部分分別是:特征提取、編碼器、多模態融合和損失函數。我們將簡要概述這些部分,并在后續章節中詳細討論。 A. 特征提取

不同的應用場景涉及不同類型的模態信息,從而導致不同的數據集和各自獨特的多模態特征。然而,大多數數據集通常至少包括三種主要模態:交互、視覺和文本。例如,像Amazon、Netflix和TikTok這樣的大型平臺提供了富含圖像和文本信息的數據集,覆蓋了視覺和文本模態。特別是,TikTok的數據集常常還包含其他模態,如音頻和視頻[13]–[15]。此外,某些專門領域的數據集可能包含稀有的模態。例如,時尚和醫療保健等熱門領域的數據集通常包括多種專業模態。 特征提取是一個關鍵過程,旨在通過嵌入技術表示低維、可解釋的通道特征。對于不同的模態,采用不同的預提取方法。對于視覺模態,使用如ResNet [16]和ViT [17]這樣的模型來提取特征;對于文本模態,使用BERT [18]和Sentence-Transformer [19]等模型來推導特征;音頻特征通常使用如LSTM [20]和GRU [21]這樣的模型提取。 在第III節中,我們將詳細介紹特征提取,深入探討每種模態及其對應的提取技術。 B. 編碼器

編碼器利用從多模態信息和歷史交互數據中提取的特征來推斷用戶偏好表示,并隨后用于預測用戶-項目交互,從而進行推薦。與傳統的推薦系統類似,多模態推薦的編碼器可以大致分為基于矩陣分解(MF [22])和基于圖卷積網絡(Graph [23])的方法。基于MF的方法以其簡單有效著稱,而基于圖的方法利用用戶-項目交互中的二分圖結構來學習更高階的鄰居特征。 隨著MRS的快速發展,提出并采用了更為復雜的編碼器,全面利用豐富的多模態信息,從而提高推薦性能。這些先進的編碼器能夠整合多樣的多模態數據,進而提供更準確、個性化的推薦。 在第III節中,我們將詳細介紹這兩種編碼器的發展及其背后的動機,包括如何通過MF方法高效捕捉用戶-項目交互,以及基于圖的方法如何通過整合復雜的圖結構來擴展這一能力。通過研究這些方法,我們旨在闡明每種方法的優缺點,以及它們對MRS社區的貢獻。 C. 多模態融合

多模態融合是MRS中的一個關鍵研究方向。近期研究表明,模態融合的時機可能顯著影響推薦效果。多模態融合涉及在不同階段整合來自不同模態的信息,這一時機對實現最佳性能至關重要。

  • 早期融合:早期融合是指在編碼器處理之前將不同模態的特征進行組合。這種方法能夠有效地揭示模態之間隱藏的關系,因為整合后的多模態特征使編碼器能夠學習更豐富和更高質量的表示。早期融合能夠捕捉文本、圖像和音頻等不同數據類型之間復雜的相互作用,從而更全面地理解用戶偏好。早期融合的技術通常包括連接、注意力機制和基于神經網絡的整合方法,旨在創建統一的多模態數據表示。
  • 后期融合:后期融合是在各個模態特定的編碼器處理完數據后,將每種模態的分數或預測結果進行合并。這種方法側重于利用每個模態特定模型的優勢,然后結合它們的輸出進行最終推薦。后期融合在某些模態比其他模態更具信息性或可靠的情況下尤為有效。通過推遲融合過程,后期融合允許在預測階段之后更有針對性地提取特定模態信息,從而提高整體推薦準確性。

第V節中,我們將根據融合時機對現有工作進行詳細分類,區分為早期融合和后期融合方法。這一分類將全面了解不同融合策略如何影響MRS系統的性能。我們將探討早期融合和后期融合中采用的各種方法和技術,分析它們的優缺點和應用場景。 D. 損失函數

MRS利用的損失函數大致可以分為兩大部分:主任務和輔助任務。主任務是監督學習,通常涉及明確定義的標簽來指導模型的學習過程。這些任務確保模型基于標簽數據學習做出準確的預測。輔助任務則是自監督學習(SSL)[24]。自監督學習通過利用數據自身的內在結構或模式生成監督信號,而不是僅僅依賴外部標簽數據。這一方法使得推薦系統能夠有效地利用未標注數據,在數據稀疏的情況下仍能提取有意義的表示并做出準確預測。 監督學習可以進一步細分為逐點損失對比損失

  • 逐點損失:逐點損失通過比較每個單獨項目的預測得分與其實際標簽來計算。常見的逐點損失函數包括均方誤差(MSE)[25]和交叉熵損失(CE)[26],用于直接評估單項預測的準確性。
  • 對比損失:對比損失側重于項目之間的相對排序。它評估模型根據用戶偏好正確排列每對項目的能力。常見的對比損失函數包括貝葉斯個性化排序(BPR)[27]和鉸鏈損失(Hinge Loss)[28],旨在優化項目的排名順序而非其絕對得分。

自監督學習可以分為基于特征和基于結構的兩種方法:

  • 基于特征的SSL:該方法通過創建輔助任務來預測或重建數據的某些特征。例如,模型可能被訓練預測項目或用戶的缺失特征,從而學習到更強大的表示。
  • 基于結構的SSL:該方法利用數據的結構特性,例如用戶與項目之間的關系和交互。例如,基于圖的方法可能會利用節點相似度或子圖模式來生成監督信號,從而增強模型捕捉復雜依賴關系和交互的能力。

第VI節中,我們將詳細介紹這些損失函數,探討每種損失類型背后的動機、實現細節以及它們對多模態推薦系統性能的影響。通過分析監督學習和自監督學習策略,我們旨在提供對不同損失函數如何貢獻于多模態推薦有效性的全面理解。

付費5元查看完整內容

 摘要—生成性人工智能(AI)通過使機器能夠以空前的復雜性創建和解釋視覺數據,迅速推動了計算機視覺領域的發展。這一變革建立在生成模型的基礎上,能夠生成逼真的圖像、視頻以及3D/4D內容。傳統上,生成模型主要關注視覺逼真度,而往往忽視了生成內容的物理合理性。這一差距限制了其在需要遵守現實世界物理法則的應用中的效果,如機器人技術、自動化系統和科學模擬。隨著生成性人工智能不斷融入物理現實和動態仿真,其作為“世界模擬器”的潛力不斷擴大——能夠模擬由物理法則主導的交互,架起虛擬與物理現實之間的橋梁。本綜述系統地回顧了這一新興領域——計算機視覺中的物理感知生成性AI,按其如何融入物理知識對方法進行了分類——無論是通過顯式仿真還是隱式學習。我們分析了關鍵范式,討論了評估協議,并指出了未來的研究方向。通過提供全面的概述,本綜述旨在幫助未來在視覺領域的物理基礎生成方面的發展。綜述中提到的論文匯總在

//github.com/BestJunYu/Awesome-Physics-aware-Generation

1 引言生成學習一直是現代計算機視覺的基礎支柱,解決了理解、合成和操作視覺數據中的關鍵挑戰。在過去的十年里,該領域見證了多種生成模型的快速發展,包括變分自編碼器(VAE)[1]、生成對抗網絡(GAN)[3]、擴散模型(DM)[4]、[5]、[6]、神經輻射場(NeRF)[7]、高斯濺射(GS)[8] 和視覺自回歸模型(VAR)[9]。這些模型不斷推動生成學習的邊界,利用越來越強大的架構來捕捉視覺數據的潛在分布。其目標是使機器能夠以類似人類的創造性和理解方式推理視覺世界,通過在未見過的場景中想象新的視覺內容實例。在這些進展中,擴散模型因其能夠生成高度逼真的輸出而成為特別值得注意的技術。通過通過學習到的去噪過程迭代地精煉隨機噪聲,擴散模型展現出卓越的魯棒性和多功能性,成為近期生成方法學的基石。生成模型的應用跨越了多種視覺內容的模態,包括具有語義理解的圖像生成、具有動態時間理解的視頻生成、具有增強空間理解的3D內容生成[10]、[11]、[12]以及具有更復雜和綜合理解的4D內容[13]、[14]、[15]、[16]、[17]、[18]、[19]。這些進展突顯了生成學習在日益復雜的視覺任務中的巨大潛力。在這些不同的視覺模態中,視頻生成最近在生成學習領域獲得了顯著關注,它為擴展大型生成模型處理更高維數據提供了一個更加具有挑戰性的試驗平臺。這一復雜性不僅源于單個幀的空間復雜性,還來自于跨序列所需的時間一致性。許多商業視頻生成模型已被開發并引起了廣泛的公眾關注,如OpenAI的Sora [20]、Google的Veo2 [21]、騰訊的Hunyuan [22]和快手的Kling [23]。視頻生成已在多種形式和設置中得到深入研究,從最基本的無條件生成[24]、[25]到圖像到視頻生成[26]、[27]、[28]、[29]、[30]、[31]、[32]、[33]、文本到視頻生成[24]、[25]、[26]、[29]、[30]、[30]、[34]、[35]、[36]、[37]、視頻到視頻生成[38]、[39]、以及視頻編輯或定制[40]、[41]、[42]、[43]。這些設置各自解決了獨特的挑戰,從保持時間連續性到結合來自文本或視覺輸入的語義引導。更重要的是,視頻在生成AI視覺的未來中占據了關鍵地位。互聯網上可用的大量視頻數據封裝了關于現實世界的豐富信息,使視頻成為生成AI可以學習建模復雜現實世界現象的媒介。在這個背景下,視頻可以被視為現實世界決策的“語言”,具有彌合數字和物理領域的潛力[44]。視頻生成有望提供一個統一的接口作為“世界模型”[45],處理物理知識,類似于文本大語言模型(LLM)處理抽象知識的方式。這種模型可以促進大量下游任務的執行,包括自動駕駛、科學仿真、機器人[46]、[47]、[48]、[49]、[50]以及其他形式的具身智能。為了實現這一潛力,生成過程應能夠與人類或其他系統的外部控制進行交互。這種互動性促進了動態決策制定和基于互動優化結果的能力,催生了可以描述為生成交互環境的概念[44]、[51]、[52]、[53]。視頻生成已經與多種交互控制信號相結合,如運動向量或軌跡[54]、[55]、[56]、[57]、[58]、手部掩碼[59]、潛在動作[53]、[60]、機器人操作[47]、相機運動[61]、演示[62]和自然語言描述[63]、[64]、[65]。這些互動元素突顯了生成視頻模型的多功能性和適應性,為其演變為世界模型鋪平了道路。然而,從生成到穩健世界建模的過渡仍然存在一個關鍵差距:真實世界物理的忠實理解和復制能力[66](見圖1)。當前的最先進模型主要針對像素空間中的視覺真實感進行優化,而非在實體或概念空間中的物理合理性。為了使生成模型能夠作為物理世界的模擬器,它們必須融入對物理法則的深刻理解,如動力學、因果關系和材料屬性。這種物理意識對于超越僅生成視覺上吸引人的輸出至關重要,以確保內容與物理世界的約束和行為一致。因此,我們提供本綜述,作為對現有文獻的及時而全面的回顧,旨在將物理感知嵌入生成模型。通過審視這些努力,我們希望突出至今所取得的進展,提供清晰的范式結構,并識別未來的潛在研究方向。綜述范圍:本綜述的范圍是關于增強生成輸出物理感知的計算機視覺生成模型。因此,我們不包括將物理原理作為先驗知識或歸納偏置融入模型或神經架構設計的文獻,例如物理信息神經網絡(PINN)[67]、[68],即使任務與生成學習相關,例如[69]、[70]、[71]。我們專注于生成任務,因此不包括圖像處理任務,如去模糊、去霧和增強,盡管我們注意到這些工作中有大量的物理相關內容。為了專注于計算機視覺,我們還排除了純圖形和渲染研究與物理仿真相結合的文獻。與其他綜述的比較:如同在我們的范圍中所述,本綜述與現有的關于物理信息機器學習[72]、物理信息計算機視覺[73]和物理信息人工智能[74]的綜述不同,因為它們強調的是在物理先驗知識下的模型設計方面。我們的綜述專注于具有物理感知的生成,因此與現有的關于生成模型[75]、擴散模型[76]、[77]、視頻擴散模型[78]、基于擴散的視頻編輯[79]的綜述有所不同。與專注于特定領域的綜述,如人類視頻或運動生成[80]、[81]、[82]相比,我們的綜述也有不同的范圍。

付費5元查看完整內容

摘要——近年來,自動駕駛領域的突破性進展徹底改變了車輛感知和與周圍環境互動的方式。特別是,世界模型作為一種關鍵技術應運而生,提供了對駕駛環境的高保真表示,能夠整合多傳感器數據、語義信息和時間動態。這類模型將感知、預測和規劃統一起來,使得自動駕駛系統能夠在復雜且經常不可預測的條件下快速做出知情決策。研究趨勢涉及多個領域,包括4D占用預測和生成數據合成,這些都能增強場景理解和軌跡預測。值得注意的是,近期的研究利用大規模預訓練和先進的自監督學習,擴大了模型在稀有事件模擬和實時互動方面的能力。在應對諸多關鍵挑戰時——包括領域適應、長尾異常檢測以及多模態融合——這些世界模型為更強大、可靠且適應性更強的自動駕駛解決方案鋪平了道路。本綜述系統地回顧了當前的技術前沿,將相關技術按其在未來預測、行為規劃以及兩者之間的互動方面的側重點進行了分類。我們還識別了未來研究的潛在方向,強調了整體集成、計算效率提升和高級仿真等方面。我們的綜合分析凸顯了世界模型在推動下一代自動駕駛系統朝著更安全、更公平的出行方向發展的變革性作用。

關鍵詞——自動駕駛、世界模型、自監督學習、行為規劃、生成方法 1 引言 1.1 概述 完全自動駕駛的追求已經迅速成為全球科學研究和工業努力的焦點。其核心目標是同時減少交通事故、緩解擁堵,并提升不同社會群體的出行能力[1]。現有統計數據顯示,人為錯誤仍然是道路事故的主要原因[2],這表明,減少人工干預可以顯著降低與交通相關的死亡和傷害的發生率。除了安全性,經濟因素(例如,減少擁堵和優化物流)也推動了自動駕駛技術的發展[3]。 盡管這些激勵因素令人信服,實現高水平的自動駕駛仍需克服相當大的技術難題。最重要的挑戰之一是感知和理解動態交通場景,這要求將異構傳感器數據流(例如激光雷達、雷達、攝像頭)融合成一個統一的環境表示[4],[5]。從復雜的城市布局到高速公路,自動駕駛車輛必須快速吸收多模態數據,檢測關鍵物體(如車輛、行人、自行車騎行者),并預測它們在不同條件下的運動——例如惡劣天氣、無結構道路或繁忙的交通[6],[7]。此外,實時決策還帶來了嚴格的計算約束,要求系統在毫秒級響應時間內應對突發障礙物或異常行為[8],[9]。同樣關鍵的是,系統在極端或長尾場景(例如嚴重天氣、施工區或異常駕駛行為)下的魯棒性,在這些情況下,性能不足可能會危及整體安全性[10],[11]。 在這一背景下,構建穩健且穩定的世界模型已成為基礎性要素。世界模型的概念包括創建一個高保真的駕駛環境表示——涵蓋靜態結構(如道路、建筑)和動態實體(如車輛、行人)[3],[8]。一個全面的世界模型不斷捕獲語義和幾何信息,同時實時更新這些表示,從而為下游任務(如物理世界預測)提供支持[12],[13]。近期的進展通過集成多傳感器數據來細化這些表示,例如生成性方法[14],[15],這些方法通過模擬物理世界來進行訓練,將異構傳感器輸入統一為一致的自上而下的視角[16],[17]。 這些穩健的世界模型利用環境表示來優化智能體的行為規劃,為更安全和更高效的自動駕駛應用奠定了基石。通過實現主動軌跡優化、實時危險檢測和自適應路線規劃,它們能夠直接降低突發危險所帶來的風險[5],并與不斷發展的車聯網(V2X)系統相契合[9]。最終,世界模型促進了感知和控制子系統之間更緊密的集成,簡化了閉環自動駕駛管道[18],[19]。 現有關于世界模型在自動駕駛中的綜述通常可分為兩類。一類主流綜述側重于描述廣泛應用于多個領域的世界模型[20]–[22],其中自動駕駛只是一個特定應用領域。第二類綜述[23],[24]則專注于世界模型在自動駕駛領域中的應用,嘗試總結該領域的現狀。目前,關于自動駕駛中世界模型的綜述較少,它們通常對這些研究進行大致分類,且常常僅關注世界仿真或缺乏對行為規劃與物理世界預測交互的討論,導致該領域缺乏清晰的分類體系。本文的目標不僅是正式定義和分類自動駕駛中的世界模型,還提供對近期技術進展的全面回顧,并探索其在多個領域的廣泛應用,特別強調它們在自動駕駛中的變革性潛力。這一結構化的分類方法使我們能夠突出這些模型如何根據汽車行業的挑戰進行塑造和適應。 1.2 貢獻 本文綜述的指導思想是世界模型是理解動態場景的核心,旨在提供一個全面、結構化的現有方法論回顧。我們將最前沿的研究分類為三個關鍵領域: 物理世界的未來預測:聚焦于動態物體和靜態實體的物理世界演化[11],[25]; 智能體的行為規劃:研究生成式和基于規則的規劃方法,這些方法在不確定的駕駛條件下生成安全、有效的路徑[12],[13]; 行為規劃與未來預測之間的交互:強調統一框架如何捕捉智能體之間的交互,并利用預測性洞察進行協同優化[18],[26],[27]。 具體來說,我們提供: 未來預測模型的深入分析:我們討論了基于圖像/鳥瞰圖/物體圖/點云的研究如何在動態場景中實現幾何和語義的高保真度,包括4D占用預測和基于擴散的生成方法。 行為規劃研究:我們探索了基于規則和基于學習的方法在行為規劃中的應用,展示了在魯棒性和避碰性能上的顯著提升。 交互模型研究的提案:我們系統回顧了交互模型,這些模型共同解決未來預測和智能體行為問題,并說明這種協同如何大幅提升現實世界的適應性和操作安全性。 我們總結了目前的開放挑戰,如自監督方法的無縫集成[26]、稀有事件增強的大規模仿真[10],[28]、以及實時多智能體協調[27],并為未來的研究提供了方向。隨著研究領域的不斷擴展以及現實世界應用的緊迫性,本綜述旨在為研究人員和實踐者提供有價值的參考,為更安全、更穩健的自動駕駛解決方案奠定基礎。 1.3 結構 本文的結構概覽見圖1,具體如下:第1節介紹了世界模型在自動駕駛中的重要性,并概述了它們解決的社會和技術挑戰。第2節提供了世界模型在自動駕駛中的背景知識,重點討論了物理世界的未來預測和智能體的行為規劃。第3節詳細介紹了方法的分類:第3.1節討論了物理世界的未來預測方法,涉及動態物體和靜態實體的物理世界演化;第3.2節討論了強調生成安全、有效駕駛策略的先進行為規劃方法;第3.3節研究了未來預測與行為規劃之間的交互關系,重點介紹了復雜場景下的協同優化技術。第4節探討了數據和訓練范式的不同方法,包括監督學習、自監督學習和數據生成技術。第5節考察了世界模型應用的領域和任務,討論了這些技術在感知、預測、仿真和系統集成等多個領域的影響。第6節對自動駕駛中的世界模型進行了詳細評估,評估了它們在不同任務和指標中的有效性。第7節探討了開放挑戰、潛在研究方向和進一步創新的有前景的方向。第8節總結了本綜述,并重申了世界模型在自動駕駛中不可或缺的作用。

付費5元查看完整內容

摘要—人工智能(AI)通過計算能力的提升和海量數據集的增長迅速發展。然而,這一進展也加劇了對AI模型“黑箱”性質的解釋挑戰。為了解決這些問題,可解釋人工智能(XAI)應運而生,重點關注透明性和可解釋性,以增強人類對AI決策過程的理解和信任。在多模態數據融合和復雜推理場景中,多模態可解釋人工智能(MXAI)的提出將多種模態整合用于預測和解釋任務。同時,大型語言模型(LLMs)的出現推動了自然語言處理領域的顯著突破,但它們的復雜性進一步加劇了MXAI問題。為了深入了解MXAI方法的發展,并為構建更加透明、公平和可信的AI系統提供重要指導,我們從歷史的角度回顧了MXAI方法,并將其劃分為四個發展階段:傳統機器學習、深度學習、判別式基礎模型和生成式大型語言模型。我們還回顧了MXAI研究中使用的評估指標和數據集,最后討論了未來的挑戰和發展方向。與此綜述相關的項目已創建在 //github.com/ShilinSun/mxai_review。

關鍵詞—大型語言模型(LLMs)、多模態可解釋人工智能(MXAI)、歷史視角、生成式。

人工智能(AI)的進展對計算機科學產生了重大影響,如Transformer [1]、BLIP-2 [2] 和 ChatGPT [3] 在自然語言處理(NLP)、計算機視覺和多模態任務中表現出色,通過集成多種數據類型。這些相關技術的發展推動了具體應用的進步。例如,在自動駕駛中,系統需要整合來自不同傳感器的數據,包括視覺、雷達和激光雷達(LiDAR),以確保在復雜道路環境中的安全運行 [4]。類似地,健康助手需要具備透明性和可信度,以便醫生和患者都能輕松理解和驗證 [5]。理解這些模型如何結合和解釋不同模態對于提升模型可信度和用戶信任至關重要。此外,模型規模的不斷增大帶來了計算成本、可解釋性和公平性等挑戰,推動了可解釋人工智能(XAI)的需求 [6]。隨著包括生成式大型語言模型(LLMs)在內的模型變得越來越復雜,數據模態也更加多樣化,單一模態的XAI方法已無法滿足用戶需求。因此,多模態可解釋人工智能(MXAI)通過在模型的預測或解釋任務中利用多模態數據來解決這些挑戰,如圖1所示。我們根據數據處理順序將MXAI分為三種類型:數據可解釋性(預模型)、模型可解釋性(模型內)和事后可解釋性(模型后)。在多模態預測任務中,模型處理多個數據模態,如文本、圖像和音頻;在多模態解釋任務中,利用多種模態來解釋結果,從而提供更全面的最終輸出解釋。

為了回顧MXAI的歷史并預測其發展,我們首先將不同階段進行分類,并從歷史角度回顧了各種模型(如圖2所示)。在傳統機器學習時代(2000-2009年),有限的結構化數據的可用性促進了像決策樹這樣的可解釋模型的出現。在深度學習時代(2010-2016年),隨著大型標注數據集(如ImageNet [7])的出現以及計算能力的提升,復雜模型和可解釋性研究嶄露頭角,包括神經網絡核的可視化 [8]。在判別式基礎模型時代(2017-2021年),Transformer模型的出現,利用大規模文本數據和自監督學習,徹底改變了自然語言處理(NLP)。這一轉變引發了對注意力機制的解釋研究 [1],[9]–[11]。在生成式大型語言模型時代(2022-2024年),大量多模態數據的集成推動了生成式大型語言模型(LLMs)的發展,如ChatGPT [3],以及多模態融合技術。這些進展提供了全面的解釋,增強了模型的透明性和可信度。這一演變導致了對MXAI的關注,它解釋了處理多樣數據類型的模型 [6]。

然而,最近的XAI綜述通常忽視了歷史發展,主要集中在單模態方法上。例如,盡管[6]將MXAI方法按模態數、解釋階段和方法類型進行了分類,但忽略了LLMs的可解釋性技術。雖然Ali等人 [12] 提出了一個全面的四軸分類法,但缺少關于多模態和LLMs的總結。然而,像[13]、[14]和[15]這樣的綜述僅關注LLMs的可解釋性。我們的研究解決了這些不足,通過提供MXAI的歷史視角,分類了MXAI方法的四個時代(傳統機器學習、深度學習、判別式基礎模型和生成式大型語言模型),并將每個時代分為三個類別(數據、模型和事后可解釋性)。本文的主要創新貢獻總結如下:

  • 我們提供了MXAI方法的歷史總結和分析,包括傳統機器學習方法和基于LLMs的當前MXAI方法。
  • 我們分析了跨時代的方法,涵蓋數據、模型和事后可解釋性,以及相關的數據集、評估指標、未來挑戰和發展方向。
  • 我們回顧了現有方法,總結了當前的研究方法,并從歷史演變的角度提供了對未來發展的洞見和系統全面的視角。

生成式大型語言模型時代

這一時代的重點是通過判別模型(2017-2021年)奠定的基礎來推進生成任務。與前輩不同,這些模型,如GPT-4 [240]、BLIP-2 [2] 及其繼任者,通過生成連貫且語境相關的文本來增強可解釋性,為輸出提供自然語言解釋。這一進展彌合了人類理解和機器決策之間的鴻溝,使得與模型的互動更加細致,并為模型行為提供了更多的洞察。我們在表V中總結了相關工作。

**A. 數據可解釋性

  1. 解釋數據集:大型語言模型(LLMs)可以通過交互式可視化和數據分析有效地解釋數據集。LIDA [241] 通過生成與語法無關的可視化圖表和信息圖,幫助理解數據的語義,列舉相關的可視化目標,并生成可視化規范。其他方法 [242]–[245] 通過分析數據集來增強數據集的可解釋性。通過結合多模態信息和強大的自然語言處理能力,LLMs可以提供全面、深入、定制化和高效的數據解釋 [13]。Bordt等人 [246] 探討了LLMs在理解和與“玻璃盒”模型互動中的能力,識別異常行為并提出修復或改進建議。重點在于利用多模態數據的可解釋性來增強這些過程。
  2. 數據選擇:數據選擇在這一時代至關重要。它提高了模型的性能和準確性,減少了偏差,增強了模型的泛化能力,節省了訓練時間和資源,并提升了可解釋性,使得決策過程更加透明,有助于模型改進 [302]。多模態C4 [247] 通過整合多個句子-圖像對并實施嚴格的圖像過濾,提高了數據集的質量和多樣性,排除了小型、不規則比例的圖像以及包含人臉的圖像。這種方法強調了文本-圖像的相關性,增強了多模態模型訓練的魯棒性和可解釋性。還提出了一種基于啟發式混合數據過濾的生成式AI新范式,旨在增強用戶沉浸感并提高視頻生成模型與語言工具(例如ChatGPT [3])之間的互動水平 [248]。該方法使得從單個文本或圖像提示生成交互式環境成為可能。除了上述內容外,還有一些工作旨在提高模型對分布變化和超出分布數據的魯棒性 [249],[250]。
  3. 圖形建模:盡管多模態大型語言模型(MLLMs)可以處理和整合來自不同模態的數據,但它們通常是隱式地捕捉關系。相比之下,圖形建模通過顯式表示數據節點(例如圖像中的對象、文本中的概念)及其關系(例如語義關聯、空間關系),來更直觀地理解復雜數據關系。一些方法 [251]–[253] 將圖形結構與LLMs結合,通過多模態整合提升了復雜任務的性能和模型的可解釋性。

**B. 模型可解釋性

  1. 過程解釋:在這一時代,MXAI的過程解釋強調了多模態上下文學習(ICL)和多模態思維鏈(CoT)。ICL的突出之處在于它能夠通過使用人類可理解的自然語言指令來避免對大量模型參數進行廣泛更新 [303]。Emu2 [254] 通過擴展多模態模型生成,增強了任務無關的ICL。Link context learning(LCL) [304] 關注因果推理,以提升多模態大型語言模型(MLLMs)的學習能力。[255] 提出了多模態ICL(M-ICL)的綜合框架,適用于DEFICS [256] 和OpenFlamingo [257]等模型,涵蓋了多種多模態任務。MM-Narrator [258] 利用GPT-4 [240] 和多模態ICL生成音頻描述(AD)。進一步的ICL進展和新的多模態ICL變種由 [259] 探討。MSIER [260] 使用神經網絡選擇能夠提高多模態上下文學習效率的實例。多模態CoT解決了單模態模型在復雜任務中的局限性,在這些任務中,單靠文本或圖像無法全面捕獲信息。文本缺乏視覺線索,而圖像缺少詳細描述,這限制了模型的推理能力 [305]。多模態CoT通過整合和推理多種數據類型,如文本和圖像 [261]–[264],來解決這一問題。例如,圖像識別可以分解為逐步的認知過程,構建生成視覺偏見的網絡鏈,這些偏見在每一步都被加到輸入的詞嵌入中 [261]。Zhang等人 [262] 首先從視覺和語言輸入中生成推理依據,然后將其與原始輸入結合進行推理。混合推理依據 [306] 使用文本推理來引導視覺推理,通過融合特征提供連貫且透明的答案解釋。
  2. 內在可解釋性:在這一小節中,我們探討了多模態大型語言模型(MLLMs)的內在可解釋性,重點是兩類主要任務:多模態理解和多模態生成 [307]。多模態理解任務包括圖像-文本、視頻-文本、音頻-文本和多模態-文本理解。在圖像-文本理解中,BLIP-2 [2] 通過兩階段的預訓練過程增強了解釋性,將視覺數據與文本數據對齊,從而提高了圖像描述的連貫性和相關性。LLaVA [308] 通過將圖像-文本對轉換為與GPT-4 [240] 兼容的格式,并將CLIP的視覺編碼器與LLaMA的語言解碼器對接進行微調,生成了指令跟隨數據。像LLaVA-MoLE [309]、LLaVA-NeXT [271] 和LLaVA-Med [272]等變種在此基礎上進行了增強,針對特定領域和任務做出了改進。對于視頻-文本理解,與圖像不同,視頻具有時間維度,需要模型處理靜態幀并理解它們之間的動態關系。這增加了多模態模型的復雜性,但也提供了更豐富的語義信息和更廣泛的應用場景。VideoChat [273] 構建了一個以視頻為中心的指令數據集,強調時空推理和因果關系。該數據集增強了時空推理、事件定位和因果推理,整合了視頻和文本,從而提高了模型的準確性和魯棒性。Dolphins [274] 結合視覺和語言數據來解讀駕駛環境,并與駕駛員自然互動。它提供了清晰且具有相關性的指令,為其建議生成解釋,并通過不斷學習新經驗來適應不斷變化的駕駛條件。對于音頻-文本理解,音頻數據由于其時間序列的性質,需要模型能夠解析和理解時間動態。這擴展了多模態理解的能力。Salmonn [275] 將預訓練的基于文本的LLM與語音和音頻編碼器整合到一個統一的多模態框架中。這種設置使得LLMs能夠直接處理和理解普通音頻輸入,增強了多模態可解釋性,并提供了有關文本和音頻數據關系的洞察。盡管如此,Salmonn在實現全面音頻理解方面仍面臨挑戰。相比之下,Qwen-audio [276] 通過開發大規模音頻-語言模型來推動該領域的發展。通過利用大量的音頻和文本數據集,Qwen-audio提高了模型處理和解釋多樣聽覺輸入的能力,從而推動了多模態理解的邊界,并在各種音頻相關任務中展現了強大的表現。

結論

本文將多模態可解釋人工智能(MXAI)方法按歷史發展分為四個時代:傳統機器學習、深度學習、判別基礎模型和生成式大型語言模型。我們從數據、模型和后驗可解釋性三個方面分析了MXAI的演變,并回顧了相關的評估指標和數據集。展望未來,主要挑戰包括可解釋性技術的規模化、平衡模型的準確性與可解釋性以及解決倫理問題。MXAI的持續進展對于確保AI系統的透明性、公正性和可信性至關重要。

付費5元查看完整內容

摘要——大型語言模型(LLMs)的快速進展有潛力革新各個領域,但其迅猛發展在監督、倫理開發和建立用戶信任方面帶來了顯著挑戰。本綜述全面調研了LLMs中的關鍵信任問題,重點關注意外傷害、缺乏透明性、易受攻擊、人類價值觀對齊和環境影響等問題。我們強調了可能破壞用戶信任的諸多障礙,包括社會偏見、決策過程中的不透明性、潛在的濫用以及技術快速演變帶來的挑戰。隨著LLMs在金融、醫療、教育和政策等敏感領域的普及,解決這些信任差距至關重要。 為了解決這些問題,我們建議采用綜合方法,包括倫理監督、行業問責、監管和公眾參與。我們主張重塑AI開發規范、對齊激勵措施,并在整個機器學習過程中整合倫理考量,這需要技術、倫理、法律和政策等不同領域專業人士的密切合作。我們的綜述通過提供一個評估LLMs信任的強大框架和對復雜信任動態的深入分析,為該領域作出了貢獻。我們提供了上下文化的指南和標準,旨在負責任地開發和部署這些強大的AI系統。 本綜述識別了在開發可信AI過程中面臨的關鍵限制和挑戰。通過應對這些問題,我們的目標是創建一個透明、負責的AI生態系統,在帶來社會利益的同時將風險降至最低。我們的研究成果為研究人員、政策制定者和行業領導者提供了寶貴的指導,幫助他們在各類應用中建立對LLMs的信任,并確保其負責任地使用造福社會。 關鍵詞——AI治理、算法偏見、可解釋的AI、大型語言模型、可信的AI。

人工智能(AI)的發展顯著受到了作出基礎性貢獻的關鍵人物的影響。AI的創始人約翰·麥卡錫提出了“人工智能”一詞,并倡導使用數學邏輯來表示知識,開創了知識表示領域。他還開發了LISP,這是一種對AI進展至關重要的編程語言[1]。麻省理工學院計算機科學與人工智能實驗室的聯合創始人馬文·明斯基通過理論AI研究推動了對機器智能和推理的理解[2]。由麥卡錫、明斯基、內森尼爾·羅切斯特和克勞德·香農提出的1956年達特茅斯會議是AI歷史上的一個關鍵時刻,將該領域從理論概念轉向實際應用[3]。這一時期見證了啟發式搜索技術和早期機器學習模型的進步,展示了AI向實際應用的轉變。

1970年代后期,AI進展放緩,被稱為“第一次AI寒冬”。這是由于未能達到預期和計算能力有限導致資金和興趣的減少。1980年代見證了向實際AI應用的轉變,如專家系統和自然語言處理,為大型語言模型(LLMs)奠定了基礎,推進了AI對語言理解和生成的能力。盡管在AI寒冬期間面臨挑戰,早期的專家系統在AI商業化方面起到了關鍵作用[4]。

最近的AI進展歸因于廣泛的數據集和日益增加的計算能力,特別是GPU的使用。這些因素在推動深度學習技術的發展中起到了關鍵作用,顯著影響了計算機視覺和語音識別[5],[6]。另一個重要的里程碑是語言模型的創建,這些模型能夠處理和生成類人文本,從而擴展了AI的能力。深度神經網絡(DNNs)和LLMs的有效性導致了AI在醫療、金融、交通和零售等各個行業的廣泛采用,提高了效率和數據處理能力[8]-[10]。神經網絡(NNs)用于分析大量數據集并識別模式,而LLMs則用于為自動化客戶服務的聊天機器人提供動力[11]-[14]。這些技術革新了不同領域的技術互動,凸顯了深度學習和語言模型對AI進展的重大影響[9]。 DNN架構,包括LLMs,導致了“黑箱”問題,使得理解其工作原理及其結果變得困難[15]。雖然像決策樹這樣的簡單AI模型是透明的,但LLMs缺乏透明性,這在用于決策時引發了倫理問題。挑戰在于使這些系統更透明和可理解,同時考慮到潛在的偏見和錯誤。解決這些問題的努力包括開發使算法過程更透明的方法,但這在AI倫理和治理中仍然是一個重大挑戰[16]。要更好地理解這一點,請參見圖1,它展示了AI的演變和信任挑戰。

時間軸展示了AI在醫療、金融、交通、零售和電子商務領域的日益擴大影響。LLMs在利用先進的語言生成技術變革內容創建方面處于領先地位。時間軸強調了AI中的信任和監督挑戰以及建立信任策略的重要性[17],[18]。它揭示了AI進展與政策和治理發展之間的差距。

LLMs的最新進展改善了其語言生成能力,但其復雜性阻礙了我們對其決策過程的理解。黃和王在2023年的調查[19]強調了解釋性對LLMs的重要性,特別是在需要透明度和信任的關鍵行業。主要發現包括:a)用于基于神經網絡的NLP模型的事后解釋工具如InSeq工具包;b)模型校準和不確定性估計技術;c)用于擴展和推理的指令微調LLMs研究,問題回答中的元推理;d)LLMs的數學推理能力,語義解析魯棒性研究,減少LLM使用危害的舉措,Aug-imodels等框架[19]用于高效和可解釋的模型,評估代碼訓練的LLMs,以及e)改進LLM推理性能的Chain-of-Thought樞紐措施。他們的研究強調了解釋性對LLMs的倫理和實際重要性。在LLMs被集成到多種應用中時,提供可理解和可解釋的響應是重要的。增強模型設計和交互、提高魯棒性和效率、指導訓練技術都是理解LLM操作的好處。他們的調查是揭開LLM復雜性的一個重要貢獻,為在醫療、金融和法律領域透明和倫理部署LLM奠定了基礎。它為未來研究奠定了基礎,以彌合原始LLM輸出與人類可理解解釋之間的差距。持續開發LLM解釋性對推進AI技術的可信性和可及性至關重要。

A. 構建大型語言模型的信任

黃和王的調查工作[19]及更廣泛的解決“黑箱”問題的努力指明了清晰的前進方向。然而,我們需要一種綜合方法,考慮倫理、技術和政策,以構建AI系統的信任,尤其是像LLMs這樣復雜的模型。 1)LLMs的倫理問題:LLMs在醫療、金融、政策制定和法律系統等領域的日益使用引發了關于隱私、偏見、公平和問責的倫理問題,原因是它們具有先進的自然語言能力。 LLMs可能會因為訓練文本數據中包含敏感信息而損害隱私。這可能導致隱私泄露,例如暴露醫療保健中的機密患者數據或在數據分析中泄露敏感的客戶記錄。為減少這些風險,有必要避免將個人可識別信息納入模型,并評估其隱私影響。確保LLM系統中的透明性和用戶對其數據的控制至關重要。明確的數據隱私指南和法規對于與用戶建立信任至關重要[20]-[30]。 偏見是LLMs的另一個倫理問題。它指的是LLMs在訓練數據中反映和延續的偏見,這可能導致偏見輸出或決策,損害邊緣化群體。性別、種族或文化偏見可能影響LLM模型,導致不公平或刻板印象的輸出和歧視性決策。例如,一個以人力資源為重點的LLM助手可能會對某些群體不利。為解決這一問題,公司應建立多元化的審查委員會,并定期使用偏見檢測工具審核LLM輸出[31]-[33]。 LLMs的另一個倫理問題是公平性,指的是公正待遇。LLM系統必須避免偏見并確保公平,通過公正對待每個人來實現。不公平的LLM模型可能會加劇不平等并造成傷害。例如,在公共政策中使用LLMs評估貸款或抵押申請可能會加劇經濟不平等。實現LLMs的公平性需要防止數據和算法中的偏見,使用對抗性去偏技術,并使用明確定義的指標持續評估公平性[34]-[37]。 問責在LLM系統中至關重要[38]-[40]。由于其復雜的推理過程,LLMs在醫療、司法和就業等影響人們生活的領域中尤其難以追究責任。用戶和利益相關者應知道誰對開發、部署和維護負責。他們應有錯誤、偏見或傷害的申訴機制。組織應建立明確的責任制和透明的治理,包括AI倫理委員會、模型性能的詳細記錄和跟蹤,以及關于LLM系統開發和部署的全面報告。 訓練和運行如GPT-3之類的LLMs需要大量的計算資源,導致高能耗和碳排放[41]。例如,GPT-3的訓練消耗了大約1287 MWh的電力,產生了502公噸的CO2排放,相當于112輛燃油車一年的排放。推理過程可能比訓練消耗更多的能量,估計約60%的AI能量用于推理,40%用于訓練[42]。一次ChatGPT請求的能耗可能是一次谷歌搜索的100倍。盡管LLMs目前對整個ICT行業的排放貢獻不到0.5%,對全球總排放的貢獻不到0.01%,但其影響正在迅速增加[43],[44]。為了促進AI的可持續性,行業應優先透明測量能耗和排放,利用可再生能源數據中心,開發更高效的AI硬件和算法,啟用排放跟蹤功能,并考慮轉向較小的專用模型而非大型通用LLMs。盡管LLMs目前對全球排放的貢獻很小,但其日益廣泛的使用需要積極努力減輕其環境影響,確保AI發展惠及世界而不加劇氣候變化。AI社區、政府和科技公司之間的合作對于實現更可持續的AI未來至關重要[45],[46]。

2)信任基礎上的LLMs技術進步:LLM系統需要解決技術挑戰以建立信任,例如解釋性。解釋性指的是理解和解釋LLM系統的決策過程。透明性通過使用戶理解系統的推理并識別潛在的偏見或錯誤來建立信任。可解釋的LLM系統可以幫助識別倫理問題并提供決策見解[20],[47],[48]。 可解釋AI(XAI)技術對于理解LLMs及建立其復雜系統的信任至關重要。注意力機制提供了對模型預測的見解[49],但其解釋可能存在爭議[50]。更可靠的方法如綜合梯度[51]和代理模型[52]提供了特征相關性的量化指標,增強了我們對模型決策的理解。最新進展應用電路分析[53]來分解復雜的黑箱LLMs為可解釋的元素,提供了模型操作的詳細見解。使用提示技術生成的模型解釋允許全面的因果敘述[54]。然而,重要的是嚴格評估這些解釋的準確性和有用性[55]。使用各種XAI方法對于LLM的負責任使用至關重要。清晰的解釋通過描述模型的能力、局限性和風險來幫助建立終端用戶的信任[56]。它們對于調試[57]、識別偏見[58]和促進倫理使用至關重要。隨著LLMs的進步,開發可解釋的LLMs至關重要。這在技術上具有挑戰性,但在倫理和研究上必不可少。定制的XAI技術需要在各個層次提供解釋,反映模型的邏輯以增強用戶信心、確保安全并指導AI的倫理使用。

另一個技術挑戰是數據偏見。數據偏見指的是LLM訓練數據中的不公平偏向或歧視。它可能導致有偏見的結果并延續社會不平等。解決數據偏見需要采取措施,如數據審計、預處理以減輕偏見以及多樣化訓練數據集以實現代表性和包容性。明確定義的指標可以幫助評估LLM系統的公平性、準確性、可靠性和透明性,提供其倫理表現的量化指標[20],[37],[47],[48]。

最新研究探索了通過解決幻覺和缺乏可解釋性等問題來提高LLMs可信度的技術[59]。他們提出了一種稱為圖上的推理(RoG)的方法,通過知識圖譜與LLMs協同進行真實和可解釋的推理。在其檢索-推理優化方法中,RoG使用知識圖譜檢索推理路徑,以便LLMs生成答案。RoG中的推理模塊使LLMs能夠識別重要的推理路徑并提供可解釋的解釋,增強了AI系統的可信度。通過專注于知識圖譜中的推理過程并提供透明的解釋,像RoG這樣的方法展示了建立LLMs信任的有希望的方向[59]。

具有可靠日志記錄的可解釋系統增強了透明性、審計和問責制[60]。文檔和日志記錄提供了對決策過程的見解,支持錯誤解決,并確保遵守倫理和法規標準,從而建立用戶信任。這些機制使技術和非技術利益相關者能夠理解AI系統的內部運作,并確定影響其輸出的因素。

3)用戶信任的心理因素:用戶對LLMs的信任在很大程度上取決于心理因素,而不僅僅是技術的可靠性[61]-[65]。用戶必須對LLM系統的可靠性、準確性和可信度有信心。通過有效的溝通和透明性可以實現這一點。組織應清楚地傳達LLM系統的能力和局限性,提供有關系統工作原理和決策方式的信息。此外,組織應對其數據收集和使用實踐保持透明,讓用戶了解他們的數據如何被使用和保護。

4)信任基礎上的LLMs政策與治理:有效的治理對于管理部署LLM系統相關的倫理、技術和問責問題至關重要[36],[40],[47],[61],[66]-[69]。應建立結構和流程,以確保LLM系統的倫理和負責任開發、部署和監控。涉及關鍵利益相關者,如AI倫理委員會、監管機構和行業專家,可以提供指導和監督。為了確保公平和無偏見的決策,必須包括用戶反饋和多樣化的觀點。為了建立對LLMs的信任,我們必須解決解釋性和數據偏見等技術問題,同時建立強有力的治理框架。

5)社會經濟影響:必須評估LLMs的社會經濟影響,以了解其對勞動力和社會的影響。LLMs可能會取代人類工人,導致失業和社會動蕩。需要投資于技能發展,以幫助工人適應變化。再培訓計劃和其他培訓可以使工人能夠與LLMs協同工作或從事新角色。應實施優先考慮工作保障和社會支持的政策,以減輕影響。探索LLMs的潛在社會福利,如增加信息獲取,可以促進更包容的社會。在設計和實施LLMs時,倫理考量和負責任的部署至關重要。應建立促進透明、問責和公平的政策和法規。對LLMs影響的仔細考慮、技能發展的投資和負責任的部署對于對社會產生積極影響至關重要[70]-[72]。

B. 本綜述的主要貢獻

本綜述對AI系統的信任進行了全面分析,重點關注LLMs。通過審查倫理、技術和社會因素,我們為負責任的AI開發討論作出了貢獻。我們的綜述提供了應對構建AI系統信任挑戰的見解和建議,特別是LLMs。主要貢獻如下所述。

? 綜合評估框架:本綜述提供了一個用于分析高級AI系統,特別是LLMs中的算法偏見和漏洞的分類法。該框架由八個視角組成,涵蓋透明性、魯棒性、人類價值對齊和環境影響等方面。此方法使得能夠對LLMs的信任進行徹底評估,解決其開發和部署中的問題。通過整合多種視角,該框架提供了LLM可信度的全貌,對負責任的AI作出了重要貢獻。 ?** 綜合信任動態分析**:本綜述審查了影響用戶對AI系統信任的因素,包括心理、倫理、技術和政策方面。通過分析AI能力、法規和社會接受度的交叉點,識別了實現可信AI的障礙。此研究揭示了信任動態,為從事負責任的AI開發和實施的研究人員、政策制定者和行業專業人士提供了指導。 ? 針對LLMs的上下文化指南和標準:本綜述審查了現代AI系統,特別是不透明模型如LLMs的倫理指南和政策標準的應用。倫理指南在確保AI使用的責任方面發揮重要作用。然而,LLMs由于其類人文本生成和缺乏透明性,面臨獨特的挑戰,這使得理解和解釋其行為變得困難。本綜述探討了在實際LLM部署中實施倫理原則的實際意義,考慮了技術限制、社會影響和潛在風險。它識別了局限性并提供了解釋和操作化LLM開發和部署倫理指南的見解。目標是通過突出差距并倡導完善LLM特定指南來促進AI治理,促進AI使用的透明性、公平性和問責制。

C. 本綜述的局限性

本綜述對AI信任進行了全面審查,特別關注LLMs。然而,重要的是要承認我們研究的局限性。我們的分析基于現有的AI倫理和信任領域的文獻和研究,包括專門針對LLMs的相關工作。因此,本綜述可能無法完全捕捉這些快速發展的領域中最新的想法或進展。

我們的分析范圍限于學術出版物和行業報告,這限制了所考慮的觀點范圍。對于LLMs,這尤為相關,因為本綜述可能未包括未出版的研究或不太知名的觀點,這些觀點可能提供寶貴的見解。此外,鑒于AI技術發展和LLMs倫理考慮不斷演變的速度,本綜述中提出的一些討論和結論可能會隨著時間的推移而變得不再相關。盡管我們的綜述旨在涵蓋AI,包括LLMs,越來越多部署在高風險領域中的情況,但它并未詳盡地解決所有與LLMs相關的信任方面或行業特定挑戰。本綜述中提出的解釋和分析基于撰寫時可獲得的最佳數據和研究。讀者在評估這些發現和建議時應考慮這些局限性。

需要強調的是,本綜述的目標是對AI和LLMs的信任進行全面審查,同時保持對分析范圍的透明度。我們旨在通過探索現有的指南和框架、討論構建LLMs信任的方法和挑戰以及提出未來研究方向,為AI信任和倫理的持續對話作出貢獻。我們鼓勵在可能探索較少或快速發展的領域進行進一步研究和對話,因為這些討論對于AI系統負責任的開發和部署至關重要。在本綜述中,我們創建了一個敘述,捕捉了AI信任的當前狀態及其領域中的潛在發展。然而,AI倫理和信任的領域是復雜和多面的,我們的綜述可能未涵蓋每一個細微差別或觀點。盡管如此,我們希望這項工作能為研究人員、政策制定者和從業人員在應對與AI和LLMs信任相關的挑戰和機遇時,提供有價值的資源。

付費5元查看完整內容
北京阿比特科技有限公司