亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

推薦系統是許多在線平臺的核心組成部分,但傳統方法在理解復雜用戶偏好和提供可解釋推薦方面仍然面臨困難。大型語言模型(LLM)驅動的智能體的出現為此提供了一種有前景的方法,通過實現自然語言交互和可解釋推理,可能會徹底改變推薦系統領域的研究。本文綜述系統地回顧了LLM驅動的智能體在推薦系統中日益增長的應用。我們識別并分析了當前研究中的三種關鍵范式:(1)面向推薦的方式,利用智能體增強基礎推薦機制;(2)面向交互的方式,通過自然對話和可解釋建議促進動態用戶參與;(3)面向仿真的方式,采用多智能體框架來模擬復雜的用戶-物品交互和系統動態。除了范式分類之外,我們還分析了LLM驅動的推薦智能體的架構基礎,研究其核心組成部分:個人資料構建、記憶管理、戰略規劃和行動執行。我們的研究還擴展到對該領域基準數據集和評估框架的全面分析。這一系統性研究不僅闡明了LLM驅動的推薦系統智能體的當前狀態,還為該變革性領域中的關鍵挑戰和有前景的研究方向提供了指引。

1 引言

在信息爆炸的時代,推薦系統[Wu et al., 2022] 已成為數字平臺中不可或缺的組成部分,幫助用戶在電子商務、社交媒體和娛樂領域中瀏覽海量內容。盡管傳統的推薦方法[He et al., 2017]通過分析用戶偏好和歷史行為,成功地提供了個性化建議,但在實際應用中仍面臨諸多挑戰,如對復雜用戶意圖的理解不足、交互能力有限以及無法提供可解釋的推薦[Zhu et al., 2024b]。 近期,大型語言模型(LLM)的進展[Achiam et al., 2023]激發了越來越多的研究興趣,旨在利用LLM驅動的智能體[Wang et al., 2024a]來解決推薦系統中的上述挑戰。將LLM驅動的智能體融入推薦系統,相比傳統方法,具有若干顯著優勢[Zhu et al., 2024b]。首先,LLM智能體能夠理解復雜的用戶偏好,并通過其精密的推理能力生成上下文推薦,從而使得決策過程更加細致,超越簡單的特征匹配。其次,它們的自然語言交互能力促進了多輪對話,能夠主動探索用戶興趣并提供可解釋的解釋,增強了推薦準確性和用戶體驗。第三,這些智能體通過生成更加真實的用戶畫像,結合情感狀態和時間動態,徹底改變了用戶行為模擬,從而提高了系統評估的有效性。此外,LLM的預訓練知識和強大的泛化能力促進了跨領域的知識轉移,能夠以最少的額外訓練應對冷啟動等長期存在的挑戰[Shu et al., 2024]。 在本綜述中,我們全面回顧了LLM驅動的智能體在推薦系統中的應用。首先,我們介紹了傳統推薦系統的背景,并討論了它們在理解復雜用戶意圖、交互能力和可解釋性方面的局限性。接著,我們系統地審視了LLM驅動的智能體如何通過三種主要范式解決這些挑戰:面向推薦的(如[Wang et al., 2024b; Wang et al., 2024c])、面向交互的(如[Zeng et al., 2024; Friedman et al., 2023])和面向仿真的(如[Yoon et al., 2024; Guo et al., 2024])方法。然后,我們提出了一種統一的智能體架構,包含四個核心模塊(個人資料[ Cai et al., 2024; Zhang et al., 2024c]、記憶[ Shi et al., 2024; Fang et al., 2024]、規劃[ Wang et al., 2023b; Shi et al., 2024]、行動[ Zhu et al., 2024a; Zhao et al., 2024]),并分析了現有方法如何實現這些模塊。進一步地,我們編制了現有基準數據集(包括Amazon系列、MovieLens、Steam等)和評估方法的全面比較,涵蓋了傳統推薦指標和新興的評估方法。最后,我們探討了該領域幾個有前景的未來研究方向。

  • 我們提出了一個系統的LLM驅動推薦智能體分類,識別出三種基本范式:面向推薦的、面向交互的和面向仿真的方法。這個分類框架為理解當前的研究提供了結構化的視角。
  • 我們使用統一的架構框架分析LLM驅動的推薦智能體,將其分解為四個核心模塊:個人資料構建、記憶管理、戰略規劃和行動執行。通過這一框架,我們系統地審視了現有方法如何集成和實現這些組件。
  • 我們提供了現有方法、基準數據集和評估方法的全面比較分析,涵蓋了傳統推薦指標和專為LLM驅動推薦智能體設計的新興評估方法。

付費5元查看完整內容

相關內容

大語言模型是基于海量文本數據訓練的深度學習模型。它不僅能夠生成自然語言文本,還能夠深入理解文本含義,處理各種自然語言任務,如文本摘要、問答、翻譯等。2023年,大語言模型及其在人工智能領域的應用已成為全球科技研究的熱點,其在規模上的增長尤為引人注目,參數量已從最初的十幾億躍升到如今的一萬億。參數量的提升使得模型能夠更加精細地捕捉人類語言微妙之處,更加深入地理解人類語言的復雜性。在過去的一年里,大語言模型在吸納新知識、分解復雜任務以及圖文對齊等多方面都有顯著提升。隨著技術的不斷成熟,它將不斷拓展其應用范圍,為人類提供更加智能化和個性化的服務,進一步改善人們的生活和生產方式。

本綜述研究了信息檢索(IR)中模型架構的發展,重點關注兩個關鍵方面:用于特征提取的骨干模型和用于相關性估計的端到端系統架構。本文有意將架構考慮與訓練方法區分開,以便對IR系統中的結構性創新進行集中分析。我們追溯了從傳統基于術語的方法到現代神經網絡方法的發展,特別突出變換器(transformer)模型以及隨后的大規模語言模型(LLM)所帶來的影響。最后,我們討論了新興的挑戰和未來的發展方向,包括性能和可擴展性的架構優化、多模態和多語言數據的處理,以及如何適應超越傳統搜索范式的新應用領域。

1 引言

信息檢索(IR)的目標是檢索相關的信息源,以滿足用戶的信息需求。在過去幾十年中,信息檢索已經成為高效、有效地訪問大量信息的重要工具,廣泛應用于各類場景。除了其傳統作用,信息檢索如今還在協助大規模語言模型(LLM)生成有依據和事實性的響應方面發揮著至關重要的作用。信息檢索的研究主要集中在兩個關鍵方面:(1)提取更好的查詢和文檔特征表示;(2)開發更精確的相關性估計方法。查詢和文檔特征提取方法經歷了從傳統的基于術語的方法(如布爾邏輯和向量空間模型)到基于預訓練語言模型的稠密檢索等現代解決方案的演變(Lin et al., 2022)。相關性估計方法則隨著特征表示的進展而發展。早期方法,包括概率性和統計性語言模型,使用基于術語特征的簡單相似度函數計算相關性。之后,學習排序(LTR)技術應運而生,結合了機器學習模型和多層神經網絡用于相關性估計(Li, 2011)。LTR方法的成功在很大程度上歸功于其廣泛使用手工設計的特征,這些特征源自文本術語的統計屬性以及從網頁瀏覽流量中收集的用戶行為數據(Qin and Liu, 2013)。在2010年代,大量文獻探討了不同架構中的神經網絡重排序模型,以捕捉查詢與文檔之間的語義相似度。隨后,預訓練的變換器模型,代表作BERT(Devlin et al., 2019),迅速革新了模型設計,進入了一個檢索與排序模型采用更簡化架構進行相關性估計的時代,例如基于學習到的神經表示的點積操作和多層感知機(MLP)層預測頭(Karpukhin et al., 2020;Nogueira et al., 2020;Lin et al., 2022)。近年來,LLM的進展徹底改變了應用機器學習(ML)領域,包括信息檢索。LLM的一個有趣特性是它們可以用于特征提取和相關性估計,并且在沒有大量訓練的情況下就能取得強大的性能(Ni et al., 2022a;Neelakantan et al., 2022;BehnamGhader et al., 2024;Sun et al., 2023;Qin et al., 2024a,等等)。LLM在信息檢索中的崛起,建立在變換器(transformer)預訓練語言模型的豐富基礎上,這些模型已從早期的神經網絡架構中發展而來,包括變換器(Vaswani et al., 2017)、遞歸神經網絡(RNN,Elman, 1990)、注意力機制(Bahdanau, 2014)以及預訓練的靜態神經表示,如Word2Vec(Mikolov, 2013)和GloVe(Pennington et al., 2014)。本文回顧了信息檢索中模型架構的演變(如圖1所示)。在這里,模型架構的意義是雙重的:它描述了(1)用于提取查詢和文檔特征表示的骨干模型;(2)處理原始輸入、執行特征提取和估計相關性的端到端系統架構。與之前的研究和調查(Lin et al., 2022;Zhu et al., 2023)不同,我們有意將模型架構的討論與訓練方法和部署最佳實踐分開,以提供一個更聚焦的架構分析。向神經架構的轉變,特別是基于變換器的模型,已經從根本上改變了信息檢索,使得更豐富、上下文化的表示成為可能,并改善了對復雜查詢的處理。盡管這種演變提高了檢索精度,但也帶來了新的挑戰,尤其是隨著LLM的出現。這些挑戰包括需要架構創新以優化性能和可擴展性,處理多模態和多語言數據,以及整合領域特定的知識。此外,隨著信息檢索系統越來越多地被集成到各類應用中——從機器人技術(Xie et al., 2024)、自主智能體(Wu et al., 2023)到蛋白質結構發現(Jumper et al., 2021)——該領域必須超越傳統的搜索范式。我們在本文的最后將探討這些挑戰,并討論它們對未來信息檢索模型架構研究的影響。

付費5元查看完整內容

具身多智能體系統(EMAS)因其在物流、機器人等領域解決復雜現實問題的潛力,吸引了越來越多的關注。近期基礎模型的進展為生成型智能體提供了更豐富的溝通能力和自適應問題解決能力,開辟了新的方向。本綜述系統性地探討了EMAS如何從這些生成型能力中受益。我們提出了一個分類法,通過系統架構和具身方式對EMAS進行分類,重點強調協作如何跨越物理和虛擬環境。接著,我們分析了感知、規劃、溝通和反饋等核心構件,展示了生成技術如何增強系統的魯棒性和靈活性。通過具體實例,我們展示了將基礎模型集成到具身多智能體框架中的變革性影響。最后,我們討論了挑戰和未來發展方向,強調了EMAS在重塑人工智能驅動協作領域的巨大潛力。

1 引言

具身多智能體系統(EMAS)因其在智能交通、物流和制造等領域的巨大潛力,吸引了越來越多的關注 [YJ+13, IS+18]。通過將物理具身(從自動駕駛車輛到機器人操作臂)與多智能體系統(MAS)[DKJ18] 集成,EMAS 提供了一種去中心化、協作的方法,能夠高效地處理復雜任務。盡管這些優勢顯而易見,但設計和實現有效的 EMAS 仍然是一項非凡的挑戰,通常需要對控制論的專業知識、廣泛的訓練數據以及精心設計的強化學習范式 [LB08, OD23]。 在傳統的 MAS 中,智能體通過分配責任、共享狀態信息并共同適應動態環境來協作 [DKJ18]。雖然這些原則在某些特定領域取得了顯著成功,但傳統方法在以下方面面臨關鍵的局限性:難以推廣到新任務 [MS+22],難以擴展到大規模的智能體群體 [CTE+22],以及應對突發環境變化 [WR04]。這些方法通常依賴于狹窄訓練的模型,可能表現脆弱或僅限于特定領域 [YZ+23]。這些不足凸顯了需要更加靈活和穩健的解決方案的緊迫性,這些解決方案能夠在開放式和快速變化的具身場景中蓬勃發展。 近期基礎模型(FMs,例如大型語言模型、大型模型或視覺語言模型(VLMs))[ZLL+24] 的突破為推進 MAS 向更加自適應和生成行為的發展開辟了新的途徑。通過為智能體提供自然語言能力、情境推理以及生成新解決方案的能力,基于基礎模型的 MAS 超越了純信號驅動或強化學習框架中固有的局限性 [GCW+24, CLH+24, LP+24]。這些“生成型智能體”能夠以語義豐富的方式進行溝通,與人類級別的流暢度協作,并能夠迅速應對突發挑戰,調整策略。因此,基于 FM 的智能體可能會徹底改變多智能體協作的方式——無論是在由具身設備組成的物理空間,還是在智能體共享抽象知識和任務的虛擬空間中。 在此背景下,EMAS 領域將能夠從這些 FM 方面的最新進展中獲益。通過將物理具身與生成型多模態智能結合,未來的系統可能會采用更廣泛的設計空間,整合復雜的感知、高級語言和視覺推理能力,以及自適應決策能力。然而,現有文獻中關于具身 AI 和多智能體系統的綜述通常將這些領域視為孤立的,未能在它們的交集處進行系統性的探討 [IS+18, DYT+22, GCW+24, MS+24, HRS24]。基于 FM 的生成型智能體如何最好地融入 EMAS 的系統化視角仍在不斷發展中。 本綜述旨在提供對生成型多智能體協作在具身 AI 中現狀的全面和結構化的分析,如圖 1 所示。首先,在第 2 節中,我們提出了一種分類法,根據模型數量和具身類型對現有的 EMAS 解決方案進行分類,強調協作如何在物理智能體和純粹虛擬語義環境中產生。接下來,在第 3 節中,我們探討了多智能體協作的主要構建塊——系統感知、規劃、溝通和反饋,并分析了如何設計這些組件以利用基于 FM 的生成能力。超越理論視角,在第 4 節中,我們深入探討了實踐應用,展示了生成型多智能體協作如何增強不同具身場景中的功能。根據我們的了解,這是首次系統性地探討 MAS、具身 AI 和基礎模型的融合。最后,在第 5 節中,我們總結了開放的研究挑戰,勾畫了關鍵的未來發展方向,并討論了 EMAS 對更廣泛的 AI 和機器人領域的潛在影響。我們的目標是通過呈現這個迅速發展的領域的整體概述,來為研究人員、從業人員和利益相關者提供信息并激發靈感。

2 協作架構

在前一節中概述的關鍵挑戰和機遇的基礎上,本節介紹了具身多智能體系統(EMAS)中的協作架構,如圖 2 所示。特別地,我們探討了生成型多智能體系統如何利用外部協作(跨多個具身實體)或內部協作(在單一具身實體內多個基礎模型之間)。我們還涵蓋了結合這些策略的混合方法,以滿足多樣化的系統需求。我們的目標是提供一種結構化的理解,說明如何協調多智能體協作,以最大化適應性、可擴展性和任務一致性,尤其是在與基礎模型(FM)集成時。

**2.1 外部協作

在多個具身實體之間展開的協作場景中,我們稱之為外部協作,智能體在物理或虛擬環境中互動,以實現共享的目標。借鑒長期以來的多機器人和傳統多智能體系統(MAS)文獻,外部協作可以通過集中式或去中心化策略組織。這些方法在可擴展性、通信開銷以及全局控制與局部控制之間存在不同的權衡。集中式架構 在集中式策略框架中,單一的統一模型控制多個機器人或智能體,提供集中式的任務分配和決策制定。該集中模型根據智能體的能力和系統目標分配任務,通過提供全局視角確保智能體之間的協調。已有研究探索了基于語言的任務分配方法 [LTW+24, OA+24, CYZ+24] 和基于代碼的任務分配方法 [KVM24, ZQW+24]。 集中式模型還在決策制定中發揮關鍵作用,通過整合來自所有智能體的信息來做出最終決策,確保一致性。例如,[YKC23] 使用集中式模型來確定導航目標,[TXL+20] 使用它來進行基于 3D-CNN-LSTM 的互動問答,[GAZ+24] 使用它在多機器人系統中通過引導領導機器人行動來解決死鎖問題。 集中控制策略通過使用單一模型進行任務分配和決策制定來確保協調。其優勢包括任務的最優分配和一致的決策。然而,它可能受到系統復雜性、高計算需求以及在大規模或動態環境中的可擴展性問題的限制。

去中心化架構

在去中心化策略中,每個模型獨立控制其相應的具身實體,從而提供更大的靈活性和可擴展性。早期的研究使用強化學習進行去中心化控制,但基礎模型(FM)的興起使得智能體能夠自主處理多樣化的任務 [CJ+24],形成了更為先進的去中心化系統。 基礎模型通過利用推理能力來增強去中心化系統,基于局部部分觀察來改善個體決策。例如,[ZWL+24] 利用世界模型來輔助多智能體規劃,在該模型中,每個個體通過世界模型預測其他智能體的行為,并推斷自己的計劃。類似地,[AF+23] 引入了一個輔助的心智理論推理基礎模型來解釋合作伙伴智能體的行動和需求,從而支持個體決策。 此外,憑借基礎模型的推理和通信能力,基于FM的智能體表現出涌現的社交性。[CJ+23] 發現,當沒有明確指導采用哪種策略時,FM驅動的智能體主要遵循平均策略,這代表了智能體之間的一種平等主義組織結構。其他研究 [GHL+24, CJ+24] 強調了團隊中更為結構化角色的潛在好處。這表明,類似于人類的社會結構,FM智能體可以表現出涌現行為,通過適應組織框架來優化協作,從而增強它們在處理復雜任務時的集體能力。

2.2 內在協作

外在協作涉及多個機器人和具身實體之間的合作,而內在協作則發生在單一系統的內部結構中,該系統可能包含多個基礎模型(FM)。這一概念與最近推動的各個FM模塊之間的協作工作流程密切相關,這些模塊各自專注于不同的角色,共同處理日益復雜的任務。這樣的內部協調擴展了傳統的多智能體協調概念,側重于在單一具身體內進行集中的決策。 在這一工作流程中,每個FM承擔特定的功能或角色,共同完成任務。研究已將這一范式應用于具身學習系統,例如 [QZL+24],該系統使用規劃者、部分處理器和執行者等模塊來解決Minecraft沙盒中的任務,和 [SSY+24],它將任務分解為觀察者、規劃者和執行者角色。LLaMAR [NO+24] 還采用了計劃-行動-糾正-驗證框架進行自我修正,無需預言機或模擬器。 內在協作可以通過提高規劃準確性、安全性和適應性來提升系統功能。例如,[LY+23] 使用基于FM的快思維和慢思維進行協作計劃生成和評估,而LLaMAC [ZMR+23] 則采用多個批評者和評估者來提供反饋并提高魯棒性。

2.3 混合協作架構

在許多現實世界的應用中,嚴格區分外在協作和內在協作既不現實也沒有優勢。因此,混合協作架構結合了這些策略,利用了集中式、去中心化和內部FM工作流程的優勢。 隨著具身任務復雜性的增加,混合不同協作層次的靈活性——無論是在機器人之間,還是在智能體的內部結構中——變得越來越有價值。 內在協作通過模塊化FM增強模型能力,并且可以應用于集中式和去中心化系統。例如,CoELA [ZDS+24] 使用五個模塊——感知、記憶、通信、規劃和執行——而 [YPY+24] 為去中心化機器人協作構建了具有觀察、記憶和規劃模塊的智能體。集中式模型也可以使用模塊化FM,例如 [WTL+24],它使用任務和行動FM進行任務分配。 集中式和去中心化策略可以結合使用,不同階段的任務可以采用不同的方法。受到多智能體強化學習(MARL)中的集中訓練與去中心化執行(CTDE)框架的啟發,[CYZ+24] 和 [ZC+24] 提出了集中規劃與去中心化執行的方案,其中全球規劃指導任務執行,最大化全球監督與地方自治之間的協同效應。 通過展示這些不同的架構,我們闡明了實踐者如何在不同粒度和控制層級上有效地協調EMAS中的多智能體協作。下一節將基于這一架構視角,探討如何設計關鍵的系統組件——感知、規劃、通信和反饋——以利用基于FM的生成能力,進一步提升多智能體協作的魯棒性和適應性。

3 推進協作功能

在第二節中,我們從結構層面探討了如何協調多智能體協作,接下來我們將轉向推動具身智能體之間有效團隊合作的功能性構建模塊。具體來說,我們重點介紹感知、規劃、通信和反饋機制如何被設計來利用基礎模型(FM)的生成能力。通過聚焦于這些關鍵模塊,我們展示了EMAS解決方案如何更加穩健地解讀物理環境、制定并適應計劃、交換信息,并從自身行為以及環境中迭代學習。這種方法補充了前述的協作架構,提供了一個更細化的視角,以促進具身智能體之間的動態和上下文感知協作。

3.1 感知

盡管生成模型可以從文本和視覺中獲取語義知識,但具身智能體必須主動感知并解讀物理世界。這需要處理三維結構、動態條件和實時互動 [LCB+24]。因此,感知模塊至關重要,它將環境的詳細特征傳遞給后續的模型,確保生成能力植根于具體的上下文中 [PH+24]。

**基于FM的物理感知

向FM提供物理上下文的最簡單方法是提供環境的口頭描述。盡管這些提示可以手動編寫,但許多方法使用自動化工具增強語言描述。例如,一些研究 [MJ+24, CZR+23] 使用視覺模型來檢測和描述物體,而其他研究 [BCF+23, HW+23] 則利用可操作性學習來豐富FM對物體在物理環境中如何被操作的理解。除了被動接收信息,最近的工作使智能體能夠決定何時以及觀察何種類型的信息,從而促進主動感知。例如,[QZL+24] 允許FM查詢經過微調的模型,獲取環境細節;這些響應逐步構建場景描述。

**協作感知

在多智能體系統中,協作感知旨在融合來自不同智能體的互補傳感輸入,從而提升整體性能 [YYZ+23]。在自動駕駛或無人機編隊中,這通常通過傳感器級的數據共享或輸出級融合實現 [SRC24]。在基于FM的系統中,協作智能體可以通過聚合每個智能體的本地地圖或視覺數據,共同構建環境的全局記憶。例如,[YKC23] 融合了來自多個智能體RGBD輸入的語義地圖,[TXL+20] 使用每個智能體觀察的3D重建形成共享環境的整體3D狀態和語義記憶。

3.2 規劃

規劃是多智能體具身系統的核心模塊,使得智能體能夠基于狀態、目標和個體能力進行戰略部署。有效的規劃對于任務分配、協調以及無縫整合生成FM的能力至關重要。

**規劃格式

規劃方法通常采用基于語言或基于代碼的格式。基于語言的規劃使用自然語言引導任務流,具有直觀性和易適應性,尤其是在先進FM的出現之后 [MJ+24, YKC23]。相比之下,基于代碼的方法利用結構化編程或領域特定符號(例如PDDL)來實現更高的精確度。[KVM24] 使用Python代碼框架來描述整體任務流程,[ZQW+24] 將任務轉換為PDDL問題,以便分配給多個機器人。

**規劃過程

除了個體決策外,多智能體協作還要求達成共識、解決沖突和共享資源。在集中式系統中,單一模型通常負責分配子任務。例如,[LTW+24] 根據每個智能體的能力生成行動列表,[OA+24] 集成FM和線性規劃來解決任務劃分,[CYZ+24] 則利用“機器人簡歷”來進行FM驅動的任務分配討論。在去中心化系統中,智能體直接溝通以優化集體計劃,并通過強大的信息交換得到支持,這將在下一小節中進一步探討。

3.3 通信

通信是MAS的核心,使得智能體能夠共享情況更新、協調任務并達成共識。與傳統方法需要繁瑣的通信協議設計不同,生成智能體可以利用FM的零-shot語言生成能力,降低了構建高效通信接口的復雜度。 參考 [SWJ+22],我們將具身AI中的多生成智能體通信模式分為三種主要結構:

  • 星型結構:一個虛擬的中央智能體控制消息流動,向其他智能體廣播計劃或指令。許多集中式架構的工作都探索了這種方法 [KVM24, YKC23]。
  • 完全連接(FC):每個智能體與其他所有智能體自由通信,利用FM驅動的消息。例如,[MJ+24] 使用兩個機器人臂之間的FM對話來協調操作任務。在CoELA [ZDS+24] 中,每個智能體通過記憶檢索當前狀態信息,并通過FM生成通信內容。
  • 層次結構:通過建立領導結構來提升可擴展性并減少通信開銷。[CJ+24, LYZ+24, GHL+24] 顯示了如何通過領導角色來引導或過濾通信,從而提高效率和結果。

3.4 反饋

具身任務復雜且不確定,因此反饋機制對智能體改進至關重要。反饋使智能體能夠調整和優化行為,允許它們根據當前狀態、環境變化或外部指導進行持續學習。

**系統反饋

系統反饋是指在采取行動之前由系統內部生成的信息。這涉及到智能體或集中模型重新審視其初始計劃,以識別缺陷或潛在改進之處。多個研究 [LZD+24, CYZ+24, ZMR+23] 實現了任務生成后的多智能體討論階段,通過同行反饋完善行動列表。[CAD+24] 和 [ZQW+24] 使用FM檢查器來驗證基于代碼的計劃,確保語法正確性。同時,[ZYB+24] 提出了優勢函數來評估并迭代優化計劃,[LY+23] 使用FM來預測計劃結果,隨后通過另一個FM評估計劃質量,從而推動迭代改進。

**環境反饋

環境反饋發生在執行物理(或模擬)世界中的行動后。許多研究記錄現實世界的結果以指導未來決策。例如,[LTW+24] 和 [YPY+24] 將行動結果存儲在記憶中,以便未來規劃參考,而 [QZL+24] 和 [NO+24] 則評估失敗的根本原因并相應調整行動計劃。此外,多智能體的組織結構可以在任務執行過程中根據環境信號重新配置。[CSZ+23] 動態更新角色,[GHL+24] 使用FM批評者來評估智能體表現,甚至重新組織領導角色。

**人類反饋

外部人類指導可以提供細致的干預和戰略方向,這是純自動化系統無法實現的。例如,[PL+23] 識別模糊或不可行的任務指令,要求人類提供幫助,而 [WHK24] 和 [RDB+23] 則結合了符合預測來衡量任務的不確定性并觸發人類幫助請求。除了請求幫助,[CK+23] 和 [SH+24] 允許人類操作者通過口頭指令實時調整機器人的動作,從而提高任務成功率。 總之,感知、規劃、通信和反饋成為將高層次協作架構轉化為實際生成多智能體解決方案的基礎支柱。無論智能體是通過分布式配置進行外在協作,還是通過單一具身內部的多個FM進行內在協作,強大的支持模塊都確保了在現實環境中的適應性和魯棒性。 下一節將深入探討具體的應用領域,展示這些功能模塊如何協同工作以應對多樣的具身任務。通過將架構原理(第2節)與模塊化功能結合,并將其植根于實際場景,我們旨在提供一個全面的視角,展示如何在EMAS中有效實現生成多智能體協作。

4 下游任務:從仿真到現實世界部署

在前面的架構和功能模塊的基礎上,本節探討了生成式多智能體協作如何從受控的仿真環境過渡到現實世界應用。盡管許多進展是在虛擬平臺上驗證的,但這些仿真洞察為解決智能交通、家庭機器人學和具身問答等復雜問題奠定了基礎。

**4.1 仿真平臺

前面的部分介紹了多智能體協作如何在結構和功能上得到啟用。現在,仿真環境作為一個關鍵層次,用于測試這些設計,使研究人員能夠系統地改進智能體交互,而無需承擔現實世界操作的成本或風險。網格世界范式 網格世界具有基于單元格的結構,重點是決策制定和路徑規劃,同時抽象掉了物理細節。通過采用基于FM的翻譯和檢查框架,[CAD+24] 改進了多智能體在網格任務中的表現,[ZMR+23] 引入了反饋機制來增強網格運輸任務的表現。[CAZ+24] 進一步評估了在網格設置中各種基于FM的多機器人架構,強調了這些簡化的世界如何幫助快速驗證協作設計。基于游戲的協作場景 像《Overcooked》這樣的基于游戲的平臺提供了明確的規則、時間限制和智能體間強制協調的任務 [YJ+24, AF+23, ZYB+24]。FM協調還擴展到其他結構化游戲,如《Hanabi》和《Collab Games》,展示了生成式方法如何適應不同的基于團隊的挑戰。對于更具開放性的任務,《Minecraft》 [WXJ+23, PC+24] 推動了更大環境和無盡目標的應用。最近的研究 [PC+24, ZC+24, QZL+24] 聚焦于協作探索,而其他研究 [CJ+24, CSZ+23, ZMC+24] 則解決了資源收集或結構構建的問題。高級3D環境與機器人仿真 現實感仿真器旨在更緊密地模仿現實生活中的復雜性。AI2-THOR [KM+17] 提供了精細渲染的室內場景,并用于多智能體家庭任務 [KVM24, WHK24, LLG+22, SSY+24]。類似地,VirtualHomeSocial [GHL+24]、BEHAVIOR-1K [LTW+24] 和基于Habitat的基準平臺 [CYZ+24] 使智能體能夠在物體操作和導航中發展協作策略。這些平臺幫助架起了算法開發與物理部署之間的橋梁。

**4.2 新興應用

憑借驗證過的架構和強大的功能模塊,研究人員已開始面臨終極挑戰:將仿真學習轉化為可行的物理部署。從智能交通到家庭機器人學,以下小節展示了生成式多智能體協作如何適應現實世界的需求,突顯了這些系統的成熟度和面臨的挑戰。智能交通與配送 智能交通中的多智能體協作涵蓋了無人機/地面無人車(UAV/UGV)的協調任務,如貨物配送和環境監測。早期的研究主要利用多智能體強化學習(MARL),但現在基于FM的解決方案開始出現。[GW+24] 探討了基于FM的初步任務分配用于監視任務,[WTL+24] 將生成模型應用于跟蹤目標分配,表明基于語言的策略能夠迅速適應動態場景。家庭輔助機器人 許多3D仿真基準平臺,包括AI2-THOR和Habitat,最初是為了模擬家庭環境而設計的。家庭任務,如“清理桌子”或執行指令“打開書桌和地板燈并看電視”,要求具備強大的感知、規劃和通信能力。研究 [KVM24, WHK24, LGZL24, MJ+24, ZYB+24] 展示了多個智能體如何共享角色、解讀指令并劃分復雜任務。生成模型進一步簡化了協調,使得任務分配更具適應性,并豐富了人機交互。超越探索:具身問答(EQA) 具身問答(EQA)涉及在3D空間中的主動探索和推理。與強調物理交互的任務不同,EQA側重于信息的收集與解讀,通常需要對空間布局、物體關系或事件歷史有深刻的理解。多智能體版本通常利用基于團隊的感知來建立全局記憶和達成共識 [TGG+23, TXL+20, PD+24]。[CZR+23] 將專職功能的智能體定位在關鍵位置進行信息貢獻,展示了如何通過FM驅動的協作將觀察結果整合成連貫的答案。 本節通過強調這些仿真基準平臺和現實世界應用,突出了EMAS中的一個關鍵發展軌跡:首先通過結構化的測試平臺進行概念驗證,然后將解決方案過渡到高風險領域。既然已經明確了生成式多智能體協作可以部署的場所和方式,接下來的部分將討論剩余的挑戰,并勾畫出EMAS研究的前景。

5 開放挑戰與未來趨勢

隨著具身人工智能(AI)系統中多智能體協作領域的不斷發展,仍然存在一些開放的挑戰和有前景的未來方向。盡管取得了不少進展,但仍然存在諸多現實世界的障礙,限制了具身系統的應用。本節識別了關鍵挑戰,并概述了潛在的探索和創新領域,以應對這些問題。

**基準測試與評估

一個主要的挑戰是缺乏標準化的評估標準。盡管在單一智能體系統和個體代理的基準測試方面取得了顯著進展,但對于具身多智能體協作的評估仍存在明顯的空白。現有的基準測試通常專注于特定任務的度量,未能充分考慮多智能體環境中互動、協調和涌現行為的復雜性。因此,亟需建立統一的評估標準來全面評估多智能體系統的性能,包括可擴展性、適應性、魯棒性和集體智能等因素。基準測試的發展對于確保不同領域的一致性至關重要,并能夠實現不同多智能體框架之間的有意義比較。

**數據收集與異質性

多智能體協作的另一個挑戰是數據稀缺性和異質性。收集具有不同物理特性和能力的多種系統的大規模、高質量數據是一項艱巨的任務。硬件、傳感器和環境交互的差異導致了數據的不一致性,這使得跨系統和任務的泛化變得困難。現實世界中可用的數據可能有限,阻礙了有效的訓練和評估。此外,由于實際限制,多數多智能體協作的研究是在仿真環境中進行的,只有少數研究采用了現實世界數據。因此,亟需建立標準化的數據收集方法,并且需要創新的方法來彌合仿真與現實應用之間的差距,連接理論與現實。

**具身AI的基礎模型

基礎模型的發展,尤其是面向具身智能體的基礎模型,預計將成為多智能體協作領域的一項突破性進展。目前,生成式智能體主要依賴FM來執行復雜任務,下一步自然是構建專門為具身系統設計的基礎模型。這些模型將作為多智能體協作的核心框架,整合感知、決策和行動。近期的工作,如RT-1 [BB+22] 和RDT [LW+24],在適應性和可擴展性系統的機器人基礎模型方面取得了顯著進展。基礎模型的演進將為更無縫的多智能體協作奠定基礎,使得智能體能夠在動態環境中進行全面的協作和工作。然而,將單智能體FM擴展到多智能體系統仍然面臨挑戰,這需要新的架構和方法。

**智能體的可擴展性

目前,參與協作的智能體數量較少。隨著智能體數量的增加,計算、通信、協調、任務分配和資源管理的復雜性和難度也將增加。此外,在大規模多智能體系統中保持穩定性和魯棒性需要復雜的協調與調度技術。針對可擴展架構、有效的通信協議和協作策略的研究將是解鎖大規模具身系統全部潛力的關鍵。優化智能體工作流程和模式的發展對于在資源意識下擴展這些系統至關重要。

**以人為中心的協作

將機器人集成到以人為中心的環境中仍然是一個重要話題。在許多應用中,多智能體系統不僅需要相互協作,還需要與人類協作。確保機器人能夠在動態和非結構化的環境中與人類無縫合作,需要開發考慮人類認知能力、偏好和局限性的機器人-人類交互(HRI)協議。人機協作引入了額外的挑戰,如安全性、適應性和信任性。在人機團隊合作、共享自主性和直觀接口方面的研究將對促進機器人與人類之間的安全、富有成效的協作至關重要,特別是在醫療保健、工業自動化和服務機器人領域。

**理論基礎與可解釋性

當前的具身多智能體協作方法,尤其是涉及FM的系統,通常缺乏堅實的理論基礎。盡管在開發實際系統方面取得了重大進展,但關于支配智能體交互的潛在原理和集體智能的理解仍然非常有限。對動態協作的深入理論探索,包括通信、協調和共識的作用,是推動該領域發展的關鍵。此外,具身多智能體系統和模型的可靠性與可解釋性在安全關鍵型環境中尤為重要,如自動駕駛和智能鐵路等應用場景。 6 結論

本綜述調查了一個具有潛力的研究領域——具身系統中的多智能體協作,重點探討了如何將生成式基礎模型(FM)集成到具身多智能體系統中。我們強調了基于FM的生成式智能體如何促進動態協作和涌現智能,并從內在和外在兩個角度系統地探索了多智能體協作架構,重點關注感知、規劃、通信和反饋機制等關鍵技術。通過研究從網格世界探索到家庭助理等多種應用場景,展示了基于FM的具身多智能體系統(EMAS)解決復雜問題的潛力,并討論了該領域快速發展過程中所面臨的挑戰和機遇。我們希望本綜述能為研究人員、從業者和相關方提供寶貴的參考,幫助他們全面了解當前的研究現狀,并激發更多先進且可擴展的解決方案,以實現具身多智能體AI的動態無縫協作。

付費5元查看完整內容

博弈論為分析理性決策者之間的戰略互動建立了一個基本框架。大語言模型(LLMs)的快速發展激發了大量研究,探索這兩個領域的交集。具體來說,博弈論方法正被應用于評估和增強大語言模型的能力,同時大語言模型本身也在重塑經典的博弈模型。本文提供了這兩個領域交集的全面綜述,從三個方面探討了其雙向關系:(1) 建立基于博弈的標準化基準來評估大語言模型的行為;(2) 利用博弈論方法通過算法創新提升大語言模型的性能;(3) 通過博弈建模刻畫大語言模型對社會的影響。在這三個方面中,我們還重點強調了大語言模型的先進語言理解如何影響傳統博弈模型的均衡分析,進而擴展了博弈論的研究。最后,本文識別了當前領域中的主要挑戰和未來的研究方向,并根據現有研究的狀態評估其可行性。通過將理論嚴謹性與新興的人工智能能力結合,本文旨在促進跨學科的合作,并推動這一不斷發展的研究領域的進展。

1 引言

博弈論為分析理性主體之間的戰略互動提供了一個數學框架,自從其奠基性著作[Von Neumann and Morgenstern, 2007]以來,博弈論經歷了顯著的發展。幾十年來,它已經建立了強大的方法論基礎,包括均衡分析[Nash Jr, 1950]和機制設計[Vickrey, 1961],這些方法已成為經濟學和計算機科學等學科中不可或缺的分析工具。 隨著大語言模型(LLMs)的快速發展,研究人員越來越多地探索博弈論與大語言模型之間的交集。越來越多的研究調查了博弈論原理如何用于評估和提升大語言模型的能力,以及大語言模型如何對博弈論做出貢獻。具體來說,現有的研究應用博弈論來開發理論框架,以評估大語言模型的戰略推理能力,優化其訓練方法并分析其社會影響。關鍵的研究方向包括:

  • 標準化基于博弈的評估:研究人員正在構建基準環境,如矩陣博弈[Akata et al., 2023]和拍賣[Chen et al., 2023],以系統地評估大語言模型的戰略推理能力。
  • 博弈論算法創新:來自合作博弈和非合作博弈論的概念,如Shapley值[Enouen et al., 2024]和最大-最小均衡[Munos et al., 2024],啟發了新的模型可解釋性和訓練優化方法。
  • 社會影響建模:隨著大語言模型改變信息生態系統,新的理論框架正在涌現,以預測人類與AI互動的社會后果[Yao et al., 2024],特別是在廣告市場[Duetting et al., 2024]和內容創作[Fish et al., 2024a]等領域。

除了這些應用,最新的研究還表明,大語言模型也可以通過促進復雜文本場景中的均衡分析,以及將經典博弈模型擴展到更現實的設置,貢獻于博弈論。 現有的綜述[Zhang et al., 2024b; Feng et al., 2024; Hu et al., 2024]主要探討博弈論如何用于構建評估環境以及評估大語言模型的戰略表現。例如,[Zhang et al., 2024b]根據用于測試大語言模型能力的博弈場景將研究進行了分類,并討論了改進推理能力的方法。與此同時,[Feng et al., 2024]和[Hu et al., 2024]將大語言模型在博弈中所需的核心能力(如感知、記憶、角色扮演和推理)進行了分類。盡管這些綜述提供了有價值的見解,但它們主要聚焦于博弈論在標準化評估框架中的作用,忽略了它在推動大語言模型發展的更廣泛潛力。此外,它們采用了單向視角,將博弈論視為評估大語言模型的工具,而沒有探討這兩個領域之間的相互影響。 本文旨在彌補這一空白,探討博弈論與大語言模型之間的雙向關系。我們將博弈論與大語言模型交集的研究劃分為三個關鍵視角,如圖1所示。根據我們所知,這是首次對這兩個領域之間的雙向關系進行全面分析。 在第2節中,我們回顧了應用博弈模型評估大語言模型決策能力的研究。通過在經典矩陣博弈和復雜戰略場景中進行的實驗,揭示了大語言模型作為博弈者的優勢和局限性。除了行為評估外,我們還確定了提升大語言模型戰略決策的關鍵策略,如遞歸推理框架和將大語言模型與輔助模塊結合的方式。此外,大語言模型展示了將現實世界場景形式化為結構化博弈模型的能力,進而將博弈論分析擴展到更廣泛和復雜的背景中。 第3節探討了博弈論原理如何應對大語言模型開發中的關鍵挑戰。我們將現有的研究分為兩個主要領域:(1) 使用博弈論理解大語言模型的文本生成和訓練動態;(2) 利用博弈論機制提升大語言模型訓練算法。第一個領域探討了Shapley值如何提高模型的可解釋性,以及社會選擇理論如何促進人類與AI互動中的偏好對齊。第二個領域介紹了將博弈論目標納入研究,以解決人類偏好的異質性和復雜性等挑戰。目標包括在多智能體互動中最小化遺憾以及評價指標,如納什均衡收斂性。 第4節討論了博弈論如何用于預測和刻畫大語言模型的社會影響。人類-人工智能互動博弈模型預測了人類與AI之間競爭的影響。新興的博弈模型突出了大語言模型作為產品或平臺的商業和經濟影響。同時,經典的博弈論模型也在大語言模型獨特能力的背景下進行了推廣,例如自然語言處理。 最后,我們識別了跨這些維度的主要研究挑戰和未來方向。通過系統地分析博弈論與大語言模型的交集,我們突出了它們之間的相互影響,以及它們如何推動兩個領域的進展,為這一跨學科領域的發展做出貢獻。

2 博弈論在大語言模型評估中的應用

在本節中,我們探討大語言模型(LLMs)在博弈論框架下的應用,重點評估它們作為博弈參與者的表現。行為評估表明,大語言模型在經典矩陣博弈中面臨著識別最優行動的挑戰,但在更復雜的博弈場景中,它們能展示出類人策略。多個研究已探討了提升大語言模型作為博弈玩家表現的方法,其中兩個關鍵點是遞歸思維和輔助模塊。最后,我們還討論了大語言模型在博弈中的角色,超越其作為玩家的功能。

**2.1 大語言模型行為表現的評估

大語言模型在矩陣博弈中的困難。矩陣博弈是博弈論中的一個基礎概念。在矩陣博弈中,兩名玩家同時做出決策,結果可以通過一個有限的收益矩陣表示。最近的研究探討了大語言模型如何通過將這些博弈轉化為自然語言提示來應對這些博弈。盡管取得了顯著進展,研究結果顯示,大語言模型(如GPT-4)在2 × 2矩陣博弈中難以始終如一地選擇最優策略[Akata et al., 2023; Herr et al., 2024; Loré and Heydari, 2024; Wang et al., 2024]。 例如,[Akata et al., 2023]指出,大語言模型在協調博弈中,如性別之戰,經常未能選擇最優行動。類似地,[Loré and Heydari, 2024]研究了語境框架和效用矩陣如何影響大語言模型的決策,揭示了顯著的偏差。此外,[Herr et al., 2024]探討了游戲描述、玩家定位和收益對大語言模型表現的影響,突出了持續的行為偏差。在更動態的環境中,[Fan et al., 2024]觀察到,大語言模型在環形網絡博弈中難以預測最優策略。此外,用于評估大語言模型在144種不同2 × 2矩陣博弈中的表現的TMGBench基準進一步確認了這些局限性[Wang et al., 2024]。 矩陣博弈是博弈論的基石,也是更復雜戰略問題的基礎。研究大語言模型在這些博弈中的行為為我們提供了對它們在復雜推理任務中的局限性的寶貴洞見。 大語言模型在現實博弈場景中的類人策略。除了經典的矩陣博弈,許多研究分析了大語言模型在更現實的博弈環境中的表現。盡管這些博弈具有更大的語境復雜性,但對大語言模型來說,它們不一定更具挑戰性。這是因為基于文本內容的戰略推理有時可以替代顯式的計算。 研究表明,大語言模型能夠在基于交流的博弈中表現出戰略行為。在欺騙與談判博弈中,包括狼人殺[ Xu et al., 2023; Du and Zhang, 2024]和阿瓦隆[ Wang et al., 2023; Lan et al., 2024],大語言模型表現出欺騙、建立信任和領導力等行為——這些特質通常與人類的戰略思維相關。這些發現表明,大語言模型能夠在博弈中充當復雜的交流代理。 大語言模型在經濟學重要的博弈場景中也展示了戰略推理,如討價還價和定價博弈。例如,[Deng et al., 2024]發現大語言模型具有先進的談判技巧,[Fish et al., 2024b]表明基于大語言模型的定價代理可以自主進行價格串通,設置高于競爭水平的價格。在拍賣環境中,[Guo et al., 2024]發現大語言模型能夠根據歷史數據制定理性競標策略,通常趨向于納什均衡。類似地,[Chen et al., 2023]介紹了AucArena平臺,展示了大語言模型如何有效管理預算并優化拍賣策略。 游戲表現的綜合基準。這些發現表明,遞歸推理可以顯著提升大語言模型的戰略能力。

**2.2 提升大語言模型的博弈表現

在評估大語言模型在各種博弈中的表現的基礎上,許多研究探討了提升它們戰略推理和決策能力的方法。這些研究解決了大語言模型在博弈過程中面臨的關鍵挑戰,并提出了改善其能力的通用框架。以下,我們概述了兩種重要的方法。 遞歸思維。在需要長期或多層次推理的博弈中,大語言模型常常難以保留和利用之前的信息,導致次優決策。為了緩解這一問題,研究人員開發了鼓勵大語言模型進行遞歸思維的技術,使它們在制定戰略時能更好地利用過去的信息。 例如,[Wang et al., 2023]提出了遞歸思考(ReCon)框架,該框架在阿瓦隆游戲中鼓勵大語言模型進行一階和二階視角推理。這有助于它們避免常見的陷阱,如欺騙。類似地,[Duan et al., 2024a]提出了一種方法,讓大語言模型預測多回合博弈中的未來行動,從而提高它們預測對手策略的能力。此外,[Zhang et al., 2024a]通過k級理性推動大語言模型的推理,這增強了其多層次思維,并顯著提高了其在競爭環境中的勝率。 輔助模塊。作為語言模型,大語言模型通常在需要復雜數學計算或歷史數據檢索的博弈中表現不佳。一些研究提出了集成輔助模塊,幫助大語言模型在博弈過程中克服這些局限。 例如,[Gandhi et al., 2023]提出了一個“提示編譯器”,該編譯器系統性地指導大語言模型評估行動并形成信念,使它們能夠通過最小的上下文學習在新場景中進行推廣。在狼人殺游戲中,[Xu et al., 2023]將額外的BERT模型集成進來,用于編碼歷史和當前的游戲狀態,幫助大語言模型做出更有信息支持的決策。在討價還價博弈中,OG-Narrator框架[Xia et al., 2024]生成外部報價,允許大語言模型專注于談判語言。最近,[Hua et al., 2024]開發了一種結構化工作流程,幫助大語言模型解決博弈論問題,包括計算納什均衡和在復雜談判任務中優化策略。 這些輔助模塊顯著提升了大語言模型在各種博弈環境中的表現,證明了集成額外計算工具能夠增強它們的戰略決策能力。

**2.3 超越博弈參與者的角色

盡管大部分討論集中在利用基于博弈的場景評估大語言模型,但研究也表明,大語言模型在博弈中的能力反過來可以貢獻于博弈論。本節探討了大語言模型在博弈論框架中的替代角色,擴展了它們的應用。 在2.1節中,我們提到大語言模型在經典矩陣博弈中常常難以計算最優策略。然而,一些研究采取了替代方法,利用大語言模型的自然語言理解能力,而不是直接計算均衡。例如,[Mensfelt et al., 2024]利用大語言模型將博弈描述形式化為博弈描述語言(GDL),使外部求解器能夠處理這些描述。類似地,[Deng et al., 2025]提出了一個兩階段框架,用于翻譯廣義形式的博弈:首先,大語言模型識別信息集,然后它通過上下文學習構建完整的博弈樹。這些研究表明,大語言模型可以充當自然語言到正式博弈結構的轉換中介,提供了超越傳統模型的能力。 此外,[Horton, 2023]探討了將大語言模型用作行為經濟學實驗中的人類參與者替代品。研究結果表明,大語言模型能夠復制經典的行為經濟學結果,為社會科學研究提供了一種可擴展、成本效益高的替代方案。這突顯了大語言模型在實驗經濟學和社會科學研究中的潛力,能夠促進大規模模擬并深入洞察人類決策過程。

3. 博弈論在算法創新中的應用

本節探討博弈論原理如何通過指導算法創新來推動大語言模型(LLMs)的發展。博弈論在增強我們對LLMs的理解方面發揮了重要作用,主要通過使用Shapley值社會選擇模型等工具。這些方法為模型的可解釋性提供了寶貴的見解,使我們能夠更深入地理解LLMs如何處理和響應輸入。除了可解釋性,博弈論還為開發訓練目標和評估指標提供了框架,以應對LLM開發中的關鍵挑戰,例如模型異構性和與人類偏好的一致性。

**3.1 博弈論用于LLMs的現象學理解

這一研究方向將經典博弈論概念應用于解釋LLMs中的可觀察現象,包括文本生成模式和特定框架下訓練的固有局限性。鑒于LLMs通常因其專有性質和大規模復雜性而被視為“黑箱”,此類研究尤為重要。一種方法將合作博弈論與LLMs聯系起來,因為這些模型對輸入標記執行并行計算,并圍繞Transformer層構建。Shapley值(Shapley, 1953)是一種用于評估合作博弈中個體玩家貢獻的方法,已被用于評估特定標記和層對LLM生成輸出的影響。多項研究利用Shapley值評估提示中標記的重要性(Goldshmidt和Horovicz, 2024;Mohammadi, 2024)。例如,Mohammadi(2024)證明,LLMs通常為信息量較少的輸入組件分配過高的權重,這種行為與錯誤響應密切相關。TokenSHAP(Goldshmidt和Horovicz, 2024)通過蒙特卡洛采樣提高了Shapley值計算的效率,而TextGenSHAP(Enouen等, 2024)將該方法擴展到更長的結構化輸入-輸出場景。Liu等(2023)將Shapley值應用于多提示學習,識別出對集成生成最具影響力的提示。Zhang等(2024c)分析了LLM層的貢獻,發現早期層對輸出生成的影響更為顯著。另一個研究方向使用社會選擇理論來建模LLMs與多樣化人類偏好的一致性。該框架有助于解決LLMs與人類價值觀和決策過程對齊的挑戰(Mishra, 2023)。例如,Conitzer等(2024)分析了基于人類反饋的強化學習(RLHF)在表達人類偏好中的作用,識別出由偏好沖突引起的基本問題,并倡導在社會選擇原則下進行LLM對齊。Ge等(2024)將RLHF獎勵建模視為社會選擇過程,證明基于Bradley-Terry的方法存在違反關鍵公理的內在局限性。Qiu(2024)提出了一個代表性社會選擇框架,通過提取一小部分代表性意見來有效管理大規模偏好聚合。此外,一些研究應用博弈論來建模對齊和解碼策略。Zhang等(2024e)研究了現實世界LLM應用的社會技術影響,倡導通過激勵兼容性確保AI系統與社會目標一致并保持技術穩健性。Chen等(2025)將LLM解碼過程建模為Stackelberg博弈,其中解碼器先行動,對抗實體隨后行動。通過分析雙方的最優策略,他們的研究為啟發式采樣策略在實踐中表現良好提供了理論依據。

**3.2 博弈論用于激發LLM算法

除了增強對LLMs的理解,博弈論在設計提升其能力的算法中也發揮了關鍵作用。本節重點介紹了LLM訓練中的幾個關鍵挑戰,并說明博弈論如何應用于解決這些問題。通用人類偏好:標準的基于獎勵的RLHF僅限于捕捉傳遞性偏好(Munos等, 2024)。然而,偏好模型可以通過比較兩種策略來表達更一般的偏好,而不是為每個響應分配獎勵。這為基于偏好模型優化LLM引入了新的挑戰。基于人類反饋的納什學習(NLHF)旨在優化由偏好模型定義的博弈的馮·諾依曼贏家,為策略優化提供了一個可行且穩健的方向。基于NLHF,SPO(Swamy等, 2024)引入了表達更復雜偏好的方法,例如非傳遞性、隨機性和非馬爾可夫偏好。SPPO(Wu等, 2025)設計了一種算法,能夠在大規模語言模型中高效實現類似SPO的算法。DNO(Rosset等, 2024)通過基于回歸的目標改進了LLM優化,實現了更高效和直接的訓練。INPO(Zhang等, 2024d)引入了一種可以直接在偏好數據集上最小化的損失函數,進一步減少了NLHF中計算勝率的時間開銷。然而,Zhi-Xuan等(2024)的最新研究指出,基于偏好的方法過于簡化了人類價值觀,忽略了其復雜性、不可公度性和動態性。因此,設計更穩健的方法來對齊人類偏好仍然是一個持續的科學挑戰。人類偏好的異質性:捕捉人類注釋數據集中的異質性仍然是LLM對齊中的一個重大挑戰。忽略這種異質性通常會導致模型僅反映多數人的偏好(Fleisig等, 2023)。多項研究使用社會選擇理論開發了更具包容性的訓練和對齊算法(Chakraborty等, 2024b;Park等, 2024;Alamdari等, 2024;Chen等, 2024a)。Chakraborty等(2024b)證明了使用單一獎勵模型的不切實際性,并提出了平等主義原則來學習偏好分布。Park等(2024)建議對偏好進行聚類,并提出了一種可擴展的、激勵兼容的偏好對齊框架。Alamdari等(2024)使用Borda計數分位數公平性進行偏好聚合,確保公平性和計算可行性。Chen等(2024a)引入了一種混合建模框架來聚合異質偏好。此外,Klingefjord等(2024)從宏觀角度審視了人類偏好與訓練目標之間的差距,從哲學角度提供了解決方案。數據成本效率:博弈論還被應用于提高LLM訓練的成本效率。收集具有保證質量和覆蓋范圍的數據集通常具有挑戰性,因此一些研究使用自我博弈框架來提高數據利用率,減少所需數據量同時保持性能。Chen等(2024b)解決了僅用少量黃金標準數據微調模型的問題。借鑒生成對抗網絡(GANs)(Goodfellow等, 2020),它允許LLM在區分其響應與黃金標準答案的同時提高答案質量,最終收斂到黃金標準數據的分布。Cheng等(2024a;Zheng等, 2024)將攻擊者和防御者之間的博弈建模為兩個LLM之間的博弈。Zheng等(2024)使用攻擊者提出防御者不擅長的提示,而防御者不斷改進。Cheng等(2024a)考慮了一種經典游戲——對抗禁忌,以在不引入新數據的情況下增強模型知識獲取,從而在實驗中表現更好。此外,Zhang和Duan(2024)通過將拍賣模型納入LLM微調過程,提高了偏好數據收集的效率,證明了這種方法可以在保持強性能的同時提高微調效率。其他雙人博弈模型:除了上述文獻,一些研究在LLM的特定階段制定了其他雙人博弈模型,以增強特定能力。Chakraborty等(2024a;Makar-Limanov等, 2024;Cheng等, 2024b)將獎勵模型與LLM之間的交互建模為雙人博弈。他們的目標是解決靜態獎勵模型無法處理LLM策略分布變化的問題。他們的博弈論建模捕捉了獎勵模型和LLM的共同演化,并使用均衡求解算法提供了理論上有保證的LLM訓練方法。Jacob等(2023)觀察到,同一LLM對問題的生成性和判別性答案通常不一致。他們建模了共識博弈,其中這兩種類型的答案作為尋求共識答案的玩家。通過使用均衡求解算法,這種方法顯著提高了LLM在各種數據集上的準確性。此外,Gemp等(2024)將LLM生成長文本對話的過程建模為順序博弈,使用博弈論工具增強模型理解對話并生成適當響應的能力。

4 博弈論在LLM相關建模中的應用

本節概述了涉及大語言模型(LLMs)的博弈論模型研究。這些模型的理論分析為LLMs對人類社會的影 響提供了證據。我們將文獻分為三個主要領域。第一個領域探討了同時包含LLMs和人類的博弈論模型,旨在解釋或預測LLMs發展帶來的現象。第二個領域研究了LLMs作為產品或平臺的場景,這創造了具有博弈論動態的競爭環境,例如廣告拍賣。第三個領域擴展了經典博弈論模型,探討了LLMs的獨特能力如何推廣和完善這些模型,以應對更復雜和現實的場景。

**4.1 LLM與人類之間的競爭

這一系列研究引入了多種競爭模型,將LLMs視為博弈中的玩家(Yao等, 2024;Esmaeili等, 2024;Taitler和Ben-Porat, 2024)。這些模型通常源于一個認識:現代LLMs具有強大的內容生成能力,與人類創作者相比,其成本更低且進化速度更快。Yao等(2024)通過提出基于Tullock競賽的競爭模型,研究了LLMs對人類創作者的影響。該模型探討了人類生成內容與LLM生成內容之間的動態關系,將LLMs建模為成本為零的玩家,其輸出質量隨著人類內容質量的提高而提升。通過均衡分析,研究得出結論:LLMs并不會從根本上與人類創作者沖突或取代他們,而是會減少人類生成內容的數量,最終淘汰效率較低的創作者。Esmaeili等(2024)將該模型擴展到重復博弈環境中,重點關注人類如何在動態競爭中優化其效用。研究強調了確定最優策略的計算復雜性,并提出了提供接近最優解的實用算法。Taitler和Ben-Porat(2024)研究了基于LLM的生成式AI與人類運營平臺(如Stack Overflow)之間的競爭動態及其對社會福利的影響。該模型研究了LLMs的收入最大化問題,并揭示了類似于Braess悖論的現象:隨著人類用戶越來越依賴LLMs,原始平臺因缺乏質量提升數據而受損。此外,生成式AI模型很少進行旨在提高質量的訓練,因為成本節約的激勵措施占主導地位。研究還提出了解決這些問題的理論監管框架。LLMs的發展帶來了多樣化的社會效應,博弈論為研究這些效應提供了強大的理論框架。通過采用描述最優行為和均衡策略的適當模型,我們可以推導出具有理論保證的性質。

**4.2 伴隨LLMs出現的博弈場景

本節探討了由LLMs作為產品或平臺引發的博弈論場景。在這些場景中,LLMs并不參與博弈,而是圍繞它們展開。隨著LLMs獲得全球關注,與LLMs相關的行業正在創造巨大的商業價值。Laufer等(2024)探討了將通用模型微調作為市場服務的可行性。該研究建模了通用模型開發者與領域專家之間的談判過程。通過分析子博弈完美均衡,論文證明了利潤共享結果是可能的,并提供了確定帕累托最優均衡的方法。Sun等(2024a)研究了通過拍賣式過程為多個具有不同偏好的群體提供LLM微調服務的潛在經濟場景。研究提出了一種激勵兼容的支付方案,確保社會福利最大化。Mahmood(2024)分析了LLM部署的競爭動態,強調了市場信息的價值,并證明當任務足夠相似時,先發制人策略可能對所有任務都不具成本效益。Saig等(2024)提出了一種按偏好支付的合同設計模型,以解決當前按標記定價方案中潛在的道德風險。除了作為商品,LLMs還通過廣告收入提供潛在的商業價值,類似于搜索引擎。LLMs的出現使傳統的固定廣告位過時,促使多項研究探討將LLMs整合到廣告拍賣中(Feizi等, 2023)。Duetting等(2024)建模了一種場景,其中每個廣告商擁有一個代理LLM,并通過競價影響下一個生成標記的概率分布。研究通過修改第二價格拍賣機制,確保激勵兼容性。Dubey等(2024)假設每個廣告商提供固定的廣告副本,通過競價影響LLM生成的摘要。他們的拍賣機制確定了每個廣告商在摘要中的突出程度及其支付價格,確保激勵兼容性。Hajiaghayi等(2024)也假設每個廣告商擁有代表其內容的文檔,但在**檢索增強生成(RAG)**框架中建模廣告插入過程。該機制在LLM生成內容的每個話語段中概率性地檢索和分配廣告,基于競價和相關性優化對數社會福利。Soumalias等(2024)研究了一種場景,其中每個廣告商通過獎勵函數對LLM生成內容進行競價。他們的機制激勵廣告商真實報告獎勵函數,并在無需調優的環境中展示了操作可行性。

**4.3 LLM擴展經典博弈模型

除了上述兩個領域,本節還探討了利用LLMs增強傳統博弈論模型的研究,將其擴展到更現實的場景。LLMs的文本理解和生成能力使其成為聚合和激發意見的寶貴工具。Lu等(2024)探討了使用LLMs輔助同行評審,指出傳統的同行預測機制僅限于簡單的報告,例如多項選擇或標量數字。研究提出了利用LLMs強大文本處理能力的同行預測機制,以激勵高質量、真實的反饋。這些機制在實驗中能夠區分人類撰寫和LLM生成的評論。Fish等(2024a)使用LLMs解決傳統社會選擇理論的局限性,該理論僅限于在少數預定義替代方案中進行選擇。研究利用LLMs生成文本并推斷偏好,為設計具有嚴格代表性保證的AI增強民主進程提供了方法。Sun等(2024b)研究了LLMs如何在傳統拍賣中提供更豐富的信息。研究引入了語義增強的個性化估值拍賣框架,利用LLMs將競標者的偏好和語義項目信息整合到估值過程中。該框架將微調的LLMs與Vickrey拍賣機制相結合,以提高估值準確性和競標策略。

5 結論與未來方向

本綜述全面概述了LLMs與博弈論交叉領域的研究進展。我們從三個關鍵角度總結了博弈論在LLMs發展中的作用:提供基于博弈的標準化評估、推動博弈論算法創新以及建模LLMs的社會影響。此外,我們強調了LLMs與博弈論之間的雙向關系,探討了LLMs如何影響傳統博弈模型。基于對現有文獻的回顧,我們確定了博弈論與LLMs交叉領域的幾個有前景的未來方向。在以下部分中,我們概述了其中一些機遇和挑戰,以期推動這一多學科領域的發展。具有全面博弈能力的LLM代理:現有研究探索了在各種博弈場景中評估LLM代理,并開發了增強其推理能力的方法。然而,盡管其中一些方法展示了通用性,但其驗證仍然高度依賴于具體場景。一個關鍵的未來方向是開發精通博弈論推理的LLM代理,能夠在無需顯式定制的情況下將其知識應用于多樣化的博弈場景。實現這一目標需要在規則理解、外部環境建模和多代理推理方面取得進展。關鍵技術方面包括構建博弈論語料庫、優化微調策略以及整合工具學習技術。超越以人類為中心的評估框架:博弈論為理性和策略推理提供了完善的評估標準,例如K級理性,這些標準已被廣泛用于評估LLM智能。然而,這些評估方法最初是為人類認知設計的,可能無法完全捕捉基于下一個標記預測模型的推理過程。為了從博弈論角度全面評估LLMs,必須超越現有的以人類為中心的指標,開發專門針對基于神經網絡的模型的評估框架。這仍然是一個未充分探索的領域,具有顯著提升我們對LLMs決策理解潛力。LLMs策略行為的理論理解:將博弈論概念(如Shapley值)應用于理解LLMs的文本生成行為仍處于早期階段。大多數關于LLMs在現實場景中策略行為的研究依賴于實證觀察,而非系統的理論解釋。例如,Park等(2025)引入了假設模型來解釋為什么LLMs在重復博弈中難以達到無遺憾學習者的表現水平。將此類理論研究擴展到更復雜的場景(如狼人殺、阿瓦隆或討價還價博弈)至關重要。對LLM策略行為的更深入理論理解將有助于定義其能力邊界,并為進一步提高其推理能力提供見解。捕捉LLM優化中的合作博弈:許多利用博弈論優化LLM訓練的研究(如第3.2節所述)主要關注非合作博弈場景。盡管非合作方法是一個自然的選擇,但合作博弈論方法為LLM優化提供了額外的見解。例如,在專家混合模型中,不同的專家網絡可以被視為合作博弈的參與者。采用合適的收益分配機制(如Shapley值或核心概念)可以優化專家選擇和任務分配,減少冗余并提高計算效率。類似地,在集成學習和知識蒸餾中,不同的子模型可以被視為協作代理,共同優化決策邊界或轉移知識。有效的獎勵分配和權重調整策略可以增強子模型之間的協作,減少冗余計算并提高泛化能力。將合作博弈論方法整合到LLM訓練和優化中,可能提供新的理論見解和實際解決方案。多LLM與人類合作的建模:如第4.1節所述,先前的研究主要集中在建模LLMs與人類之間的競爭互動,揭示了其社會影響。然而,除了競爭,理解多個LLMs與人類之間的合作動態仍然是一個重要的研究方向。一個關鍵挑戰是設計激勵機制,激勵LLMs在完成人類分配任務時進行協作,同時考慮其目標。對LLM代理目標和行為的理論描述對于彌合博弈論機制設計與實際部署之間的差距至關重要。推進這一研究方向可能有助于開發更有效地與人類目標一致并對社會產生積極影響的LLMs。利用LLMs作為預言機擴展理論博弈模型:如第4.3節所述,多項研究探討了如何利用LLMs擴展經典博弈論模型。這些研究的關鍵見解是,LLMs憑借其強大的語言理解和生成能力,可以作為博弈論框架中具有特定功能的預言機。這一視角為放寬理想化假設或使用LLMs替代各種博弈模型中的理論預言機提供了新的機會。通過這種方式,以前僅停留在理論層面的模型現在可以實際實施,同時保留近似的理論性質。系統探索LLMs如何在不同理論模型中作為適應性預言機,可以彌合抽象博弈論概念與實際應用之間的差距。

付費5元查看完整內容

多模態學習是人工智能領域中一個快速發展的方向,旨在通過整合和分析多種類型的數據(包括文本、圖像、音頻和視頻),構建更具多樣性和魯棒性的系統。受到人類通過多感官獲取信息能力的啟發,這種方法使得文本到視頻轉換、視覺問答和圖像描述等應用成為可能。本文綜述了支持多模態語言模型(MLLM)的數據集的最新發展。大規模多模態數據集至關重要,因為它們為這些模型提供了全面的測試和訓練。本文重點討論了多個數據集的貢獻,包括用于訓練、領域特定任務和現實世界應用的數據集。還強調了基準數據集在評估模型在不同場景中的表現、可擴展性和適用性方面的重要性。由于多模態學習始終在不斷發展,克服這些挑戰將有助于推動人工智能研究和應用達到新的高度。

關鍵詞:多模態 · LMM · LLM · 視頻 · 音頻 · VLM

1 多模態學習與大語言模型概述

多模態學習是人工智能領域一個不斷發展的方向,旨在整合和處理多種數據類型,如文本、圖像和音頻,目標是模仿人類認知,后者自然地將感官輸入結合起來。這種方法相比單模態方法,可以構建出更具魯棒性和智能性的系統。 大語言模型(LLMs),如GPT-3、BERT和T5,在文本相關任務中表現出色,如問答和摘要[36]。然而,它們在處理非文本數據時面臨挑戰,這也推動了多模態大語言模型(MLLMs)的研究,后者將LLM的語言能力與計算機視覺的優勢結合起來。MLLMs在圖像描述和視覺問答等任務中取得了最先進的成果[18]。然而,仍然存在一些挑戰,包括高質量數據集的匱乏、高計算成本以及偏見和隱私等倫理問題[28]。盡管如此,MLLMs在醫療、教育和研究等領域具有變革潛力,成為推動人工智能發展的關鍵焦點。

1.1 多模態學習:基礎與概念

1 多模態學習與大語言模型概述

多模態學習是人工智能領域一個不斷發展的方向,旨在構建能夠處理和結合多種數據模態(如文本、圖像、音頻和視頻)的模型。這是因為現實世界的經驗本質上是多模態的,不同模態所攜帶的信息提供了一種更加全面地理解復雜環境的方式[28]。 多模態學習結合了多種數據類型:文本、圖像、音頻和視頻。這些數據創建了每種模態獨特的表示。鑒于各種數據類型的多樣性,傳統上使用不同的方法來捕捉它們的特征。例如,文本通常通過詞嵌入來表示,重點強調意義和結構[3],而圖像數據則通常依賴于卷積神經網絡(CNN)來提取視覺場景中的細節。同樣,音頻數據通常被轉化為聲譜圖或梅爾頻率倒譜系數(MFCC)以捕捉時間和頻率上的模式[41]。一個典型的大型多模態模型(MLLM)處理管道如圖1所示,首先通過模態編碼器處理輸入,統一其表示。然后通過輸入投影器進行細化,并傳入大語言模型(LLM)進行更深入的對齊和理解。最后,輸出投影器和模態生成器將模型的結果轉化為有意義的輸出,支持諸如生成多模態內容或在不同數據類型之間進行轉換的任務。

模態表示的融合是多模態學習中的關鍵焦點。常用的方法包括早期融合,在處理的初期階段通過連接或組合表示[38],以及晚期融合,其中模態特定的表示在過程的后期結合,通常通過注意力機制或門控機制進行[38]。

除了表示和融合之外,多模態學習還面臨更多挑戰,如對齊、翻譯和共學習。對齊使得跨模態的時間或語義同步成為可能,這是視頻理解或視聽語音識別等任務的基本任務[5]。翻譯幫助實現模態轉換,例如從文本生成圖像[57]。共學習則允許在某些數據模態不可用或損壞的情況下學習,通過從可用模態轉移知識[41]。 最近,LLM的進展,如BERT、GPT和DALL-E,顯著加速了多模態學習的進展。這些模型在理解和生成文本方面表現出色,它們擴展到多種數據類型,使得回答圖像相關問題、創建圖像描述甚至基于文本生成圖像成為可能[32]。

簡而言之,多模態學習在發展能夠有效處理和整合來自不同來源的信息的智能系統中扮演著至關重要的角色。多模態的互補優勢確保了這一領域在自然語言處理(NLP)、計算機視覺和機器人等領域不斷創造創新,應用和研究方向也在不斷擴展。

1.2 多模態大語言模型:機遇與挑戰

最近在LLM方面的進展為多模態大語言模型(MLLMs)鋪平了道路,這些模型結合了跨模態的數據,如文本、圖像、音頻和視頻[59]。MLLMs通過結合不同模態的數據,提升理解和表示能力,具有改變多個領域的潛力。 MLLMs將LLM的能力擴展到傳統文本模型之外的任務。這類模型在圖像描述、視覺問答和文本到視頻生成等任務中表現出色——這些任務都需要深入理解語言與視覺的關系[63]。多模態數據的整合為科學研究和領域特定應用提供了更大的空間,通過推動邊界的擴展,開辟了更多可能性。一些關鍵領域,如醫學影像、自動駕駛和地理空間智能,結合了文本、視覺和傳感器數據,從而實現了更現實的決策過程。 盡管MLLMs具有巨大的潛力,但它們的開發仍面臨重要挑戰。其中主要問題之一是缺乏大規模高質量的多模態數據集[49]。覆蓋現實復雜性的無偏數據是訓練強大MLLMs的必要條件[28]。 另一個挑戰是集成這些不同模態所帶來的計算需求和復雜性。訓練和部署MLLMs需要大量資源,因此需要開發新的模型架構、高效的訓練策略和硬件能力[28]。 最后,確保MLLMs的可靠性、可解釋性和倫理對齊性至關重要。隨著這些模型的日益復雜化,越來越需要提供其決策過程的見解,以減少偏見并使其與人類價值觀更緊密地對齊。開發強大的評估框架和可解釋性工具是建立對MLLMs信任的必要條件[45]。 盡管如此,MLLMs的前景仍然廣闊。通過融合多模態數據,這些模型為更好地理解復雜場景開辟了道路,從而誕生了新的應用并推動了相關科學研究。此外,未來的跨學科合作和對倫理問題的關注將是推動MLLMs轉型的關鍵因素[28]。 在接下來的章節中,我們將對MLLMs所需的關鍵數據集進行分類,分為三大類:訓練特定數據集、任務特定數據集和領域特定數據集,如圖2所示。 **

付費5元查看完整內容

本文探討了通過機器學習(ML)技術增強計算流體力學(CFD)任務的最新進展。我們首先介紹了基本概念、傳統方法和基準數據集,然后考察了ML在改進CFD中的各種角色。本文系統地回顧了近五年內的文獻,并為前向建模提出了一種新的分類方法:數據驅動的代理模型、物理驅動的代理模型和ML輔助數值解。此外,我們還回顧了逆向設計和控制中的最新ML方法,提出了新的分類,并進行了深入討論。接著,我們重點介紹了ML在CFD中的實際應用,涵蓋了空氣動力學、燃燒、大氣與海洋科學、生物流體、等離子體、符號回歸和降階建模等關鍵科學和工程領域。除此之外,我們還識別了關鍵挑戰,并倡導未來研究方向來應對這些挑戰,例如多尺度表示、物理知識編碼、科學基礎模型和自動科學發現。本綜述旨在為快速擴展的ML在CFD領域的社區提供指南,激發未來進步的洞見。我們得出的結論是,ML有望通過提高仿真精度、減少計算時間并實現對流體動力學更復雜的分析,顯著變革CFD研究。論文資源可在//github.com/WillDreamer/Awesome-AI4CFD查看。

流體動力學是一門研究流體流動運動和行為的基礎學科,它為包括空氣動力學、化學工程、生物學和環境科學在內的廣泛科學與工程領域提供了基礎。計算流體力學(CFD)通過偏微分方程(PDEs)來模擬流體動力學的數學模型。CFD的主要目標是在各種工況下獲得模擬結果,從而減少實際實驗的高昂成本,并加速工程設計和控制過程。

盡管在研究和工程實踐中取得了幾十年的進展,CFD技術仍然面臨重大挑戰。這些挑戰包括由于對空間或時間分辨率的嚴格限制導致的高計算成本,捕捉湍流等次級動力學的困難,以及數值算法的穩定性問題等。另一方面,ML因其從觀測數據中學習模式和動力學的能力而聞名,最近已經成為可以重塑或增強任何一般科學學科的趨勢。ML技術與近年來積累的大量流體動力學數據的結合,提供了一種變革性的方式來增強CFD實踐(見圖1)。隨著ML領域的迅速擴展,研究人員越來越難以跟上最新進展。因此,本綜述旨在揭示ML在增強CFD中的多方面作用。

實際上,已有一些關于ML在CFD領域應用的綜述。然而,這些綜述大多有以下兩點局限性:1)僅限于早期嘗試。例如,Wang等人和Huang等人都詳細討論了將物理建模融入ML的方法,強調了動態系統和混合方法。同樣,Vinuesa等人從CFD領域的角度探討了ML的前景方向,如直接數值模擬、大渦模擬(LES)、湍流譜圖、雷諾平均Navier-Stokes(RANS)模擬以及降維方法。然而,他們僅回顧了2021年前PDEs的早期ML應用。2)概述不完整。現有關于ML在CFD中的應用綜述主要集中在物理知識的整合和PDEs的常見模型架構上。Zhang等人研究了PDEs的前向建模和逆向建模中的ML,強調了四個關鍵挑戰,但忽略了系統分類及其在這一領域的潛在應用。同時,Lino等人大致區分了物理驅動和數據驅動的方法,并討論了一些方法學上的限制,但同樣忽略了對每種方法動機的系統分類。盡管這些貢獻存在,但ML在CFD中的全面、前沿和深刻的系統化仍然存在空白。我們的工作代表了第一個將這些分散的見解整合為一個連貫框架的綜述。我們系統地回顧了該領域的基礎知識、數據、方法、應用、挑戰和未來方向。本文的結構如圖2所示,組織如下:

在第2部分中,我們介紹了CFD的基本概念和知識,并附有所回顧文獻中涉及的所有類型PDEs的注釋列表。然后,我們系統地回顧了近五年的文獻,將所選研究分為三個主要類別,并在圖4中展示:數據驅動的代理模型(第3部分),依賴于觀測數據進行訓練;物理驅動的代理模型(第4部分),將選定的物理先驗整合到ML建模中;以及ML輔助數值解(第5部分),部分替代傳統的數值求解器,以在效率、準確性和泛化之間實現平衡。此外,我們介紹了逆向設計和控制問題的設置(第6部分),這是將CFD應用于現實世界問題的兩個基本問題。前者優化設計參數,如初始和邊界條件,以達到特定的設計目標;后者則通過施加時變外力來控制物理系統以實現特定目標。

接著,第7部分討論了這些方法在關鍵科學和工程領域中的應用,展示了它們的影響和潛力。最后,第8部分探討了當前技術狀態中的關鍵挑戰和局限性,并概述了未來的研究方向。我們旨在引起更廣泛的ML社區對本綜述的關注,通過豐富的CFD基礎知識和先進的發展,激發該領域未來的研究。

與現有綜述的不同之處。與現有綜述相比,我們的綜述具有四個獨特特點:(1)最新總結。本綜述基于當前的發展狀況,重點關注2020年至2024年的最新論文。相比之下,現有的相關綜述均在2022年之前發表。(2)創新分類。本綜述系統地回顧了CFD領域中的ML方法,并首次根據前向建模和逆向問題的方法設計動機提出了新的分類。(3)全面討論。本綜述提供了全面的討論,涵蓋背景、數據、前向建模/逆向設計方法和應用,幫助研究人員快速而全面地理解該領域。(4)未來指導。我們的工作總結了CFD的最新進展,強調了當前CFD研究中的挑戰,并為該領域未來的工作提供了指導和方向,例如科學基礎模型。 廣泛影響。我們的綜述的影響體現在兩點:(1)對科學相關社區。我們的綜述總結了CFD中的有效ML方法,可以幫助物理和力學領域的研究人員找到解決方案并從ML中受益。(2)對ML社區。我們的綜述還可以為ML研究人員提供指導,幫助他們將知識應用于CFD中的現實科學應用。

數據驅動的代理模型

數據驅動的代理模型是完全依賴觀測數據來訓練算法,以模擬復雜的流體動力學模型。這些模型在近年來取得了迅速的發展,具有重要的影響。根據其對空間離散化的處理方式,這些模型可以大致分為兩類:1)依賴離散化的方法,2)獨立于離散化的方法。前者需要將數據域劃分為特定的網格、網片或粒子結構,并設計相應的模型架構,而后者則不依賴離散化技術,而是直接在連續空間中學習解。

物理驅動的代理模型

盡管數據驅動模型在CFD模擬中展現了潛力,但它們也面臨一些挑戰,如數據收集的高成本以及對模型泛化能力和魯棒性的擔憂。因此,將物理先驗知識融入模型至關重要,這有助于利用物理定律的力量來提高模型的可靠性和適用性。我們根據嵌入知識的類型將這些方法分為兩類:1)物理信息驅動,2)約束信息驅動。前者將物理知識轉化為神經網絡的約束,確保預測符合已知的物理原理。后者則從傳統的PDE求解器中汲取靈感,將這些方法整合到神經網絡的訓練過程中。

結論

總之,本文系統地探討了利用機器學習(ML)在計算流體力學(CFD)中取得的重要進展。我們提出了一種針對前向建模和逆問題的新分類方法,并詳細介紹了過去五年中開發的最新方法。我們還重點介紹了ML在關鍵科學和工程領域中的有前途的應用。此外,我們討論了這一快速發展的領域中的挑戰和未來研究方向。總體而言,顯而易見的是,ML具有顯著變革CFD研究的潛力。

付費5元查看完整內容

在不斷發展的深度學習領域,數據的數量和質量問題一直是一個長期存在的難題。最近大語言模型(LLMs)的出現為合成數據生成提供了一種以數據為中心的解決方案,緩解了現實世界數據的限制。然而,目前對這一領域的研究缺乏統一的框架,大多停留在表面。因此,本文基于合成數據生成的一般工作流程,整理了相關研究。通過這樣做,我們突出了現有研究中的空白,并概述了未來研究的潛在方向。本研究旨在引導學術界和工業界向更深入、更系統地探究LLMs驅動的合成數據生成的能力和應用。

在深度學習領域不斷演變的背景下,數據數量和質量的問題一直是一個長期存在的困境。大語言模型(LLMs)的革命性出現引發了深度學習領域的顯著范式轉變(Zhang et al., 2023a; Guo et al., 2023; Bang et al., 2023)。盡管有這些進展,大量高質量數據仍然是構建穩健自然語言處理(NLP)模型的基礎(Gandhi et al., 2024)。具體來說,這里的高質量數據通常指的是包含豐富監督信號(通常以標簽形式)并與人類意圖緊密對齊的多樣化數據。然而,由于高成本、數據稀缺、隱私問題等原因,依賴于人類數據來滿足這些需求有時是具有挑戰性甚至是不現實的(Kurakin et al., 2023)。此外,多項研究(Hosking et al., 2023; Singh et al., 2023; Gilardi et al., 2023)表明,人類生成的數據由于其固有的偏見和錯誤,可能并不是模型訓練或評估的最佳選擇。這些考慮促使我們更深入地探討一個問題:是否有其他更有效和可擴展的數據收集方法可以克服當前的限制?

鑒于LLMs的最新進展,它們展示了生成與人類輸出相當的流暢文本的能力(Hartvigsen et al., 2022; Sahu et al., 2022; Ye et al., 2022a; Tang et al., 2023; Gao et al., 2023a),由LLMs生成的合成數據成為了人類生成數據的一種可行替代品或補充。具體來說,合成數據旨在模仿真實世界數據的特征和模式(Liu et al., 2024)。一方面,LLMs通過廣泛的預訓練,積累了豐富的知識庫,并展現出卓越的語言理解能力(Kim et al., 2022; Ding et al., 2023a),這為生成真實的數據奠定了基礎。另一方面,LLMs深厚的指令遵循能力允許在生成過程中實現更好的可控性和適應性,從而能夠為特定應用創建定制的數據集,并設計更靈活的流程(Eldan and Li, 2023)。這兩個優勢使LLMs成為極具前景的合成數據生成器。

作為LLMs的一項關鍵應用,合成數據生成對于深度學習的發展具有重要意義。如圖1所示,LLMs驅動的合成數據生成(Li et al., 2023c; Wang et al., 2021; Seedat et al., 2023)使整個模型訓練和評估過程實現自動化,最小化了人類參與的需求(Huang et al., 2023),從而使深度學習模型的優勢可以應用于更廣泛的領域。除了提供可擴展的訓練和測試數據供應之外,LLMs驅動的合成數據生成還可能為開發下一代LLMs鋪平道路。來自TinyStories(Eldan and Li, 2023)和Phi系列(Gunasekar et al., 2023; Li et al., 2023b)的見解強調了數據質量對于有效模型學習的重要性,而LLMs賦予我們主動“設計”模型學習內容的能力,通過數據操作顯著提高了模型訓練的效率和可控性。截至2024年6月,Hugging Face上已有超過300個被標記為“合成”的數據集,許多主流LLMs利用高質量的合成數據進行訓練,包括Alpaca(Taori et al., 2023)、Vicuna(Zheng et al., 2023)、OpenHermes 2.5和Openchat 3.5(Wang et al., 2023a)。

盡管看似簡單,但生成同時具有高正確性和足夠多樣性的合成數據集需要精心設計過程,并涉及許多技巧(Gandhi et al., 2024),使得LLMs驅動的合成數據生成成為一個非平凡的問題。雖然大多數現有工作通常針對各種任務(如預訓練(Gunasekar et al., 2023; Li et al., 2023b; Eldan and Li, 2023)、微調(Mukherjee et al., 2023; Mitra et al., 2023; Xu et al., 2023a)、評估(Feng et al., 2023; Wei et al., 2024))和不同領域(如數學(Yu et al., 2023a; Luo et al., 2023a)、代碼(Luo et al., 2023b; Wei et al., 2023b)、指令(Honovich et al., 2023a; Wang et al., 2023d))進行數據生成,但它們共享許多共同的理念。為了應對LLMs驅動的合成數據生成這一新興領域中缺乏統一框架的問題,并開發通用工作流程,本綜述調查了最近的研究,并根據生成、策展和評估三個密切相關的主題進行組織,如圖2所示。我們的主要目的是提供該領域的全面概述,確定關鍵關注領域,并突出需要解決的空白。我們希望為學術界和工業界帶來見解,并推動LLMs驅動的合成數據生成的進一步發展。

付費5元查看完整內容

人類通過多種感官,如視覺、嗅覺、聽覺和觸覺來感知世界。同樣,多模態大型語言模型(MLLMs)通過整合和處理包括文本、視覺、音頻、視頻和3D環境在內的多種模態數據,增強了傳統大型語言模型的能力。數據在這些模型的發展和優化中起到了關鍵作用。在這篇綜述中,我們從數據中心視角全面回顧了MLLMs的相關文獻。具體而言,我們探討了在MLLMs預訓練和適應階段準備多模態數據的方法。此外,我們還分析了數據集的評估方法,并回顧了評估MLLMs的基準測試。我們的綜述還概述了未來潛在的研究方向。本研究旨在為研究人員提供關于MLLMs數據驅動方面的詳細理解,促進該領域的進一步探索和創新。

近年來,我們見證了大型語言模型(LLMs)和多模態大型語言模型(MLLMs)的快速發展[280, 324]。諸如GPT-4 [208]、Flamingo [4]、BLIP2 [151]和X-InstructBLIP [212]等MLLMs整合了多模態信息,展示了令人印象深刻的理解和生成能力。這些模型在傳統的多模態任務中取得了競爭性表現,如視覺識別[320]、視頻理解[258, 289]、語音識別[200]和3D理解[89, 100]。此外,它們卓越的語言理解能力使其在文本豐富的任務中表現出色,如問答[104]、多輪對話和邏輯推理[156, 296]。

大多數現有的MLLMs主要關注修改模型架構以探索多模態信息的使用[121, 178, 246, 286, 287, 304]。盡管模型的有效性至關重要,數據也顯著影響了MLLMs的成功。例如,Hoffmann等人[99]展示了為了擴展模型,有必要增加訓練數據的規模。除了數據數量外,數據質量同樣重要。先前的研究[251]表明,精心策劃的數據集可以使較小的模型達到與較大模型相當的性能。然而,關于MLLMs數據策劃和利用的綜合研究仍然缺乏。因此,本研究旨在從數據中心視角提供對MLLMs的全面理解。

與優先考慮架構增強而依賴固定數據集的模型中心方法相比,數據中心視角強調對數據集的迭代改進以提高性能。在數據中心MLLMs的范圍內,我們關注利用數據模態的異質性、增強數據結構、增加數據數量和提高數據質量以改進MLLMs [316]。我們的討論從不同階段的MLLMs數據中心視角回答了三個關鍵問題:

  • Q1:如何收集、選擇和管理MLLMs的數據?大量的數據需求和多模態數據的異質性在收集、選擇和有效管理模型訓練數據方面帶來了挑戰。MLLMs的不同訓練階段也導致了不同的數據類型需求。

  • Q2:數據如何影響MLLMs的性能?理解數據特性與MLLMs性能之間的關系對于優化數據集和增強模型能力至關重要。

  • Q3:如何評估MLLMs的數據?有必要開發全面的評估基準,以評估MLLMs在各種任務中的性能和魯棒性。 本綜述與現有綜述的區別。在模型中心視角下,已有若干綜述聚焦于LLMs [93, 203, 324]和MLLMs [280, 318],但缺乏對數據中心方面的深入分析。最近,一些綜述開始關注LLMs的數據準備,如數據管理方法[274]、數據選擇方法[5]和LLM數據集的綜合綜述[174]。然而,這些綜述主要集中于僅文本LLMs的數據管理和選擇方法,沒有對MLLMs的數據處理管道進行徹底分析。盡管Zhang等人[318]總結了MLLMs的數據集,但未能提供對這些數據集的全面分析。與我們最相關的工作是數據中心人工智能(DCAI)[109, 111, 220, 279, 316],它也關注AI研究的數據中心視角,但未具體分析LLMs和MLLMs。

隨著MLLMs的快速增長以及數據在這個大型模型時代越來越重要的角色,我們認為提供一個全面的MLLMs數據中心方法綜述是至關重要的。本綜述旨在從數據中心視角全面回顧MLLMs的進展文獻,并討論該領域的開放問題或未來方向。

貢獻。在這篇綜述中,我們從數據中心視角回顧了MLLMs的進展文獻。我們為研究人員和開發者提供了對MLLMs數據方面最新發展的總體和全面的理解。本綜述的主要貢獻總結如下:

  • 新的數據中心視角。我們從數據中心視角提供了對MLLMs的全面綜述,考慮了文本、圖像、視頻和音頻等模態。
  • 數據準備和管理管道。我們總結了在預訓練和適應階段MLLMs的數據準備和管理管道。
  • 數據評估基準。我們概述了常用的從數據中心視角出發的評估基準。
  • 開放問題和未來方向。我們討論了當前數據中心LLMs研究中的開放問題,并提出了若干未來研究方向。

本文的其余部分安排如下:第2節介紹LLMs和MLLMs的預備知識,并討論從數據中心視角分析它們的動機。第3至第5節總結了MLLMs訓練數據的收集、處理和選擇的主要階段。第6節總結了MLLMs的評估方法和現有的評估數據集。第7節討論了開放問題并強調了該領域的若干未來研究方向。最后,我們在第8節對本綜述進行了總結。我們的Github倉庫可以在//github.com/beccabai/Data-centric_multimodal_LLM找到。

付費5元查看完整內容

多模態融合致力于整合來自多種模態的信息,目的是實現更準確的預測。在包括自動駕駛和醫療診斷等廣泛的場景中,多模態融合已取得顯著進展。然而,在低質量數據環境下,多模態融合的可靠性大部分仍未被探索。本文綜述了開放多模態融合面臨的常見挑戰和最新進展,并將它們呈現在一個全面的分類體系中。從數據中心的視角,我們確定了低質量數據上多模態融合面臨的四個主要挑戰,即**(1)噪聲多模態數據,它們被不同種類的噪聲污染;(2)不完整的多模態數據,某些模態缺失;(3)不平衡的多模態數據,不同模態的質量或屬性有顯著差異;以及(4)質量變化的多模態數據**,每種模態的質量會根據不同樣本動態變化。這一新的分類體系將使研究人員能夠理解該領域的現狀,并識別出幾個潛在的研究方向。我們還討論了這一領域的開放問題以及有趣的未來研究方向。

//arxiv.org/abs/2404.18947 我們對世界的感知基于多種模態,例如觸覺、視覺、聽覺、嗅覺和味覺。即使某些感官信號不可靠,人類也能從不完美的多模態輸入中提取有用線索,并進一步拼湊出正在發生事件的整個場景【1】。隨著感知技術的發展,我們可以輕松收集各種形式的數據進行分析。為了充分釋放每種模式的價值,多模態融合作為一種有前景的范式出現,通過整合所有可用線索進行下游分析任務,以獲得精確和可靠的預測,例如醫學圖像分析、自動駕駛車輛【2】【3】和情感識別【4】【5】【6】。直觀地說,融合來自不同模式的信息提供了探索跨模態相關性并獲得更好性能的可能性。然而,人們越來越認識到,廣泛使用的AI模型常常被低質量數據中的假相關性和偏見所誤導。在現實世界中,由于意外的環境因素或傳感器問題,不同模態的質量通常存在差異。一些最近的研究實證和理論上表明,傳統的多模態融合可能在野外的低質量多模態數據上失敗,例如不平衡【7】【8】【9】【10】、噪聲【11】或甚至損壞【12】的多模態數據。為了克服這一限制,并向實際應用中強大且通用的多模態學習邁進一步,我們確定了低質量多模態數據的特性,并專注于現實世界多模態機器融合的一些獨特挑戰。我們還強調了可能有助于使多模態融合在開放環境中更加可靠和值得信賴的技術進展。在本文中,我們識別并探索了圍繞低質量多模態數據的多模態融合的四個核心技術挑戰。它們總結如下(也在圖1中直觀展示): (1) 噪聲多模態數據。第一個基本挑戰是學習如何減輕多模態數據中任意噪聲的潛在影響。高維多模態數據往往包含復雜的噪聲。多模態數據的異質性使得識別和減少潛在噪聲成為挑戰,同時也提供了通過探索不同模態之間的相關性來識別和減少噪聲的機會。 (2) 不完整的多模態數據。第二個基本挑戰是如何學習帶有部分缺失模態的多模態數據(即不完整的多模態數據)。例如,在醫療領域,即使是患有同一疾病的患者也可能選擇不同的醫療檢查,產生不完整的多模態數據。開發能夠處理不完整多模態數據的靈活且可靠的多模態學習方法是一個具有挑戰性但充滿希望的研究方向。 (3) 不平衡的多模態數據。第三個基本挑戰是如何減輕模態間偏差和差異的影響。例如,視覺模態通常比聽覺模態更有效,導致模型采取捷徑且缺乏對音頻的探索。盡管現有融合方法表現出有希望的性能,但它們可能無法在某些偏好特定模態的應用上比單模態主導模型表現更好。 (4) 質量動態變化的多模態數據。第四個基本挑戰是如何適應多模態數據的質量動態變化性質。在實踐中,由于不可預見的環境因素或傳感器問題,一個模態的質量通常會因不同樣本而變化。例如,在低光或逆光條件下,RGB圖像的信息量不如熱成像模態。因此,在實際應用中,意識到融合中的質量變化并動態整合多模態數據是必要的。 為了應對這些日益重要的多模態融合問題,本研究系統地組織了通過幾個分類體系的關鍵挑戰。與以往討論各種多模態學習任務【13】【14】的相關工作不同,這項綜述主要關注多模態學習中最基本的問題以及在下游任務中低質量多模態數據所引起的獨特挑戰,包括聚類、分類、對象檢測和語義分割。在以下部分中,我們通過最近的進展和多模態融合面臨的技術挑戰詳細介紹了這一領域:在噪聲多模態數據上的學習(第2節)、缺失模態插補(第3節)、平衡多模態融合(第4節)和動態多模態融合(第5節)。第6節提供了一個作為結論的討論。 在噪聲多模態數據上的學習

在現實世界場景中收集高質量的多模態數據不可避免地面臨著由噪聲帶來的重大挑戰。多模態數據【15】的噪聲可能源于傳感器錯誤【16】、環境干擾或傳輸損失。對于視覺模態,傳感器中的電子噪聲會導致細節丟失。此外,音頻模態可能因環境因素受到意外的扭曲。更糟糕的是,弱對齊甚至未對齊的多模態樣本也常見,這存在于更高級別的語義空間中。幸運的是,考慮多模態之間的相關性或更好地利用多模態數據可以幫助融合噪聲多模態數據。各種相關工作【16】【17】【18】表明,多模態模型超越了它們的單模態對應物。這可以歸因于多模態數據利用不同模態之間的相關性,識別和減輕潛在噪聲的能力。 多模態噪聲大致可以根據其來源分為兩類:1) 模態特定噪聲,來源于各個模態的傳感器錯誤、環境因素或傳輸;2) 跨模態噪聲,來源于未對齊的多模態對,可以被視為語義級別的噪聲。

不完整多模態學習

在真實應用中收集的多模態數據常常不完整,某些樣本的部分模態因意外因素(如設備損壞、數據傳輸和存儲損失)而缺失。例如,在面向用戶的推薦系統中,瀏覽行為歷史和信用評分信息可能并不總是對某些用戶可用【48】。同樣地,雖然結合多種模態的數據,例如磁共振成像(MRI)掃描、正電子發射斷層掃描(PET)和腦脊液(CSF)信息,可以為阿爾茨海默病提供更準確的診斷【49】【50】,但由于PET掃描的高測量成本和CSF的不適感侵入性測試,一些患者可能拒絕進行這些檢查。因此,在阿爾茨海默病診斷中常見不完整的多模態數據【51】。通常,傳統的多模態學習模型假設多模態數據的完整性,因此不能直接適用于部分模態缺失的情況。針對這一問題,旨在探索具有部分缺失模態的不完整多模態數據的信息的不完整多模態學習出現,并在近年來獲得了越來越多的研究關注【52】。在本節中,我們主要關注不完整多模態學習研究的當前進展。從是否對缺失數據進行插補的角度來看,我們將現有方法分為兩大類,包括基于插補的和無插補的不完整多模態學習,其中基于插補的方法進一步分為兩組,如圖2所示,包括實例和模態級別的插補。 平衡多模態學習

不同的模態之間緊密相關,因為它們從不同的視角描述同一概念。這一屬性激發了多模態學習的興盛,其中多種模態被整合,旨在增強對相關事件或對象的理解。然而,盡管存在自然的跨模態相關性,每種模態都有其獨特的數據來源和形式。例如,音頻數據通常表現為一維波形,而視覺數據則由像素組成的圖像構成。一方面,這種差異賦予了每種模態不同的屬性,如收斂速度,然后使得同時處理和學習所有模態變得困難,給聯合多模態學習帶來了難度。另一方面,這種差異也反映在單模態數據的質量上。盡管所有模態描述相同的概念,它們與目標事件或對象相關的信息量不同。例如,考慮一個標有會議的音視覺樣本,視覺數據明顯顯示了會議的視覺內容,這很容易被識別(見圖1c)。而相應的音頻數據是嘈雜的街道汽車聲,很難與會議標簽建立聯系。視覺模態的信息量顯然比音頻模態多。由于深度神經網絡的貪婪本性【9】,多模態模型傾向于僅依賴具有充足與目標相關信息的高質量模態,同時對其他模態欠擬合。為了應對這些挑戰并提高多模態模型的效能,最近的研究集中于策略上,以平衡模態之間的差異并增強模型的整體性能。 動態多模態融合

當前的多模態融合方法常基于一種假設,即多模態數據的質量是靜態的,這在現實世界場景中并不總是成立的。處理具有動態變化質量的多模態數據是多模態智能系統不可避免的問題。由于意外的環境因素和傳感器問題,一些模態可能會遭受可靠性差和丟失任務特定信息的問題。此外,不同模態的質量會根據場景動態變化,如圖5所示。這一現象激發了一種新的多模態學習范式,即動態多模態融合,其目標是適應多模態數據質量的動態變化并有選擇性地整合任務特定信息。在本節中,我們關注動態多模態融合的挑戰,并將當前文獻中的進展分類為三個主要方向,包括啟發式、基于注意力和意識到不確定性的動態融合。

付費5元查看完整內容

本文深入探討了當前頂尖的人工智能技術,即生成式人工智能(Generative AI)和大型語言模型(LLMs),如何重塑視頻技術領域,包括視頻生成、理解和流媒體。文章強調了這些技術在制作高度逼真視頻中的創新應用,這是在現實世界動態和數字創造之間架起橋梁的一大飛躍。研究還深入探討了LLMs在視頻理解方面的高級能力,展示了它們在從視覺內容中提取有意義信息方面的有效性,從而增強了我們與視頻的互動。在視頻流媒體領域,本文討論了LLMs如何有助于更高效和以用戶為中心的流媒體體驗,適應內容交付以滿足個別觀眾偏好。這篇全面的綜述貫穿了當前的成就、持續的挑戰和將生成式AI和LLMs應用于視頻相關任務的未來可能性,強調了這些技術為推動視頻技術領域的進步——包括多媒體、網絡和人工智能社區——所持有的巨大潛力。

影響聲明—本文通過研究生成式人工智能和大型語言模型(LLMs)在視頻生成、理解和流媒體中的集成,為視頻技術領域做出了貢獻。對這些技術的探索提供了它們在增強視頻內容的真實性和互動性方面的潛力和局限性的基礎理解。LLMs在視頻理解方面的探索為可訪問性和互動的進步奠定了基礎,有望提高教育工具的效能、改進用戶界面和推進視頻分析應用。此外,文章強調了LLMs在優化視頻流媒體服務中的作用,導致更個性化和帶寬高效的平臺。這可能會顯著惠及娛樂行業,提供適應個人偏好的自適應流媒體解決方案。通過識別關鍵挑戰和未來研究方向,文章指導了將AI與視頻技術融合的持續努力,同時提高了人們對潛在倫理問題的認識。其影響力超越了學術界,鼓勵在視頻技術中負責任地發展AI和制定政策,平衡技術進步與倫理考量。

近年來,由于視頻相關技術的激動人心的進步,視頻內容的創建、分析和傳遞都經歷了重大突破。學術界和工業界已共同推動視頻處理領域可能性的極限,從創建逼真的視頻到理解復雜的視覺環境以及優化視頻流媒體以改善用戶體驗。整合生成式AI和大型語言模型(LLM)可以在視頻相關領域開辟激動人心的可能性。 隨著創造逼真且上下文一致的視頻的能力,視頻創作已成為一個引人入勝的研究領域。研究人員已在利用深度學習方法如生成對抗網絡(GANs)制作揭示細節且捕捉現實世界動態本質的電影剪輯方面取得了重大進展。然而,如長期視頻合成一致性和對生成內容的精細控制等挑戰仍在探索中。

視頻理解方面也有類似的發展,該領域涉及從視頻剪輯中提取重要信息。傳統技術依賴于手工創建的特征和視頻動態的顯式建模。最近在語言和視覺方面的進步取得了顯著進展。像OpenAI的GPT等預訓練的基于變換器的架構在處理和生成文本數據方面展示了令人印象深刻的才能。這些LLM對于視頻理解任務,如字幕、動作識別和時間定位,具有巨大的潛力。

此外,由****于對高質量、高分辨率和低延遲視頻服務的需求日益增加,改善視頻傳遞已變得越來越重要且具有挑戰性。帶寬限制、網絡抖動和不同用戶偏好顯著阻礙了無縫和沉浸式的流媒體體驗。通過提供感知上下文的視頻分發、實時視頻質量改進和根據用戶偏好的自適應流媒體,LLM提供了一個克服這些困難的激動人心的方法。

鑒于這些進展,本研究徹底分析了生成式AI和LLM在生成、理解和流式傳輸視頻方面的潛力。我們回顧了現有工作,試圖回答以下問題: ? 提出了哪些技術,并正在徹底改變上述視頻研究領域? ? 為了推動上述視頻服務中生成式AI和LLM方法的使用,還有哪些技術挑戰需要解決? ? 由于采用生成式AI和LLM方法,引發了哪些獨特的關注? 我們希望吸引多媒體、網絡和人工智能社區的關注,以鼓勵對這一迷人且迅速發展的領域的未來研究。

我們設想生成式AI和大型語言模型(LLM)在視頻的整個生命周期中發揮關鍵作用,從生成、理解到流媒體。該框架跨越了三個主要的計算機科學社區,即人工智能、多媒體和網絡。人工智能社區正在見證前所未有的發展速度,從2021年到2022年僅用了大約一年的時間就從能夠進行文本到圖像生成的模型發展到能夠進行文本到視頻生成的模型。現在甚至有演示展示了僅使用提示就能創建3D視頻的能力。因此,我們可以想象生成式AI將對視頻生成行業變得更為重要,超越甚至完全替代傳統的生成方法。視頻理解在許多情況下都很有用,例如場景分割、活動監控、事件檢測和視頻字幕,這是一個獲得越來越多關注的新興方向。自2023年以來,像GPT-4和Video-ChatGPT [8]這樣的最先進產品也顯著提升了LLM理解圖像和視頻等多模態輸入的能力。就視頻流媒體而言,LLM還有改進流媒體管道幾個關鍵步驟的有趣潛力。例如,一個理解能力改進的模型可以把握視頻場景的語義意義,并通過相應地改變編碼率來優化傳輸。此外,如點云這樣在XR游戲中廣泛使用的3D視頻流媒體,可以從LLM對周圍環境的理解中受益,預測用戶下一刻的視野范圍(FoV)來進行內容預取。

A. 主要組成部分 生成式AI和LLM之間的協同作用已在視頻生成領域開辟了新的前沿,打造與現實幾乎無法區分的視覺效果。這些技術共同豐富了數字景觀,創造了創新內容如下(第IV-A節): ? 生成對抗網絡(GANs)利用生成網絡和判別網絡之間的創造性對抗過程來理解和復制復雜模式,產生逼真的視頻樣本。 ? 變分自編碼器(VAEs)生成連貫的視頻序列,提供了一個結構化的概率框架,用于無縫地融合敘事上合理的幀。 ? 自回歸模型創建的序列中,每個視頻幀都邏輯上從上一個幀繼承,確保敘事和視覺的連續性,吸引觀眾。 ? 擴散模型將復雜的文本敘述轉換為詳細和高分辨率的視頻,推動文本到視頻合成的界限。 接下來,LLM通過提供富有情境的解釋和描述來增強視頻理解,促進更深入的視頻內容參與(第IV-B節): ? 視頻字幕使用LLM生成富有洞察力和準確的描述,以自然語言捕捉視覺內容的本質,使視頻更易于搜索和訪問。 ? 視頻問答利用LLM的情境理解能力處理復雜的觀眾詢問,提供增值且深入的觀看體驗的回應。 ? 視頻檢索和分割由LLM革新,它們解析和分類視頻內容為可理解的段落,簡化了龐大視頻庫的可搜索性和導航性。 最后,LLM可以通過優化帶寬使用、個性化內容交付和增強觀眾互動等方式重新定義流媒體景觀(第IV-C節): ? 帶寬預測通過分析過去和現在的網絡數據的LLM進行改進,預測未來需求以主動分配資源,從而確保流暢的流媒體。 ? 視點預測通過LLM對內容和用戶行為的理解增強,預測視頻中的下一個焦點區域,提供量身定制且沉浸式的觀看體驗。 ? 視頻推薦和資源分配通過LLM的分析能力得到提升,將觀眾偏好與內容匹配并管理網絡資源,提供定制化且高效的流媒體服務。

付費5元查看完整內容

近年來,大型語言模型(LLM)的集成徹底改變了機器人技術領域,使機器人能夠以類似人類的熟練程度進行交流、理解和推理。本文探討了LLM對機器人學的多方面影響,討論了利用這些模型的關鍵挑戰和機遇。通過對LLM在機器人核心元素——通信、感知、規劃和控制中的應用進行分類和分析,我們旨在為尋求將LLM集成到其機器人系統中的研究者提供可行的見解。

我們的研究主要集中在GPT-3.5之后開發的LLM上,主要是基于文本的模式,同時也考慮了用于感知和控制的多模態方法。我們提供全面的指導原則和示例,以便初學者能夠輕松接觸基于LLM的機器人解決方案。通過教程級別的示例和結構化的提示構建,我們展示了如何將LLM引導的增強功能無縫集成到機器人應用中。本綜述為研究人員在不斷發展的LLM驅動的機器人技術領域中的導航提供了路線圖,提供了全面的概述和實用的指導,以利用語言模型在機器人開發中的潛力。

在過去的十年中,我們見證了機器人學領域在應用語言模型(LMs)方面取得了顯著的進展。這些進展不僅包括類似人類的交流能力,還包括機器人的理解和推理能力,從而顯著提高了它們在從家庭雜務到工業操作等各種任務中的效率。在早期工作中,這些成功源于統計模型分析和預測語言表達中的詞匯。這些模型使機器人能夠解釋人類命令,理解上下文,表征世界,并與人類互動,盡管理解的深度有限。隨后,采用了具有自我注意機制的Transformer架構,尤其是像BERT這樣的預訓練語言模型,提高了捕捉復雜模式的能力,同時為特定任務進行微調。然而,這些模型的性能通常取決于有限的數據集,限制了它們把握更深層次上下文理解和在不同場景中泛化的能力。

隨著大型語言模型(LLMs)的發展,基于語言的機器人引入了各個領域的創新變化,如信息檢索、推理任務、環境適應、持續學習和改進等。這些LLMs,以其龐大的參數規模和在互聯網規模數據集上的訓練為特征,為下游任務提供了零次和少次學習能力,而不需要額外的參數更新。這些顯著的進步來自于文獻中定義為“在小模型中不存在但在大模型中出現的能力”的突現能力。這些能力顯著增強了機器人在理解、推斷和響應開放式指令方面的性能,利用了廣泛的常識知識。此外,稱為提示工程的提示創建技術使LLMs能夠通過自由形式的語言描述或互動對話,整合更豐富的上下文信息,促進了泛化推理。引入上下文學習能力使LLMs能夠根據提供的指示或示例中的提示生成預期格式的輸出,如JSON、YAML或PDDL,甚至代碼。最近的LLMs,如GPT-4,通過與外部機器人工具(如規劃器或翻譯器)的整合,進一步擴展了能力。

盡管LLMs具有多樣的能力,但它們的利用面臨幾個挑戰。首先,LLMs經常生成不準確或意外的響應。由于機器人執行的安全性是最重要的部署因素,基于LLM的機器人應用需要過濾和糾正機制以確保安全。其次,如上下文學習等突現能力尚不可預測且不一致。即使是對輸入文本的輕微更改也可能導致響應的不可預測變化。第三,精心設計的提示使機器人能夠有效地利用LLMs的能力,但缺乏支持機器人系統關鍵組件的系統化指導,阻礙了無縫集成。因此,我們需要研究LLMs在機器人中的逐部件參與,以了解其限制和安全性。 當前,各種綜述已開始探索LLMs與機器人的交集,主要關注LLM驅動的機器人應用或互動維度。然而,仍然存在在機器人系統的關鍵元素,包括通信、感知、規劃和控制方面提供全面評論和可操作見解的空白。此外,研究者們還在探索廣泛的預訓練大容量模型領域,稱為基礎模型,尋求跨模態Transformer模型的泛化能力。然而,這一廣闊領域涵蓋了廣泛的機器人學和多樣的方法論,使得新興研究者錯過深入的評論和指導。 在本文中,如圖1所示,我們旨在分類和分析LLMs如何增強機器人系統的核心元素,以及我們如何指導新興研究者在每個領域內整合LLMs,以促進智能機器人的發展。我們根據三個關鍵問題結構化本文: ? Q1: LLMs在每個機器人領域中如何被利用? ? Q2: 研究人員如何克服LLMs的集成限制? ? Q3: 在每個領域產生最低功能所需的基本提示結構是什么?

為了回答這些問題,我們專注于在引入GPT-3.5之后開發的LLMs。我們主要考慮基于文本的模式,但也審查了感知和控制領域的多模態。然而,為了進行深入審查,我們將調查限制在LLMs而非基礎模型上。 此外,我們提供了全面的提示工程指南和示例,旨在使初學者能夠訪問基于LLM的機器人解決方案。我們的教程級示例展示了如何通過引入四種類型的示例提示——對話提示用于互動定位,指令提示用于場景圖生成,計劃提示用于少次計劃,以及代碼生成提示用于獎勵生成——增強或替換機器人組件的基本功能。通過提供提示構建的規則和技巧,我們概述了生成預期格式輸出的良好設計提示的過程。這些原則確保了機器人應用中有效的LLM引導增強,無需參數調整。

本文的其余部分安排如下。第2節概述了機器人學中LMs和LLMs的歷史背景。第3節評審了LLMs賦能機器人通過語言理解和生成進行交流的方式。第4節調查了LLMs如何感知各種傳感器模態并推進感知行為。第5節和第6節分別組織了基于LLM的計劃和控制研究。在第7節中,我們提供了提示工程的全面指南,作為LLM在機器人中集成的起點。最后,第8節總結了這篇綜述。

付費5元查看完整內容
北京阿比特科技有限公司