亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

量化投資(Quant)是一種技術驅動的資產管理新興方法,其發展正日益受到人工智能進步的深刻影響。深度學習與大語言模型(LLMs)在量化金融中的最新突破,不僅提升了預測建模能力,更實現了基于智能體的自動化流程,預示著該領域可能的范式變革。本文以阿爾法策略為典型范例,系統闡述AI如何重塑量化投資全流程:早期階段:以人工特征工程與傳統統計模型為核心,建立標準化阿爾法因子生產流程;深度學習革命:實現從數據處理到訂單執行的端到端規模化建模;LLM時代延伸:突破預測邊界,使智能體能處理非結構化數據、自主生成阿爾法因子,并支持自迭代工作流。1 引言資產管理作為金融行業至關重要且持續擴張的領域,**量化投資(Quant)**已成為其核心方法論之一。量化投資策略通過統計分析、優化技術和日益普及的AI算法,系統性地識別并利用市場無效性。得益于數據可用性、計算能力和技術創新的指數級增長,這些方法顯著提升了投資決策能力,為金融市場參與者提供了競爭優勢。在眾多量化投資策略中,阿爾法策略因其捕捉市場無效性的強大能力,以及與AI預測方法天然的適配性而備受關注。"阿爾法"的核心理念在于預測單一資產相對于市場整體表現(如股票指數)的超額收益,這也是投資組合經理的核心目標。阿爾法策略的開發通常包含四個關鍵步驟:數據預處理→模型預測→組合優化→訂單執行(詳見2.2小節)。這些子任務雖各具特點,卻緊密關聯,共同服務于"控制風險下最大化超額收益"的目標。相較于高頻交易、套利等策略,阿爾法策略通過挖掘錯誤定價展現出卓越的效能,因而成為量化投資領域研究最密集、市場份額最高的核心技術。本文即以阿爾法策略為范式,探討AI如何重塑量化投資。近年來,**深度學習(DL)**在阿爾法策略中的應用已展現出顯著成效,能夠識別傳統量化方法難以捕捉的金融數據復雜模式。與此同時,大語言模型(LLMs)(如GPT系列[4]、BERT[38]及其金融衍生模型)在上下文理解、精準解讀和類人推理方面表現突出,為量化投資帶來了無限可能。本文聚焦DL與LLMs在量化投資(尤其是阿爾法策略)中的技術演進、應用場景與協同優勢,系統綜述現有研究,并探討LLMs增強DL方法的潛力、挑戰與局限。 1.1 阿爾法策略的技術演進阿爾法策略的發展可分為三個階段(圖1):人工標注階段:依賴研究者經驗識別交易信號,通過傳統統計模型刻畫市場規律。但受限于金融市場復雜性,模型難以涵蓋全部相關因素,策略效果仍高度依賴人類專家的判斷與執行。深度學習階段:DL突破了傳統方法的瓶頸,在空間關聯性[142]、長期時序依賴[178]、新聞情緒[68]等因子挖掘中表現出色。然而存在過擬合風險和可解釋性不足等挑戰。LLM智能體階段:LLMs憑借多模態數據處理和自主推理能力,正推動量化投資進入AI自動化時代。當前LLMs在阿爾法策略中主要承擔兩類角色:預測器(4.1節)與智能體(4.2節),但其實際部署仍處于早期階段(局限性分析見4.3節)。1.2 研究動機與貢獻盡管DL與LLMs在阿爾法策略中的應用研究激增,但現有工作多聚焦孤立任務,缺乏對量化投資全流程的統一視角。此外,量化投資作為產學研緊密結合的領域,現有綜述尚未充分彌合LLMs與DL模型結合的技術鴻溝,也缺乏從實際應用出發的前瞻框架。為此,本文旨在:首次系統性綜述DL與LLMs在阿爾法策略全流程的研究,建立跨任務關聯的整體視角;從實踐需求反推科學問題,基于真實投資場景的痛點揭示共性研究挑戰;三階段技術對比(傳統統計模型→DL方法→LLM方法),指明迭代發展中的關鍵缺口與未來方向。本文框架如圖2所示,核心貢獻包括:建立首個覆蓋阿爾法策略全流程的DL與LLMs研究圖譜;通過跨學科視角,從實際應用提煉關鍵研究命題;系統對比三階段技術路線的優劣,推動阿爾法策略向下一階段演進。

付費5元查看完整內容

相關內容

 機器學習的一個分支,它基于試圖使用包含復雜結構或由多重非線性變換構成的多個處理層對數據進行高層抽象的一系列算法。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

可解釋人工智能(XAI)在生物醫學圖像分析中變得越來越重要,以促進透明度、信任和深度學習模型的臨床應用。盡管已有多篇綜述回顧了XAI技術,但它們往往缺乏基于模態的視角,忽視了多模態和視覺-語言范式的最新進展,并且在實踐指導上提供的內容有限。本綜述通過全面且有結構的總結,填補了這一空白,專門針對生物醫學圖像分析的XAI方法進行探討。我們系統地對XAI方法進行了分類,分析了它們在生物醫學背景下的基本原理、優點和局限性。提出了一種以模態為中心的分類法,將XAI方法與特定的影像類型對接,突出了不同模態間的可解釋性挑戰。我們還進一步探討了多模態學習和視覺-語言模型在可解釋生物醫學AI中的新興作用,這是前期研究中較少涉及的話題。我們的貢獻還包括對廣泛使用的評估指標和開源框架的總結,以及對持續存在的挑戰和未來方向的深入討論。本綜述為推動生物醫學圖像分析中的可解釋深度學習提供了及時且深入的基礎。

付費5元查看完整內容

城市系統是復雜系統的典型代表,其中基于物理建模與人工智能(AI)的融合為提升預測精度、可解釋性與決策支持能力提供了極具前景的新范式。在這一背景下,人工智能擅長捕捉復雜的非線性關系,而物理模型則確保結果符合現實世界的物理規律,并提供可解釋的見解。 本文系統回顧了物理引導人工智能(Physics-Informed AI)在城市應用中的研究進展。我們提出了一種分類體系,將現有方法劃分為三種主要范式:物理-融合AI(Physics-Integrated AI)、物理與AI混合集成(Physics-AI Hybrid Ensemble)、AI-融合物理模型(AI-Integrated Physics),并進一步詳述了七類具有代表性的方法。這一分類體系厘清了物理與AI融合的不同程度與方向,為基于具體應用需求和數據可用性選擇與發展合適的方法提供指導。 我們系統梳理了物理引導AI在八大關鍵城市領域中的應用:能源、環境、經濟、交通、信息、公共服務、應急管理以及城市系統整體層面。分析表明,這些方法通過結合物理規律與數據驅動模型,有效應對城市挑戰,提升了系統的可靠性、效率與適應性。 通過綜述現有方法及其城市應用,我們識別出當前研究中的關鍵空白,并提出未來的研究方向,為構建新一代智能城市系統建模方法奠定基礎。

附加關鍵詞:城市系統,物理引導人工智能,人工智能,物理理論

1 引言

物理學與人工智能(AI)的融合正推動科學研究范式的重大轉變。2024年諾貝爾物理學獎和化學獎分別授予與人工智能相關的成果和科學家【115】【114】,突顯了這一趨勢。這不僅體現了AI方法的深遠影響,也進一步強調了將物理與數據科學相結合在解決復雜系統問題方面的巨大潛力。

物理學通過嚴謹的數學表達與理論體系為解釋世界提供了堅實基礎,而人工智能則憑借其強大的模式提取與預測建模能力,已成為現代科學研究中的重要工具。這兩種范式在不同領域中各有優勢:例如,牛頓力學通過精確的數學公式表達自然規律【112】,而蛋白質結構預測【114】與天氣預報【15】等領域則高度依賴高效的數據驅動建模【54】。

城市系統具有多維復雜性和動態交互特性,傳統基于物理模型的方法或純粹的數據驅動方法往往難以應對這些挑戰【39, 202】。尤其是在涉及非線性關系的任務中,如交通流動或人口遷移,AI方法展現出強大的能力,能夠從大規模歷史數據中提取復雜模式并實現高精度預測。AI在處理大規模異構數據方面也表現出色,廣泛應用于智能交通、電力系統和應急響應等領域,支持實時決策并增強系統響應能力【138】。

值得注意的是,許多城市問題在本質上受物理機制的主導,例如流體力學【172】、熱傳導【144】、污染物擴散【106】、重力驅動流動【153, 210】等。因此,在城市系統中開發物理引導AI方法具有重要意義。本文提出了一個系統的融合框架,用以梳理和分析物理引導AI在城市系統中的發展。

此外,我們將城市系統劃分為七大核心子系統,涵蓋從能源與環境等基礎層,到公共服務和應急管理等上層服務領域。我們系統性地考察了各子系統中物理機制與數據特征之間的交互關系,并探討相應的融合建模需求。

本文結構安排如下:第二章介紹物理引導AI方法的整體框架,并詳述七類代表性融合方法;第三章闡述七大關鍵城市子系統及其背后的物理原理,突出在復雜城市建模中引入物理知識的必要性;第四章按子系統展開綜述,探討主要研究挑戰并總結現有融合方法的實際應用;第五章討論并展望未來研究方向;第六章為全文結語。

付費5元查看完整內容

 大型語言模型(LLMs)正在推動科學發現范式的轉變,從面向特定任務的自動化工具演變為日益自主的智能體,根本性地重塑了科研流程與人機協作模式。本文系統性地梳理了這一快速發展的研究領域,重點關注LLMs在科學中的角色變遷與能力提升。我們以科學方法為框架,提出了一個基礎的三層級分類體系——工具(Tool)、分析者(Analyst)與科學家(Scientist),以刻畫其自主性遞增及其在科研生命周期中職責的演變。此外,我們還識別了若干關鍵挑戰與未來研究方向,如機器人自動化、自我改進以及倫理治理等。總體而言,本文旨在提供一個概念性架構與戰略性前瞻,以助力AI驅動下的科學發現,實現快速創新與負責任的發展并重。

1 引言

大型語言模型(LLMs)的持續進步催生出一系列新興能力,如規劃(Huang 等,2024b)、復雜推理(Huang 和 Chang,2023)以及指令遵循(Qin 等,2024)。此外,將代理型工作流(agentic workflows)整合進來,使得基于LLM的系統能夠執行更高級的功能,包括網頁導航(He 等,2024)、工具使用(Qu 等,2025)、代碼執行(Jiang 等,2024a)和數據分析(Sun 等,2024)。在科學發現領域,這種高級LLM能力與代理機制的融合正推動一場深刻的范式轉變。該轉變不僅有望加速科研生命周期,還將從根本上改變人類研究者與人工智能在知識探索中的協作關系。 然而,LLM應用的迅猛擴展及其在科學發現中所引發的范式變化,也帶來了諸多挑戰。LLM演化速度之快,以及其與復雜科研流程的深度融合,使得系統性的評估愈發困難,因此亟需結構化的概念框架來整理當前認知,并指引未來發展方向。盡管現有綜述已對LLM在多個科學領域的應用進行了有價值的概覽(Zhang 等,2024, 2025),或對科學中的特定AI技術進行了分類(Luo 等,2025;Reddy 和 Shojaee,2025),但它們往往聚焦于特定學科的應用,或僅呈現LLM能力的靜態快照。因此,這些綜述可能忽略了LLM自主性不斷增強的關鍵趨勢,以及其在整個科學方法流程中角色的動態演變,從而未能充分揭示其影響力的廣度與未來向更高獨立性演進的潛力。 為系統描繪這一演進圖景,并彌補上述空白,本文的分析框架以經典科學方法的六個階段(見圖1)為基礎(Popper,1935;Kuhn,1962):(1)觀察與問題定義,(2)假設提出,(3)實驗與數據收集,(4)數據分析與解釋,(5)得出結論,(6)迭代與優化。我們對LLM在這些階段中的應用進行分析,發現一個顯著趨勢:LLM正從在單一階段執行離散的、面向任務的功能,逐步發展為能貫穿多個階段的復雜代理型系統。值得注意的是,最新研究(Schmidgall 等,2025;Yamada 等,2025)正在探索幾乎能夠自主完成整個科學流程的LLM系統。 為了更有效地捕捉與描述LLM能力與獨立性日益增強的演化路徑,本文提出一個基礎性的三層級分類框架(見表1),用于定義LLM在科學發現中的不同角色:(i)工具型LLM(LLM as Tool):模型在直接監督下完成具體、明確的任務,輔助人類研究者;(ii)分析者型LLM(LLM as Analyst):模型具備更高的自主性,能夠處理復雜信息、執行分析并提供洞見,減少人工干預;(iii)科學家型LLM(LLM as Scientist):代表更高級階段的系統,能夠自主執行從假設構建到結果解釋及提出后續研究方向等主要科研流程。 在此分類體系基礎上,我們進一步識別出當前研究格局中的關鍵空白,并提出未來發展的核心挑戰與方向,包括:(1)實現無需人工干預的全自主科學發現流程;(2)將機器人自動化引入實驗室,實現物理世界的交互與操作;(3)基于以往研究經驗實現持續的自我改進與適應;(4)提升LLM主導科研的透明度與可解釋性;(5)建立符合倫理與社會價值的治理機制。解決上述多維挑戰,將是實現AI作為科學探索變革性合作伙伴的關鍵。

本文聚焦于LLM系統在科學發現中的應用,特別是其不同層級的自主性。雖然我們承認LLM在科學中的廣泛影響,但本文有意縮小研究范圍,不涵蓋通用科學LLM或面向特定領域的知識獲取與推理模型——這類內容已在現有綜述中有較充分的探討(Zhang 等,2024, 2025)。本文其余部分結構如下:第2節介紹我們的分類框架及其與科學方法的對應關系;第3節分析“工具型LLM”的應用,按科學方法各階段分類;第4節探討“分析者型LLM”的應用,按科學領域劃分;第5節聚焦于“科學家型LLM”的研究,分析其創意生成與優化機制;第6節討論未來面臨的挑戰與發展方向。

付費5元查看完整內容

機器人視覺正持續受益于多模態融合技術視覺-語言模型(Vision-Language Models, VLMs)的迅速發展。本文系統回顧了多模態融合技術在一系列關鍵機器人視覺任務中的應用,包括語義場景理解同步定位與地圖構建(SLAM)三維目標檢測導航與定位以及機器人操作控制。 我們將基于大型語言模型(LLMs)的視覺-語言模型與傳統多模態融合方法進行了對比,分析了它們在性能、適用性、限制及協同潛力等方面的優劣。與此同時,本文深入剖析了當前常用的數據集,評估其在現實機器人場景中的適用性與挑戰。 我們進一步識別出該領域面臨的若干關鍵研究難題,如跨模態對齊高效融合策略實時部署能力以及領域自適應問題。為推動研究發展,本文提出若干未來研究方向,包括:用于魯棒多模態表示的自監督學習基于Transformer的融合架構以及可擴展的多模態感知框架。 通過全面的文獻回顧、系統對比分析與前瞻性探討,本文為推動機器人視覺領域中的多模態感知與交互提供了有價值的參考。 完整論文列表可訪問://github.com/Xiaofeng-Han-Res/MF-RV

付費5元查看完整內容

博弈論為分析理性決策者之間的戰略互動建立了一個基本框架。大語言模型(LLMs)的快速發展激發了大量研究,探索這兩個領域的交集。具體來說,博弈論方法正被應用于評估和增強大語言模型的能力,同時大語言模型本身也在重塑經典的博弈模型。本文提供了這兩個領域交集的全面綜述,從三個方面探討了其雙向關系:(1) 建立基于博弈的標準化基準來評估大語言模型的行為;(2) 利用博弈論方法通過算法創新提升大語言模型的性能;(3) 通過博弈建模刻畫大語言模型對社會的影響。在這三個方面中,我們還重點強調了大語言模型的先進語言理解如何影響傳統博弈模型的均衡分析,進而擴展了博弈論的研究。最后,本文識別了當前領域中的主要挑戰和未來的研究方向,并根據現有研究的狀態評估其可行性。通過將理論嚴謹性與新興的人工智能能力結合,本文旨在促進跨學科的合作,并推動這一不斷發展的研究領域的進展。

1 引言

博弈論為分析理性主體之間的戰略互動提供了一個數學框架,自從其奠基性著作[Von Neumann and Morgenstern, 2007]以來,博弈論經歷了顯著的發展。幾十年來,它已經建立了強大的方法論基礎,包括均衡分析[Nash Jr, 1950]和機制設計[Vickrey, 1961],這些方法已成為經濟學和計算機科學等學科中不可或缺的分析工具。 隨著大語言模型(LLMs)的快速發展,研究人員越來越多地探索博弈論與大語言模型之間的交集。越來越多的研究調查了博弈論原理如何用于評估和提升大語言模型的能力,以及大語言模型如何對博弈論做出貢獻。具體來說,現有的研究應用博弈論來開發理論框架,以評估大語言模型的戰略推理能力,優化其訓練方法并分析其社會影響。關鍵的研究方向包括:

  • 標準化基于博弈的評估:研究人員正在構建基準環境,如矩陣博弈[Akata et al., 2023]和拍賣[Chen et al., 2023],以系統地評估大語言模型的戰略推理能力。
  • 博弈論算法創新:來自合作博弈和非合作博弈論的概念,如Shapley值[Enouen et al., 2024]和最大-最小均衡[Munos et al., 2024],啟發了新的模型可解釋性和訓練優化方法。
  • 社會影響建模:隨著大語言模型改變信息生態系統,新的理論框架正在涌現,以預測人類與AI互動的社會后果[Yao et al., 2024],特別是在廣告市場[Duetting et al., 2024]和內容創作[Fish et al., 2024a]等領域。

除了這些應用,最新的研究還表明,大語言模型也可以通過促進復雜文本場景中的均衡分析,以及將經典博弈模型擴展到更現實的設置,貢獻于博弈論。 現有的綜述[Zhang et al., 2024b; Feng et al., 2024; Hu et al., 2024]主要探討博弈論如何用于構建評估環境以及評估大語言模型的戰略表現。例如,[Zhang et al., 2024b]根據用于測試大語言模型能力的博弈場景將研究進行了分類,并討論了改進推理能力的方法。與此同時,[Feng et al., 2024]和[Hu et al., 2024]將大語言模型在博弈中所需的核心能力(如感知、記憶、角色扮演和推理)進行了分類。盡管這些綜述提供了有價值的見解,但它們主要聚焦于博弈論在標準化評估框架中的作用,忽略了它在推動大語言模型發展的更廣泛潛力。此外,它們采用了單向視角,將博弈論視為評估大語言模型的工具,而沒有探討這兩個領域之間的相互影響。 本文旨在彌補這一空白,探討博弈論與大語言模型之間的雙向關系。我們將博弈論與大語言模型交集的研究劃分為三個關鍵視角,如圖1所示。根據我們所知,這是首次對這兩個領域之間的雙向關系進行全面分析。 在第2節中,我們回顧了應用博弈模型評估大語言模型決策能力的研究。通過在經典矩陣博弈和復雜戰略場景中進行的實驗,揭示了大語言模型作為博弈者的優勢和局限性。除了行為評估外,我們還確定了提升大語言模型戰略決策的關鍵策略,如遞歸推理框架和將大語言模型與輔助模塊結合的方式。此外,大語言模型展示了將現實世界場景形式化為結構化博弈模型的能力,進而將博弈論分析擴展到更廣泛和復雜的背景中。 第3節探討了博弈論原理如何應對大語言模型開發中的關鍵挑戰。我們將現有的研究分為兩個主要領域:(1) 使用博弈論理解大語言模型的文本生成和訓練動態;(2) 利用博弈論機制提升大語言模型訓練算法。第一個領域探討了Shapley值如何提高模型的可解釋性,以及社會選擇理論如何促進人類與AI互動中的偏好對齊。第二個領域介紹了將博弈論目標納入研究,以解決人類偏好的異質性和復雜性等挑戰。目標包括在多智能體互動中最小化遺憾以及評價指標,如納什均衡收斂性。 第4節討論了博弈論如何用于預測和刻畫大語言模型的社會影響。人類-人工智能互動博弈模型預測了人類與AI之間競爭的影響。新興的博弈模型突出了大語言模型作為產品或平臺的商業和經濟影響。同時,經典的博弈論模型也在大語言模型獨特能力的背景下進行了推廣,例如自然語言處理。 最后,我們識別了跨這些維度的主要研究挑戰和未來方向。通過系統地分析博弈論與大語言模型的交集,我們突出了它們之間的相互影響,以及它們如何推動兩個領域的進展,為這一跨學科領域的發展做出貢獻。

2 博弈論在大語言模型評估中的應用

在本節中,我們探討大語言模型(LLMs)在博弈論框架下的應用,重點評估它們作為博弈參與者的表現。行為評估表明,大語言模型在經典矩陣博弈中面臨著識別最優行動的挑戰,但在更復雜的博弈場景中,它們能展示出類人策略。多個研究已探討了提升大語言模型作為博弈玩家表現的方法,其中兩個關鍵點是遞歸思維和輔助模塊。最后,我們還討論了大語言模型在博弈中的角色,超越其作為玩家的功能。

**2.1 大語言模型行為表現的評估

大語言模型在矩陣博弈中的困難。矩陣博弈是博弈論中的一個基礎概念。在矩陣博弈中,兩名玩家同時做出決策,結果可以通過一個有限的收益矩陣表示。最近的研究探討了大語言模型如何通過將這些博弈轉化為自然語言提示來應對這些博弈。盡管取得了顯著進展,研究結果顯示,大語言模型(如GPT-4)在2 × 2矩陣博弈中難以始終如一地選擇最優策略[Akata et al., 2023; Herr et al., 2024; Loré and Heydari, 2024; Wang et al., 2024]。 例如,[Akata et al., 2023]指出,大語言模型在協調博弈中,如性別之戰,經常未能選擇最優行動。類似地,[Loré and Heydari, 2024]研究了語境框架和效用矩陣如何影響大語言模型的決策,揭示了顯著的偏差。此外,[Herr et al., 2024]探討了游戲描述、玩家定位和收益對大語言模型表現的影響,突出了持續的行為偏差。在更動態的環境中,[Fan et al., 2024]觀察到,大語言模型在環形網絡博弈中難以預測最優策略。此外,用于評估大語言模型在144種不同2 × 2矩陣博弈中的表現的TMGBench基準進一步確認了這些局限性[Wang et al., 2024]。 矩陣博弈是博弈論的基石,也是更復雜戰略問題的基礎。研究大語言模型在這些博弈中的行為為我們提供了對它們在復雜推理任務中的局限性的寶貴洞見。 大語言模型在現實博弈場景中的類人策略。除了經典的矩陣博弈,許多研究分析了大語言模型在更現實的博弈環境中的表現。盡管這些博弈具有更大的語境復雜性,但對大語言模型來說,它們不一定更具挑戰性。這是因為基于文本內容的戰略推理有時可以替代顯式的計算。 研究表明,大語言模型能夠在基于交流的博弈中表現出戰略行為。在欺騙與談判博弈中,包括狼人殺[ Xu et al., 2023; Du and Zhang, 2024]和阿瓦隆[ Wang et al., 2023; Lan et al., 2024],大語言模型表現出欺騙、建立信任和領導力等行為——這些特質通常與人類的戰略思維相關。這些發現表明,大語言模型能夠在博弈中充當復雜的交流代理。 大語言模型在經濟學重要的博弈場景中也展示了戰略推理,如討價還價和定價博弈。例如,[Deng et al., 2024]發現大語言模型具有先進的談判技巧,[Fish et al., 2024b]表明基于大語言模型的定價代理可以自主進行價格串通,設置高于競爭水平的價格。在拍賣環境中,[Guo et al., 2024]發現大語言模型能夠根據歷史數據制定理性競標策略,通常趨向于納什均衡。類似地,[Chen et al., 2023]介紹了AucArena平臺,展示了大語言模型如何有效管理預算并優化拍賣策略。 游戲表現的綜合基準。這些發現表明,遞歸推理可以顯著提升大語言模型的戰略能力。

**2.2 提升大語言模型的博弈表現

在評估大語言模型在各種博弈中的表現的基礎上,許多研究探討了提升它們戰略推理和決策能力的方法。這些研究解決了大語言模型在博弈過程中面臨的關鍵挑戰,并提出了改善其能力的通用框架。以下,我們概述了兩種重要的方法。 遞歸思維。在需要長期或多層次推理的博弈中,大語言模型常常難以保留和利用之前的信息,導致次優決策。為了緩解這一問題,研究人員開發了鼓勵大語言模型進行遞歸思維的技術,使它們在制定戰略時能更好地利用過去的信息。 例如,[Wang et al., 2023]提出了遞歸思考(ReCon)框架,該框架在阿瓦隆游戲中鼓勵大語言模型進行一階和二階視角推理。這有助于它們避免常見的陷阱,如欺騙。類似地,[Duan et al., 2024a]提出了一種方法,讓大語言模型預測多回合博弈中的未來行動,從而提高它們預測對手策略的能力。此外,[Zhang et al., 2024a]通過k級理性推動大語言模型的推理,這增強了其多層次思維,并顯著提高了其在競爭環境中的勝率。 輔助模塊。作為語言模型,大語言模型通常在需要復雜數學計算或歷史數據檢索的博弈中表現不佳。一些研究提出了集成輔助模塊,幫助大語言模型在博弈過程中克服這些局限。 例如,[Gandhi et al., 2023]提出了一個“提示編譯器”,該編譯器系統性地指導大語言模型評估行動并形成信念,使它們能夠通過最小的上下文學習在新場景中進行推廣。在狼人殺游戲中,[Xu et al., 2023]將額外的BERT模型集成進來,用于編碼歷史和當前的游戲狀態,幫助大語言模型做出更有信息支持的決策。在討價還價博弈中,OG-Narrator框架[Xia et al., 2024]生成外部報價,允許大語言模型專注于談判語言。最近,[Hua et al., 2024]開發了一種結構化工作流程,幫助大語言模型解決博弈論問題,包括計算納什均衡和在復雜談判任務中優化策略。 這些輔助模塊顯著提升了大語言模型在各種博弈環境中的表現,證明了集成額外計算工具能夠增強它們的戰略決策能力。

**2.3 超越博弈參與者的角色

盡管大部分討論集中在利用基于博弈的場景評估大語言模型,但研究也表明,大語言模型在博弈中的能力反過來可以貢獻于博弈論。本節探討了大語言模型在博弈論框架中的替代角色,擴展了它們的應用。 在2.1節中,我們提到大語言模型在經典矩陣博弈中常常難以計算最優策略。然而,一些研究采取了替代方法,利用大語言模型的自然語言理解能力,而不是直接計算均衡。例如,[Mensfelt et al., 2024]利用大語言模型將博弈描述形式化為博弈描述語言(GDL),使外部求解器能夠處理這些描述。類似地,[Deng et al., 2025]提出了一個兩階段框架,用于翻譯廣義形式的博弈:首先,大語言模型識別信息集,然后它通過上下文學習構建完整的博弈樹。這些研究表明,大語言模型可以充當自然語言到正式博弈結構的轉換中介,提供了超越傳統模型的能力。 此外,[Horton, 2023]探討了將大語言模型用作行為經濟學實驗中的人類參與者替代品。研究結果表明,大語言模型能夠復制經典的行為經濟學結果,為社會科學研究提供了一種可擴展、成本效益高的替代方案。這突顯了大語言模型在實驗經濟學和社會科學研究中的潛力,能夠促進大規模模擬并深入洞察人類決策過程。

3. 博弈論在算法創新中的應用

本節探討博弈論原理如何通過指導算法創新來推動大語言模型(LLMs)的發展。博弈論在增強我們對LLMs的理解方面發揮了重要作用,主要通過使用Shapley值社會選擇模型等工具。這些方法為模型的可解釋性提供了寶貴的見解,使我們能夠更深入地理解LLMs如何處理和響應輸入。除了可解釋性,博弈論還為開發訓練目標和評估指標提供了框架,以應對LLM開發中的關鍵挑戰,例如模型異構性和與人類偏好的一致性。

**3.1 博弈論用于LLMs的現象學理解

這一研究方向將經典博弈論概念應用于解釋LLMs中的可觀察現象,包括文本生成模式和特定框架下訓練的固有局限性。鑒于LLMs通常因其專有性質和大規模復雜性而被視為“黑箱”,此類研究尤為重要。一種方法將合作博弈論與LLMs聯系起來,因為這些模型對輸入標記執行并行計算,并圍繞Transformer層構建。Shapley值(Shapley, 1953)是一種用于評估合作博弈中個體玩家貢獻的方法,已被用于評估特定標記和層對LLM生成輸出的影響。多項研究利用Shapley值評估提示中標記的重要性(Goldshmidt和Horovicz, 2024;Mohammadi, 2024)。例如,Mohammadi(2024)證明,LLMs通常為信息量較少的輸入組件分配過高的權重,這種行為與錯誤響應密切相關。TokenSHAP(Goldshmidt和Horovicz, 2024)通過蒙特卡洛采樣提高了Shapley值計算的效率,而TextGenSHAP(Enouen等, 2024)將該方法擴展到更長的結構化輸入-輸出場景。Liu等(2023)將Shapley值應用于多提示學習,識別出對集成生成最具影響力的提示。Zhang等(2024c)分析了LLM層的貢獻,發現早期層對輸出生成的影響更為顯著。另一個研究方向使用社會選擇理論來建模LLMs與多樣化人類偏好的一致性。該框架有助于解決LLMs與人類價值觀和決策過程對齊的挑戰(Mishra, 2023)。例如,Conitzer等(2024)分析了基于人類反饋的強化學習(RLHF)在表達人類偏好中的作用,識別出由偏好沖突引起的基本問題,并倡導在社會選擇原則下進行LLM對齊。Ge等(2024)將RLHF獎勵建模視為社會選擇過程,證明基于Bradley-Terry的方法存在違反關鍵公理的內在局限性。Qiu(2024)提出了一個代表性社會選擇框架,通過提取一小部分代表性意見來有效管理大規模偏好聚合。此外,一些研究應用博弈論來建模對齊和解碼策略。Zhang等(2024e)研究了現實世界LLM應用的社會技術影響,倡導通過激勵兼容性確保AI系統與社會目標一致并保持技術穩健性。Chen等(2025)將LLM解碼過程建模為Stackelberg博弈,其中解碼器先行動,對抗實體隨后行動。通過分析雙方的最優策略,他們的研究為啟發式采樣策略在實踐中表現良好提供了理論依據。

**3.2 博弈論用于激發LLM算法

除了增強對LLMs的理解,博弈論在設計提升其能力的算法中也發揮了關鍵作用。本節重點介紹了LLM訓練中的幾個關鍵挑戰,并說明博弈論如何應用于解決這些問題。通用人類偏好:標準的基于獎勵的RLHF僅限于捕捉傳遞性偏好(Munos等, 2024)。然而,偏好模型可以通過比較兩種策略來表達更一般的偏好,而不是為每個響應分配獎勵。這為基于偏好模型優化LLM引入了新的挑戰。基于人類反饋的納什學習(NLHF)旨在優化由偏好模型定義的博弈的馮·諾依曼贏家,為策略優化提供了一個可行且穩健的方向。基于NLHF,SPO(Swamy等, 2024)引入了表達更復雜偏好的方法,例如非傳遞性、隨機性和非馬爾可夫偏好。SPPO(Wu等, 2025)設計了一種算法,能夠在大規模語言模型中高效實現類似SPO的算法。DNO(Rosset等, 2024)通過基于回歸的目標改進了LLM優化,實現了更高效和直接的訓練。INPO(Zhang等, 2024d)引入了一種可以直接在偏好數據集上最小化的損失函數,進一步減少了NLHF中計算勝率的時間開銷。然而,Zhi-Xuan等(2024)的最新研究指出,基于偏好的方法過于簡化了人類價值觀,忽略了其復雜性、不可公度性和動態性。因此,設計更穩健的方法來對齊人類偏好仍然是一個持續的科學挑戰。人類偏好的異質性:捕捉人類注釋數據集中的異質性仍然是LLM對齊中的一個重大挑戰。忽略這種異質性通常會導致模型僅反映多數人的偏好(Fleisig等, 2023)。多項研究使用社會選擇理論開發了更具包容性的訓練和對齊算法(Chakraborty等, 2024b;Park等, 2024;Alamdari等, 2024;Chen等, 2024a)。Chakraborty等(2024b)證明了使用單一獎勵模型的不切實際性,并提出了平等主義原則來學習偏好分布。Park等(2024)建議對偏好進行聚類,并提出了一種可擴展的、激勵兼容的偏好對齊框架。Alamdari等(2024)使用Borda計數分位數公平性進行偏好聚合,確保公平性和計算可行性。Chen等(2024a)引入了一種混合建模框架來聚合異質偏好。此外,Klingefjord等(2024)從宏觀角度審視了人類偏好與訓練目標之間的差距,從哲學角度提供了解決方案。數據成本效率:博弈論還被應用于提高LLM訓練的成本效率。收集具有保證質量和覆蓋范圍的數據集通常具有挑戰性,因此一些研究使用自我博弈框架來提高數據利用率,減少所需數據量同時保持性能。Chen等(2024b)解決了僅用少量黃金標準數據微調模型的問題。借鑒生成對抗網絡(GANs)(Goodfellow等, 2020),它允許LLM在區分其響應與黃金標準答案的同時提高答案質量,最終收斂到黃金標準數據的分布。Cheng等(2024a;Zheng等, 2024)將攻擊者和防御者之間的博弈建模為兩個LLM之間的博弈。Zheng等(2024)使用攻擊者提出防御者不擅長的提示,而防御者不斷改進。Cheng等(2024a)考慮了一種經典游戲——對抗禁忌,以在不引入新數據的情況下增強模型知識獲取,從而在實驗中表現更好。此外,Zhang和Duan(2024)通過將拍賣模型納入LLM微調過程,提高了偏好數據收集的效率,證明了這種方法可以在保持強性能的同時提高微調效率。其他雙人博弈模型:除了上述文獻,一些研究在LLM的特定階段制定了其他雙人博弈模型,以增強特定能力。Chakraborty等(2024a;Makar-Limanov等, 2024;Cheng等, 2024b)將獎勵模型與LLM之間的交互建模為雙人博弈。他們的目標是解決靜態獎勵模型無法處理LLM策略分布變化的問題。他們的博弈論建模捕捉了獎勵模型和LLM的共同演化,并使用均衡求解算法提供了理論上有保證的LLM訓練方法。Jacob等(2023)觀察到,同一LLM對問題的生成性和判別性答案通常不一致。他們建模了共識博弈,其中這兩種類型的答案作為尋求共識答案的玩家。通過使用均衡求解算法,這種方法顯著提高了LLM在各種數據集上的準確性。此外,Gemp等(2024)將LLM生成長文本對話的過程建模為順序博弈,使用博弈論工具增強模型理解對話并生成適當響應的能力。

4 博弈論在LLM相關建模中的應用

本節概述了涉及大語言模型(LLMs)的博弈論模型研究。這些模型的理論分析為LLMs對人類社會的影 響提供了證據。我們將文獻分為三個主要領域。第一個領域探討了同時包含LLMs和人類的博弈論模型,旨在解釋或預測LLMs發展帶來的現象。第二個領域研究了LLMs作為產品或平臺的場景,這創造了具有博弈論動態的競爭環境,例如廣告拍賣。第三個領域擴展了經典博弈論模型,探討了LLMs的獨特能力如何推廣和完善這些模型,以應對更復雜和現實的場景。

**4.1 LLM與人類之間的競爭

這一系列研究引入了多種競爭模型,將LLMs視為博弈中的玩家(Yao等, 2024;Esmaeili等, 2024;Taitler和Ben-Porat, 2024)。這些模型通常源于一個認識:現代LLMs具有強大的內容生成能力,與人類創作者相比,其成本更低且進化速度更快。Yao等(2024)通過提出基于Tullock競賽的競爭模型,研究了LLMs對人類創作者的影響。該模型探討了人類生成內容與LLM生成內容之間的動態關系,將LLMs建模為成本為零的玩家,其輸出質量隨著人類內容質量的提高而提升。通過均衡分析,研究得出結論:LLMs并不會從根本上與人類創作者沖突或取代他們,而是會減少人類生成內容的數量,最終淘汰效率較低的創作者。Esmaeili等(2024)將該模型擴展到重復博弈環境中,重點關注人類如何在動態競爭中優化其效用。研究強調了確定最優策略的計算復雜性,并提出了提供接近最優解的實用算法。Taitler和Ben-Porat(2024)研究了基于LLM的生成式AI與人類運營平臺(如Stack Overflow)之間的競爭動態及其對社會福利的影響。該模型研究了LLMs的收入最大化問題,并揭示了類似于Braess悖論的現象:隨著人類用戶越來越依賴LLMs,原始平臺因缺乏質量提升數據而受損。此外,生成式AI模型很少進行旨在提高質量的訓練,因為成本節約的激勵措施占主導地位。研究還提出了解決這些問題的理論監管框架。LLMs的發展帶來了多樣化的社會效應,博弈論為研究這些效應提供了強大的理論框架。通過采用描述最優行為和均衡策略的適當模型,我們可以推導出具有理論保證的性質。

**4.2 伴隨LLMs出現的博弈場景

本節探討了由LLMs作為產品或平臺引發的博弈論場景。在這些場景中,LLMs并不參與博弈,而是圍繞它們展開。隨著LLMs獲得全球關注,與LLMs相關的行業正在創造巨大的商業價值。Laufer等(2024)探討了將通用模型微調作為市場服務的可行性。該研究建模了通用模型開發者與領域專家之間的談判過程。通過分析子博弈完美均衡,論文證明了利潤共享結果是可能的,并提供了確定帕累托最優均衡的方法。Sun等(2024a)研究了通過拍賣式過程為多個具有不同偏好的群體提供LLM微調服務的潛在經濟場景。研究提出了一種激勵兼容的支付方案,確保社會福利最大化。Mahmood(2024)分析了LLM部署的競爭動態,強調了市場信息的價值,并證明當任務足夠相似時,先發制人策略可能對所有任務都不具成本效益。Saig等(2024)提出了一種按偏好支付的合同設計模型,以解決當前按標記定價方案中潛在的道德風險。除了作為商品,LLMs還通過廣告收入提供潛在的商業價值,類似于搜索引擎。LLMs的出現使傳統的固定廣告位過時,促使多項研究探討將LLMs整合到廣告拍賣中(Feizi等, 2023)。Duetting等(2024)建模了一種場景,其中每個廣告商擁有一個代理LLM,并通過競價影響下一個生成標記的概率分布。研究通過修改第二價格拍賣機制,確保激勵兼容性。Dubey等(2024)假設每個廣告商提供固定的廣告副本,通過競價影響LLM生成的摘要。他們的拍賣機制確定了每個廣告商在摘要中的突出程度及其支付價格,確保激勵兼容性。Hajiaghayi等(2024)也假設每個廣告商擁有代表其內容的文檔,但在**檢索增強生成(RAG)**框架中建模廣告插入過程。該機制在LLM生成內容的每個話語段中概率性地檢索和分配廣告,基于競價和相關性優化對數社會福利。Soumalias等(2024)研究了一種場景,其中每個廣告商通過獎勵函數對LLM生成內容進行競價。他們的機制激勵廣告商真實報告獎勵函數,并在無需調優的環境中展示了操作可行性。

**4.3 LLM擴展經典博弈模型

除了上述兩個領域,本節還探討了利用LLMs增強傳統博弈論模型的研究,將其擴展到更現實的場景。LLMs的文本理解和生成能力使其成為聚合和激發意見的寶貴工具。Lu等(2024)探討了使用LLMs輔助同行評審,指出傳統的同行預測機制僅限于簡單的報告,例如多項選擇或標量數字。研究提出了利用LLMs強大文本處理能力的同行預測機制,以激勵高質量、真實的反饋。這些機制在實驗中能夠區分人類撰寫和LLM生成的評論。Fish等(2024a)使用LLMs解決傳統社會選擇理論的局限性,該理論僅限于在少數預定義替代方案中進行選擇。研究利用LLMs生成文本并推斷偏好,為設計具有嚴格代表性保證的AI增強民主進程提供了方法。Sun等(2024b)研究了LLMs如何在傳統拍賣中提供更豐富的信息。研究引入了語義增強的個性化估值拍賣框架,利用LLMs將競標者的偏好和語義項目信息整合到估值過程中。該框架將微調的LLMs與Vickrey拍賣機制相結合,以提高估值準確性和競標策略。

5 結論與未來方向

本綜述全面概述了LLMs與博弈論交叉領域的研究進展。我們從三個關鍵角度總結了博弈論在LLMs發展中的作用:提供基于博弈的標準化評估、推動博弈論算法創新以及建模LLMs的社會影響。此外,我們強調了LLMs與博弈論之間的雙向關系,探討了LLMs如何影響傳統博弈模型。基于對現有文獻的回顧,我們確定了博弈論與LLMs交叉領域的幾個有前景的未來方向。在以下部分中,我們概述了其中一些機遇和挑戰,以期推動這一多學科領域的發展。具有全面博弈能力的LLM代理:現有研究探索了在各種博弈場景中評估LLM代理,并開發了增強其推理能力的方法。然而,盡管其中一些方法展示了通用性,但其驗證仍然高度依賴于具體場景。一個關鍵的未來方向是開發精通博弈論推理的LLM代理,能夠在無需顯式定制的情況下將其知識應用于多樣化的博弈場景。實現這一目標需要在規則理解、外部環境建模和多代理推理方面取得進展。關鍵技術方面包括構建博弈論語料庫、優化微調策略以及整合工具學習技術。超越以人類為中心的評估框架:博弈論為理性和策略推理提供了完善的評估標準,例如K級理性,這些標準已被廣泛用于評估LLM智能。然而,這些評估方法最初是為人類認知設計的,可能無法完全捕捉基于下一個標記預測模型的推理過程。為了從博弈論角度全面評估LLMs,必須超越現有的以人類為中心的指標,開發專門針對基于神經網絡的模型的評估框架。這仍然是一個未充分探索的領域,具有顯著提升我們對LLMs決策理解潛力。LLMs策略行為的理論理解:將博弈論概念(如Shapley值)應用于理解LLMs的文本生成行為仍處于早期階段。大多數關于LLMs在現實場景中策略行為的研究依賴于實證觀察,而非系統的理論解釋。例如,Park等(2025)引入了假設模型來解釋為什么LLMs在重復博弈中難以達到無遺憾學習者的表現水平。將此類理論研究擴展到更復雜的場景(如狼人殺、阿瓦隆或討價還價博弈)至關重要。對LLM策略行為的更深入理論理解將有助于定義其能力邊界,并為進一步提高其推理能力提供見解。捕捉LLM優化中的合作博弈:許多利用博弈論優化LLM訓練的研究(如第3.2節所述)主要關注非合作博弈場景。盡管非合作方法是一個自然的選擇,但合作博弈論方法為LLM優化提供了額外的見解。例如,在專家混合模型中,不同的專家網絡可以被視為合作博弈的參與者。采用合適的收益分配機制(如Shapley值或核心概念)可以優化專家選擇和任務分配,減少冗余并提高計算效率。類似地,在集成學習和知識蒸餾中,不同的子模型可以被視為協作代理,共同優化決策邊界或轉移知識。有效的獎勵分配和權重調整策略可以增強子模型之間的協作,減少冗余計算并提高泛化能力。將合作博弈論方法整合到LLM訓練和優化中,可能提供新的理論見解和實際解決方案。多LLM與人類合作的建模:如第4.1節所述,先前的研究主要集中在建模LLMs與人類之間的競爭互動,揭示了其社會影響。然而,除了競爭,理解多個LLMs與人類之間的合作動態仍然是一個重要的研究方向。一個關鍵挑戰是設計激勵機制,激勵LLMs在完成人類分配任務時進行協作,同時考慮其目標。對LLM代理目標和行為的理論描述對于彌合博弈論機制設計與實際部署之間的差距至關重要。推進這一研究方向可能有助于開發更有效地與人類目標一致并對社會產生積極影響的LLMs。利用LLMs作為預言機擴展理論博弈模型:如第4.3節所述,多項研究探討了如何利用LLMs擴展經典博弈論模型。這些研究的關鍵見解是,LLMs憑借其強大的語言理解和生成能力,可以作為博弈論框架中具有特定功能的預言機。這一視角為放寬理想化假設或使用LLMs替代各種博弈模型中的理論預言機提供了新的機會。通過這種方式,以前僅停留在理論層面的模型現在可以實際實施,同時保留近似的理論性質。系統探索LLMs如何在不同理論模型中作為適應性預言機,可以彌合抽象博弈論概念與實際應用之間的差距。

付費5元查看完整內容

本文探討了通過機器學習(ML)技術增強計算流體力學(CFD)任務的最新進展。我們首先介紹了基本概念、傳統方法和基準數據集,然后考察了ML在改進CFD中的各種角色。本文系統地回顧了近五年內的文獻,并為前向建模提出了一種新的分類方法:數據驅動的代理模型、物理驅動的代理模型和ML輔助數值解。此外,我們還回顧了逆向設計和控制中的最新ML方法,提出了新的分類,并進行了深入討論。接著,我們重點介紹了ML在CFD中的實際應用,涵蓋了空氣動力學、燃燒、大氣與海洋科學、生物流體、等離子體、符號回歸和降階建模等關鍵科學和工程領域。除此之外,我們還識別了關鍵挑戰,并倡導未來研究方向來應對這些挑戰,例如多尺度表示、物理知識編碼、科學基礎模型和自動科學發現。本綜述旨在為快速擴展的ML在CFD領域的社區提供指南,激發未來進步的洞見。我們得出的結論是,ML有望通過提高仿真精度、減少計算時間并實現對流體動力學更復雜的分析,顯著變革CFD研究。論文資源可在//github.com/WillDreamer/Awesome-AI4CFD查看。

流體動力學是一門研究流體流動運動和行為的基礎學科,它為包括空氣動力學、化學工程、生物學和環境科學在內的廣泛科學與工程領域提供了基礎。計算流體力學(CFD)通過偏微分方程(PDEs)來模擬流體動力學的數學模型。CFD的主要目標是在各種工況下獲得模擬結果,從而減少實際實驗的高昂成本,并加速工程設計和控制過程。

盡管在研究和工程實踐中取得了幾十年的進展,CFD技術仍然面臨重大挑戰。這些挑戰包括由于對空間或時間分辨率的嚴格限制導致的高計算成本,捕捉湍流等次級動力學的困難,以及數值算法的穩定性問題等。另一方面,ML因其從觀測數據中學習模式和動力學的能力而聞名,最近已經成為可以重塑或增強任何一般科學學科的趨勢。ML技術與近年來積累的大量流體動力學數據的結合,提供了一種變革性的方式來增強CFD實踐(見圖1)。隨著ML領域的迅速擴展,研究人員越來越難以跟上最新進展。因此,本綜述旨在揭示ML在增強CFD中的多方面作用。

實際上,已有一些關于ML在CFD領域應用的綜述。然而,這些綜述大多有以下兩點局限性:1)僅限于早期嘗試。例如,Wang等人和Huang等人都詳細討論了將物理建模融入ML的方法,強調了動態系統和混合方法。同樣,Vinuesa等人從CFD領域的角度探討了ML的前景方向,如直接數值模擬、大渦模擬(LES)、湍流譜圖、雷諾平均Navier-Stokes(RANS)模擬以及降維方法。然而,他們僅回顧了2021年前PDEs的早期ML應用。2)概述不完整。現有關于ML在CFD中的應用綜述主要集中在物理知識的整合和PDEs的常見模型架構上。Zhang等人研究了PDEs的前向建模和逆向建模中的ML,強調了四個關鍵挑戰,但忽略了系統分類及其在這一領域的潛在應用。同時,Lino等人大致區分了物理驅動和數據驅動的方法,并討論了一些方法學上的限制,但同樣忽略了對每種方法動機的系統分類。盡管這些貢獻存在,但ML在CFD中的全面、前沿和深刻的系統化仍然存在空白。我們的工作代表了第一個將這些分散的見解整合為一個連貫框架的綜述。我們系統地回顧了該領域的基礎知識、數據、方法、應用、挑戰和未來方向。本文的結構如圖2所示,組織如下:

在第2部分中,我們介紹了CFD的基本概念和知識,并附有所回顧文獻中涉及的所有類型PDEs的注釋列表。然后,我們系統地回顧了近五年的文獻,將所選研究分為三個主要類別,并在圖4中展示:數據驅動的代理模型(第3部分),依賴于觀測數據進行訓練;物理驅動的代理模型(第4部分),將選定的物理先驗整合到ML建模中;以及ML輔助數值解(第5部分),部分替代傳統的數值求解器,以在效率、準確性和泛化之間實現平衡。此外,我們介紹了逆向設計和控制問題的設置(第6部分),這是將CFD應用于現實世界問題的兩個基本問題。前者優化設計參數,如初始和邊界條件,以達到特定的設計目標;后者則通過施加時變外力來控制物理系統以實現特定目標。

接著,第7部分討論了這些方法在關鍵科學和工程領域中的應用,展示了它們的影響和潛力。最后,第8部分探討了當前技術狀態中的關鍵挑戰和局限性,并概述了未來的研究方向。我們旨在引起更廣泛的ML社區對本綜述的關注,通過豐富的CFD基礎知識和先進的發展,激發該領域未來的研究。

與現有綜述的不同之處。與現有綜述相比,我們的綜述具有四個獨特特點:(1)最新總結。本綜述基于當前的發展狀況,重點關注2020年至2024年的最新論文。相比之下,現有的相關綜述均在2022年之前發表。(2)創新分類。本綜述系統地回顧了CFD領域中的ML方法,并首次根據前向建模和逆向問題的方法設計動機提出了新的分類。(3)全面討論。本綜述提供了全面的討論,涵蓋背景、數據、前向建模/逆向設計方法和應用,幫助研究人員快速而全面地理解該領域。(4)未來指導。我們的工作總結了CFD的最新進展,強調了當前CFD研究中的挑戰,并為該領域未來的工作提供了指導和方向,例如科學基礎模型。 廣泛影響。我們的綜述的影響體現在兩點:(1)對科學相關社區。我們的綜述總結了CFD中的有效ML方法,可以幫助物理和力學領域的研究人員找到解決方案并從ML中受益。(2)對ML社區。我們的綜述還可以為ML研究人員提供指導,幫助他們將知識應用于CFD中的現實科學應用。

數據驅動的代理模型

數據驅動的代理模型是完全依賴觀測數據來訓練算法,以模擬復雜的流體動力學模型。這些模型在近年來取得了迅速的發展,具有重要的影響。根據其對空間離散化的處理方式,這些模型可以大致分為兩類:1)依賴離散化的方法,2)獨立于離散化的方法。前者需要將數據域劃分為特定的網格、網片或粒子結構,并設計相應的模型架構,而后者則不依賴離散化技術,而是直接在連續空間中學習解。

物理驅動的代理模型

盡管數據驅動模型在CFD模擬中展現了潛力,但它們也面臨一些挑戰,如數據收集的高成本以及對模型泛化能力和魯棒性的擔憂。因此,將物理先驗知識融入模型至關重要,這有助于利用物理定律的力量來提高模型的可靠性和適用性。我們根據嵌入知識的類型將這些方法分為兩類:1)物理信息驅動,2)約束信息驅動。前者將物理知識轉化為神經網絡的約束,確保預測符合已知的物理原理。后者則從傳統的PDE求解器中汲取靈感,將這些方法整合到神經網絡的訓練過程中。

結論

總之,本文系統地探討了利用機器學習(ML)在計算流體力學(CFD)中取得的重要進展。我們提出了一種針對前向建模和逆問題的新分類方法,并詳細介紹了過去五年中開發的最新方法。我們還重點介紹了ML在關鍵科學和工程領域中的有前途的應用。此外,我們討論了這一快速發展的領域中的挑戰和未來研究方向。總體而言,顯而易見的是,ML具有顯著變革CFD研究的潛力。

付費5元查看完整內容

強化學習(RL),特別是與深度神經網絡結合的深度強化學習(DRL),在廣泛的應用中展現了巨大的前景,表明其有望推動復雜機器人行為的發展。然而,機器人問題為RL的應用帶來了根本性的挑戰,這些挑戰源于與物理世界交互的復雜性和成本。本文提供了關于DRL在機器人領域應用的現代綜述,特別關注DRL在實現幾項關鍵機器人能力方面取得的現實世界成功。我們的分析旨在識別這些令人興奮的成功背后的關鍵因素,揭示未充分探索的領域,并對DRL在機器人領域的現狀進行總體描述。我們強調了未來研究的幾個重要方向,包括需要穩定且樣本高效的現實世界RL范式,發現和整合各種能力以應對復雜的長期開放世界任務的整體方法,以及原則性的發展和評估程序。本綜述旨在為RL從業者和機器人學家提供見解,以利用RL的力量創建具有廣泛能力的現實世界機器人系統。

引言

強化學習(RL)(1) 是一類決策問題,其中代理必須通過試錯學習以最大化其累積回報,該回報由標量獎勵函數編碼,映射代理的狀態和行動到即時獎勵。特別是與深度神經網絡結合的深度強化學習(DRL)(2),在解決復雜決策問題方面顯示出卓越的能力,即使是在棋類游戲(3)、視頻游戲(4)、醫療保健(5)和推薦系統(6)等領域的高維觀察中也不例外。這些成功突顯了DRL在控制具有高維狀態或觀察空間和高度非線性動態的機器人系統以執行傳統決策、規劃和控制方法(如經典控制、最優控制、基于采樣的規劃)無法有效處理的挑戰性任務方面的潛力。然而,迄今為止,DRL最顯著的里程碑是在模擬或游戲環境中實現的,在這些環境中,RL代理可以從大量的經驗中學習。相比之下,機器人需要在物理世界中完成任務,這帶來了額外的挑戰。在物理世界中直接通過試錯收集樣本通常效率低下且/或不安全,而且通常不可能在模擬中創建復雜真實世界的精確副本。盡管存在這些挑戰,最近的進展使得DRL在一些現實世界的機器人任務中取得了成功。例如,DRL已實現冠軍級別的無人機競速(7)和集成到生產級四足機器人系統中的多功能四足機器人控制(如ANYbotics1、Swiss-Mile2和Boston Dynamics3)。然而,最先進的DRL解決方案在不同的機器人應用領域的成熟度差異顯著。在某些領域,如城市自動駕駛,基于DRL的解決方案仍然局限于模擬或嚴格限定的現場測試(8)。 本綜述旨在全面評估DRL在現實世界機器人應用中的當前進展,識別最令人興奮的成功背后的關鍵因素以及在較不成熟領域中仍然存在的開放挑戰。具體而言,我們評估了DRL在各種問題領域的成熟度,并對不同領域的DRL文獻進行對比,以確定廣泛適用的技術、未充分探索的領域以及需要解決的共同開放挑戰,以推進DRL在機器人中的應用。我們希望本綜述能為研究人員和從業者提供對DRL在機器人領域現狀的深入理解,提供有價值的見解,以指導未來的研究并促進現實世界機器人任務中廣泛可部署的DRL解決方案。

為什么要進行另一項關于機器人強化學習的綜述?

管之前的一些文章已經綜述了機器人強化學習,但我們在文獻中提供了獨特的視角并填補了知識空白,主要貢獻有三點。首先,我們專注于在現實世界中至少取得了一定成功的工作,旨在評估DRL在現實世界機器人應用中的當前狀態和開放挑戰。大多數現有的關于機器人強化學習的綜述并未明確討論這一主題,例如,Dulac-Arnold等(9)討論了現實世界RL的一般挑戰,但不針對機器人,Ibarz等(10)列出了基于他們自己研究的案例研究中現實世界機器人環境中特有的DRL開放挑戰。相比之下,我們的討論基于對DRL在機器人領域取得的現實世界成功的全面評估,其中一個方面是對現實世界部署水平的評價(見第3.4節)。

其次,我們提出了一個新穎且全面的分類法,從多個角度對DRL解決方案進行分類:通過DRL學習的機器人能力、問題的表述、解決方案的方法以及現實世界成功的水平。以往關于機器人強化學習和更廣泛的機器人學習的綜述通常集中在特定任務(11, 12)或特定技術(13, 14)上。相比之下,我們的分類法允許我們調查在機器人應用領域有效的DRL解決方案的完整圖景,此外,還分別回顧了每個應用領域的文獻。在此框架內,我們對解決方案進行比較和對比,識別共同模式、廣泛適用的方法、未充分探索的領域以及實現成功機器人系統的開放挑戰。

第三,盡管一些過去的綜述分享了我們對該領域進行廣泛分析的動機,但DRL快速而令人印象深刻的進展需要對該領域、其成功和局限性進行重新分析。Kober等(15)的開創性綜述是在深度學習時代之前撰寫的,而Sunderhauf等(16)關于機器人深度學習的一般綜述撰寫時,DRL的成就主要是在模擬中。我們通過專注于DRL提供了該領域的最新概述,DRL是機器人強化學習最顯著的現實世界成功背后的驅動力,特別關注過去五年中發表的論文,因為大多數成功都發生在這段時間內。

分類法

本節介紹我們用于分類深度強化學習(DRL)文獻的新分類法。由于我們對DRL在機器人領域現實世界成功的獨特關注,新的分類法可以對文獻進行分類和分析,從而評估DRL解決方案在各種機器人應用中的成熟度,并從成功與失敗中汲取寶貴的經驗教訓。具體而言,我們應識別每篇論文所解決的特定機器人問題,了解其如何抽象為強化學習問題,并總結為解決該問題所應用的DRL技術。更重要的是,我們應評估這些DRL解決方案在實驗中展示的成熟度。因此,我們引入了跨四個軸的分類法:通過DRL學習的機器人能力、問題表述、解決方案方法以及現實世界成功的水平。

**通過DRL學習的機器人能力

我們的主要軸側重于每篇論文研究的目標機器人任務。機器人任務,尤其是在開放的現實世界場景中,可能需要多種能力。可以應用DRL來綜合一個端到端系統以實現所有能力,或者學習子模塊來實現其中的一部分能力。由于我們專注于DRL,因此我們根據通過DRL學習和實現的具體機器人能力對論文進行分類。我們首先將這些能力分類為單機器人——機器人獨立完成任務所需的能力,以及多智能體——與共享工作空間并影響其任務完成的其他智能體交互所需的能力。

當單個機器人在工作空間中完成任務時,它所需的任何能力都可以被視為實現與物理世界交互和影響的具體方式,進一步分為移動性——在環境中移動——和操作性——移動或重新安排(例如抓取、旋轉)環境中的物體(17, 18, 19)。在機器人文獻中,移動性通常分為兩個問題:運動能力和導航能力(18, 20)。運動能力側重于使各種形態的機器人(例如四足機器人、人形機器人、輪式機器人、無人機)能夠穿越不同環境的運動技能,而導航能力側重于引導機器人高效且無碰撞地到達目的地的策略。典型的導航策略生成高層次運動命令,例如質心(CoM)的期望狀態,同時假設有效的運動控制來執行這些命令(18)。有些工作同時解決了運動和導航問題,這對于導航策略受到機器人穿越環境能力(由機器人動力學和運動控制決定)嚴重影響的任務特別有用,例如穿越困難地形(20)或競速(21)。我們將這些論文與其他導航論文一起審查,因為它們的最終目標是導航。

在機器人文獻中,操作性通常在桌面環境中研究,例如安裝在固定底座上的機器人手臂或手,固定傳感器觀察場景。一些其他現實世界任務進一步要求機器人在移動底座的同時與環境交互(例如家用和倉庫機器人),這需要操作性和移動能力的協同整合。我們在固定操作性類別下審查前一種情況,在移動操作性類別下審查后一種情況。

當任務完成受到工作空間內其他智能體影響時,機器人需要進一步具備與其他智能體交互的能力,我們將其歸入多智能體能力類別。需要注意的是,在機器人與其他智能體交互時,仍可能需要某些單機器人能力,例如人群導航或協作操作。在此類別中,我們重點關注在智能體交互層面進行DRL的論文,即在給定某些單機器人能力的情況下學習交互策略,或學習聯合優化交互和單機器人能力的策略。根據機器人交互的智能體類型,我們將這些工作進一步分為兩個子類別:1)人機交互,關注機器人與人類一起操作的能力。人類的存在帶來了額外的挑戰,因為他們行為復雜且對機器人在其周圍操作有嚴格的安全要求。2)多機器人交互,指機器人與一組機器人交互的能力。通常使用一類強化學習算法——多智能體強化學習(MARL)來解決此問題。在MARL中,每個機器人都是一個學習智能體,根據其與環境和其他機器人的交互來演變其策略,這使得學習機制更加復雜。根據機器人目標是否一致,它們的交互可能是合作的、對抗的或一般總和的。此外,實際場景通常需要在部分可觀測性和有限通信帶寬下進行分散決策。

**問題表述

分類法的第二個軸是強化學習問題的表述,這指定了針對目標機器人能力的最優控制策略。RL問題通常建模為單智能體RL的部分可觀測馬爾可夫決策過程(POMDP)和多智能體RL的分散POMDP(Dec-POMDP)。具體而言,我們根據以下問題表述元素對論文進行分類:1)動作空間:動作是低級別(即關節或電機命令)、中級別(即任務空間命令)還是高級別(即時間延伸的任務空間命令或子例程);2)觀測空間:觀測是高維傳感器輸入(例如圖像和/或LiDAR掃描)還是估計的低維狀態向量;3)獎勵函數:獎勵信號是稀疏的還是密集的。由于篇幅限制,這些術語的詳細定義見補充材料。

**解決方案方法

另一個與前一個軸密切相關的軸是用于解決RL問題的解決方案方法,它由RL算法和相關技術組成,能夠為目標機器人問題提供實際解決方案。具體而言,我們從以下角度對解決方案方法進行分類:1)模擬器使用:是否以及如何使用模擬器,分為零樣本、少量樣本模擬到現實轉移,或直接在現實世界中離線或無模擬器學習;2)模型學習:是否從機器人數據中學習(部分)過渡動態模型;3)專家使用:是否使用專家(例如人類或預言策略)數據來促進學習;4)策略優化:采用的策略優化算法,包括計劃或離線、離政策或在政策RL;5)策略/模型表示:用于表示策略或動態模型的神經網絡架構類別,包括MLP、CNN、RNN和Transformer。詳細術語定義見補充材料。

**現實世界成功水平

為了評估DRL在現實世界機器人任務中的實用性,我們根據其DRL方法的成熟度對論文進行分類。通過比較不同機器人任務中DRL的有效性,我們旨在識別研究原型與現實世界部署之間差距較大或較小的領域。這需要一個量化各任務現實世界成功水平的指標,據我們所知,這在DRL機器人文獻中尚未嘗試過。受自動駕駛等級(22)和機器學習技術成熟度等級(TRL)(23)的啟發,我們引入了現實世界成功等級的概念。我們將論文分為六個等級,基于所驗證方法的情境:1)等級0:僅在模擬中驗證;2)等級1:在有限的實驗室條件下驗證;3)等級2:在多樣的實驗室條件下驗證;4)等級3:在有限的現實世界操作條件下驗證;5)等級4:在多樣、具有代表性的現實世界操作條件下驗證;6)等級5:在商業化產品中部署。我們認為等級1-5至少在某種程度上實現了現實世界的成功。我們可以用來評估現實世界成功等級的唯一信息是作者報告的實驗。然而,許多論文僅描述了單次現實世界試驗。雖然我們努力提供準確的估計,但由于信息有限,這種評估可能具有主觀性。此外,我們使用現實世界成功等級來量化解決方案在其目標問題上的成熟度,而不考慮其復雜性。

結論

深度強化學習(Deep Reinforcement Learning)近年來在開發許多機器人能力方面發揮了重要作用,取得了許多現實世界的成功。在本文中,我們回顧并分類了這些成功案例,基于特定的機器人能力、問題表述和解決方案方法對其進行了描述。通過這些軸向的分析,我們揭示了普遍趨勢和未來工作的重要方向,包括算法和程序的改進、現實世界學習的要素,以及整合本文所討論的所有能力的整體方法。利用強化學習的力量來構建具有能力的現實世界機器人系統,需要解決其應用中的基本挑戰和創新;盡管如此,我們預計強化學習將在開發普遍智能機器人方面繼續發揮核心作用。

付費5元查看完整內容

Andrew Ng是機器學習的先驅、Landing AI的創始人兼首席執行官,也是谷歌Brain的前團隊負責人。最近,他在未來以數據為中心的人工智能虛擬會議上發表演講,討論了一些負責任的以數據為中心的人工智能開發的實用技巧。

本演講將深入探討適用于非結構化數據的以數據為中心的AI技巧

一個人工智能系統由兩部分組成:模型-算法或一些代碼-數據。對于大多數數據科學家(包括我自己)來說,機器學習研究人員的主導模式是下載一個固定的數據集,并在模型上進行迭代。這已經成為一種慣例,這是對這種以模型為中心的方法的成功的肯定。多虧了這種以模型為中心的AI開發模式,今天的“代碼”或模型基本上是一個已解決的問題。

這種對模型的強調將我們帶到了高性能模型架構被廣泛使用的地方。然而,系統工程數據集的方法是滯后的。今天,我發現使用工具、流程和原則來系統地設計數據來提高人工智能系統的性能要有用得多。就在過去的4-5個月里,以數據為中心的人工智能運動獲得了很大的發展勢頭,現在“以數據為中心的人工智能”這個術語出現在許多公司的主頁上,而在此之前它幾乎是不存在的。

付費5元查看完整內容
北京阿比特科技有限公司