亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

近年來,隨著人工智能技術的發展,人機對抗領域取得了一系列突破性的進展,如AlphaGo、Libratus以及AlphaStar分別在圍棋、二人無限注德州撲克以及星際爭霸2中擊敗了人類職業選手。然而,當前大部分研究基于傳統機器學習方法——以最大化收益/最小化損失為學習目標,將對手視為被動反饋的環境中的一部分,忽略了對手的理性和策略性,導致在非平穩環境中缺乏理論保證,難以處理復雜人機對抗中多個趨利的智能體共同學習、相互對抗的非平穩任務。如何從理論和方法上高效、穩定求解對抗任務中的博弈策略是目前國際上的研究熱點和難點。

近期,中科院自動化所智能系統團隊提出了面向人機對抗的博弈學習方法,該方法結合博弈論和機器學習,從人機對抗任務出發,充分考慮對手的策略性回應(strategic response),基于博弈論從建模、解概念定義及求解出發設計學習方法,以收斂到智能體的策略均衡為學習目標,并利用機器學習方法幫助形成穩定、高效、可擴展的博弈求解算法。

人機對抗中的博弈學習方法是智能系統團隊面向人機對抗智能研究的核心環節,如下圖所示,人機對抗智能技術提出了人-機-物三元博弈問題定義,博弈學習方法給出了三元博弈學習的內涵、組成要素和解決復雜人對抗任務的方法步驟,并在典型人機對抗任務如兵棋推演、德州撲克等場景進行驗證,以解決復雜人機對抗任務中的關鍵科學問題。上述研究成果已經發表在中國科學、計算機學報、自動化學報、IEEE Trans. On TOG、AAAI等國內外重要期刊與會議上,探索了博弈智能通往自主進化智能的可行性與路徑。

《人機對抗中的博弈學習方法》摘要

近年來,人機對抗智能技術作為人工智能領域的前沿方向取得了一系列突破性的進展,如 AlphaGo和 DeepStack 分別在圍棋和二人無限注德州撲克中擊敗了人類專業選手. 這些突破離不開博弈論和機器學 習的深度結合. 本文通過梳理當前人機對抗智能技術領域的重要工作,深入分析博弈論和機器學習在其中發揮的作用,總結了面向人機對抗任務的博弈學習研究框架,指出博弈論為人機對抗任務提供博弈模型和定義求解目標,機器學習幫助形成穩定高效可擴展的求解算法. 具體地,本文首先介紹了人機對抗中的博弈學習方法的內涵,詳細闡述了面向人機對抗任務的博弈學習研究框架,包括博弈模型構建、解概念定義、博弈解計算三個基本步驟,之后利用該框架分析了當前人機對抗智能技術領域的典型進展,最后指出了人機對抗中的博弈學習未來發展可能面臨的挑戰. 本文梳理總結的人機對抗中的博弈學習研究框架為人機對抗智能技術領域的發展提供了方法保障和技術途徑,同時也為通用人工智能的發展提供了新思路.

關鍵詞 人工智能;人機對抗;博弈論;機器學習;博弈學習

周雷,尹奇躍,黃凱奇. “人機對抗中的博弈學習方法”, 計算機學報,2022.

付費5元查看完整內容

相關內容

摘要

近年來,現代網絡應用的技術和服務取得了重大進展,包括智能電網管理、無線通信、網絡安全以及多智能體自主系統。考慮到網絡實體的異構性質,新興的網絡應用程序需要博弈論模型和基于學習的方法,以創建分布式網絡智能,以響應動態或對抗環境中的不確定性和中斷。

本文闡述了網絡、博弈和學習的融合,為理解網絡上的多智能體決策奠定了理論基礎。我們在隨機近似理論的框架內提供了博弈論學習算法的選擇性概述,以及在現代網絡系統的一些代表性環境中的相關應用,例如下一代無線通信網絡、智能電網和分布式機器學習。除了現有的關于網絡上的博弈論學習的研究工作外,我們還強調了與人工智能的最新發展相關的博弈學習的幾個新角度和研究工作。一些新的角度是從我們自己的研究興趣中推斷出來的。本文的總體目標是讓讀者清楚地了解在網絡系統背景下采用博弈論學習方法的優勢和挑戰,并進一步確定理論和應用研究方面富有成果的未來研究方向。

引言

網絡上的多智能體決策最近吸引了來自系統和控制界的呈指數增長的關注。該領域在工程、社會科學、經濟學、城市科學和人工智能等各個領域獲得了越來越大的發展勢頭,因為它是研究大型復雜系統的普遍框架,并被廣泛應用于解決這些領域中出現的許多問題。例如社交網絡分析 [1]、智能電網管理 [2, 3]、交通控制 [4]、無線和通信網絡 [5-7]、網絡安全 [8,9] 以及多智能體自主系統[10]。

由于現代網絡應用中先進技術和服務的激增,解決多智能體網絡中的決策問題需要能夠捕捉新興網絡系統的以下特征和自主控制設計的新模型和方法:

  1. 底層網絡的異構性,以一組節點為代表的多個實體以獨立決策能力追求自己的目標;
  2. 系統需要分布式或去中心化運行,底層網絡拓撲結構復雜,規模過大,無法集中管理;
  3. 需要創建響應網絡和環境變化的網絡智能,因為系統經常在動態或對抗環境中運行。

博弈論為解決這些挑戰提供了一套自然的工具和框架,并將網絡連接到決策制定。它需要開發數學模型,以定性和定量地描述具有不同信息和理性的自利行為體之間的相互作用是如何達到一個全局目標或導致在系統水平上出現行為的。此外,通過底層網絡,博弈論模型捕獲了拓撲結構對分布式決策過程的影響,在分布式決策過程中,智能體根據其目標和可獲得的局部信息(如對其鄰居的觀察)獨立規劃其行動。

除了網絡上的博弈論模型之外,在為網絡系統設計分散管理機制時,學習理論也是必不可少的,以便為網絡配備分布式智能。通過博弈論模型和相關學習方案的結合,這種網絡智能允許異構智能體相互進行戰略性交互,并學會對不確定性、異常和中斷做出響應,從而在網絡或最優系統上產生所需的集體行為模式級性能。這種網絡智能的關鍵特征是,即使每個智能體自己的決策過程受到其他決策的影響,智能體也會以在線和分散的方式達到均衡狀態,即我們稍后將闡明的納什均衡.為了給網絡配備分布式智能,聯網智能體應該通過在他們可能不知道的大型網絡上通過有限的局部觀察來適應動態環境。在計算上,分散式學習可以有效地擴展到大型和復雜的網絡,并且不需要關于整個網絡的全局信息,這與集中式控制法則相比更實用。

本文闡述了網絡、博弈和學習的融合,為理解網絡上的多智能體決策奠定了理論基礎。

圖 1:網絡、博弈和學習的融合。博弈論建模和學習理論的結合為各種網絡系統帶來了彈性和敏捷的網絡控制。

我們的目標是對博弈論學習方法及其在網絡問題中的應用提供系統的處理,以滿足上述三個要求。如圖 1 所示,新興的網絡應用需要新的方法,并且由于分散的性質,博弈論模型以及相關的學習方法為解決來自各個領域的網絡問題提供了一種優雅的方法。具體來說,我們的目標有三個:

  1. 提供適用于多智能體決策問題的博弈論模型的高級介紹;
  2. 提出基于隨機近似和李雅普諾夫理論的用于研究博弈學習過程的關鍵分析工具,并指出一些廣泛研究的學習動態;
  3. 介紹可以通過博弈論學習解決的各種多智能體系統和網絡應用。

我們的目標是讓讀者清楚地了解在網絡系統的背景下采用新穎的博弈論學習方法的優勢和挑戰。除了突出顯示的內容外,我們還為讀者提供了進一步閱讀的參考。在本文中,完全信息博弈是本課題的基礎,我們將簡要介紹靜態博弈和動態博弈。關于這個主題的更全面的處理以及其他博弈模型,例如不完全信息博弈,可以在 [11-13] 中找到。由于大多數網絡拓撲可以通過博弈的效用函數結構來表征 [1, 14],因此我們沒有闡明網絡拓撲對博弈本身的影響。相反,我們關注它對博弈學習過程的影響,其中玩家的信息反饋取決于網絡結構,我們展示了具有代表性的網絡應用程序來展示這種影響。我們推薦讀者參考 [1,14] 以進一步閱讀各種網絡上的博弈。

論文結構

我們的討論結構如下。在第 2 節中,我們介紹了非合作博弈和相關的解決方案概念,包括納什均衡及其變體,它們記錄了自利參與者的戰略互動。然后,在第 3 節,我們轉向本文的主要焦點:在收斂到納什均衡的博弈學習動態。在隨機逼近框架內,提供了各種動力學的統一描述,并且可以通過常微分方程(ODE)方法研究分析性質。在第 4 節中,我們討論了這些學習算法在網絡中的應用,從而導致了網絡系統的分布式和基于學習的控制。最后,第 5 節總結了本文

付費5元查看完整內容

摘 要:小目標檢測長期以來是計算機視覺中的一個難點和研究熱點。在深度學習的驅動下,小目標 檢測已取得了重大突破,并成功應用于國防安全、智能交通和工業自動化等領域。為了進一步促進小 目標檢測的發展,本文對小目標檢測算法進行了全面的總結,并對已有算法進行了歸類、分析和比較。首先,對小目標進行了定義,并概述小目標檢測所面臨的挑戰。然后,重點闡述從數據增強、多尺度學 習、上下文學習、生成對抗學習以及無錨機制等方面來提升小目標檢測性能的方法,并分析了這些方法 的優缺點和關聯性。之后,全面介紹小目標數據集,并在一些常用的公共數據集上對已有算法進行了 性能評估。最后本文對小目標檢測技術的未來發展方向進行了展望。

付費5元查看完整內容

近年來, 深度強化學習(Deep reinforcement learning, DRL)在諸多復雜序貫決策問題中取得巨大突破.由于融合了深度學習強大的表征能力和強化學習有效的策略搜索能力, 深度強化學習已經成為實現人工智能頗有前景的學習范式.然而, 深度強化學習在多Agent系統的研究與應用中, 仍存在諸多困難和挑戰, 以StarCraft Ⅱ為代表的部分觀測環境下的多Agent學習仍然很難達到理想效果.本文簡要介紹了深度Q網絡、深度策略梯度算法等為代表的深度強化學習算法和相關技術.同時, 從多Agent深度強化學習中通信過程的角度對現有的多Agent深度強化學習算法進行歸納, 將其歸納為全通信集中決策、全通信自主決策、欠通信自主決策3種主流形式.從訓練架構、樣本增強、魯棒性以及對手建模等方面探討了多Agent深度強化學習中的一些關鍵問題, 并分析了多Agent深度強化學習的研究熱點和發展前景.

//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180372

付費5元查看完整內容

人機對抗作為人工智能研究的前沿方向, 已成為國內外智能領域研究的熱點, 并為探尋機器智能內在生長機制和關鍵技術驗證提供有效試驗環境和途徑. 本文針對巨復雜、高動態、不確定的強對抗環境對智能認知和決策帶來的巨大挑戰, 分析了人機對抗智能技術研究現狀, 梳理了其內涵和機理, 提出了以博弈學習為核心的人機對抗智能理論研究框架; 并在此基礎上論述了其關鍵模型: 對抗空間表示與建模、態勢評估與推理、策略生成與優化、行動協同與控制; 為復雜認知與決策問題的可建模、可計算、可解釋求解奠定了基礎. 最后, 本文總結了當前應用現狀并對未來發展方向進行了展望。

付費5元查看完整內容
北京阿比特科技有限公司