亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

第21屆智能體及多智能體系統國際會議(International Joint Conference on Autonomous Agents and Multi-Agent Systems, AAMAS-2022)5月9日到13日在線舉行。智能體及多智能體系統國際會議(AAMAS) 是多智能體系統領域最具影響力的會議之一,由非營利組織IFAAMAS主辦。

來自美國伍斯特理工學院《Hacking the Colony: On the Disruptive Effect of Misleading Pheromone and How to Defend against It》獲得最佳論文。弗吉尼亞大學等《Deploying Vaccine Distribution Sites for Improved Accessibility and Equity to Support Pandemic Response》獲得最佳學生論文。

//aamas2022-conference.auckland.ac.nz/awards/best-paper-and-demonstration/

「最佳論文獎」(Best Paper Award)

螞蟻已經進化到通過留下信息素的痕跡來尋找和獲取食物。這種機制啟發了多種分散多機器人協調的方法。然而,在這篇文章中,我們表明,信息素的蹤跡是一種脆弱的協調機制,可以破壞,以餓死群體。我們引入了誹謗者: 惡意的智能體,他們留下了誤導性的,但難以區分的食物信息素的蹤跡,以分散和誘捕巢穴中的合作螞蟻。我們根據誤導信息素的蒸發率和群體中誤導信息素的比例等參數來分析詆毀者的有效性。此外,我們還提出了一種新的應對措施,即引入一種新型的信息素: 警示信息素。合作螞蟻在現有的食物路徑上分泌這種信息素作為警告。當警示信息素的強度超過食物信息素的強度時,合作螞蟻忽略重疊的食物信息素。我們證明,盡管其簡單,這種防御機制可以限制,但不能抵消,詆毀者的影響。最終,我們的研究表明,基于信息素的協調雖然有效,但也是脆弱的。

「最佳學生論文獎」(Best Student Paper Award)

為應對新冠肺炎,許多國家規定保持社交距離,禁止大型集體集會,以減緩新冠肺炎的傳播。這些社會干預措施以及疫苗仍然是減少SARS CoV-2傳播的最佳途徑。為了提高疫苗的可及性,弗吉尼亞州等州部署了流動疫苗接種中心,在全州分發疫苗。當選擇在哪里放置這些網站時,有兩個重要的因素需要考慮: 可訪問性和公平性。我們制定了一個組合問題,捕捉這些因素,然后開發有效的算法,在這兩個方面的理論保證。此外,我們還研究了問題的內在難度,并證明了強不可能性結果。最后,我們對真實數據進行了計算實驗,以證明我們的方法的有效性。

付費5元查看完整內容

相關內容

自主機器人團隊組成中的異質性什么時候是有益的,什么時候是有害的?我們在一個最小可行的模型中研究并回答了這個問題,該模型研究了異質速度在周界防御問題中的作用,其中防御者共享一個總的速度分配預案。我們考慮了兩種不同的問題背景,并制定了基于動態規劃和局部互動規則的策略。我們對這兩種方法進行了理論分析,并使用模擬方法對我們的結果進行了廣泛的驗證。有趣的是,我們的結果表明,異質團隊的生存能力取決于防御者可用的信息量。此外,我們的結果表明了一個普遍性屬性:在廣泛的問題參數范圍內,防守方的最佳速度比率幾乎保持不變。

關鍵詞:周界防御,異質多機器人團隊,動態規劃

引言

機器人系統的一項日益重要的任務是保衛一個地區免受外部因素的影響,這些因素構成了不同程度的威脅。這方面的例子包括保衛機場,防止無人機入侵[6],保衛野生動物棲息地,防止偷獵者侵入[1],撲滅和防止人類或自然活動造成的破壞性野火蔓延[8],以及軍事應用[13]。

一般來說,周界防御問題的解決方案是為一組限制在某一區域周界的智能體尋找策略,這些智能體受托保衛該區域不受試圖突破該區域周界的入侵者侵害[16]。

與同質化的機器人團隊相比,具有不同能力的機器人團隊(異質化團隊)有其獨特的優勢和挑戰。為不同的智能體配備不同的能力可以形成協同效應,在這種情況下,異質系統勝過由相同智能體組成的同質系統。因此,在過去十年中,機器人界對定義、探索和量化不同機器人應用中的異質性產生了極大的興趣[19,14,11,7,12,10]。

本文研究了多機器人團隊中異質性對周界防御問題的影響。我們提出了兩種最優策略,在不同的假設條件下有效。第一個策略是基于動態規劃(DP)[2]。當防御者能夠預測來襲攻擊的位置時,它是最優的,但受到維度詛咒的影響,因此相關計算成本相對較高。第二種策略是基于局部互動規則的,當防御者沒有關于來襲攻擊的信息時是最佳的。這種策略可以以在線方式高效計算,但沒有提供對攻擊位置的任何先驗知識。

我們證明了兩種策略的最優性并分析了它們的時間復雜性。這些算法在模擬中得到了廣泛的驗證。我們的數值實驗是二維的,但大多數理論結果對任何維度都有效。這包括無人機應用中的三維周界,以及作為任意維度狀態空間中約束集產生的更高維度的周界。

我們的結果表明,異質性在防守方能夠獲得有關來襲攻擊信息的情況下是有益的,而在防守方沒有攻擊信息的情況下是有害的。此外,我們顯示了一個普遍性的屬性,即在兩個防御者的情況下,防御者的最佳速度比率幾乎保持不變。

相關工作:周界防御問題是追擊-規避問題的一個變體,在文獻中已經被廣泛地研究。Issacs的開創性工作描述了微分博弈的方法,以得出一個追求者一個規避者博弈的均衡策略[4]。不同研究人員為解決涉及多個追擊者和規避者的追擊規避博弈各種變體做了大量的工作[20,21,3]。這些論文包含了從追擊者方面、從規避者方面或兩者來看待追擊-逃避博弈的工作。維度的詛咒對解決涉及多個追擊者和規避者的問題構成了相當大的挑戰。本文提出的周界防御問題是Isaacs[4]首次提出的目標守衛問題的一個變體。在目標守衛問題的設定中,一個智能體的任務是對抗一個敵對智能體以守衛一個目標區域。對周界防御問題的研究還處于初級階段。Shishika和Kumar的綜述文章[16]描述了最近關于多機器人周界防御問題的工作[15,5,18,17]。與這些工作中考慮的問題不同,我們考慮的是一類周界防御問題,其中攻擊者的數量遠遠大于防御者的數量。

本文的其余部分組織如下。第2節包含了我們的符號和問題陳述。第3節和第4節分別詳細介紹了我們在非限定和單位時間范圍內的理論結果。第5節討論了模擬結果。

圖1:三個防守者面對三個攻擊者,每個防守者的單位時間可達集顯示。請注意,第三個維度是時間;如果攻擊代表一個物理物體,它是從圓圈外的某個地方接近的,但我們只關心它將在哪里和什么時候擊中周界。在這個例子中,防守者不允許離開周界,所以可達集的大小隨著速度的增加而線性增加(直到它覆蓋整個周界)。

付費5元查看完整內容

智能體隊通常必須以一種分布式的方式協調他們的決策,以實現個體和共享的目標。示例包括面向服務的計算、傳感器網絡問題和智能設備協調家庭問題。這類問題可以形式化并以不同的方式求解,但一般來說,多智能體協調過程是非易的,NP -難求解的。

在本多智能體分布式約束優化教程中,我們將討論在多智能體系統(MAS)文獻中提出的處理協調問題的兩種基本方法,一種基于分布式約束優化問題(DCOPs),另一種基于聯盟形成(CF)。

在第一部分中,我們將介紹關于DCOP的核心概念和模型的可訪問的和結構化的概述。我們還將闡述解決DCOP的最優和次優方法。

在第二部分,我們將討論用于MAS建模的核心概念,即特征函數博弈(CFGs),以及在無約束和有約束的CFGs中,哪些最優和近似的方法可以形成聯盟。我們將通過在第一部分和第二部分之間建立一個有趣的聯系來結束這一部分,展示如何使用約束優化問題(cop)來解決CF問題。

最后,我們將邀請與會者對來自實際應用的一些示例問題進行建模,并討論相關的解決方法。本文將概述python庫pyDCOP中的一些代碼和可執行示例。本教程將以最常見的挑戰和開放問題結束。

//www.gauthier-picard.info/dcop-tutorial/#outline-short-description

付費5元查看完整內容

2021年第14屆國際網絡搜索與數據挖掘會議WSDM將在2021年3月8日到12日于線上舉行。今年此次會議共收到了603份有效投稿,最終錄取篇數為112篇,錄取率為18.6%。近日大會公布了優秀論文獎項(WSDM 2021 Best Paper Award Runner-Up),共有5篇論文。

WSDM,全稱為ACM網絡搜索與數據挖掘國際會議(ACM International Conference on Web Search And Data Mining) ,是一個有關搜索和數據挖掘的互聯網啟發式研究的主要會議之一,每年舉辦一屆。WSDM是信息檢索與數據挖掘的頂級會議。

Generative Models are Unsupervised Predictors of Page Quality: A Colossal-Scale Study

D Bahri, Y Tay, C Zheng, D Metzler, C Brunk, A Tomkins

[Google Research]

將生成式模型用于無監督評價網頁語言/內容質量,通過人工評價證明,訓練用來區分人工和機器生成文本的分類器,可作為“頁面質量”的無監督預測器,在沒有任何額外訓練的情況下檢測出低質量的網頁內容。

//arxiv.org/abs/2008.13533

ePBubLik:通過插入鏈接來減小極化氣泡半徑

RePBubLik: Reducing the Polarized Bubble Radius with Link Insertions 地址:

作者:Shahrzad Haddadan, Cristina Menghini, Matteo Riondato, Eli Upfal

摘要:表達不同觀點的頁面之間的超鏈接圖的拓撲結構可能會影響讀者對各種內容的理解。結構性偏見可能會使讀者陷入兩極分化的泡沫中,而無法獲得其他意見。我們將讀者的行為建模為隨機游走。如果從節點到另一觀點的頁面的隨機游走的預期長度很大,則該節點處于極化泡沫中。圖的結構偏差是高度極化的氣泡半徑的總和。我們研究了通過邊插入來減少結構偏差的問題。在對數因子內很難治愈所有具有高極化氣泡半徑的節點,因此,我們著重于尋找插入的最佳 k 邊以最大程度地減少結構偏差。我們介紹了RePBubLik,這是一種利用隨機游走接近中心性的變體來選擇要插入的邊的算法。RePBubLik在溫和條件下獲得恒定因子近似值。它比現有的邊推薦方法(包括一些旨在減少圖極化的方法)更快地降低了結構偏差。

付費5元查看完整內容

多智能體深度強化學習中的Q值路徑分解

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

作者:

楊耀東 郝建業 陳廣勇 湯宏垚 陳贏峰 胡裕靖 范長杰 魏忠鈺

簡介:

近年來,由于許多現實世界中的問題可以建模為多智能體系統,因此多智能體深度強化學習(MARL)已成為一個非常活躍的研究領域。一類特別有趣且廣泛適用的問題可以被抽象為部分可觀察的合作式多智能體環境,在這種環境中,一組智能體根據自己的局部觀察和共享的全局獎勵信號來學習協調其行為。一種自然的解決方案是求助于集中式訓練、分布式執行范式。在集中式訓練期間,一項關鍵挑戰是多智能體信度分配:如何為單個智能體的策略分配屬于它自身的貢獻,從而更好地協調以最大化全局獎勵。在本文中,我們提出了一種稱為Q值路徑分解(QPD)的新方法,可以將系統的全局Q值分解為單個智能體的Q值。和以前的工作限制單個Q值和全局Q值的表示關系不同,我們將累積梯度歸因技術運用到深度MARL中,沿著軌跡路徑直接分解全局Q值來為智能體進行信度分配。我們在具有挑戰性的《星際爭霸II》微觀管理任務上評估了QPD,表明其與現有的MARL算法相比,QPD在同質和異質的多智能體場景中均達到了先進的性能。

方法:

  • 在集中式訓練、分布式執行的范式下,智能體會依據自身的歷史軌跡和當前觀察選擇執行動作與環境交互,使用集中式的critic網絡學習基于智能體聯合觀察和動作的全局Q值函數。

  • 在獲得當前軌跡后,通過累積梯度技術沿著狀態動作軌跡將全局Q值歸因到每個智能體的特征上,將屬于每個智能體的特征的歸因信度疊加作為當前狀態下智能體的個體Q值信度。

  • 使用個體Q值信度作為底層智能體策略網絡的監督信號對智能體策略進行訓練。

效果: 該算法在挑戰性的星際爭霸游戲平臺進行了測試,實驗顯示QPD能夠在同質和異質場景中學習到協調的策略,取得先進的性能。

付費5元查看完整內容
北京阿比特科技有限公司